
By Katie Daisey
Jan 12, 2026
P.: ¿Cómo puedo determinar si mi modelo es útil y adecuado?
Quizás la cita más famosa de cualquier estadístico sea la de George Box: “Básicamente, todos los modelos son erróneos, pero algunos son útiles”. Al evaluar un modelo, la pregunta clave es qué tan útil es el modelo para resolver el problema para el que fue creado. Lamentablemente, la “utilidad” es una métrica complicada y con varios aspectos, y no es fácil de determinar. Para que un modelo se considere útil, primero debe demostrarse que es adecuado. Al igual que con la “utilidad”, hay varios aspectos que influyen en demostrar la idoneidad.
Antes de examinar esto en detalle y comenzar la construcción del modelo, primero debe definirse su propósito. A continuación, hay que asegurarse de que los datos utilizados en la construcción del modelo también sean idóneos. Con frecuencia, empleamos datos que ya recopilamos para otros fines sin considerar si son sesgados o si reflejan los datos que podríamos ver en el futuro. O bien, como entrada a un modelo destinado a determinar las condiciones operativas estáticas de un proceso a largo plazo, incluimos datos en los que el proceso está fuera de control. Asimismo, es frecuente nos encontramos con que los datos disponibles se recopilaron solamente porque era fácil o barato hacerlo y no porque los datos fueran idóneos para responder a la pregunta en cuestión. La selección de datos es crítica y, por lo general, requiere una estrecha colaboración entre un estadístico y un experto en la materia (SME). El impulso de ahorrar dinero mediante la reutilización de datos puede provocar errores costosos. Posiblemente, sea necesario un experimento diseñado (o una serie de ellos) o un programa especial de recopilación de datos.
El segundo nivel de evaluación se produce después del modelado. La “prueba visual”, que consiste en un examen gráfico del comportamiento del modelo, requiere trazar diversos aspectos de los resultados del modelo de varias formas diferentes para identificar tendencias o anomalías que quedan ocultas al calcular una sola métrica que represente todo el modelo. Es un elemento fundamental de la evaluación de modelos. Muchos de estos trazados no son muy conocidos por los profesionales que no son estadísticos. Los ejemplos usados en la regresión y el ANOVA incluyen gráficos residuales del modelo frente a predicciones del modelo para examinar el sesgo sistemático (por ejemplo, términos faltantes en el modelo), gráficos de nivel de dispersión (que indican si la variabilidad del error es constante o no) y gráficos Q-Q para la normalidad de los residuos. Al comparar dos métodos de prueba diferentes con mediciones emparejadas, el gráfico de diferencia media de Tukey (también conocido como Bland-Altman) examina la concordancia y el sesgo sistemático entre los métodos de prueba.
Independientemente de los gráficos concretos, la prueba visual es un análisis rápido para identificar cualquier región específica en la que el modelo funcione mal. Dos ejemplos clásicos de problemas que se identifican fácilmente con una inspección visual son: 1) un aumento del error del modelo en un extremo del resultado previsto y 2) una clase de datos en la que el modelo funciona significativamente peor que en otras.
El tercer nivel de evaluación consiste en métricas estadísticas más tradicionales que proporcionan medidas calculables de cuán bien se desempeña un modelo. Aunque el coeficiente de determinación (R2, la correlación al cuadrado entre los valores observados y los valores previstos) es ampliamente conocido, no detecta el sesgo del modelo ni el sobreajuste y resulta totalmente engañoso cuando se utiliza para comparar modelos de regresión con constante y sin ella. El error absoluto medio (MAE) y la raíz del error cuadrático medio (RMSE) expresados en las mismas unidades que la variable de resultado intentan captar la diferencia media entre los valores previstos y los observados. Aquí, los valores más bajos son mejores (cero es perfecto), pero solo son aplicables a resultados continuos. El MAE/RMSE puede ser extremadamente útil para que una PYME evalúe la utilidad de un modelo concreto, ya que permite determinar directamente si dicho modelo alcanza el nivel de precisión necesario para resolver su problema predictivo.
El siguiente conjunto de métricas de evaluación se aplica a la clasificación y se basa sobre la matriz de confusión de verdaderos positivos, verdaderos negativos, falsos positivos y falsos negativos. La exactitud (el número de predicciones correctas sobre el total de predicciones) es la métrica más utilizada, pero las métricas derivadas, como la sensibilidad, la precisión, la recuperación y la puntuación F1, intentan incluir el uso del modelo en la métrica. Por ejemplo, un modelo para predecir si los detectores de humo están fabricados correctamente tendría graves consecuencias si predijera que un detector que no funciona está funcionando bien. En este caso, el mejor modelo es aquel que tiene la mayor sensibilidad, ya que los falsos negativos (no activar la alarma) son mucho peores que los falsos positivos (falsa alarma).
Cuando se considera un modelo que entrega probabilidades de clase en vez de predicciones binarias discretas, se puede utilizar la curva operativa del receptor (ROC) para comprender la capacidad predictiva de un modelo sin preocuparse por umbrales de probabilidad específicos o desequilibrios de clase dentro de los datos. Un estadístico puede utilizar la curva ROC y el área bajo la curva (AUC) para mejorar el modelo antes de establecer el umbral de predicción según la aplicación, como ya se comentó anteriormente. Tenga en cuenta que, aunque la ROC y la AUC a menudo se aplican a tareas de clasificación no binaria, donde una muestra puede pertenecer a una o varias clases posibles, técnicamente no tienen validez matemática en esas situaciones. La pérdida de entropía cruzada (entrenamiento del modelo que penaliza con más rigurosidad un modelo por estar incorrectamente confiado) y el kappa de Cohen (evaluación del modelo, que considera los diferentes tamaños de las clases) son más complejos, pero más adecuados para la tarea de encontrar un modelo útil en entornos de varias clases.
Otro grupo muy importante de métricas son los criterios de información, que equilibran el desempeño y la complejidad de un modelo con el fin de contrarrestar el sobreajuste del modelo. Aunque pueda parecer obvio que es preferible un modelo más simple, también existe un argumento matemático en contra de la complejidad. Si un modelo tiene tantos parámetros ajustados como muestras, es posible entrenar un modelo bien elegido para que se ajuste exactamente al conjunto de datos existente. Si los datos de entrenamiento son idénticos a todos los datos futuros posibles, no hay ningún problema. Por supuesto, esto nunca es así, por lo que el modelo se ajusta en exceso al conjunto de entrenamiento y se ajusta en defecto a los datos futuros. Las métricas comunes en este grupo incluyen el criterio de información de Akaike (AIC) y el criterio de información bayesiano (BIC).
Finalmente, el último grupo de métodos de evaluación de modelos son las pruebas clásicas de bondad de ajuste. Estos complementan los gráficos Q-Q mencionados anteriormente y se usan para determinar si los residuos del modelo siguen una distribución de probabilidades específica. Esto es importante para determinar qué términos son significativos y evaluar cómo construir resultados tales como predicciones y límites de tolerancia.
Hemos ilustrado una progresión de precauciones y evaluaciones de modelos, según el tipo de modelo y los requisitos del problema de decisión. En última instancia, el mejor modelo es aquel que resulta “útil” o “idóneo” y que puede crearse con los datos disponibles que satisfacen los requisitos subyacentes del modelo.
Katie Daisey, pH. D., es investigadora científica sénior en Arkema Inc., donde dirige las áreas de I+D y fabricación en los campos de la ciencia de datos y la transformación digital. La dra. Daisey actualmente se desempeña como presidenta del comité sobre Calidad y estadísticas (E11).
November / December 2025