Standardization News Search

Magazines & Newsletters / ASTM Standardization News

feature

Septiembre/Octubre 2011
Mediciones sucesivas

Los intervalos estadísticos

Parte 2: La predicción del intervalo

En esta serie de artículos, seguimos desarrollando y revisando el concepto de intervalo estadístico y, en esta oportunidad, nos concentraremos en el intervalo de predicción. Para demostrar la idea de un intervalo de predicción, utilizaremos un ejemplo del primer artículo de esta serie para mostrar una comparación directa.

P: ¿Qué es un intervalo de predicción?
R: Un intervalo de predicción es un intervalo elaborado con una serie de datos de las muestras de modo que contenga observaciones futuras. Tenga en cuenta que éste es un problema diferente a la elaboración de un intervalo para el promedio con cierto grado de confianza, como se muestra en la Parte 1 de esta serie de artículos. Supongamos que una futura muestra se toma en las mismas condiciones y de la misma población o proceso que la muestra original y que la muestra era aleatoria o que el proceso estaba en condiciones de control estadístico. Hay muchas variaciones sobre este tema, pero todas tienen que ver con el problema esencial de lo que pasará en el futuro y con qué frecuencia sucederá —la esencia de la estadística. Podemos tener intervalos de predicción para los datos de las variables, o para datos del tipo de atributo; podemos basar más la predicción en un modelo paramétrico, como la distribución normal o usar métodos no paramétricos. Ambos son útiles en la práctica. También podemos pone condiciones sobre la predicción futura. Por ejemplo, tal vez queramos que el intervalo tenga como mínimo 4 de las siguientes 5, o que tenga el promedio de la próxima muestra de 10. En este artículo, exploramos el uso común de los intervalos de predicción cuando la distribución normal sea pertinente.

Supongamos que tenemos una muestra aleatoria de n observacionesX1, X2, .., Xn y sabemos que los datos provienen de una distribución normal, pero no sabemos el promedio ni la distribución estándar de la distribución. Una única observación futura sería Xn+1 y su error de predicción seríaXn+1 - .  La varianza de este error de predicción puede resultar ser:

que se calcula por (1)

Queremos un intervalo de predicción para la próxima única observación de esta distribución normal. Para nuestros fines, la fórmula es:

(2)

Podrá encontrar los detalles de esta teoría en la Referencia 1. El intervalo de predicción para la futura observación Xn+1 será siempre más amplio que un intervalo de confianza para el promedio μ debido a la mayor variabilidad del error de predicción para una única observación en comparación con el error del cálculo del promedio. El término bajo el signo de raíz cuadrada aparece porque estamos teniendo en cuenta la variabilidad en el promedio de la muestra (s/) como también la variabilidad del único valor futuro (s). El valor detα/2 es un número positivo tomado de la distribución t de Student usando n - 1 grados de libertad de tal manera que dé P(-tα/2ttα/2) = 1 - α. Cuando se sustituyen los números reales en la Ecuación 2, decimos que el intervalo de predicción obtenido tiene una confianza relacionada C = 1 - α de contener la siguiente observación.

Recordemos las n = 22 pruebas de adhesión ante tensión hechas en U-700 muestras de aleaciones. En la Parte 1, encontramos  = 13.71 y  s = 3.55 por lo tanto el 95% de intervalo de confianza para μ era 12,14 ≤ μ ≤ 15,28. Si aplicamos la fórmula para este ejemplo y usamos una confianza del 95%, el valor de t  con 21 grados de libertad es t = 2,080 y el intervalo de predicción para la siguiente observación,X23', puede determinarse de la siguiente manera.

Note la diferencia en la amplitud del intervalo de predicción en comparación con el intervalo de confianza. La Ecuación 2 es útil para situaciones en las que podemos tener pequeños grupos de datos, y los datos son escasos, como, por ejemplo, cuando podemos obtener un valor de tan poca frecuencia como uno en una semana. Cuando la desviación estándar,σ, se conoce, sustituimos σ por s en la Ecuación 2 y reemplazamos tα/2 por el cuantil normal estándar Zα/2. Supongamos que queremos que el intervalo contenga las siguientes k  observaciones. Sólo tenemos que modificar t en la Ecuación 2. El intervalo para más de un valor futuro debe necesariamente ser mayor que el intervalo para un valor futuro porque estamos tratando de captar valores múltiples en el mismo nivel de confianza total. Hay una manera exacta de sacar el valor t modificado, pero la mayoría de los usuarios usan el valor t corregido de Bonferroni. En el caso de una confianza especificada C = 1 - α, el valor t se modifica como tα/(2k). Por ejemplo, con una confianza del 95% y 21 grados de libertad (en nuestro ejemplo), un intervalo para las siguientes cinco observaciones sería t0,005 (o sea, α/(2k) = 0,05/(10) = 0,005). Este valor resulta ser 2,831. Si usamos este valor en la Ecuación 2, el intervalo estaría entre 3,43 y 23,99 y luego contendría las siguientes cinco observaciones con una confianza del 95%. Podemos hacer esto con cualquier cantidad de observaciones futuras. En caso de que nos interese un intervalo de predicción unilateral, el valor t se cambia a tα/k (omitiendo el “2” en el subíndice) por k, la cantidad de valores futuros que el intervalo contendrá. Ahora supongamos que queremos un intervalo unilateral para las siguientes cinco observaciones a una confianza del 95% y que el intervalo va a estar delimitado en el lado elevado. Aquí α = 0,05, entonces usamos t0,05/5 = t0,01 en la fórmula (2). En el caso de 21 grados de libertad, t0,01 = 2,518. Como queremos un límite máximo, usamos la forma “+” de la Ecuación 2, que da 22,85 como límite máximo. Formalmente, el intervalo unilateral es (-∞, 22,85] con una confianza del 95% de contener las siguientes cinco observaciones. Hay muchas variaciones sobre este tema cuando la distribución normal es pertinente.   

Es importante mencionar que el intervalo de predicción es similar a un intervalo de confianza en cuanto a que la probabilidad de captura (confianza) es un resultado a largo plazo. Es decir, la confianza es la proporción a largo plazo de los casos, en las mismas condiciones y con datos diferentes, que predirían adecuadamente lo que decimos que daría. En éste y otros casos, que incluyen una referencia bibliográfica integral, los lectores pueden revisar Statistical Intervals: A Guide for Practitioners (Los intervalos estadísticos: una guía para los usuarios), por Hahn y Meeker.2

Referencias
1. Whitmore, G. A., “Prediction Limits for a Univariate Normal Observation” (Límites de predicción para una observación normal univariable) The American Statistician, mayo 1986, vol. 40, Núm. 2.
2. Hahn, G. J., y Meeker, W. Q., Statistical Intervals: A Guide for Practitioners(Los intervalos estadísticos: Una guía para los usuarios) , Wiley-Interscience, John Wiley and Sons Inc., New York, N.Y., 1991.

Stephen N. Luko, de Hamilton Sundstrand, Windsor Locks, Connecticut, es el anterior presidente del Comité E11 sobre calidad y estadísticas y es miembro de ASTM International.

Dean V. Neubauer, de Corning Inc., Corning, Nueva York, es miembro de ASTM; se desempeña como vicepresidente del Comité E11 sobre calidad y estadísticas, es presidente del Subcomité E11.30 sobre control estadístico de la calidad y del E11.90.03 sobre publicaciones, y también coordina la columna DataPoints (Mediciones).

En el próximo artículo de esta serie, analizaremos los intervalos de tolerancia y su uso.