enero/febrero 2014
    Mediciones sucesivas

    Los intervalos estadísticos: no paramétricos

    Parte 2

    P: En el caso de los intervalos estadísticos no paramétricos, ¿qué debe considerarse cuando la distribución subyacente varía?

    R. En la parte 2 de esta serie de artículos sobre los intervalos estadísticos no paramétricos, analizaremos los intervalos de tolerancia donde la distribución subyacente puede ser de cualquier tipo. Seguimos suponiendo que la muestra es una representación aleatoria de una población o que proviene de un proceso en estado de control estadístico. 

    Los intervalos de tolerancia no paramétricos

    Un intervalo de tolerancia es un intervalo, ya sea unilateral o bilateral, elaborado de tal forma que contiene una proporción especificada, p, de una población total (distribución) con un nivel de confianza C. Los intervalos de tolerancia pueden aplicarse a cualquier clase de distribución, incluso a la distribución normal. Para obtener más información sobre el caso de la distribución normal, consulte la referencia 1.

    Consideremos el caso donde desconocemos la distribución subyacente de la variable. En este escenario, el usuario tiene una muestra aleatoria de n observaciones tomadas de cualquier población o proceso bajo estudio y desea crear un intervalo utilizando el máximo o mínimo de la muestra que prediga al menos una proporción p de todos los valores futuros con algún grado de confianza C. Supongamos que n es el tamaño de la muestra y que x(1) y x(n) indican el mínimo y el máximo de la muestra, respectivamente. Existen tres intervalos básicos de este tipo:

    Tipo 1, intervalo unilateral, Caso 1: [x(1), ∞),
    Tipo 1, intervalo unilateral, Caso 2: (-∞, x(n)], y
    Tipo 2, intervalo bilateral: [x(1), x(n)].

    En cada uno de estos tres casos deseamos afirmar que el intervalo cubre o contiene al menos una proporción p de toda la población de donde provienen los datos, con un nivel de confianza C. Esto es equivalente a afirmar que hay un nivel de confianza C que la probabilidad sea como mínimo p de que cualquier valor futuro de x se encuentre dentro del intervalo. En general, existe una relación entre n, p y C. Conocer dos de estas tres variables permite determinar la tercera.

    Para los casos unilaterales [x(1), ∞) o (-∞, x(n)], tenemos esencialmente una secuencia de éxitos de tamaño n del valor o por encima del valor del estadístico de orden menor (o del valor o por debajo del valor del estadístico de orden mayor). Si deseamos afirmar que al menos una proporción p es mayor o igual a x(1), tenemos una secuencia de éxitos de una longitud n. Esto opera como un binomio con una probabilidad p y n éxitos. La relación se indica como Ecuación 1a.

    (1a)

    La Ecuación 1a puede resolverse para p, n o C, lo que nos da dos relaciones adicionales.

     

    (1b)

     

    n ≥ ln(1 - C)/ln(p) (1c)

    Para la cuestión del tamaño de la muestra, utilice la Ecuación 1c. Si deseamos utilizar una confianza de 95% y afirmar que una proporción de como mínimo p = 0,99 se encuentra por encima de x(1), entonces si utilizamos la Ecuación 1c veremos que n = 299 lo logrará. Obsérvese que en este análisis las dos versiones del caso unilateral son idénticas. Si se desea determinar la confianza demostrada para una proporción especificada y el tamaño de la muestra dado, debemos utilizar la Ecuación 1b. Por ejemplo, si tenemos n = 22 y deseamos afirmar que al menos p = 90% de la población se encuentra por encima del mínimo de la muestra, entonces C ≥ 1 - 0,922 = 0,9015 o una confianza de aproximadamente 90%. Dado que en las pruebas de materiales y componentes con frecuencia se requiere el percentil 10 (también denominado "vida B10") y dado que generalmente se utiliza una confianza de 90%, a menudo se ve n = 22 como tamaño de muestra requerido en las pruebas de materiales o componentes. 

    Para el caso bilateral [x(1), x(n)], al menos 100p por ciento de la población se encuentra dentro del intervalo con una confianza C, cuando se utiliza un tamaño de muestra n. El análisis de este caso nos lleva a la Ecuación 2 que incluye C, p y n. Para mayores detalles de esta deducción, consulte Mathematical Statistics (Estadística Matemática ), de S. S. Wilks.2

    (2)

    Tabla 1 - El tamaño de la muestra requerido para alcanzar un nivel de confianza C, para afirmar que los estadísticos de orden mínimos y máximos de la captura de la muestra es de una proporción de al menos p de la población o proceso.

    Esta ecuación se resuelve iterativamente para una cantidad desconocida cuando se especifican dos de p, n y C. El Cuadro 1 muestra cómo funciona esto entre p, n y C. El cuadro muestra el tamaño de la muestra requerido a un nivel de confianza C para afirmar que los estadísticos de orden mayores y menores cubrirán una proporción de al menos p de la población. Por ejemplo, si utilizamos n = 130, entonces podemos afirmar con una confianza de 99% que al menos el 95% del resultado futuro se encontrará dentro del mínimo y máximo de la muestra.

    Ejemplo 1
    Si tenemos 37 observaciones de una aplicación de la resistencia de los materiales a la rotura y el valor mínimo en la muestra es 1200, entonces podemos afirmar con un 95% de confianza que una proporción de como mínimo el 92% aproximadamente de la población se encuentra en el mismo valor o por encima del valor mínimo de la muestra. Aquí, hemos utilizado la Ecuación 1a con n = 37 y C = 0,95.

    Ejemplo 2
    ¿Qué tamaño de muestra deberíamos utilizar si deseamos tener una confianza de 90% de que los mínimos y máximos de la muestra agrupan al menos el 99% de la población? Utilicemos la Ecuación 2 con C = 0,9 y p = 0,99 y aumentemos n hasta lograr el requisito de la Ecuación 2. Veremos que n = 388 apenas cumple con el requisito.

    También podemos crear intervalos de tolerancia mediante estadísticos de orden arbitrario, pero el intervalo más común utiliza los valores mínimos o máximos de la muestra. Para obtener más detalles, los lectores interesados deberían consultar la lectura de referencia S. S. Wilks2. Es importante mencionar que los intervalos de tolerancia se comportan de manera bastante similar a los intervalos de confianza y de predicción. O sea, la probabilidad de captura (confianza) es un resultado a largo plazo. En otras palabras, la confianza es la proporción a largo plazo de los casos, en las mismas condiciones y con datos diferentes que predirían adecuadamente lo que decimos que daría. En éste y otros casos, que incluyen una referencia bibliográfica integral, los lectores pueden revisar Statistical Intervals: A Guide for Practitioners (Los intervalos estadísticos: una guía para los usuarios), de Hahn y Meeker.3

    Referencias
    1. Luko, Stephen y Neubauer, Dean, "Los intervalos estadísticos Parte 3: Seguimos con el intervalo de tolerancia" (DataPoints), edición noviembre/diciembre 2011 de Standardization News de ASTM.
    2. Wilks, S. S., Mathematical Statistics, John Wiley & Sons, New York, N.Y., 1963.
    3. Hahn, G. J., y Meeker, W. Q., Statistical Intervals: A Guide for Practitioners, Wiley-Interscience, John Wiley and Sons Inc., New York, N.Y., 1991.

    Stephen N. Luko, de United Technologies Aerospace Systems, con sede en Windsor Locks, Connecticut, es miembro de ASTM y ex presidente del Comité E11 sobre calidad y estadísticas. En la actualidad, se desempeña como presidente del Subcomité E11.30 sobre control estadístico de la calidad.

    Dean V. Neubauer, de Corning Inc., Corning, Nueva York, es miembro de ASTM; se desempeña como presidente del Comité E11 sobre Calidad y estadísticas, es presidente del Subcomité E11.90.03 sobre publicaciones, y también coordina la columna DataPoints (Mediciones).