Download Distribución Muestral
Document related concepts
Transcript
Distribución muestral A partir de una misma población se pueden tomar muchas muestras diferentes del mismo tamaño Desarrollaremos un ejercicio para comprender cómo se obtienen los valores muestrales de una variable, como la media muestral, de acuerdo con los datos observados Además, sabremos cómo se obtienen los valores de probabilidad para cada uno de los valores muestrales, esto es, veremos el concepto distribución muestral Supongamos que la variable aleatoria X puede tomar los cuatro valores 2, 4, 6, 8 y que de esta población se toman muestras de tamaño 2 elegidas al azar (lotería) Distribución muestral Media muestral X Muestra X1 X2 1 2 2 2 2 2 4 3 3 2 6 4 4 2 8 5 5 4 2 3 6 4 4 4 7 4 6 5 8 4 8 6 9 6 2 4 10 6 4 5 11 6 6 6 12 6 8 7 13 8 2 5 14 8 4 6 15 8 6 7 16 8 8 8 Distribución muestral En total existen 16 (42, en general, Nn donde N es el número de elementos de la población y n el tamaño muestral) muestras posibles que se pueden seleccionar de esta población Para cada una de las 16 muestras se obtiene la media muestral ( X ), que toma cualquiera de los siete valores del conjunto 2, 3, 4, 5, 6, 7, 8 (x ) De las 16 muestras posibles, una tiene media 2; dos tienen media 3; tres media 4; cuatro media 5; tres media 6; dos media 7 y una media 8 Con esto podemos construir una tabla en que aparezcan los valores de X junto a sus respectivas probabilidades Distribución muestral Para obtener la distribución de X se debe tener presente que al efectuarse un muestreo con reemplazamiento cada elemento de la muestra tiene una probabilidad 1/4 de ser escogido, por lo tanto, cada muestra de tamaño 2 tiene probabilidad de (1/4)(1/4) = 1/16 de darse Media muestral X Número de muestras Probabilidad P( x ) 2 1 1/16 3 2 2/16 4 3 3/16 5 4 4/16 6 3 3/16 7 2 2/16 8 1 1/16 Total 16 1,0 Distribución muestral Así, la probabilidad de obtener una media muestral 2 es 1/16, de 3 es 2/16, y así sucesivamente Antes de continuar con el concepto de muestra aleatoria, es importante recordar el de independencia Dadas dos variables aleatorias discretas X e Y, decimos que son independientes si se cumple que: P(X = x, Y = y) = P(X = x) P(Y = y) La expresión del lado izquierdo se denomina distribución conjunta de X e Y, mientras que cada uno de los factores que aparecen a la derecha se llama distribución marginal de X e Y respectivamente Distribución muestral En estos términos, X e Y son independientes cuando la distribución conjunta es igual al producto de las distribuciones marginales Intuitivamente, y tal como ya lo habíamos usado en el ejemplo previo, dos variables aleatorias X e Y se dicen independientes cuando los valores que asume cada una de ellas no influyen ni está influenciados por los valores de la otra Por ejemplo, si lanzamos un par de dados y consideramos las variables aleatorias: X = Número de puntos que muestra la cara que queda hacia arriba del primer dado Distribución muestral Y = Número de puntos que muestra la cara que queda hacia arriba del segundo dado Los valores posibles de X e Y son los mismos, a saber: 1, 2, 3, 4, 5, 6 Las distribuciones marginales de X e Y son: X 1 2 3 4 5 6 P(X = x) 1/6 1/6 1/6 1/6 1/6 1/6 Y 1 2 3 4 5 6 P(Y = y) 1/6 1/6 1/6 1/6 1/6 1/6 Distribución muestral ¿Qué podemos decir de la independencia de X e Y? Al considerar las dos variables conjuntamente obtenemos las parejas de valores que constituyen el espacio muestral S = {1 - 1, ..., 1 - 6, 2 - 1, ..., 2 - 6, ..., 6 - 1, ..., 6 - 6}, por lo tanto, N = 36 Y 1 2 3 4 5 6 1 1/36 1/36 1/36 1/36 1/36 1/36 2 1/36 1/36 1/36 1/36 1/36 1/36 3 1/36 1/36 1/36 1/36 1/36 1/36 4 1/36 1/36 1/36 1/36 1/36 1/36 5 1/36 1/36 1/36 1/36 1/36 1/36 6 1/36 1/36 1/36 1/36 1/36 1/36 X Distribución muestral Los valores del cuadro se interpretan de la siguiente forma: P(X = 1, Y = 1) = 1/36, P(X = 1, Y = 2) = 1/36 y así sucesivamente Por otra parte, P(X = 1) = 1/6 y P(Y = 1) = 1/6, por lo tanto, P(X = 1, Y = 1) = 1/36 = (1/6)(1/6) = P(X = 1) P(Y = 1) De este modo, X e Y son independientes Ahora estamos en condiciones de comprender el concepto de muestra aleatoria Supongamos que X es la variable aleatoria que asociada a la característica en estudio y que vamos a hacer n observaciones en la población respectiva Distribución muestral Estas observaciones serán datos concretos una vez que hayamos llevado a cabo el acto físico de tomarlas; antes, sólo podemos considerar valores posibles de acuerdo con la distribución de X Por ello, cada una de estas observaciones que luego se materializarán, las denotaremos X1, X2, …, Xn y se consideran n “representaciones” de la variable X y, por tanto, con la misma distribución de X Si además, éstas variables se consideran independientes, tenemos lo que se llama una muestra aleatoria Así, una muestra aleatoria de una población X es una sucesión X1, …, Xn de n variables aleatorias i.i.d. Distribución muestral Donde, i.i.d. significa independientes e igualmente distribuidas y que, por tanto, tienen la misma función de densidad con igual media y varianza Una estadística es cualquier fórmula matemática que relaciona las variables de una muestra aleatoria X1, …, Xn y que no incluye constantes desconocidas El proceso inferencial se lleva a cabo utilizando las estadísticas como medio para tal fin y son las de mayor uso las denominadas media y varianza muestral: ∑i=1 X i Media muestral: X = n 2 ( X − X ) ∑i=1 i n n Varianza muestral: S 2 = (n − 1) Distribución muestral Las estadísticas son de por sí variables aleatorias; por ello es de esperarse que tengan asociadas distribuciones La distribución muestral de una estadística T es la distribución de probabilidad de T, tomada ésta como una variable aleatoria Un parámetro es una caracterización numérica de la distribución de la población, de forma que describe total o parcialmente la función de densidad de la variable aleatoria de interés Ejemplos de parámetros son la media y varianza de una variable aleatoria con distribución normal Distribución muestral En resumen, la estadística se calcula de acuerdo con las variables aleatorias de la muestra, por consiguiente cambia de muestra a muestra, pero sigue cierta ley de probabilidad, lo que constituye la distribución muestral Por otro lado, el parámetro es una característica de la población y como tal permanece constante y generalmente es desconocido A cada parámetro se le puede asociar una estadística, mediante la cual podemos obtener alguna información acerca del parámetro desconocido Ésta es la esencia de la inferencia estadística, trátese de estimación o prueba de hipótesis Distribución muestral Sea X1, …, Xn una muestra aleatoria proveniente de una población de media µX y varianza σ X2 ; y X la media muestral, entonces: 2 σ E( X) = µ X = E( X) = µ X y V( X) = σ X2 = X n A partir de la varianza de X se obtiene la desviación estándar de X o error estándar de la media, que es: σX σX = n Estos resultados pueden comprobarse a partir del ejemplo dado al inicio Así, tenemos que: E( X) = E(X) = 5 Distribución muestral σ X2 5 Por otro lado, se tiene que: σ = = = 2,5 n 2 Ahora ya conocemos las propiedades de la media muestral ( µ X y σ X2 ), pero ¿qué distribución tiene X cuando X se distribuye normalmente? Si X1, …, Xn es una muestra aleatoria proveniente de una población con distribución normal de media µ y varianza σ2, entonces: σ2 X ~ N µ , n (X − µ ) n (X − µ ) Por lo tanto, Z = ~ N(0,1) = σ σ n 2 X Distribución muestral Por ejemplo, supongamos que la cantidad que envasa una máquina dispensadora de bebidas gaseosas es una variable aleatoria X, que tiene distribución normal con media µ = 10 onzas y desviación estándar de σ = 1, ¿cuál es la probabilidad que X sea por lo menos 10,3 si nos proponemos hacer 25 mediciones del líquido dispensado? 1 La media muestral X ~ N10, 25 Por lo tanto, P( X ≥ 10,3) = 1 - P( X < 10,3) = 0,0668 Alternativamente, P(Z ≥ 1,5) = 1 - P(Z < 1,5) = 0,0668 Distribución muestral Pero, ¿qué sucede si la variable aleatoria en estudio no sigue una distribución normal? Al respecto el teorema del límite central plantea: “si X es una variable aleatoria de media µ y varianza σ2, la distribución muestral de la media X de una muestra aleatoria de tamaño n es aproximadamente normal con media µ y varianza σ2/n si n es suficientemente & N( µ , σ 2 n) grande”, es decir, X ~ ¿A partir de qué valor n puede considerarse “suficientemente” grande? Si bien se prefiere n ≥ 100, en la mayoría de las aplicaciones se considera suficiente n ≥ 30 Distribución muestral Por ejemplo, para cierta prueba de aptitud se sabe con base en la experiencia que el número de aciertos es en promedio 500 con una desviación estándar de 60, si se aplica esta prueba a 100 personas seleccionadas al azar ¿cuál es la probabilidad de que tengan un promedio de aciertos menor que 495? Como n = 100, podemos emplear el teorema del límite central & N(500, 3.600 100) En este caso X ~ Por lo tanto, P( X < 495) = 0,2023 O, equivalentemente, P(Z < -0,833) = 0,2023 Distribución muestral Una consecuencia importante del teorema del límite central es la que atañe a la distribución de la proporción muestral Sea p la proporción muestral asociada a una característica, la cual se presenta en la población en una proporción π, entonces: π (1 − π ) & N π , p~ n En términos de la distribución normal estandarizada: p −π & N(0,1) Z= ~ π (1 − π ) n Distribución muestral Se sabe que la proporción de artículos defectuosos en un proceso industrial es de 0,10, si el proceso se vigila periódicamente al tomar muestras aleatorias de tamaño 100 ¿Cuál es la probabilidad de que esta muestre arroje una proporción de defectuosos mayor a 0,17? Como n = 100, podemos emplear el teorema del límite central En este caso p ~ & N(0,10, (0,10)(0,90) 100) Por lo tanto, P( p > 0,17) = 0,0098 O, equivalentemente, P(Z > 2,333) = 0,0098 Distribución muestral Si X1, …, Xn es una muestra aleatoria proveniente de una población con distribución normal de media µ y varianza σ2, entonces: (n − 1)S 2 2 X= ~ χ (n −1) σ2 Es decir, X se distribuye chi-cuadrado con (n - 1) grados de libertad Así, la variable X describe la distribución de la varianza muestral y empleando los valores de la distribución chicuadrado podemos calcular la probabilidad de que S2 se encuentre en algún intervalo dado Distribución muestral Por ejemplo, si el espesor de cierto material está normalmente distribuido con desviación estándar 0,01 cm. y una muestra aleatoria de 25 piezas de este material arroja como resultado una desviación estándar muestral de 0,008 ¿cuál es la probabilidad de observar un valor muestral como éste u otro menor? Denotando como S a la desviación estándar muestral, se pide P(S ≤ 0,008) (24)(0,008) 2 = Así, tenemos que P(S ≤ 0,008) = P X ≤ 2 (0,01) P(X ≤ 15,36) = 0,09 Hasta ahora hemos asumido en la distribución de X de una muestra aleatoria normal que σ es conocida Distribución muestral Pero, lo más común es que σ también sea desconocida y por ello debe ser estimada Así, si en la expresión para Z = n (σX − µ ) reemplazamos σ por S (desviación estándar muestral) obtenemos: n (X − µ ) T= ~ t (n−1) S Es decir, T se distribuye t de Student con (n - 1) grados de libertad Por ejemplo, el gerente de una fábrica de cierto tipo de alimentos asegura que el peso promedio del producto que elabora es de 165 gr. Distribución muestral Un consumidor desconfiado para probar lo afirmado por el gerente decide escoger 16 paquetes del producto y pesarlos Los resultados fueron: 165, 158, 153, 162, 171, 175, 173, 169, 16, 170, 164, 177, 148, 167, 152, 149 Suponiendo que los pesos se distribuyen normalmente ¿Evidencian estos datos que el gerente está en lo cierto? A partir de lo datos obtenemos que la media y desviación estándar muestral están dadas por: X = 163,6875 S = 9,24 Distribución muestral Si lo planteado por el gerente es correcto entonces: 163,7 165 x Ahora debemos responder si pertenece o no 163,7 a una distribución con valor esperado de 165, considerando una probabilidad mínima del 5% 16 (163,7 − 165) P T≤ 9,24 Esto es, P( X ≤ 163,7) = = P(T ≤ -0,57) = 0,29 ⇒ No se puede rechazar lo garantizado por el gerente Distribución muestral Es frecuente interesarse por la diferencia entre dos medias, por ejemplo, comparar el contenido promedio por botella que proviene de dos embotelladoras Si de una población normal X de media µX y varianza σ X2 se extraen muestras de tamaño n1; de una población también normal Y de media µY y varianza σ Y2 se extraen muestras de tamaño n2; y X e Y son independientes, entonces: σ X2 σ Y2 ( X − Y ) ~ N µ X − µ Y , + n1 n2 Distribución muestral En términos de la distribución normal estándar se tiene: Z= (X − Y) − (µ X − µ Y ) σ X2 n1 + σ Y2 ~ N(0,1) n2 Por ejemplo, si de la población normal X con media µX = 106 y varianza σ X2 = 240 y de una población normal Y (independiente) con media µY = 95 y varianza σ Y2 = 350 se extraen muestras de tamaños n1 = 40 y n2 = 35 respectivamente ¿cuál es la probabilidad de que las medias muestrales posean una diferencia mayor a 18? Distribución muestral Tenemos que: 240 350 ( X − Y ) ~ N106 − 95 = 11, + = 16 40 35 Por lo tanto, P( X − Y > 18) = 0,0401 Para que sea posible la obtención de probabilidades es necesario conocer las varianzas de ambas poblaciones, sin embargo, ¿qué sucede si éstas son desconocidas? Supongamos que de una población normal X de media µX y varianza σ X2 desconocida se extrae una muestra de tamaño n1 y, de una población normal Y de media µY y varianza σ Y2 desconocida se extraen muestras de tamaño n2 Distribución muestral Si X e Y son independientes y σ X2 = σ Y2 , entonces: (X − Y) − (µ X − µ Y ) T= ~ t (n1 +n2 −2 ) 1 1 Sp + n1 n2 Donde, Sp es la varianza ponderada y se obtiene como la raíz cuadrada de: 2 2 ( n − 1 ) S + ( n − 1 ) S 1 2 2 S p2 = 1 (n1 + n2 − 2) Es decir, T se distribuye t de Student con (n1 + n2 - 2) grados de libertad Distribución muestral Por ejemplo, dos grupos de trabajadores se sometieron a una prueba consistente en la medición del tiempo que necesitó cada uno de ellos para llevar a cabo una labor específica Los tiempos en minutos fueron: Grupo I Grupo II 15,3 21,2 18,7 22,4 22,3 18,3 17,6 19,3 19,1 17,1 14,8 27,7 Distribución muestral Si el tiempo medio requerido por los grupos es igual ¿cuál es la probabilidad de obtener un promedio de diferencia mayor o igual a Y − X ? El tiempo promedio y la varianza muestral para el grupo I son X = 17,97 y S2 = 7,57 respectivamente El tiempo promedio y la varianza muestral para el grupo II son Y = 21,00 y S2 = 14,46 respectivamente De lo anterior se tiene que D = Y − X = 3,03 y SD = 1,92 Por lo tanto, P(D ≥ 3,03) = P(T ≥ 1,58) = 0,072 A menudo se encuentra la situación en que se requiere la comparación entre dos varianzas de población, es decir, si la variabilidad de una población difiere de otra Distribución muestral Supongamos dos variables aleatorias normales independientes X e Y, esto es, X~N(µX, σ X2 ), Y~N(µX, σ Y2 ) Si tomamos dos muestras de X y de Y respectivamente de tamaño m y n, y se obtienen las estimaciones S 2X y S 2Y de las varianzas poblacionales, entonces: σ Y2 S 2X F = 2 × 2 ~ F(m−1, n−1) σ X SY Es decir, F se distribuye F de Fisher con (m - 1) grados de libertad en el numerador y (n - 1) grados de libertad en el denominador Distribución muestral Por ejemplo, supongamos que se desea comparar la eficacia de dos tipos de aceite para evitar el desgaste en ciertas piezas sometidas a intenso trabajo En trece piezas se utilizó el aceite 1 y en otras trece el aceite 2; las varianzas muestrales fueron S12 = 64 y S 22 = 16 respectivamente Si las varianzas poblacionales son iguales ¿cuál es la probabilidad de que la varianza muestral 1 sea cuatro veces o más la varianza muestral 2? σ Y2 64 = P(F ≥ 4 ) = 0,012 Se pide: P F ≥ 2 × σ X 16