Download La distribución de muestreo de una estadística
Document related concepts
Transcript
REVISION DE CONCEPTOS POBLACION es la totalidad de observaciones relacionadas con una situación particular , puede ser finita o infinita. Un PARAMETRO es una caracterización numérica de la distribución de la población de manera que describe, parcial o completamente la función de densidad de población de la característica de interés. Una MUESTRA es un subconjunto de la población. Debe ser representativa y aleatoria. Una estadística (un estadístico) es cualquier función de las variables aleatorias que se observaron en la muestra, de manera que esta función no contiene cantidades desconocidas. N Media X i 1 i N N Varianza muestral Ejemplos de PARAMETROS 2 2 ( X ) i i 1 N x N Desviacion Standard PROPORCION 2 ( X ) i i 1 N X numerodesucesos p n tamañodelaPOBLACION n Media X X i 1 i n n Varianza muestral S2 2 ( X X ) i i 1 n 1 Ejemplos de ESTADISTICOS n Desviacion Standard PROPORCION MUESTRAL S 2 ( X X ) i i 1 n 1 X numerodesucesos ps n tamañodelamuestra DISTRIBUCION DE MUESTREO DE UNA ESTADISTICA La distribución de muestreo de una estadística es la distribución de probabilidad que puede obtenerse como resultado de un número infinito de muestras aleatorias independientes, cada una de tamaño n provenientes de la población de interés. Es decir es la distribución de probabilidad de un estadístico. La distribución de probabilidad de X se llama distribución muestral de la media. 2 La distribución de probabilidad de S se llama distribución muestral de la varianza. La distribución de probabilidad de p se llama distribución de muestral de la proporción. Se utiliza para hacer inferencias sobre la media de la población Es el resultado de un experimento que se lleva a cabo una y otra vez para muestras del mismo tamaño, de las cuales se obtienen los diversos valores de la media muestral. Esta distribución describe la variabilidad de los promedios muestrales alrededor de la media de la población Muestras tomadas a partir de una distribucion normal Muestras Mediciones Xi 1 X 11, X 21, X 31....... X n1 X1 2 X 12 , X 22 , X 32 ....... X n 2 X2 3 X 13 , X 23 , X 33....... X n3 X3 . . . . . . n X C . . A . X i 1 i n L Con media Y varianza 2 . . C . . . U . . . L . O . . . . m TOTALES . S X 1m , X 2 m , X 3m ....... X nm m . Xm X m X i 1 i X i 1 m i X 1 , X 2 , X 3 ............ X n Sea una muestra aleatoria de tamaño “n” de una población con función de densidad f(x) con media y varianza 2 de una población normal La media muestral representada por X , es la media aritmética de los elementos de la muestra, y su varianza muestral y desviación standard están dadas por: n X X i 1 n n i Varianza muestral S2 2 ( X X ) i i 1 n 1 n Desviacion Standard S 2 ( X X ) i i 1 n 1 Propiedades de la Media Aritmética •Imparcialidad •Eficiencia •Consistencia La imparcialidad se refiere al hecho de que el promedio de todas las medias de muestra posibles de un tamaño n será igual a la media de la población Muestras Muestras tomadas a partir de una distribucion normal Xi Mediciones 1 X 11, X 21, X 31....... X n1 X1 2 X 12 , X 22 , X 32 ....... X n 2 X2 3 X 13 , X 23 , X 33....... X n3 X3 . . . . . . . . C A . . . C . . . U . Y varianza . . . . 2 X . L L . O . S Xm m TOTALES m . . Con media imparcialidad X 1m , X 2 m , X 3m ....... X nm m X i 1 i X i 1 m i La eficiencia se refiere a la precisión de la muestra de estadística como un estimador del parámetro de población Para distribuciones como la normal, la Media Aritmética se considera más estable de muestra a muestra que otras mediciones de tendencia central Para una muestra de tamaño n la media de la muestra se acercará más en promedio a la media de la población que cualquier otro estimador imparcial Por lo tanto la media de la muestra es una mejor estimación de la media de la población La consistencia se refiere al efecto del tamaño de muestra sobre la utilidad de un estimador Al incrementarse el tamaño de muestra, la variación de la media de muestra de la media de la población se hace más pequeña, de manera que la media de la muestra se vuelve una mejor estimación de la media de la población MUESTREO DE POBLACIONES NORMALES Muestras Muestras tomadas a partir de una distribucion normal Xi Mediciones S i2 Si 1 X 11, X 21, X 31....... X n1 X1 S12 S1 2 X 12 , X 22 , X 32 ....... X n 2 X2 S 22 S2 S3 3 X 13 , X 23 , X 33....... X n3 X3 S 32 . . . . . . . . . . . . . . C A . . . . C . . . . U . . Y varianza . . . . . . . . Xm S m2 Con media 2 L L O S m TOTALES X 1m , X 2 m , X 3m ....... X nm m Sm m m X S S i 1 i i 1 2 i i 1 i Si se toman muestras de una población normal con media y una desviación estándar conocida la distribución de muestreo de la media también tendrá una distribución normal con media y una desviación estándar denominada Error Estándar de la Media x E( X ) x Cada observación X 1 , X 2 , X 3 ............ X n en cada una de las muestras aleatorias tiene entonces la misma distribución normal que la población de la que se muestrea. V (X ) 2 x x 2 n Error estándar de la media n En este caso el valor de la variable z estándar se calcula por: z z x x x n Muestreo de poblaciones no normales Teorema del Límite Central Al hacerse lo bastante grande el tamaño de una muestra la distribución de muestreo de la media puede aproximarse mediante la distribución normal Esto es cierto no importando la forma de la distribución de los valores individuales de la población Para la mayoría de las distribuciones de población, sin importar la forma, la distribución de muestreo de la media tendrá una distribución aproximadamente normal si se seleccionan muestras de al menos 30 observaciones Si la distribución de población es lo bastante simétrica, la distribución de muestreo de la media será aproximadamente normal si se seleccionan muestras de al menos 15 observaciones Si la población se distribuye normalmente, la distribución de muestreo de la media se distribuirá normalmente sin importar el tamaño de la muestra CUANTITATIVAMENTE EL TEOREMA DEL LIMITE CENTRAL SE DESCRIBE POR: Si es la media de una muestra aleatoria de tamaño n tomada de una población con media y varianza 2, entonces la forma limite de la distribucion de n 2 X N , n y z X x Conforme es la distribucion normal estándar n(z;0,1) La aproximación es buena si X n n 30 Si n es menor de 30 la aproximación será buena solo si se sabe que la población tiene una distribución normal Suponga que a cada uno de los mecanógrafos que comprenden una población de servicio de apoyo secretarial de un departamento particular de una compañía se le pidiera mecanografiar la misma página de un manuscrito. El número de errores cometidos por cada mecanógrafo fue el siguiente: Mecanógrafo Número de Errores Frecuencia A 3 1 B 2 1 C 1 1 D 4 1 CALCULO DEL NUMERO PROMEDIO DE ERRORES Y SU VARIABILIDAD 3 2 4 1 4 2.5errores N 2 2 2 (3 2.5) ........ ( 4 2.5) i 1 4 1.2544 1.12 1.2544 La distribución de población se muestra en el siguiente grafico: Número de Errores cometidos por una población de cuatro mecanógrafos 1.2 1 Mecanógrafos 0.8 0.6 Serie1 0.4 0.2 0 1 2 3 Núm ero de errores 4 Si se toman muestras de tamaño DOS con reemplazo se tienen los siguientes resultados, mostrados en la tabla: La media de las muestras es: Muestra Mecanógrafos Resultados de muestra Media Muestral 1 A,A 3,3 3 2 A,B 3,2 2.5 3 A,C 3,1 2 4 A,D 3,4 3.5 5 B,A 2,3 2.5 6 B.B 2,2 2 7 B,C 2,1 1.5 8 B.D 2,4 3 9 C,A 1,3 2 10 C,B 1,2 1.5 11 C,C 1,1 1 12 C,D 1,4 2.5 13 D,A 4,3 3.5 14 D,B 4,2 3 15 D,C 4,1 2.5 16 D,D 4,4 4 3 2.5 2..... 4 2.5errores X 16 Si se toma una muestra de tamaño DOS sin reemplazo se tienen los siguientes resultados, mostrados en la tabla Sin reemplazo Muestra Mecanógrafos Resultados de muestra Media Muestral 1 A,B 3,2 2.5 2 A,C 3,1 2 3 A,D 3,4 3.5 4 B,C 2,1 1.5 5 B.D 2,4 3 6 C,D 1,4 2.5 2.5 2..... 2.5 2.5errores X 6 Que se concluye al comparar los dos resultados anteriores? En ambos el valor de la media es igual, por lo tanto se concluye que la Media Aritmética de muestra es un estimador imparcial de la media de la Población Cálculo del Error Estándar de la Media x 1.12 n 2 Si se extraen al azar muestras independientes de tamaño n1 y n2 de dos poblaciones discretas o continuas, con medias 1 y 2 2 2 y varianzas 1 y 2 respectivamente conocidas, entonces la CASO 1 Suma de las distribución muestral de las diferencia de medias X1 X 2 muestras no excede a 30 esta distribuida aproximadamente de forma normal con media y varianza dada por: X1 X 2 1 2 X1 X 2 2 2 1 2 y n1 n2 DONDE z ( X 1 X 2 ) ( 1 2 ) 12 22 n1 n2 Es aproximadamente una variable normal estándar Si se extraen al azar muestras independientes de tamaño n1 y n2 de dos poblaciones discretas o continuas, con medias 1 y 2 CASO 2 Suma de las muestras excede a 30 2 varianzas 1 2 y y respectivamente desconocidas, 2 entonces la distribución muestral de las diferencia de medias X1 X 2 esta distribuida aproximadamente de forma normal con media y varianza dada por: X1 X 2 1 2 z DONDE ( X 1 X 2 ) ( 1 2 ) s12 S 22 n1 S x1 x2 s12 S 22 n1 n2 n2 Es aproximadamente una variable normal estándar Si se extraen al azar muestras independientes de tamaño n1 y n2 (cuya suma no excede a 30) de dos poblaciones discretas o continuas, con medias 1 y 2 2 1 2 respectivamente desconocidas, y varianzas 2 y 1 entonces la distribución muestral de las diferencias de las medias 2 CASO 3 2 2 X1 X 2 esta distribuida con media y varianza dada por: DONDE X1 X 2 S x1 x2 1 2 (n1 1) S (n2 1) S n1 n2 2 1 2 2 1 1 n1 n2 t ( X 1 X 2 ) ( 1 2 ) 1 1 Sp n1 n2 (n1 1) S12 (n2 1) S 22 Sp n1 n2 Si se extraen al azar muestras independientes de tamaño n1 y n2 (cuya suma no excede a 30) de dos poblaciones discretas o continuas, con medias 1 y 2 12 CASO 4 12 22 X1 X 2 2 y varianzas y respectivamente desconocidas, 2 entonces la distribución muestral de las diferencias de medias X1 X 2 esta distribuida con media y varianza dada por: t* 1 2 ( X 1 X 2 ) ( 1 2 ) S12 S 22 n1 n2 DONDE s12 S x1 x2 s 2 1 v 2 2 S n1 n2 con n1 s22 2 n2 ( s12 n )2 ( s22 n )2 n1 11 n 2 12 Si n1 y n2 son mayores o iguales a 30 la aproximación normal para la diferencia de medias es muy buena cuando las distribuciones originales están cerca de la normal Si n1 y n2 son menores a 30 la aproximación normal para la diferencia de medias es muy buena cuando las distribuciones originales están cerca de la normal Si n1 y n2 son menores a 30 la aproximación normal para la diferencia de medias NO es muy buena si las distribuciones originales no son normales Distribución de Muestreo de la Proporción Se utiliza para variables categóricas Cada sujeto u objeto se clasifica como poseedor o no de una característica particular (masculino o femenino, satisfecho o no con su trabajo,) A los dos resultados posibles se les puede asignar resultados de 1 y 0(cero) para representar la presencia o ausencia de la característica En este caso la media muestral es la proporción de muestra ps, que tiene la característica de interés, se define como: X numerodesucesos ps n tamañodelamuestra 0 ps 1 Donde ps Es un estimador de la proporción de población p ANALOGIA La media de la muestra es un estimador de la media de la población La estadística ps población es un estimador de la proporción de la La distribución de muestreo de la proporción en realidad sigue la distribución BINOMIAL, sin embargo cuando np y n(1-p) son cada uno al menos 5 se puede utilizar la distribución normal para aproximar la distribución binomial. En los casos de inferencias relacionadas con la proporción el tamaño de muestra es lo bastante sustancial para usar la aproximación normal PROPORCION DE EXITOS ps p Z p(1 p) n X ps n NUMERO DE EXITOS X np Z np(1 p) Error estándar de la Proporción ps p (1 p ) n Nota importante: esta distribución sigue la distribución binomial, sin embargo la distribución binomial puede usarse para aproximar la distribución binomial cuando np y n(1-p) son cada uno al menos 5. En ese caso se calcularía el valor de z por: z Donde p es la proporción de la población ps p p (1 p ) n Ejemplo El gerente de la sucursal local de un banco de ahorro ha determinado que 40% todos los depositantes tienen cuentas múltiples en el banco. Si se selecciona aleatoriamente una muestra de 200 depositantes, cual es la probabilidad de que la proporción muestra de depositantes con cuentas múltiples esté entre 0.40 y 0.43 np 200 * 0.4 80 n(1 0.4) 200 * 0.6 120 Distribución de muestreo de la proporción se puede suponer normalmente distribuida 0.40 0.4 z1 0.4 * 0.6 200 z1 0 0.43 0.4 z2 0.4 * 0.6 200 z 2 0.87 P(0 z 0.87) 0.3078 Muestreo de Poblaciones Finitas El TLC y los errores estándar de la media y la proporción se han basado en la premisa de que las muestras seleccionadas se eligieron con reemplazo. E casi toda investigación de encuesta, el muestreo es conducido sin reemplazo de poblaciones que son de un tamaño finito N. En estos casos cuando el tamaño de n no es pequeño comparado con el tamaño de población N (se muestrea mas del 5% de la población), de manera que n/N>0.05 debe usarse un factor de corrección de población finita en la fórmula de la media como del error estándar de la proporción N es tamaño de la población n es tamaño de la muestra pcf N n N 1 Muestreo de Poblaciones Finitas x ps x n N n N 1 p(1 p) n N n N 1 MUESTREO A PARTIR DE UNA DISTRIBUCION DE BERNOULLI La variable aleatoria X con fdp p P( X ) (1 p) X=1 X=0 Se llama variable aleatoria de Bernoulli Si se toma una muestra aleatoria de n observaciones, entonces la suma de de las observaciones muestrales X X 1 X 2 ............ X n Tiene una distribucion binomial con parametros n y p n Su media muestral es X X i 1 n i Es posible obtener la distribucion de X a partir de la distribucion binomial a P ( X a ) p k (1 p ) n k n i 0 X p 2 X p (1 p ) n k MUESTREO A PARTIR DE UNA DISTRIBUCION DE POISSON Si se toma una muestra aleatoria de n observaciones, DE UAN DISTRIBUCION DE Posiisn con parametro entonces la suma de de las observaciones muestrales X X 1 X 2 ............ X n n Tiene una distribucion poisson con parametro n La media de cada muestral es X X i 1 n i n e (n ) PX a P( X an) x! k 0 an X 2 x n x n x