Download Distribución Muestral

Document related concepts

Estadístico muestral wikipedia , lookup

Distribución t de Student wikipedia , lookup

Prueba t de Student wikipedia , lookup

Corrección de Bessel wikipedia , lookup

Muestra estadística wikipedia , lookup

Transcript
Distribución muestral
A partir de una misma población se pueden tomar
muchas muestras diferentes del mismo tamaño
Desarrollaremos un ejercicio para comprender cómo se
obtienen los valores muestrales de una variable, como la
media muestral, de acuerdo con los datos observados
Además, sabremos cómo se obtienen los valores de
probabilidad para cada uno de los valores muestrales,
esto es, veremos el concepto distribución muestral
Supongamos que la variable aleatoria X puede tomar los
cuatro valores 2, 4, 6, 8 y que de esta población se
toman muestras de tamaño 2 elegidas al azar (lotería)
Distribución muestral
Media muestral X
Muestra
X1
X2
1
2
2
2
2
2
4
3
3
2
6
4
4
2
8
5
5
4
2
3
6
4
4
4
7
4
6
5
8
4
8
6
9
6
2
4
10
6
4
5
11
6
6
6
12
6
8
7
13
8
2
5
14
8
4
6
15
8
6
7
16
8
8
8
Distribución muestral
En total existen 16 (42, en general, Nn donde N es el
número de elementos de la población y n el tamaño
muestral) muestras posibles que se pueden seleccionar
de esta población
Para cada una de las 16 muestras se obtiene la media
muestral ( X ), que toma cualquiera de los siete valores
del conjunto 2, 3, 4, 5, 6, 7, 8 (x )
De las 16 muestras posibles, una tiene media 2; dos
tienen media 3; tres media 4; cuatro media 5; tres
media 6; dos media 7 y una media 8
Con esto podemos construir una tabla en que aparezcan
los valores de X junto a sus respectivas probabilidades
Distribución muestral
Para obtener la distribución de X se debe tener presente
que al efectuarse un muestreo con reemplazamiento
cada elemento de la muestra tiene una probabilidad 1/4
de ser escogido, por lo tanto, cada muestra de tamaño 2
tiene probabilidad de (1/4)(1/4) = 1/16 de darse
Media muestral X
Número de muestras
Probabilidad P( x )
2
1
1/16
3
2
2/16
4
3
3/16
5
4
4/16
6
3
3/16
7
2
2/16
8
1
1/16
Total
16
1,0
Distribución muestral
Así, la probabilidad de obtener una media muestral 2 es
1/16, de 3 es 2/16, y así sucesivamente
Antes de continuar con el concepto de muestra aleatoria,
es importante recordar el de independencia
Dadas dos variables aleatorias discretas X e Y, decimos
que son independientes si se cumple que:
P(X = x, Y = y) = P(X = x) P(Y = y)
La expresión del lado izquierdo se denomina
distribución conjunta de X e Y, mientras que cada
uno de los factores que aparecen a la derecha se llama
distribución marginal de X e Y respectivamente
Distribución muestral
En estos términos, X e Y son independientes cuando la
distribución conjunta es igual al producto de las
distribuciones marginales
Intuitivamente, y tal como ya lo habíamos usado en el
ejemplo previo, dos variables aleatorias X e Y se dicen
independientes cuando los valores que asume cada una
de ellas no influyen ni está influenciados por los valores
de la otra
Por ejemplo, si lanzamos un par de dados y
consideramos las variables aleatorias:
X = Número de puntos que muestra la cara que queda
hacia arriba del primer dado
Distribución muestral
Y = Número de puntos que muestra la cara que queda
hacia arriba del segundo dado
Los valores posibles de X e Y son los mismos, a saber: 1,
2, 3, 4, 5, 6
Las distribuciones marginales de X e Y son:
X
1
2
3
4
5
6
P(X = x)
1/6
1/6
1/6
1/6
1/6
1/6
Y
1
2
3
4
5
6
P(Y = y)
1/6
1/6
1/6
1/6
1/6
1/6
Distribución muestral
¿Qué podemos decir de la independencia de X e Y?
Al considerar las dos variables conjuntamente
obtenemos las parejas de valores que constituyen el
espacio muestral S = {1 - 1, ..., 1 - 6, 2 - 1, ..., 2 - 6, ...,
6 - 1, ..., 6 - 6}, por lo tanto, N = 36
Y
1
2
3
4
5
6
1
1/36
1/36
1/36
1/36
1/36
1/36
2
1/36
1/36
1/36
1/36
1/36
1/36
3
1/36
1/36
1/36
1/36
1/36
1/36
4
1/36
1/36
1/36
1/36
1/36
1/36
5
1/36
1/36
1/36
1/36
1/36
1/36
6
1/36
1/36
1/36
1/36
1/36
1/36
X
Distribución muestral
Los valores del cuadro se interpretan de la siguiente
forma: P(X = 1, Y = 1) = 1/36, P(X = 1, Y = 2) = 1/36 y
así sucesivamente
Por otra parte, P(X = 1) = 1/6 y P(Y = 1) = 1/6, por lo
tanto, P(X = 1, Y = 1) = 1/36 = (1/6)(1/6) =
P(X = 1) P(Y = 1)
De este modo, X e Y son independientes
Ahora estamos en condiciones de comprender el
concepto de muestra aleatoria
Supongamos que X es la variable aleatoria que asociada
a la característica en estudio y que vamos a hacer n
observaciones en la población respectiva
Distribución muestral
Estas observaciones serán datos concretos una vez que
hayamos llevado a cabo el acto físico de tomarlas; antes,
sólo podemos considerar valores posibles de acuerdo
con la distribución de X
Por ello, cada una de estas observaciones que luego se
materializarán, las denotaremos X1, X2, …, Xn y se
consideran n “representaciones” de la variable X y, por
tanto, con la misma distribución de X
Si además, éstas variables se consideran independientes,
tenemos lo que se llama una muestra aleatoria
Así, una muestra aleatoria de una población X es una
sucesión X1, …, Xn de n variables aleatorias i.i.d.
Distribución muestral
Donde, i.i.d. significa independientes e igualmente
distribuidas y que, por tanto, tienen la misma función de
densidad con igual media y varianza
Una estadística es cualquier fórmula matemática que
relaciona las variables de una muestra aleatoria X1, …,
Xn y que no incluye constantes desconocidas
El proceso inferencial se lleva a cabo utilizando las
estadísticas como medio para tal fin y son las de mayor
uso las denominadas media y varianza muestral:
∑i=1 X i
Media muestral: X =
n
2
(
X
−
X
)
∑i=1 i
n
n
Varianza muestral: S 2 =
(n − 1)
Distribución muestral
Las estadísticas son de por sí variables aleatorias; por
ello es de esperarse que tengan asociadas distribuciones
La distribución muestral de una estadística T es la
distribución de probabilidad de T, tomada ésta como una
variable aleatoria
Un parámetro es una caracterización numérica de la
distribución de la población, de forma que describe total
o parcialmente la función de densidad de la variable
aleatoria de interés
Ejemplos de parámetros son la media y varianza de una
variable aleatoria con distribución normal
Distribución muestral
En resumen, la estadística se calcula de acuerdo con las
variables aleatorias de la muestra, por consiguiente
cambia de muestra a muestra, pero sigue cierta ley de
probabilidad, lo que constituye la distribución muestral
Por otro lado, el parámetro es una característica de la
población y como tal permanece constante y
generalmente es desconocido
A cada parámetro se le puede asociar una estadística,
mediante la cual podemos obtener alguna información
acerca del parámetro desconocido
Ésta es la esencia de la inferencia estadística, trátese
de estimación o prueba de hipótesis
Distribución muestral
Sea X1, …, Xn una muestra aleatoria proveniente de una
población de media µX y varianza σ X2 ; y X la media
muestral, entonces:
2
σ
E( X) = µ X = E( X) = µ X y V( X) = σ X2 = X
n
A partir de la varianza de X se obtiene la desviación
estándar de X o error estándar de la media, que es:
σX
σX =
n
Estos resultados pueden comprobarse a partir del
ejemplo dado al inicio
Así, tenemos que: E( X) = E(X) = 5
Distribución muestral
σ X2
5
Por otro lado, se tiene que: σ =
= = 2,5
n
2
Ahora ya conocemos las propiedades de la media
muestral ( µ X y σ X2 ), pero ¿qué distribución tiene X
cuando X se distribuye normalmente?
Si X1, …, Xn es una muestra aleatoria proveniente
de una población con distribución normal de media
µ y varianza σ2, entonces:
 σ2 

X ~ N µ ,
n 

(X − µ )
n (X − µ )
Por lo tanto, Z =
~ N(0,1)
=
σ
σ n
2
X
Distribución muestral
Por ejemplo, supongamos que la cantidad que envasa
una máquina dispensadora de bebidas gaseosas es una
variable aleatoria X, que tiene distribución normal con
media µ = 10 onzas y desviación estándar de σ = 1,
¿cuál es la probabilidad que X sea por lo menos 10,3 si
nos proponemos hacer 25 mediciones del líquido
dispensado?
1 

La media muestral X ~ N10, 
25 

Por lo tanto, P( X ≥ 10,3) = 1 - P( X < 10,3) = 0,0668
Alternativamente, P(Z ≥ 1,5) = 1 - P(Z < 1,5) = 0,0668
Distribución muestral
Pero, ¿qué sucede si la variable aleatoria en estudio no
sigue una distribución normal?
Al respecto el teorema del límite central plantea: “si
X es una variable aleatoria de media µ y varianza σ2, la
distribución muestral de la media X de una muestra
aleatoria de tamaño n es aproximadamente normal
con media µ y varianza σ2/n si n es suficientemente
& N( µ , σ 2 n)
grande”, es decir, X ~
¿A partir de qué valor n puede considerarse
“suficientemente” grande?
Si bien se prefiere n ≥ 100, en la mayoría de las
aplicaciones se considera suficiente n ≥ 30
Distribución muestral
Por ejemplo, para cierta prueba de aptitud se sabe con
base en la experiencia que el número de aciertos es en
promedio 500 con una desviación estándar de 60, si se
aplica esta prueba a 100 personas seleccionadas al azar
¿cuál es la probabilidad de que tengan un promedio de
aciertos menor que 495?
Como n = 100, podemos emplear el teorema del límite
central
& N(500, 3.600 100)
En este caso X ~
Por lo tanto, P( X < 495) = 0,2023
O, equivalentemente, P(Z < -0,833) = 0,2023
Distribución muestral
Una consecuencia importante del teorema del límite
central es la que atañe a la distribución de la proporción
muestral
Sea p la proporción muestral asociada a una
característica, la cual se presenta en la población en una
proporción π, entonces:
 π (1 − π ) 
& N π ,
p~

n


En términos de la distribución normal estandarizada:
p −π
& N(0,1)
Z=
~
π (1 − π ) n
Distribución muestral
Se sabe que la proporción de artículos defectuosos en
un proceso industrial es de 0,10, si el proceso se vigila
periódicamente al tomar muestras aleatorias de tamaño
100 ¿Cuál es la probabilidad de que esta muestre arroje
una proporción de defectuosos mayor a 0,17?
Como n = 100, podemos emplear el teorema del límite
central
En este caso p ~
& N(0,10, (0,10)(0,90) 100)
Por lo tanto, P( p > 0,17) = 0,0098
O, equivalentemente, P(Z > 2,333) = 0,0098
Distribución muestral
Si X1, …, Xn es una muestra aleatoria proveniente de una
población con distribución normal de media µ y varianza
σ2, entonces:
(n − 1)S 2
2
X=
~
χ
(n −1)
σ2
Es decir, X se distribuye chi-cuadrado con (n - 1) grados
de libertad
Así, la variable X describe la distribución de la varianza
muestral y empleando los valores de la distribución chicuadrado podemos calcular la probabilidad de que S2 se
encuentre en algún intervalo dado
Distribución muestral
Por ejemplo, si el espesor de cierto material está
normalmente distribuido con desviación estándar 0,01
cm. y una muestra aleatoria de 25 piezas de este
material arroja como resultado una desviación estándar
muestral de 0,008 ¿cuál es la probabilidad de observar
un valor muestral como éste u otro menor?
Denotando como S a la desviación estándar muestral, se
pide P(S ≤ 0,008)

(24)(0,008) 2 
 =
Así, tenemos que P(S ≤ 0,008) = P X ≤
2
(0,01)


P(X ≤ 15,36) = 0,09
Hasta ahora hemos asumido en la distribución de X de
una muestra aleatoria normal que σ es conocida
Distribución muestral
Pero, lo más común es que σ también sea desconocida
y por ello debe ser estimada
Así, si en la expresión para Z = n (σX − µ ) reemplazamos σ
por S (desviación estándar muestral) obtenemos:
n (X − µ )
T=
~ t (n−1)
S
Es decir, T se distribuye t de Student con (n - 1) grados
de libertad
Por ejemplo, el gerente de una fábrica de cierto tipo de
alimentos asegura que el peso promedio del producto
que elabora es de 165 gr.
Distribución muestral
Un consumidor desconfiado para probar lo afirmado por
el gerente decide escoger 16 paquetes del producto y
pesarlos
Los resultados fueron: 165, 158, 153, 162, 171, 175,
173, 169, 16, 170, 164, 177, 148, 167, 152, 149
Suponiendo que los pesos se distribuyen normalmente
¿Evidencian estos datos que el gerente está en lo cierto?
A partir de lo datos obtenemos que la media y
desviación estándar muestral están dadas por:
X = 163,6875
S = 9,24
Distribución muestral
Si lo planteado por el gerente es correcto entonces:
163,7
165
x
Ahora debemos responder si pertenece o no 163,7 a una
distribución con valor esperado de 165, considerando
una probabilidad mínima del 5%

16 (163,7 − 165) 

P T≤


9,24


Esto es, P( X ≤ 163,7) =
=
P(T ≤ -0,57) = 0,29 ⇒ No se puede rechazar lo
garantizado por el gerente
Distribución muestral
Es frecuente interesarse por la diferencia entre dos
medias, por ejemplo, comparar el contenido promedio
por botella que proviene de dos embotelladoras
Si de una población normal X de media µX y varianza σ X2
se extraen muestras de tamaño n1; de una población
también normal Y de media µY y varianza σ Y2 se extraen
muestras de tamaño n2; y X e Y son independientes,
entonces:

σ X2 σ Y2 

( X − Y ) ~ N µ X − µ Y ,
+
n1 n2 

Distribución muestral
En términos de la distribución normal estándar se tiene:
Z=
(X − Y) − (µ X − µ Y )
σ X2
n1
+
σ Y2
~ N(0,1)
n2
Por ejemplo, si de la población normal X con media µX =
106 y varianza σ X2 = 240 y de una población normal Y
(independiente) con media µY = 95 y varianza σ Y2 = 350
se extraen muestras de tamaños n1 = 40 y n2 = 35
respectivamente ¿cuál es la probabilidad de que las
medias muestrales posean una diferencia mayor a 18?
Distribución muestral
Tenemos que:
240 350


( X − Y ) ~ N106 − 95 = 11,
+
= 16 
40
35


Por lo tanto, P( X − Y > 18) = 0,0401
Para que sea posible la obtención de probabilidades es
necesario conocer las varianzas de ambas poblaciones,
sin embargo, ¿qué sucede si éstas son desconocidas?
Supongamos que de una población normal X de media
µX y varianza σ X2 desconocida se extrae una muestra de
tamaño n1 y, de una población normal Y de media µY y
varianza σ Y2 desconocida se extraen muestras de
tamaño n2
Distribución muestral
Si X e Y son independientes y σ X2 = σ Y2 , entonces:
(X − Y) − (µ X − µ Y )
T=
~ t (n1 +n2 −2 )
1
1
Sp
+
n1 n2
Donde, Sp es la varianza ponderada y se obtiene como la
raíz cuadrada de:
2
2
(
n
−
1
)
S
+
(
n
−
1
)
S
1
2
2
S p2 = 1
(n1 + n2 − 2)
Es decir, T se distribuye t de Student con (n1 + n2 - 2)
grados de libertad
Distribución muestral
Por ejemplo, dos grupos de trabajadores se sometieron
a una prueba consistente en la medición del tiempo que
necesitó cada uno de ellos para llevar a cabo una labor
específica
Los tiempos en minutos fueron:
Grupo I
Grupo II
15,3
21,2
18,7
22,4
22,3
18,3
17,6
19,3
19,1
17,1
14,8
27,7
Distribución muestral
Si el tiempo medio requerido por los grupos es igual
¿cuál es la probabilidad de obtener un promedio de
diferencia mayor o igual a Y − X ?
El tiempo promedio y la varianza muestral para el grupo
I son X = 17,97 y S2 = 7,57 respectivamente
El tiempo promedio y la varianza muestral para el grupo
II son Y = 21,00 y S2 = 14,46 respectivamente
De lo anterior se tiene que D = Y − X = 3,03 y SD = 1,92
Por lo tanto, P(D ≥ 3,03) = P(T ≥ 1,58) = 0,072
A menudo se encuentra la situación en que se requiere
la comparación entre dos varianzas de población, es
decir, si la variabilidad de una población difiere de otra
Distribución muestral
Supongamos dos variables aleatorias normales
independientes X e Y, esto es, X~N(µX, σ X2 ), Y~N(µX, σ Y2 )
Si tomamos dos muestras de X y de Y respectivamente
de tamaño m y n, y se obtienen las estimaciones S 2X y
S 2Y de las varianzas poblacionales, entonces:
σ Y2 S 2X
F = 2 × 2 ~ F(m−1, n−1)
σ X SY
Es decir, F se distribuye F de Fisher con (m - 1) grados
de libertad en el numerador y (n - 1) grados de libertad
en el denominador
Distribución muestral
Por ejemplo, supongamos que se desea comparar la
eficacia de dos tipos de aceite para evitar el desgaste en
ciertas piezas sometidas a intenso trabajo
En trece piezas se utilizó el aceite 1 y en otras trece el
aceite 2; las varianzas muestrales fueron S12 = 64 y
S 22 = 16 respectivamente
Si las varianzas poblacionales son iguales ¿cuál es la
probabilidad de que la varianza muestral 1 sea cuatro
veces o más la varianza muestral 2?

σ Y2 64 
 = P(F ≥ 4 ) = 0,012
Se pide: P F ≥ 2 ×
σ X 16 
