Download DISTR_MUESTRALES

Document related concepts

Estadístico muestral wikipedia , lookup

Distribución t de Student wikipedia , lookup

Prueba t de Student wikipedia , lookup

Corrección de Bessel wikipedia , lookup

Intervalo de confianza wikipedia , lookup

Transcript
DISTRIBUCIONES MUESTRALES
P. Reyes / Sept. 2007
DISTRIBUCIONES MUESTRALES
Página 1 de 22
DISTRIBUCIONES MUESTRALES
P. Reyes / Sept. 2007
CONTENIDO
1. Introducción
2. Teorema del límite central
3. Aplicación de las distribuciones muestrales
4. Distribuciones muestrales Chi 2, t y F
Página 2 de 22
DISTRIBUCIONES MUESTRALES
P. Reyes / Sept. 2007
DISTRIBUCIONES MUESTRALES
1. Introducción
A las distribuciones de los estadísticas muestrales se les llama
distribuciones muestrales.
ESTADÍSTICA INFERENCIAL: La estadística inferencial involucra el uso de un
estadístico para sacar una conclusión o inferencia sobre el parámetro
correspondiente de la población
Por ejemplo se usa:
X media de muestra para estimar la  media poblacional
s desv. Est. De muestra para estimar la  desv. Est. poblacional
p proporción en la muestra para estimar la  proporción poblacional
ERROR DE MUESTREO: es la diferencia entre el parámetro poblacional y el
estadístico de la muestra utilizado para estimar el parámetro.
Por ejemplo la diferencia entre:
X y 
s y
p y
Página 3 de 22
Población
Con N
elementos
DISTRIBUCIONES MUESTRALES
P. Reyes / Sept. 2007
DISTRIBUCIÓN MUESTRAL: es un conjunto de todos los valores posibles para
un estadístico y la probabilidad relacionada con cada valor.
Media muestral Xi      P(cada. Xi )
Xmedia 1
Desv.est.1
Xmedia K
Desv.est.K
150
1/6
200
1/6
250
2/6
300
1/6
350
1/6
Tomando K=6 muestras de
1.0
tamaño n cada una
MEDIA DE LAS MEDIAS MUESTRALES o GRAN MEDIA o MEDIA DE MEDIAS:
X
 Xi
K
150  200  250  250  300  350
X
 250
6
VARIANZA DE LA DISTRIBUCIÓN MUÉSTRAL DE LAS MEDIAS MUESTRALES

2
X
(X  X )

K
2
(X  )

2
K
Del ejemplo anterior:
(150  250) 2  (200  250) 2  ...  (350  250) 2
 
 4.167
6
2
X
Página 4 de 22
DISTRIBUCIONES MUESTRALES
P. Reyes / Sept. 2007
ERROR ESTÁNDAR DE LA DISTRIBUCIÓN MUESTRAL DE LAS MEDIAS
MUESTRALES
 X   X2
En el caso anterior vale 64.55
X 

n
Si el muestreo se realiza sin reemplazo y si el tamaño de muestra es más
del 5% de la población (n > 0.05N) debe aplicarse el factor de corrección
para poblaciones finitas (FPC) al error estándar.
X 

n
N n
N 1
2. TEOREMA DEL LÍMITE CENTRAL
La distribución de las medias de las muestras tiende a la normalidad
independientemente de la forma de la distribución poblacional de la
que sean obtenidas. Es la base de las cartas de control X-R.
F(X)
Distribución de las medias muestrales
Distribución de valores individuales
sX 
Página 5 de 22
X
n
DISTRIBUCIONES MUESTRALES
P. Reyes / Sept. 2007
Distribución muestral de la media
X 1 , X 2 ,..., X n
A medida
que n se vuelve más grande, la distribución de las medias
muestrales se aproximará a una distribución normal con una media
X      X   / n
Si
X 1 , X 2 ,..., X n
es una muestra aleatoria de una Poblacion (X) con
2
distribución normal n(  ,  ) .Entonces X se
2
distribuye normalmente con media  , y varianza  / n
Por ejemplo, para los siguientes datos de la población:
DATOS DE LA POBLACIÓN PARA MOSTRAR EL TEOREMA DEL LÍMITE CENTRAL
PROMEDIO
2
1
5
7
7
1
7
6
9
8
5
5
5
3
4
9
2
7
7
7
8
1
6
6
3
7
7
3
3
9
5
1
3
1
1
7
5
7
1
4
9
4
1
9
7
4
3
9
3
9
9
7
7
9
5
9
1
1
8
7
7
4
6
4
4
1
9
1
5
7
8
8
Página 6 de 22
2
4
5
4
5
9
3
3
1
7
2
9
5
5
5
8
6
3
4.2
5.6
4.0
3.4
7.0
5.4
4.2
5.8
6.0
5.2
3.4
6.6
5.4
3.8
5.2
6.4
4.8
6.8
DISTRIBUCIONES MUESTRALES
3
4
5
8
7
2
3
9
6
5
9
2
9
2
5
4
8
3
5
7
5
9
7
5
8
8
5
7
9
2
4
9
1
7
8
2
9
7
1
2
2
2
4
8
3
1
5
2
1
3
2
2
6
6
2
6
4
2
1
2
8
9
6
6
9
5
4
7
5
7
5
5
5
2
7
7
1
2
4
8
2
4
9
6
5
3
2
5
9
7
4
2
7
6
2
3
2
6
2
9
2
8
9
3
8
4
9
1
7
7
1
2
2
3
8
6
7
2
1
1
3
4
9
6
3
7
P. Reyes / Sept. 2007
6
4
2
5
6
2
1
3
4
8
9
5
3
8
1
4
1
5
6
8
7
8
8
4
8
1
7
9
5
5
4
6
3
8
7
4
7
3
3
2
3
8
Página 7 de 22
8
5
6
9
8
1
7
8
4
6
4
5
6
3
9
2
4
4
2
5
5
7
3
6
7
8
5
8
9
8
2
1
4
7
6
9
3
2
8
8
1
7
5.2
4.8
3.6
5.6
7.0
2.8
3.2
5.0
4.6
5.4
6.0
4.2
4.4
5.0
4.2
4.2
3.2
4.4
6.0
6.4
6.2
6.8
7.2
4.2
6.8
6.2
4.6
6.6
6.0
4.6
4.6
4.8
4.4
6.2
4.6
3.6
5.2
4.8
4.6
4.4
3.6
6.0
DISTRIBUCIONES MUESTRALES
P. Reyes / Sept. 2007
El histograma de los datos de la población, es el siguiente:
Histogram of Poblacion
40
Frequency
30
20
10
0
2
4
6
8
Poblacion
Al hacer una prueba de normalidad de Anderson Darling en los datos se
tiene:
Probability Plot of Poblacion
Normal
99.9
Mean
StDev
N
AD
P-Value
99
Percent
95
90
5.073
2.584
300
5.965
<0.005
80
70
60
50
40
30
20
10
5
1
0.1
-5
0
5
Poblacion
10
15
Como el P value es menor a 0.05 los datos no siguen una distribución
normal.
Página 8 de 22
DISTRIBUCIONES MUESTRALES
P. Reyes / Sept. 2007
El histograma de los promedios muestrales (subgrupos de 5 datos) se
muestra a continuación:
Al hacer una prueba de normalidad de Anderson Darling se tiene:
Probability Plot of Muestra
Normal
99.9
Mean
StDev
N
AD
P-Value
99
Percent
95
90
5.073
1.118
60
0.527
0.172
80
70
60
50
40
30
20
10
5
1
0.1
1
2
3
4
5
Muestra
6
7
8
9
Como el P value es mayor a 0.05 incluso mayor a 0.10, las medias siguen
una distribución normal.
Página 9 de 22
DISTRIBUCIONES MUESTRALES
P. Reyes / Sept. 2007
La sigma de la población estimada con la media de la muestra es:
S pob.
Sn=5
2.5840
1.1181
Raiz(n)
Spob est.
2.2361 2.5001243
Tomando un tamaño de subgrupo de n = 10 se tiene:
PROM.
N=10
4.9
3.7
6.2
5.0
5.6
5.0
4.6
5.8
5.8
5.0
4.6
4.9
4.1
5.0
5.1
4.7
4.2
3.8
6.2
6.5
5.7
6.5
5.6
5.3
4.7
5.3
4.1
5.0
4.5
4.8
Histogram of PROM. N=10
9
8
Frequency
7
6
5
4
3
2
1
0
3.5
4.0
4.5
5.0
PROM. N=10
5.5
6.0
6.5
Por lo que con un tamaño de muestra de n = 5 es suficiente para mostrar
normalidad.
Página 10 de 22
DISTRIBUCIONES MUESTRALES
P. Reyes / Sept. 2007
3. APLICACIÓN DE LAS DISTRIBUCIONES MUESTRALES
Muchas decisiones en los negocios dependen de una muestra completa
no tanto de una observación, por tanto se trabaja con la distribución
muestral de las medias o de las proporciones, para el caso de las medias
se tiene:
Z
X 
X

X 
/ n
Con este valor se determina P(Z <= z)
Donde n es el tamaño de la muestra y si no se conoce sigma, se estima
con el valor de S. Ejemplos páginas 153 – 156.
Ejemplo:
Una empresa de constestación de llamadas telefónicas, está interesada
en conocer la probabilidad de que la media de n llamadas dure un
cierto periodo de tiempo, no le interesa una llamada individual, ya que
no le permitiría determinar la cantidad de personas que requiere:
Las llamadas durante un mes promediaron 150 seg. Con una desviación
estándar de 15 seg.
a. ¿Cuál es la probabilidad de que una llamada en particular dure entre
150 y 155 segundos?
Z
X 

155  150
Z 155
 0.33
15
;
En tablas P(Z <= 0.33) = 0.6293 ;
150  150
Z 150
 0.0
15
P(Z<=0) = 0.500
Por tanto P( 0 <= Z <= 0.33) = 0.1293 o 12.93%
Página 11 de 22
DISTRIBUCIONES MUESTRALES
P. Reyes / Sept. 2007
Por tanto la probabilidad de que una llamada dure entre 150 y 155
segundos es del 12.93%.
b. ¿Cuál es la probabilidad de que la media de n=50 llamadas esté entre
150 y 155 segundos?
Ahora se aplica la distribución muestral de las medias, con:
X 
/ n
Z
155  150
Z 155
 2.36
15 / 50
;
En tablas P(Z <= 2.36) = 0.9909 ;
150  150
Z 150
 0.0
15 / 50
P(Z<=0) = 0.500
Por tanto P( 0 <= Z <= 2.36) = 0.4909 o 49.09%
P(150 <= X < = 155)
150
155
150
155
P(150  X  155)
Para el caso de las medias el área es mayor debido a que las medias
muestrales están menos dispersas que los valores individuales de llamadas
Página 12 de 22
DISTRIBUCIONES MUESTRALES
P. Reyes / Sept. 2007
c. ¿Cuál es la probabilidad de que la media de n=35 llamadas esté entre
145 y 155 segundos?
Ahora se aplica la distribución muestral de las medias, con:
X 
/ n
Z
155  150
Z 155
 1.97
15 / 35
;
145  150
Z 150
 1.97
15 / 35
En tablas P(Z <= -1.97) = 0.0244 ;
P(Z<=1.97) = 0.9756
Por tanto P( -1.97 <= Z <= 1.97) = 0.9512
o 95.12%
d. ¿Cuál es la probabilidad de que la media de n=35 llamadas sea mayor
a 155 segundos?
Ahora se aplica la distribución muestral de las medias, con:
X 
/ n
Z
155  150
Z 155
 1.97
15 / 35
En tablas P(Z <= -1.97) = 0.0244 o
Por tanto P(Z >= 1.97) = 0.0244
o
1-P(Z<=1.97) = 1 - 0.9756 = 0.0244
2.44%
Con la información anterior ahora la empresa ya puede tomar
decisiones.
Página 13 de 22
DISTRIBUCIONES MUESTRALES
P. Reyes / Sept. 2007
Ejercicios:
1. Los choferes de camniones de una empresa recorren en promedio
8,500 km. cada trimestre, con una desviación estándar de 1,950 Km. Si se
toma una muestra de n = 100 choferes, Cuál es la probabilidad de que la
media de la muestra sea o encuentre en:
a. ¿Mayor a 8,500 Km.?
b. ¿Menor a 8,000 Km.?
c. ¿Entre 8,200 y 8,700 Km?
d. ¿Entre 8,100 y 8,400 Km.?
2. Los refrescos de una embotelladora tienen una media de 16.1 oz., con
una desviación estándar de 1.2 oz. Si se toma una muestra de n = 200
refrescos, cuál es la probabilidad de que la media sea:
a. ¿Menor que 16.27 oz.?
b. ¿A lo más 15.93 oz.?
c. ¿Entre 15.9 y 16.3 oz.?
d. ¿Más de 16.2 oz.?
Página 14 de 22
DISTRIBUCIONES MUESTRALES
P. Reyes / Sept. 2007
Para el caso de proporciones se tiene:
E ( p)  p 
p
p 
i
K
 (1   )
n
Si n>0.05N puede requerirse el FCP
Una vez calculando lo anterior ahora se determina Z
Z
p 
p
Ejemplo:
Una empresa adquiere lotes de partes de tamaño n = 200, el lote tiene
una tasa de partes con falla del 10%, la política de la empresa ahora es
que:
a. Si hay más del 12% de defectos se buscará un nuevo proveedor.
b. Entre el 10 y 12% se considerará la búsqueda de un nuevo proveedor
c. Entre el 5 y 10%, se seguirá con el mismo proveedor
d. Menos del 5%, se incrementarán los pedidos
Solución:
p 
 (1   )
n

0.1(1  0.1)
 0.021
200
a. P(p > 0.12)
Z
p 
p

0.12  0.1
 0.95
0.021
P(Z >= 0.95) = 0.1711 o sea el 17.11%
b. P(0.10 <= p <= 0.12) = 0.3289 o el 32.89%
c. P(0.05 <= p <= 0.10)
Página 15 de 22
DISTRIBUCIONES MUESTRALES
Z 0.05 
p 
p

P. Reyes / Sept. 2007
0.05  0.1
 2.38
0.021
Z 0.1 
p 
p

0.1  0.1
 0.0
0.021
P(-2.38 <= Z <= 0.1) = 0.4913 o el 49.13%
d. P(p <= 0.05) = 0.0087 o el 0.87%
Por tanto como la mayor probabilidad es la del inciso c, no se cambia al
proveedor actual.
Ejercicios:
1. La proporción de personas que comen en un restaurante es del 75%.
En una muestra de 100 clientes, ¿Cuál es la probabilidad de que menos
del 20% compren comida para llevar?
2. El 60% de los empleados en una empresa vive cerca. De 100
empleados al azar, ¿Cuál es la probabilidad de que por lo menos 30
vivan cerca?
Página 16 de 22
DISTRIBUCIONES MUESTRALES
P. Reyes / Sept. 2007
4. Distribuciones muestrales derivadas de la normal: Chi 2, t y F
Muestra
Aparecen distribuciones muestrales:
Normal, Chi-cuadrada, t-student, F
Población
Distribución Chi Cuadrada
Esta distribución se forma al sumar los cuadrados de las variables
aleatorias normales estándar.
Si Z es una variable aleatoria normal, entonces el estadístico Y siguiente es
una variable aleatoria Chi cuadrada con n grados de libertad.
y z12  z22  z32  ....  zn2
Media y varianza de una ji-cuadrada.
E(X)=k
V(X)=2k
Página 17 de 22
DISTRIBUCIONES MUESTRALES
P. Reyes / Sept. 2007
Calculo de puntos críticos usando las tablas de ji-cuadrada
P( X   ,k )  
2
Gráficas de la distribución ji-cuadrada
K=1
K=5
K=50
K=25
Con k grande ji-cuadrada se hace normal
Ejemplo: Calcule el valor critico que satisface
P( X   0.05, 20 )  .05
2
De tablas de ji-cuadrada con alfa=.05 y k=20
 0.05, 202  31.41
Página 18 de 22
DISTRIBUCIONES MUESTRALES
Si
P. Reyes / Sept. 2007
es una muestra aleatoria de una Poblacion (X) con
2
distribución normal n(  ,  ) .Entonces ( n  1) S 2 se distribuye ji2
cuadrada con k= n-1 grados de libertad.
X 1 , X 2 ,..., X n
Donde S cuadrada es la varianza muestral.
(n  1)

2
S 2   n21
Distribución t-student
Si
X 1 , X 2 ,..., X n
es una muestra aleatoria de una población (X) con
distribución normaln(  ,  2 ) . Entonces ( X   ) (s / n) se distribuye
t-student con n-1 grados de libertad
( X   ) (s / n)  tn1
Función de Distribución t-student
[( k  1) / 2]
k [k / 2][ x 2 / 2  1]( k 1) / 2
x  (, )
f ( x) 
K=1
K=10
K=100
Página 19 de 22
DISTRIBUCIONES MUESTRALES
P. Reyes / Sept. 2007
La media y la varianza de la distribución t son:
 0

k
; k 3
k 2
De una muestra aleatoria de n artículos, la probabilidad de que
x
t
s/ n
Caiga entre dos valores especificados es igual al área bajo la distribución
de probabilidad t de Student con los valores correspondientes en el eje X,
con n-1 grados de libertad
Ejemplo:
La resistencia de 15 sellos seleccionados aleatoriamente son: 480, 489,
491, 508, 501, 500, 486, 499, 479, 496, 499, 504, 501, 496, 498
¿Cuál es la probabilidad de que la resistencia promedio de los sellos sea
mayor a 500?. La media es 495.13 y la desviación estándar es de 8.467.
t = -2.227 y el área es 0.0214
t
495.13  500
 2.227
8.467 / 15
Página 20 de 22
DISTRIBUCIONES MUESTRALES
P. Reyes / Sept. 2007
Distribución F
Surge de dividir dos ji-cuadradas independientes
F=(W/u)/(Y/v)
W se distribuye ji-cuadrada con u g.l.
Y se distribuye ji-cuadrada con v g.l.
El uso de esta distribución es para comparar varianzas (Recuerde el
análisis de varianza)
Distribución F.
[(u  v) / 2]u / v  2 x ( u / 2 ) 1
f ( x) 
u
(u / 2)[v / 2][ x  1]( k  v ) / 2
v
x  (0, )
u
u=10
u=20
v=5
v=20
Página 21 de 22
DISTRIBUCIONES MUESTRALES
P. Reyes / Sept. 2007
Para determinar la otra cola de la distribución F se determina con la
expresión.
Falfa, k1, k2 = 1 / F(1-alfa), k2, k1
Dado K1 = 8 y K2 = 10, F0.05 = 3.07, encontrar el valor de F0.05 con K1 = 10
y K2 = 8
F0.05,10,8 = 1/ F0.95,8,10 = 1/ 3.07 = 0.326
.
Página 22 de 22