Download La distribución de muestreo de una estadística

Document related concepts

Estadístico muestral wikipedia , lookup

Prueba t de Student wikipedia , lookup

Distribución t de Student wikipedia , lookup

Corrección de Bessel wikipedia , lookup

Muestra estadística wikipedia , lookup

Transcript
REVISION DE CONCEPTOS
POBLACION es la totalidad de observaciones relacionadas con una
situación particular , puede ser finita o infinita.
Un PARAMETRO es una caracterización numérica de la distribución
de la población de manera que describe, parcial o completamente la
función de densidad de población de la característica de interés.
Una MUESTRA es un subconjunto de la población. Debe ser
representativa y aleatoria.
Una estadística (un estadístico) es cualquier función de las variables
aleatorias que se observaron en la muestra, de manera que esta
función no contiene cantidades desconocidas.
N
Media

X
i 1
i
N
N
Varianza
muestral
Ejemplos de
PARAMETROS

2

2
(
X


)
 i
i 1
N
x
N
Desviacion
Standard
PROPORCION

2
(
X


)
 i
i 1
N
X
numerodesucesos
p 
n tamañodelaPOBLACION
n
Media
X
X
i 1
i
n
n
Varianza
muestral
S2 
2
(
X

X
)
 i
i 1
n 1
Ejemplos de
ESTADISTICOS
n
Desviacion
Standard
PROPORCION MUESTRAL
S
2
(
X

X
)
 i
i 1
n 1
X
numerodesucesos
ps  
n tamañodelamuestra
DISTRIBUCION DE MUESTREO DE UNA ESTADISTICA
La distribución de muestreo de una estadística es la distribución de
probabilidad que puede obtenerse como resultado de un número infinito
de muestras aleatorias independientes, cada una de tamaño n
provenientes de la población de interés.
Es decir es la distribución de probabilidad de un estadístico.
La distribución de probabilidad de X se llama distribución muestral de la
media.
2
La distribución de probabilidad de S se llama distribución muestral de la
varianza.
La distribución de probabilidad de p se llama distribución de muestral de
la proporción.
Se utiliza para hacer inferencias sobre la media de la población
Es el resultado de un experimento que se lleva a cabo una y otra vez
para muestras del mismo tamaño, de las cuales se obtienen los
diversos valores de la media muestral.
Esta distribución describe la variabilidad de los promedios muestrales
alrededor de la media de la población
Muestras
tomadas a
partir de
una
distribucion
normal
Muestras
Mediciones
Xi
1
X 11, X 21, X 31....... X n1
X1
2
X 12 , X 22 , X 32 ....... X n 2
X2
3
X 13 , X 23 , X 33....... X n3
X3
.
.
.
.
.
.
n
X
C
.
.
A
.
X
i 1
i
n
L
Con media

Y varianza

2
.
.
C
.
.
.
U
.
.
.
L
.
O
.
.
.
.
m
TOTALES
.
S
X 1m , X 2 m , X 3m ....... X nm
m
.
Xm
X 
m
X
i 1
i
X
i 1
m
i
X 1 , X 2 , X 3 ............ X n
Sea
una muestra aleatoria de tamaño “n” de una población con función de
densidad f(x) con media  y varianza  2 de una población normal
La media muestral representada por X , es la media aritmética de los
elementos de la muestra, y su varianza muestral y desviación standard están
dadas por:
n
X
X
i 1
n
n
i
Varianza
muestral
S2 
2
(
X

X
)
 i
i 1
n 1
n
Desviacion
Standard
S
2
(
X

X
)
 i
i 1
n 1
Propiedades de la Media Aritmética
•Imparcialidad
•Eficiencia
•Consistencia
La imparcialidad se refiere al hecho de que el promedio de todas
las medias de muestra posibles de un tamaño n será igual a la
media de la población
Muestras
Muestras
tomadas a
partir de
una
distribucion
normal
Xi
Mediciones
1
X 11, X 21, X 31....... X n1
X1
2
X 12 , X 22 , X 32 ....... X n 2
X2
3
X 13 , X 23 , X 33....... X n3
X3
.
.
.
.
.
.
.
.
C
A
.

.
.
C
.
.
.
U
.
Y varianza
.
.
.
.
2
X 
.
L
L
.
O
.
S
Xm
m
TOTALES
m
.
.
Con media
imparcialidad
X 1m , X 2 m , X 3m ....... X nm
m
X
i 1
i
X
i 1
m
i
La eficiencia se refiere a la precisión de la muestra de
estadística como un estimador del parámetro de población
Para distribuciones como la normal, la Media Aritmética se
considera más estable de muestra a muestra que otras
mediciones de tendencia central
Para una muestra de tamaño n la media de la muestra se
acercará más en promedio a la media de la población que
cualquier otro estimador imparcial
Por lo tanto la media de la muestra es una mejor estimación de
la media de la población
La consistencia se refiere al efecto del tamaño de muestra sobre la
utilidad de un estimador
Al incrementarse el tamaño de muestra, la variación de la media de
muestra de la media de la población se hace más pequeña, de
manera que la media de la muestra se vuelve una mejor estimación
de la media de la población
MUESTREO DE
POBLACIONES NORMALES
Muestras
Muestras
tomadas a
partir de
una
distribucion
normal
Xi
Mediciones
S i2
Si
1
X 11, X 21, X 31....... X n1
X1
S12
S1
2
X 12 , X 22 , X 32 ....... X n 2
X2
S 22
S2
S3
3
X 13 , X 23 , X 33....... X n3
X3
S 32
.
.
.
.
.
.
.
.
.
.
.
.
.
.
C
A
.
.

.
.
C
.
.
.
.
U
.
.
Y varianza
.
.
.
.
.
.
.
.
Xm
S m2
Con media
2
L
L
O
S
m
TOTALES
X 1m , X 2 m , X 3m ....... X nm
m
Sm
m
m
X S S
i 1
i i 1
2
i
i 1
i


Si se toman muestras de una población normal con media
y una
desviación estándar conocida
la distribución de muestreo de la media
también tendrá una distribución normal con media  y una desviación
estándar denominada Error Estándar de la Media  x
E( X )  x  
Cada
observación X 1 , X 2 , X 3 ............ X n
en cada una de las muestras aleatorias tiene
entonces la misma distribución normal que
la población de la que se muestrea.
V (X )  
2
x
 
x
2
n
Error estándar de la media
n
En este caso el valor de la
variable z estándar se
calcula por:
z
z
x
x
x

n
Muestreo de poblaciones no normales
Teorema del Límite Central
Al hacerse lo bastante grande el tamaño de una muestra la distribución
de muestreo de la media puede aproximarse mediante la distribución
normal
Esto es cierto no importando la forma de la distribución de los valores
individuales de la población
Para la mayoría de las distribuciones de población, sin importar la forma,
la distribución de muestreo de la media tendrá una distribución
aproximadamente normal si se seleccionan muestras de al menos 30
observaciones
Si la distribución de población es lo bastante simétrica, la distribución de
muestreo de la media será aproximadamente normal si se seleccionan
muestras de al menos 15 observaciones
Si la población se distribuye normalmente, la distribución de muestreo de
la media se distribuirá normalmente sin importar el tamaño de la muestra
CUANTITATIVAMENTE EL TEOREMA DEL LIMITE CENTRAL SE
DESCRIBE POR:

Si
es la media de una muestra aleatoria de tamaño n tomada de una
población con media
y varianza 2, entonces la forma limite de la
distribucion de

n 
 2 

X  N   ,
n 

y
z
X 
x

Conforme
es la
distribucion normal estándar
n(z;0,1)
La aproximación es buena si
X 

n
n  30
Si n es menor de 30 la
aproximación será buena solo
si se sabe que la población
tiene una distribución normal
Suponga que a cada uno de los mecanógrafos que
comprenden una población de servicio de apoyo
secretarial de un departamento particular de una compañía
se le pidiera mecanografiar la misma página de un
manuscrito. El número de errores cometidos por cada
mecanógrafo fue el siguiente:
Mecanógrafo
Número de
Errores
Frecuencia
A
3
1
B
2
1
C
1
1
D
4
1
CALCULO DEL NUMERO PROMEDIO DE ERRORES Y SU VARIABILIDAD
  3  2 4 1  4  2.5errores
N
 

2
2
2
 (3  2.5)  ........  ( 4  2.5)
i 1
4
1.2544  1.12
 1.2544
La distribución de población se muestra en el siguiente grafico:
Número de Errores cometidos por una población de cuatro mecanógrafos
1.2
1
Mecanógrafos
0.8
0.6
Serie1
0.4
0.2
0
1
2
3
Núm ero de errores
4
Si se toman muestras de
tamaño
DOS
con
reemplazo se tienen los
siguientes
resultados,
mostrados en la tabla:
La media de las
muestras es:

Muestra
Mecanógrafos
Resultados
de muestra
Media
Muestral
1
A,A
3,3
3
2
A,B
3,2
2.5
3
A,C
3,1
2
4
A,D
3,4
3.5
5
B,A
2,3
2.5
6
B.B
2,2
2
7
B,C
2,1
1.5
8
B.D
2,4
3
9
C,A
1,3
2
10
C,B
1,2
1.5
11
C,C
1,1
1
12
C,D
1,4
2.5
13
D,A
4,3
3.5
14
D,B
4,2
3
15
D,C
4,1
2.5
16
D,D
4,4
4
3  2.5  2.....  4

 2.5errores
X
16
Si se toma una muestra de
tamaño DOS sin reemplazo se
tienen
los
siguientes
resultados, mostrados en la
tabla

Sin reemplazo
Muestra
Mecanógrafos
Resultados
de muestra
Media
Muestral
1
A,B
3,2
2.5
2
A,C
3,1
2
3
A,D
3,4
3.5
4
B,C
2,1
1.5
5
B.D
2,4
3
6
C,D
1,4
2.5
2.5  2.....  2.5

 2.5errores
X
6
Que se concluye al comparar los dos
resultados anteriores?
En ambos el valor de la media es igual, por lo
tanto se concluye que la Media Aritmética de
muestra es un estimador imparcial de la media
de la Población
Cálculo del Error Estándar de la Media
 
x
1.12

n
2
Si se extraen al azar muestras independientes de tamaño n1 y n2
de dos poblaciones discretas o continuas, con medias 1 y  2
2
2


y varianzas 1 y
2
respectivamente conocidas, entonces la
CASO 1
Suma de las distribución muestral de las diferencia de medias
X1  X 2
muestras
no excede a 30 esta distribuida aproximadamente de forma normal con media y
varianza dada por:

X1  X 2
 1   2
X1  X 2
2
2


 1  2
y

n1
n2
DONDE
z
( X 1  X 2 )  ( 1  2 )
 12   22
n1
n2
Es aproximadamente una variable normal estándar
Si se extraen al azar muestras independientes de tamaño n1 y n2
de dos poblaciones discretas o continuas, con medias 1 y  2
CASO 2
Suma de las
muestras
excede a 30
2

varianzas 1
2
y
y
respectivamente desconocidas,
2
entonces la distribución muestral de las diferencia de medias
X1  X 2
esta distribuida aproximadamente de forma normal con media y
varianza dada por:

X1  X 2
 1  2
z
DONDE
( X 1  X 2 )  ( 1   2 )
s12  S 22
n1
S x1  x2 
s12  S 22
n1
n2
n2
Es aproximadamente una variable normal estándar
Si se extraen al azar muestras independientes de tamaño n1 y n2
(cuya suma no excede a 30) de dos poblaciones discretas o
continuas, con medias 1 y  2
  
2
1 

 2 respectivamente desconocidas,
y varianzas  2 y
1
entonces la distribución muestral de las diferencias de las
medias
2
CASO 3
2
2
X1  X 2
esta distribuida con media y varianza dada por:
DONDE
X1  X 2
S x1  x2 
 1  2
(n1  1) S  (n2  1) S
n1  n2
2
1
2
2
1 1

n1 n2
t
( X 1  X 2 )  ( 1   2 )

1 1
Sp

n1 n2
(n1  1) S12  (n2  1) S 22
Sp 
n1  n2
Si se extraen al azar muestras independientes de tamaño n1 y n2
(cuya suma no excede a 30) de dos poblaciones discretas o
continuas, con medias 1 y  2
 12
CASO 4
 12   22

X1  X 2
2
y varianzas
y
respectivamente desconocidas,
2
entonces la distribución muestral de las diferencias de medias
X1  X 2
esta distribuida con media y varianza dada por:
t* 
 1  2
( X 1  X 2 )  ( 1   2 )
S12 S 22

n1 n2
DONDE

s12
S x1  x2 
s
2
1
v
2
2
S

n1 n2
con
n1

s22

2
n2
( s12 n )2 ( s22 n )2 
 n1 11  n 2 12 


Si n1 y n2 son mayores o iguales a 30 la aproximación normal
para la diferencia de medias es muy buena cuando las
distribuciones originales están cerca de la normal
Si n1 y n2 son menores a 30 la aproximación normal para la
diferencia de medias es muy buena cuando las distribuciones
originales están cerca de la normal
Si n1 y n2 son menores a 30 la aproximación normal para la
diferencia de medias NO es muy buena si las distribuciones
originales no son normales
Distribución de Muestreo de la Proporción
Se utiliza para variables categóricas
Cada sujeto u objeto se clasifica como poseedor o no de una característica
particular (masculino o femenino, satisfecho o no con su trabajo,)
A los dos resultados posibles se les puede asignar resultados de 1 y
0(cero) para representar la presencia o ausencia de la característica
En este caso la media muestral es la proporción de muestra ps, que tiene
la característica de interés, se define como:
X
numerodesucesos
ps  
n tamañodelamuestra
0  ps  1
Donde
ps
Es un estimador de la proporción de población p
ANALOGIA
La media de la muestra es un estimador de la media de la
población
La estadística ps
población
es un estimador de la proporción de la
La distribución de muestreo de la proporción en realidad sigue la
distribución BINOMIAL, sin embargo cuando np y n(1-p) son
cada uno al menos 5 se puede utilizar la distribución normal para
aproximar la distribución binomial.
En los casos de inferencias relacionadas con la proporción el
tamaño de muestra es lo bastante sustancial para usar la
aproximación normal
PROPORCION
DE EXITOS
ps  p
Z
p(1  p)
n
X
ps 
n
NUMERO DE
EXITOS
X  np
Z
np(1  p)
Error estándar de la Proporción

ps

p (1  p )
n
Nota importante: esta distribución sigue la distribución binomial, sin
embargo la distribución binomial puede usarse para aproximar la
distribución binomial cuando np y n(1-p) son cada uno al menos 5. En
ese caso se calcularía el valor de z por:
z
Donde p es la proporción de la
población
ps  p
p (1  p )
n
Ejemplo
El gerente de la sucursal local de un banco de ahorro ha determinado que
40% todos los depositantes tienen cuentas múltiples en el banco. Si se
selecciona aleatoriamente una muestra de 200 depositantes, cual es la
probabilidad de que la proporción muestra de depositantes con cuentas
múltiples esté entre 0.40 y 0.43
np  200 * 0.4  80
n(1  0.4)  200 * 0.6  120
Distribución de muestreo de
la proporción se puede
suponer normalmente
distribuida
0.40  0.4
z1 
0.4 * 0.6
200
z1  0
0.43  0.4
z2 
0.4 * 0.6
200
z 2  0.87
P(0  z  0.87)  0.3078
Muestreo de Poblaciones Finitas
El TLC y los errores estándar de la media y la proporción se han
basado en la premisa de que las muestras seleccionadas se eligieron
con reemplazo.
E casi toda investigación de encuesta, el muestreo es conducido sin
reemplazo de poblaciones que son de un tamaño finito N.
En estos casos cuando el tamaño de n no es pequeño comparado con
el tamaño de población N (se muestrea mas del 5% de la población),
de manera que n/N>0.05 debe usarse un factor de corrección de
población finita en la fórmula de la media como del error estándar de la
proporción
N es tamaño de la población
n es tamaño de la muestra
pcf 
N n
N 1
Muestreo de Poblaciones Finitas

 
x

ps

x
n
N n
N 1
p(1  p)
n
N n
N 1
MUESTREO A PARTIR DE UNA DISTRIBUCION DE BERNOULLI
La variable aleatoria X con fdp
p
P( X )  
(1  p)
X=1
X=0
Se llama variable aleatoria de Bernoulli
Si se toma una muestra aleatoria de n observaciones, entonces la
suma de de las observaciones muestrales
X  X 1  X 2  ............ X n
Tiene una distribucion binomial con parametros n y p
n
Su media muestral es
X
X
i 1
n
i
Es posible obtener la distribucion de
X
a partir de la distribucion binomial
a
P ( X  a )    p k (1  p ) n  k
n
i 0
X  p

2
X
p (1  p )

n
k
MUESTREO A PARTIR DE UNA DISTRIBUCION DE POISSON
Si se toma una muestra aleatoria de n observaciones, DE UAN
DISTRIBUCION DE Posiisn con parametro
entonces la suma de de

las observaciones muestrales
X  X 1  X 2  ............ X n
n
Tiene una distribucion poisson con parametro
n
La media de cada muestral es
X
X
i 1
n
i
n
e (n )
PX  a   P( X  an)  
x!
k 0
an
X  

2

x

n

x


n
x