Download Capítulo 7: Distribuciones muestrales

Document related concepts
no text concepts found
Transcript
Capítulo 7: Distribuciones muestrales
Recordemos:
Parámetro es una medida de resumen
numérica que se calcularía usando todas
las unidades de la población.
Es un número fijo.
Generalmente no lo conocemos.
Estadística es una medida de resumen
numérica que se calcula de las unidades
de la muestra.
El valor de la estadística se conoce
cuando tomamos una muestra,
pero varia de muestra en muestra variación muestral
Inferencia estadística: es el proceso de
sacar conclusiones de la población
basados en la información de una muestra
de esa población.
Objetivos de la inferencia:
estimación de parámetros,
intervalos de confianza y
docimasia, test de hipótesis o pruebas
de significación estadística.
Distribuciones muestrales
Una estadística muestral proveniente de
una muestra aleatoria simple tiene un
patrón de comportamiento (predecible) en
repetidas muestras. Este patrón es
llamado la distribución muestral de la
estadística.
Si conocemos la distribución muestral
podemos hacer inferencia.
Las distribuciones muestrales adoptan
diferentes formas según las estadísticas
investigadas y las características de la
población estudiada.
7.1 Distribución muestral
de una
proporción muestral
La distribución muestral de la
proporción muestral es la distribución
de los valores de las proporciones
muestrales de todas las posibles muestras
del mismo tamaño n tomadas de la
misma población.
Suponga que estamos interesados
en conocer la proporción de mujeres en
Chile. Nuestro parámetro de interés
es:
número de mujeres en Chile
P=
número de habitantes en Chile
La población es demasiado grande. Hacer un
censo sería demasiado caro. Decidimos
estimar el verdadero parámetro a partir de
una muestra.
La proporción muestral sería:
número de mujeres en la muestra
pˆ =
tamaño de la muestra
Supongamos que sabemos que P = 0,5 ¿Qué
pasa si tomamos una muestra tamaño n = 20 ?
Muestra #1:
HMHHHMMMHHHMHMMHHMHM
Proporción de mujeres p$ =9/20=0,45
Muestra #2:
MMHMHMMHHHHMHHMMMHMM
Proporción de mujeres p$ =11/20=0,55
Muestra #3:
HHMMMHHMHMHMHMMHHMMH
Proporción de mujeres p$ =10/20=0,50
En la práctica el investigador toma una
muestra. El conocimiento de la
distribución muestral nos servirá de base
teórica para hacer inferencia estadística.
Para conocer la distribución muestral de
una estadística deberíamos considerar
todas las posibles muestras de un tamaño
n, de una población.
En la práctica, podemos simular la
distribución muestral aproximada o
empírica, de la siguiente manera:
1. Seleccione
"muchas"
muestras
aleatorias de mismo tamaño de una
población.
2. En cada muestra calcule el estadístico
muestral
3. Determine la distribución muestral
aproximada
Recuerden que al analizar
distribución nos interesa:
una
1. Forma (simétrica o sesgada)
2. Posición central - la media de una
distribución muestral nos dice si el
estadístico es un "buen" (insesgado)
estimador del parámetro o es sesgado.
3. Dispersión - nos da una idea del error
de muestreo.
¿cuál es la proporción de números
pares de la tabla de números aleatorios?
Usando tabla de números aleatorios.
Asumamos que el 50% de la población es
par, es decir P = 0,5
Vamos a tomar 50 muestras de tamaño
n = 4 de esta población.
Seleccionamos un punto de partida y
elegimos 4 números.
Supongamos que el punto de partida es Fila
20:
columna
fila
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
1-5
6-10
10480
22368
24130
42167
37570
77921
99562
96301
89579
85475
28918
63553
09429
10365
07119
51085
02368
01011
52162
07056
48663
54164
32639
29334
02488
81525
29676
00742
05366
91921
00582
00725
69011
25976
09763
15011
46573
48360
93093
39975
06907
72905
91977
14342
36857
69578
40961
93969
61129
97336
12765
21382
54092
53916
97628
91245
58492
32363
37001
33062
72295
20591
57392
04213
26418
04711
69884
65795
57948
83473
11-15
01536
25595
22527
06243
81837
11008
56420
05463
63661
53342
88231
48235
52636
87529
71048
51821
52404
33362
46369
33787
85828
22421
05597
87637
28834
04839
68086
39064
25669
64117
87917
62797
95876
29888
73577
16-20
02011
85393
97265
61680
16656
42751
69994
07972
10228
53988
33276
03427
92737
85689
08178
51259
60268
94904
58586
09998
14346
74103
24200
87308
07351
96423
26432
66432
26422
94305
77341
56170
55293
88604
12908
21-25
81647
30995
76393
07856
06121
27756
98872
18876
17453
53060
70997
49626
88974
48237
77233
77452
89368
31273
23216
42698
09172
47070
13363
58731
19731
24878
46901
84673
44407
26766
42206
86324
18988
67917
30833
26-30
91646
89198
64809
16376
91782
53498
31016
20922
18103
59533
79936
69445
33488
52267
13916
16308
19885
04146
14513
06691
30168
25306
38005
00256
92420
82651
20849
40027
44048
25940
35126
88072
27354
48708
18317
31-35
69179
37982
15179
39440
60468
18602
71194
94595
57740
38867
56865
18663
36320
67689
47564
60756
55322
18594
83149
76988
90229
76468
94342
45834
60952
66566
89768
32832
37937
39972
74087
76222
26575
18912
28290
36-40
14194
53402
24830
53537
81305
70659
18738
56869
84378
62300
05859
72695
17617
93394
81056
92144
44819
29852
98736
13602
04734
26384
28728
15398
61280
14778
81536
61362
63904
22209
99547
36086
08625
82271
35797
41-45
62590
93965
49340
71341
49684
90665
44013
69014
25331
08158
90106
52180
30015
01511
97735
49442
01188
71585
23495
51851
59193
58151
35806
46557
50001
76797
86645
98947
45766
71500
81817
84637
40801
65424
05998
46-50
36207
34095
32081
57004
60672
15053
48840
60045
12566
17983
31595
20847
08272
26358
85977
53900
65255
85030
64350
46104
22178
06646
06912
41135
67658
14780
12659
96067
66134
64568
42607
93161
59920
69774
41688
51-55
20969
52666
30680
00849
14110
21916
63213
18425
58678
16439
01547
12234
84115
85104
29372
70960
64835
51132
94738
88916
30421
21524
17012
10367
32586
13300
92259
64760
75470
91402
43808
76038
29841
33611
34952
56-6
995
191
196
749
069
818
210
849
449
114
855
905
271
202
744
639
449
019
177
195
616
152
641
076
866
870
571
645
665
424
766
658
801
542
378
Resultados si el punto de partida es Fila 20:
Muestra Estadístico
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
0705
6976
2833
7870
9998
4269
8066
9176
9881
3602
5185
1461
0488
9161
9509
2562
5581
0448
6639
1245
8582
8143
4609
1723
0168
2/4
4/4
2/4
2/4
1/4
3/4
4/4
1/4
2/4
3/4
1/4
2/4
4/4
1/4
1/4
3/4
1/4
4/4
2/4
2/4
3/4
2/4
3/4
1/4
3/4
Muestra Estadístico
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
9022
9047
3459
1932
2178
3042
1616
6699
9043
2812
5416
4584
9222
4217
4103
4707
0253
0676
4682
6384
5815
1066
4621
5241
5227
3/4
2/4
1/4
1/4
2/4
3/4
2/4
2/4
2/4
4/4
2/4
3/4
3/4
2/4
2/4
2/4
2/4
3/4
4/4
3/4
1/4
3/4
3/4
2/4
2/4
Tabla:
Número de
pares
Proporción
muestral
Frecuencia
0
1
2
3
4
Total
0/4 = 0,00
1/4 = 0,25
2/4 = 0,50
3/4 = 0,75
4/4 = 1,00
0
10
20
14
6
Proporción de
todas las
muestras
a) ¿Cuál fue la proporción más frecuente?
b) Dibuje la distribución
empírica. ¿Qué forma tiene?
muestral
Cada vez que tomamos una muestra tenemos
una estimación para el parámetro P .
Estas estimaciones varían entre muestras variación muestral
Se puede demostrar que si tomamos una
m.a.s. de tamaño n de una población con
parámetro P , la desviación estándar de p$
σ pˆ =
P(1 − P)
n
es:
que depende de la verdadera proporción
del tamaño muestral n .
P
y
Si el tamaño muestral es n = 4 y la
proporción en la población es P = 0,5
entonces la desviación estándar de p$ es:
σ pˆ =
P (1 − P )
0,5(1 − 0,5)
=
= 0,25
n
4
¿Que pasa si aumentamos el tamaño muestral?
¿Que pasa con P ? ¿Cómo afecta el valor de
P en la desviación estándar?
P(1-P)
P P(1-P)
0,1 0,09
0,2 0,16
0,3 0,21
0,4 0,24
0,5 0,25
0,6 0,24
0,7 0,21
0,8 0,16
0,9 0,09
0.3
0.25
0.2
0.15
0.1
0.05
0
0
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
P
1
Sesgo y Precision
Cuando estimamos un parámetro de la
población a partir de una estadística
muestral, nos va a interesar que la
estimación no tenga sesgo y sea precisa.
La figura ilustra la diferencia entre sesgo y
precisión.
Distribución muestral de
una proporción
Si P representa la proporción de elementos
en una población con cierta característica de
interés, es decir, la proporción de “éxitos”,
donde “éxito” corresponde a tener la
característica.
Si sacamos muestras aleatorias simples de
tamaño n de la población donde la
proporción de “éxitos” es P , entonces la
distribución muestral de la proporción
muestral tiene las siguientes propiedades:
1. El promedio de todos los valores
posibles de p$ es igual al parámetro P . En
otras palabras, p$ es un estimador insesgado
de P .
µ =P
p̂
2. Error estándar de la proporción
muestral: Es la desviación estándar de las
posibles proporciones muestrales y mide
la dispersión de la proporción muestral.
σ pˆ =
P(1 − P)
n
3. Si n es “suficientemente” grande, la
distribución de la proporción muestral es
aproximadamente Normal:
P (1 − P )
)
pˆ ~& N ( P,
n
cuando nP ≥ 5 y n(1-P) ≥ 5
Sangre
En Chile el 5,3% de la población tiene sangre factor
Rh(-). En una muestra aleatoria de 400 sujetos de esa
población, se encuentra que un 8,8% tiene factor
Rh(-).
a) ¿cuál es el valor del parámetro?
b) ¿cuál es el valor de la estadística?
c) ¿Cuál es la probabilidad de que en una nueva
muestra aleatoria de
tamaño 400 de esa
población contenga al menos un 8,8% de
personas con sangre factor Rh(-)?
P( p̂ ≥ 8,8) =
d) Suponga que se toma una muestra aleatoria
simple de tamaño 10 de la misma población.
Queremos calcular la probabilidad de que 8,8%
o más tenga sangre factor Rh(-).
Distribución muestral de la
media muestral
La distribución muestral de la media
muestral es la distribución de los valores de
las medias muestrales de todas las posibles
muestras del mismo tamaño n tomadas de la
misma población.
Considere una población cuya variable
aleatoria X es discreta y con la siguiente
distribución:
La media de la población es µ =
Suponga que no conocemos la población o el
valor de µ . Podemos tomar una m.a.s. de
tamaño n=2 de esta población.
¿Cuál sería una muestra de tamaño n=2 de esta
población?
¿Cuál sería la media muestral?
¿Es igual a la media de la población?
Si tomamos otra muestra de tamaño n=2,
¿obtendríamos la misma media muestral?
Distribución muestral de la media muestral
Si sacamos muestras aleatorias de tamaño n de
una población con media µ y desviación
estándar σ, entonces la distribución muestral de
la media muestral tiene las siguientes
propiedades:
1.El promedio de todos los valores posibles de
medias muestrales es igual al parámetro µ. En
otras palabras, la media muestral X es un
estimador insesgado de µ.
µ =µ
x
2. Error estándar de la media muestral: Es la
desviación estándar de las posibles medias
muestrales.
σ =
x
σ
n
El error estándar disminuye si el tamaño de la
muestra aumenta.
3.Si la población original tiene distribución
Normal, entonces para cualquier tamaño
muestral n la distribución de la media
muestral es también Normal:
Si X ~ N ( µ , σ ) ⇒ x ~ N ( µ , σ
n
)
4.Si la población de origen no es Normal,
pero n es “suficientemente” grande la
distribución de la media muestral es
aproximadamente Normal:
N ( µ , σ ) ⇒ x ~& N ( µ , σ
Aún si X no es:
n
)
Nota:
- Un tamaño de 30 es considerado suficiente.
- El resultado en (4) se conoce como el
Teorema del Límite Central.
Suponga que X = peso de carga de
camionetas en kilos, tiene distribución
normal con media = 300 k y varianza = 25.
Se toma una muestra aleatoria de 25
camionetas cargadas y se calcula la media
muestral.
Esquema de las distribuciones de la variable
aleatoria X y de la media muestral:
Distribution of X
N(300, 1 )
Distribution of X
N(300,25)
285
290
295
µ =30
300
305
310
315
Suponga que X = la edad de las madres
en los nacimientos en Chile el año 1995,
tiene distribución normal con media = 26,5
años y desviación estándar 6,3 años.
a) Describa la distribución de la edad de la
madre.
b) ¿Cuál es la probabilidad de que una
madre elegida al azar tenga más de 30
años?
c) Suponga que tomamos una muestra
aleatoria de n=25 madres ¿cuál es la
probabilidad de que la media muestral
sea mayor a 30?
d) ¿porqué las respuestas en (b) y (c) son
distintas?