Download Distribución muestral de

Document related concepts

Muestra estadística wikipedia , lookup

Estadístico muestral wikipedia , lookup

Muestreo (estadística) wikipedia , lookup

Prueba t de Student wikipedia , lookup

Corrección de Bessel wikipedia , lookup

Transcript
Tema.12. Inferencia estadística
Principales conceptos.
Muestreo. Distribución
muestral de un estadístico.
Principales distribuciones
muestrales.
Principales conceptos en inferencia estadística
Idea básica: Hacer inferencias sobre la población a
partir de la muestra que hemos extraído de la misma.
Ello nos lleva a tratar (brevemente) el tema del
muestreo. Pensemos que la muestra habrá de ser
representativa de la población, para que podamos
efectuar inferencias que tengan sentido.
Muestreo
Definición: Proceso que nos permite la extracción de
una muestra a partir de una población
Hay dos tipos básicos de muestreo:
1. Muestreo probabilístico. En este tipo de muestreo, la
probabilidad de aparición en una muestra de cualquier elemento
de la población es conocida (o calculable). Es el único
científicamente válido, y es sobre el que nos extenderemos
especialmente.
2. Muestreo no probabilístico. Es aquel en el que la selección de
los elementos de la muestra no se hacen al azar.
Muestreo probabilístico
Este muestreo garantiza que, a la larga, las muestras que se van
obteniendo de la población sean representativas de la misma. Vamos a
ver varios tipos de muestreo probabilístico.
1. Muestreo aleatorio simple
2. Muestreo estratificado
3. Muestreo por conglomerados
4. Muestreo por etapas (o polietápico)
5. Muestreo sistemático (?)
Muestreo probabilístico
1. Muestreo aleatorio simple
Es aquel en el que, a priori, todos los elementos de la muestra tienen la
misma probabilidad de aparición.
Supongamos que tengamos una población de 50.000 individuos, y que
tenemos un listado con sus nombres. Si queremos elegir 100 personas,
lo que necesitamos es que el ordenador elija al azar a 100 individuos de
esos 50.000.
Muestreo probabilístico
2. Muestreo estratificado
En el muestreo estratificado, los investigadores han de
dividir a los sujetos en diferentes subpoblaciones (o
estratos), en función de cierta característica relevante, y
después lo que hacen es un muestro aleatorio simple de
cada estrato.
Evidentemente, cada individuo debe pertenecer a un estrato
(y solo uno), y cada individuo del estrato habrá de tener la
misma probabilidad de ser escogido como parte de la
muestra.
Ejemplo: Supongamos que, en Valencia, 70% de los niños de
primaria van a escuela pública y el 30% a concertada. Si
queremos 1,000 niños, lo que haremos es dividir los
alumnos en 2 estratos (pública y concertada) y se eligen
aleatoriamente 700 niños de la pública y aleatoriamente 300
de la concertada.
Muestreo probabilístico
3. Muestreo por conglomerados
En el muestreo por conglomerados, en lugar de considerar
cada elemento de la población, lo que consideramos son
“conglomerados de elementos”. El proceso es elegir
aleatoriamente uno o varios conglomerados y la muestra
estará formada por TODOS los elementos de los
conglomerados.
Ejemplos:
-En las encuestas durante las elecciones, los
conglomerados pueden ser las mesas electorales, y lo que
se hace es escoger algunas mesas al azar (y de ahí se toman
todos los votos de las mesas seleccionadas).
-En otros ejemplos, los conglomerados pueden ser los
bloques de viviendas, los municipios, etc.
Muestreo probabilístico
4. Muestreo por etapas
En este caso se combina el muestreo aleatorio
simple con el muestreo por conglomerados:
Primero se realiza un muestreo por conglomerados (v.g., si
los conglomerados son colegios en Valencia, se seleccionan
aleatoriamente varios de ellos).
Segundo, no se eligen todos los alumnos (como ocurriría en
un muestro por conglomerados), sino que se elige una
muestra aleatoria. (Dicha muestra puede ser obtenida por
muestreo aleatorio simple o puede ser estratificado.)
Es decir, hemos tenido 2 etapas de muestreo. Y claro está,
es posible tener más de 2 etapas...
Muestreo probabilístico
5. Muestreo aleatorio sistemático
Supongamos que tengamos una lista de N elementos
(e.g., estudiantes de secundaria) y queramos una
muestra de tamaño “n”. En este caso, lo que se hace
es ordenarlos (v.g., en función de los apellidos) y
después se elige aleatoriamente un elemento entre los
N/n=k primeros, y luego se elige de manera sistemática
el que esté k lugares después del primer elemento, y
así sucesivamente.
Ejemplo: Tenemos 10000 estudiantes (en una lista) y
queremos obtener una muestra de 100 estudiantes.
Primero elegimos al azar un estudiante entre los
10000/100=100 primeros (supongamos que salga el
26), el segundo elemento será el estudiante 100+26
(126), el siguiente será el 226, luego el 326, etc.
Muestreo no probabilístico
1. Muestreo sin norma (o de conveniencia)
Se elige a una muestra por ser conveniente, fácil,
económica. Pero no se hace en base a un criterio de
aleatoridad.
Ejemplo: las encuestas en los periódicos
electrónicos; el muestreo habitual en los trabajos en
psicología.
2. Muestreo intencional
En este caso, si bien el muestreo no es
probabilístico, los investigadores procuran que se
garantice la representatividad de la muestra
Distribución muestral de un estadístico
Supongamos que tenemos una variable aleatoria,
cuya distribución es f(x)
Supongamos, por simplicidad, que obtenemos una
muestra aleatoria simple con tamaño n
X1, X2, ... Xn
Entonces, un estadístico es cualquier función h
definida sobre X1, X2, ... Xn y que no incluye parámetro
desconocido alguno:
Y=h(X1, X2, ... Xn)
La distribución de dicho estadístico Y la vamos a denominar g(y)
Distribución muestral de un estadístico
Observad:
f(x) es la distribución de la v.a. bajo estudio
g(y) es la distribución del estadístico que tenemos
Es vital conocer la distribución muestral del
estadístico de interés para poder efectuar
inferencias sobre el parámetro correspondiente.
Esto es, para efectuar inferencias sobre la media
poblacional m, necesitamos conocer la distribución
muestral de X
Distribución muestral de la media
Veremos primero el caso de que la distribución
subyacente sea normal, con media m y varianza  2
La media de la distribución muestral de medias es
La varianza de la distribución muestral de medias es
La forma de la distribución muestral de la media es normal.
Nota: La desviación típica de la distribución muestral suele ser denominada:
error típico de tal estadístico (v.g., “error típico de la media”, etc.)
m
2 /n
Distribución muestral de la media. Ejemplo 1
Distribución poblacional
subyacente (dist. Normal):
400
La línea (en este y sucesivos ejemplos) es una curva
normal
Media=100
(Varianza=225)
300
Desv.Típica=15
200
100
Desv. típ. = 4.75
Media = 99.9
N = 3600.00
0
Distribución muestral de la
media:
Tamaño muestral=10
0
6.
11 .0
4
11 .0
2
11 .0
0
11 .0
8
10 .0
6
10 .0
4
10 .0
2
10 .0
0
10
.0
98
.0
96
.0
94
.0
92
.0
90
.0
88
.0
86
.0
84
.0
82
Media=100
(Varianza=225/10=22.5)
N10
En este y sucesivos gráficos: Número de réplicas
Desv.típica= 22.5  4.74
Distribución muestral de la media. Ejemplo 2
Distribución poblacional
subyacente (dist. Normal):
500
Media=100
Desv.Típica=15
400
300
200
Distribución muestral de la
media:
100
Desv. típ. = 3.36
Tamaño muestral=20
Media = 100.0
N = 3600.00
0
0
4.
11
0
2.
11
0
0.
11
0
8.
10
0
6.
10
0
4.
10
0
2.
10
0
0.
10
.0
98
.0
96
.0
94
.0
92
.0
90
.0
88
N20
Media=100
(Varianza=225/20=11.3)
Desv.típica=3.35
Distribución muestral de la media. Ejemplo 3
Distribución poblacional
subyacente (dist. Normal):
700
Media=100
600
Desv.Típica=15
500
400
300
Distribución muestral de la
media:
200
Desv. típ. = 2.12
100
Media = 99.95
N = 3600.00
25
9.
10
25
7.
10
25
5.
10
25
3.
10
5
.2
99
5
.2
97
5
.2
95
5
.2
93
N50
25
1.
10
0
Tamaño muestral=50
Media=100
(Varianza=225/50=4.5)
Desv.típica=2.12
Distribución muestral de la media
Veremos ahora el caso de que la distribución
subyacente sea arbitraria, si bien sabemos que la
media es m y la varianza sea  2
La media de la distribución muestral de medias es
m
La varianza de la distribución muestral de medias es  2 / n
La forma de la distribución muestral de la media TAMBIÉN tiende a ser normal.
En concreto, la distribución muestral se acercará más y más a la distribución
normal (media m y varianza 2/n) a medida que se aumente el tamaño de cada
muestra.
Distribución muestral de la media. Ejemplo 4
La distribución GAMMA tiene 2 parámetros:
Distribución poblacional
subyacente (dist. GAMMA):
Media=100=
p
l

l que es un parámetro de escala (1)
100
 100
1
p que es un parámetro de forma (100)
Varianza=100= p2  100
 100
2
l
1
0.045
0.04
0.035
0.03
0.025
0.02
0.015
0.01
0.005
0
80
85
90
95
100
105
110
115
120
Distribución muestral de la media. Ejemplo 4
Distribución poblacional
subyacente (dist. GAMMA):
500
Media=100
Varianza=100
400
300
200
Distribución muestral de la
media:
100
Desv. típ. = 3.12
Tamaño muestral=10
Media = 100.0
N = 3600.00
0
0
0.
11
0
8.
10
0
6.
10
0
4.
10
0
2.
10
0
0.
10
.0
98
.0
96
.0
94
.0
92
.0
90
DISGAMMA
Media=100
(Varianza=100/10=10)
Desv.típica= 10  3.16
Distribución muestral de la media. Ejemplo 5
Distribución poblacional (dist.
EXPONENCIAL):
La distribución EXPONENCIAL tiene 1
parámetro: l (en el ejemplo: 10)
Media=0.1=1/l
Varianza=0.01=1/l2
12
10
8
6
4
2
0
0
0.1
0.2
0.3
0.4
0.5
0.6
Ejemplo de distr.exponencial en psicología: v.g., tiempo transcurrido entre 2
pulsaciones de una rata en una caja de Skinner.
Distribución muestral de la media. Ejemplo 5a
Distribución poblacional (dist.
EXPONENCIAL):
400
Media=0.1=1/l
Varianza=0.01=1/l2
300
200
100
Desv. típ. = .03
Media = .100
N = 3600.00
0
44
.2
31
.2
19
.2
06
.2
94
.1
81
.1
69
.1
56
.1
44
.1
31
.1
19
.1
06
.1
94
.0
81
.0
69
.0
56
.0
44
.0
31
.0
EXPON10
Observad que la dist. muestral se aproxima a la normal
Distribución muestral de la
media:
Tamaño muestral=10
Media=.100
(Varianza=0.01/10=.001)
Desv.típica=.03
Distribución muestral de la media. Ejemplo 5b
500
Distribución poblacional (dist.
EXPONENCIAL):
400
Media=0.1=1/l
Varianza=0.01=1/l2
300
200
100
Desv. típ. = .02
Media = .099
N = 3600.00
0
94
.1
81
.1
69
.1
56
.1
44
.1
31
.1
19
.1
06
.1
94
.0
81
.0
69
.0
56
.0
44
.0
EXPON20
Observad que la distribución muestral se aproxima
más a la normal (al elevar el tamaño muestral).
Distribución muestral de la
media:
Tamaño muestral=20
Media=.100
(Varianza=0.01/20=.0005)
Desv.típica=.022
OTRAS DISTRIBUCIONES MUESTRALES (1)
Distribución muestral de
X m
s/ n
Cuando la distribución de la que obtenemos las medias muestrales es
gaussiana (“distr.normal”), la expresión anterior se distribuye según la
distribución t de Student con tn-1 grados de libertad. (Esta distribución es
básica para efectuar inferencias entre dos medias.)
Distribución muestral de
s12
2
2
s
Asumiendo varianzas
poblacionales iguales
Cuando las distribuciones de la que obtenemos las varianzas
muestrales son gaussianas, la expresión anterior se distribuye según la
distribución F de Fisher con n1-1 grados de libertad en el numerador y
n2-1 grados de libertad en el denominador. (Recordad que la distribución
F es básica para la razón de varianzas: ANOVA.)
OTRAS DISTRIBUCIONES MUESTRALES (2)
Distribución muestral de ns 2 /  2
Cuando las distribución de la que obtenemos la varianza muestral es
gaussiana, la anterior expresión se distribuye según la distribución chicuadrado con n-1 grados de libertad.