Download Uso del Diseño y Estimadores Básicos en Muestras Complejas

Document related concepts

Error cuadrático medio wikipedia , lookup

Corrección de Bessel wikipedia , lookup

Estimador wikipedia , lookup

Estimador insesgado de varianza mínima wikipedia , lookup

Sesgo estadístico wikipedia , lookup

Transcript
Instituto Nacional de Estadística
y Geografía
Uso del Diseño y Estimadores
Básicos en Muestras Complejas
Jaime Mojica Cuevas
Agosto 2010. Panamá
ESTIMADORES BÁSICOS EN ENCUESTAS
COMPLEJAS
Ya sabemos que un estimador θ̂ de un parámetro
poblacional
es sencillamente una variable aleatoria
unidimensional. Por lo cual nos interesarán sus
características
de
centralización
y
dispersión,
particularmente, su esperanza, su varianza y sus
momentos, así como otras medidas relativas a su
precisión.
Se define la varianza del estimador θ̂ del parámetro
poblacional θ a través de la siguiente expresión:
 
 
ˆ Eθ
ˆ E θ
ˆ
Vθ
2
    
ˆ  Eθ
ˆ
Eθ
2
2
Se define el sesgo del estimador θ̂ del parámetro
poblacional θ como:
 
ˆ Eθ
ˆ θ
Bθ
La precisión de un estimador se mide a partir del error
cuadrático medio:
 


  
ˆ Eθ
ˆ θ Eθ
ˆ E θ
ˆ E θ
ˆ θ
ECM θ
2


ˆ)  Β(θ
ˆ)
 Var(θ
2
2
Por lo tanto la precisión (error cuadrático medio) de un
estimador se descompone en la suma del cuadrado del
error de muestreo y el cuadrado del sesgo. De esta
forma se pueden representar las tres magnitudes en un
triángulo rectángulo cuyos catetos son σ θˆ y B θˆ y cuya
hipotenusa es ECM θˆ de la forma siguiente:

 
En esta figura se observa que la contribución del sesgo y la
desviación típica a ECM(θˆ) viene dada por la tangente del ángulo 
que ha de ser lo más pequeña posible para minimizar la raíz
cuadrada de la precisión.
Pero tenemos que
tan( ) 
B(ˆ)
,
 (ˆ)
de tal forma que entre menor sea
este cociente menos influyentes serán el sesgo y la desviación
típica en la raíz cuadrada de la precisión, o lo que es lo mismo, la
influencia del sesgo es menor cuanto menor sea el cociente.
Referencia 1
En la práctica se considera que el sesgo no es influyente
B(ˆ) 1

cuando  (ˆ) 10 .
Por otra parte, ya sabemos que a menor contribución del
sesgo a ECM(θˆ) mayor contribución de  (ˆ) .
Para comparar en cuanto a precisión varios estimadores θ̂i
unos sesgados .y otros insesgados del parámetro poblacional
θ , se utilizará el error cuadrático medio. Y el estimador más
preciso será el que menor error cuadrático medio presente.
A veces, ante las dificultades de cálculo del error
cuadrático medio se utiliza el coeficiente de variación


 
σ θˆi
ˆ
CV θi 
E θˆi
, siendo más preciso el estimador con menor
coeficiente de variación (error relativo).
Si
los
estimadores


sesgados
tienen
todos
sesgo
B θˆi
1

despreciable, σ θˆi
10 , se haría la comparación global

como insesgado de acuerdo a los valores de σ θˆi .
El coeficiente de variación presenta la ventaja de ser una
medida relativa, por lo que se utilizará asiduamente el
coeficiente de variación para comparar precisiones y
calcular ganancias o pérdidas en precisión.
RAZONES
El estimador de razón es uno de los estimadores
sesgados que mas se emplea en las encuestas
complejas.
El estimador de razón de R obtenido con base en una
muestra por muestreo aleatorio
simple “mas” es:
n
Rˆ 
y
i
i 1
n
x

y
x
i
i 1
Y resulta ser sesgado. El promedio de los posibles valores
de R̂ al repetir muchas veces el muestreo no es R, es
decir,
E Rˆ  R,
 B Rˆ  E Rˆ  R  0,

 
BRˆ  es el sesgo de
R̂
Sin embargo está bastante cerca de R.
Resulta que R̂ es un estimador consistente, lo que quiere
decir es que si n se hace grande R̂ se acerca más y más a
ˆ  R.
R
R, es decir, nlim


E Rˆ es el valor del promedio señalado, entonces se
puede demostrar Des Raj (1984) la siguiente desigualdad
página 101:


B Rˆ  C.V.x  V Rˆ
O bien (sesgo de R̂ estandarizado),

 C.V.x 
V Rˆ 
B Rˆ
El lado izquierdo es el sesgo de R̂ dividido entre su
desviación estándar. El lado derecho es el coeficiente de
variación de x , de manera que lo que se hace
usualmente es tomar la muestra de modo que CV x  sea
pequeño.
Un valor frecuente es hacer que C.V.x  sea 0.1 o menor.
Para ver el efecto del sesgo en la probabilidad de
cobertura de los intervalos con 95% de confianza, se


 
 





tiene que si I  ˆθ 1.96 Vˆθ  ,ˆθ 1.96 Vˆθ   ,


 
  
entonces,

B θˆ
0.00
0.01
0.03
0.05
0.07
0.09
0.10
0.20
0.30
0.50
0.70
0.90
1.00
  P  θ I 
V θˆ
0.9500
0.9500
0.9499
0.9497
0.9494
0.9491
0.9489
0.9454
0.9396
0.9210
0.8923
0.8533
0.8300
Fuente: Des, Raj, “Teoría del
muestreo”.
De lo anterior se puede ver que a medida que aumenta la
ˆ)
B(
θ
relación del sesgo
con respecto a la desviación
ˆ)
V(
θ
estándar
disminuye la probabilidad de cobertura del
intervalo de confianza. En el caso de tener valores para
B(θˆ )
V(θˆ )
menores a 0.1 la probabilidad se mantiene muy
próxima al 0.95 que es el caso en el que no existe sesgo.
B(θˆ )
Aún más, para valores de V(θˆ ) menores o iguales a 0.2
no son tan lejanos a 0.95, de hecho, la probabilidad
disminuye a 0.9454.
Por lo anterior, es conveniente que
B(ˆθ)
tolerable si
V(ˆθ)
 0.2
B(ˆθ)
V(ˆθ)
 0.1
,
pero
, para cubrir con las expectativas
de la probabilidad.
Por otro lado recuerde que,
B(Rˆ )
V(Rˆ )
 C.V. X 
De aquí que se pida un coeficiente de variación pequeño,
a decir, C.V. X  < 0.2;
La expresión para calcular el sesgo del estimador de
razón es:
B(R)  sesgo 
R Var(x) - cov(x, y)
x2
Leslie Kish
Interpretación del Coeficiente de Variación.
1. Si el C.V(x) < 10%, la información se considera muy
aceptable.
2. Si el C.V(x) ESTA ENTRE 10 Y 20% la información se
considera aceptable.
3. Si el C.V(x) es mayor de 20%, la información se
considera no aceptable.
ESTIMADOR DE RAZÓN APLICADO EN ENCUESTAS
COMPLEJAS
a) Totales
L
nh'
h 1
i 1
ˆ
Y    w hi y hi ,
'
n'h
n
2
h
ˆ


var Y   '
 y hi  y h 
h 1 n
 1 i 1
h
L
Donde:
w hi = factor de expansión (inverso de la
y hi
probabilidad de selección) de la i-ésima
UPM, del h-ésimo estrato.
= valor observado en la i-ésima UPM, del hésimo estrato.
b) Media de razón
ˆ
yw 
Varianza
L
nh'
h 1
i 1
  w hi y hi
L
nh'
h 1
i 1
  w hi
ˆ
Y

w
nh'
nh'
nh'  nh'
2
2
2

y hi  y h   ˆy w  w hi  w h   2ˆy w  y hi  y h w hi  w h 
 '


h 1 n  1  i 1
i 1
i 1

h
Var ˆy w  
w2
L
L
nh'
h 1
i 1
w    w hi
Como guía práctica es conveniente asegurarse que el
C.V.(W) < 20% antes de utilizar la expresión del calculo de
la varianza.
c) Proporciones
nh'
L
ˆ
p 
  w hi y hi
h 1 i 1
nh'
L
  w hi
ˆ
Y

,
w
y hi
1 si tiene la caracterís tica
 
0 si no la tiene
h 1 i 1
nh'
 '
h 1 n

h
L
varˆp  
nh'
nh'
 nh'

2
2
ˆ
ˆ







y

y

p
w

w

2
p
y

y
w

w
 hi
 hi
 hi
h
h
h
hi
h 

i

1
i

1
i 1
1

w2
2
Como guía práctica es conveniente.
d) Razones
L
ˆ 
R
nh'
  w hi y hi
h 1
L
i 1
nh'
h 1
i 1
  w hi y hi
ˆ
Y

ˆ
X
2
n'h
n'h
n'h  L
2
2
ˆ  x hi  x h   2 R  y hi  y h x hi  x h 

y hi  y h   R
 '


h 1 n
i 1
i 1
 1  h  1
h
ˆ
var R  
ˆx 2
L
En la grafica el grado de concentración de las estimadas
de la muestra en torno del valor que se busca (co) es
mayor para la distribución B que para la distribución U,
aunque B no tiene su centro en co y si U. La probabilidad
de que las estimadas de la muestra queden comprendidas
en el intervalo (a,b) es mucho mayor en el caso de B que
en el U. En esas condiciones es preferible el estimador
sesgado al insesgado.
Estimadores sesgados e insesgados
ANÁLISIS DE LAS ENCUESTAS
Para realizar el análisis de los datos de una encuesta
puede emplear cualquier técnica estadística de entre
un amplio rango, a continuación daremos solo algunas
consideraciones especiales involucradas en el análisis
de datos a partir de un diseño complejo de muestreo.
Ir a documento metodológico
FACTORES DE EXPANSIÓN (PONDERADORES)
Los factores de expansión se usan para asignar una
mayor importancia relativa a algunos
elementos
muestreados en el análisis de la encuesta; los factores
son necesarios cuando los elementos muestreados se
seleccionan con probabilidades desiguales, también se
usan en la postestratificación y para hacer ajustes a la
no respuesta, realmente los factores de expansión
cargan con todos los ajustes y de manera implícita
también con el diseño de muestreo, es por eso que los
factores de expansión son muy importantes en
cualquier análisis de encuestas.
Para ilustrar una aplicación de este procedimiento de
ponderación, hemos considerado una pequeña
encuesta de ejemplo, la cual se describe a
continuación.
DISEÑO DE LA ENCUESTA
Esta encuesta esta diseñada para obtener resultados de
algunas variables de población y principalmente de tipo
económico. El diseño muestral de la encuesta es
probabilístico,
estratificado,
bietápico
y
por
conglomerados.
Para la mayoría de los ejemplos se usara la información
de esta pequeña encuesta levantada en una pequeña
localidad del estado de Jalisco.
El tamaño de muestra fue de 45 viviendas,
seleccionadas en 15 unidades primarias de muestreo
(UPM), distribuidas en tres estratos. Los resultados de la
encuesta se presentan en el cuadro 1.
Resultados de la encuesta de Ocupación en las Margaritas
Cuadro 1
Est
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
upm
1
1
2
2
2
3
3
3
4
4
4
5
5
5
6
6
7
7
7
8
8
Viv.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
*
hi
W
8
8
5
5
5
5
5
5
5
5
5
5
5
5
8
8
5
5
5
8
8
pea po
3
3
2
2
3
3
1
1
2
2
1
1
4
4
1
1
0
0
2
2
1
1
3
3
4
4
2
1
3
3
4
4
2
2
4
3
5
5
2
2
2
2
pda
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
1
0
0
0
ponoea
1
0
1
2
0
1
0
1
1
1
1
2
1
1
1
2
2
2
5
1
2
p12
4
2
4
3
2
2
4
2
1
3
2
5
5
3
4
6
4
6
10
3
4
pm12
2
0
1
2
0
2
4
1
0
3
2
2
1
3
2
0
0
1
1
0
0
pobtotal
6
2
5
5
2
4
8
3
1
6
4
7
6
6
6
6
4
7
11
3
4
Resultados de la encuesta de Ocupación en las Margaritas
Cuadro 1
2
2
2
2
2
2
2
2
2
2
2
3
3
3
3
3
3
3
3
9
22
9
23
9
24
10
25
10
26
11
27
11
28
11
29
12
30
12
31
12
32
13
33
13
34
13
35
14
36
14
37
14
38
15
39
15
40
TOTAL
6
6
6
9
9
6
6
6
6
6
6
4
4
4
4
4
4
6
6
231
1 1
1 1
1 1
2 2
1 1
2 1
2 2
2 2
1 1
2 2
1 1
3 2
1 1
3 2
1 1
2 2
2 2
1 1
1 1
81 76
0
0
0
0
0
1
0
0
0
0
0
1
0
1
0
0
0
0
0
5
1
0
0
0
0
3
4
1
0
1
1
2
0
2
2
3
2
1
4
55
2
1
1
2
1
5
6
3
1
3
2
5
1
5
3
5
4
2
5
136
0
0
0
2
0
0
1
1
0
1
0
0
0
0
0
0
0
2
0
34
2
1
1
4
1
5
7
4
1
4
2
5
1
5
3
5
4
4
5
170
De esta encuesta vamos a suponer que queremos estimar promedios de
algunas de las variables de interés, así como de la tasa de desempleo abierto
(TDA).
La media simple se puede calcular por medio de
 yi
y
n
Ejemplo 1: si se deseara estimar el promedio de habitantes por vivienda sería
170
y
 4.25 claramente este es un estimador sesgado debido a las
40
probabilidades desiguales de selección.
El total poblacional se estima sencillamente con la suma ponderada de la
muestra como se indica:
L
ni'
h 1
i 1
Ŷ    w hi y hi
Cuando se usan ponderadores, la media muestral se define como:
ni'
L
yw 
  w hi y hi
h 1 i 1
L
ni'
  w hi
ˆY

w
h 1 i 1
ni'
L
w    w hi
h 1 i 1
mhi
y hi   y hij
j 1
mhi = número de viviendas en la i-ésima UPM, del h-ésimo estrato.
Ejemplo 2: si quisiéramos calcular el promedio de
personas por vivienda, sería
yw 
964
 4.17
231
Un valor apreciablemente menor que la media simple
y  4.25 .
El denominador de la media muestral ponderada, no es una
cantidad fija, si no que varia de muestra a muestra, por lo que
estamos ante un estimador de razón y como ya sabemos no
es un estimador insesgado de la media poblacional, pero el
sesgo es despreciable siempre que el coeficiente de
variación del denominador sea menor que el 10%.
La varianza, el error estándar y el coeficiente de
variación de los factores de expansión se calculan
empleando las siguientes expresiones:
ni'
ni
2
varw    '
 w i  w   2.142
h 1 n
i 1

1
i
L
'
E.Sw   varw   2.142  1.463
var w  1.463
C.V w  

 0.00634
w
231
L
ni'
w    w hi  231
h 1 i 1
El coeficiente de variación es menor de 10%, lo que
significa que el sesgo es despreciable para la media de
razón.
Siempre que el coeficiente de variación de W sea menor a 20%, un estimador
de la varianza para la media esta dada por:
v yˆ   y 2w v w   2y w cov yˆ, w 
Var y w  
w2
Usando los datos del cuadro 1, se pueden realizar los cálculos de la media.
ni' ni'
2
var ˆy    '
 y hi  y h   7510
h 1 n  1 i 1
i
L
ni' ni'
covˆy, w    '
 y hi  y h w hi  w h   15
h 1 n  1 i 1
i
L
Por lo tanto,
7510  4.17 2.14286  24.17 15 7672.36193
Var y w  

 0.1438
2
53361
231
2
E.S.y w   var y w   0.379186,
C.V.y w   0.09093
Como ya hemos calculado el coeficiente de variación de los factores de
expansión, para la media ponderada y resulto que es mucho menor de 10%,
condición necesaria para garantizar un sesgo despreciable de esta media,
pero para ilustrar el cálculo del sesgo y comprobar que efectivamente se
cumple la condición, lo debemos de calcular aplicando la siguiente
expresión:
El calculo del sesgo de las ŷ se obtuvo por la siguiente expresión:
Byˆ w  

yˆ w var w   cov y, w 
w2
4.172.142   15 8.9238  15 23.9238


 0.00045
2
2
53361
231
231
Byˆ w  0.00045

 0.0012  0.12%
σ Rˆ
0.379186
Se observa que la contribución del sesgo es de 0.12% cantidad despreciable
y por lo tanto el sesgo contribuye muy poco en el error cuadrático medio.
Es importante comparar la precisión de esta muestra, con una muestra
aleatoria del mismo tamaño.
Para este propósito se necesita una estimación de la varianza de los
elementos de las viviendas seleccionadas en la muestra. Una estimación de
esta varianza esta dado por:
L
V y w MAS 
ni'
  w hi  yhi  yw 
2
h 1 i 1
L
ni'
m   whi

1093.0759
 0.1183
40231
h  1 i 1
m = es el número de registros (viviendas).
Entonces, la varianza de la media muestral para un MAS es 0.1183.
El efecto de diseño estimado para el diseño empleado es entonces:
deff 
Var y w  0.1438
 1.215

V y w MAS 0.1183
Indicando un aumento de varianza de cerca de 21% como resultado de las
probabilidades desiguales de selección. Es usual una pérdida de precisión
cuando ocurren probabilidades desiguales de selección como resultado de
deficiencias en el marco, y la pérdida puede ser sustancial cuando las
probabilidades de selección varían mucho.
La interpretación del efecto de diseño:
i) si deff=1 significa que el diseño empleado es igual de eficiente que un muestreo aleatorio
simple con el mismo tamaño de muestra.
ii) si deff > 1 significa que el muestreo en el diseño empleado es menos eficiente que un diseño
de muestreo aleatorio simple con el mismo tamaño de muestra.
iii) si deff < 1 significa que el diseño empleado es más eficiente que el diseño de un muestreo
aleatorio simple con un mismo tamaño de muestra.
Según Kish el efecto de diseño en una encuesta por conglomerados se puede expresar
también de la forma siguiente:
deff  1  b  1
Donde:
b = es el promedio de unidades muestreadas en cada conglomerado.
 = es la correlación intraclase.
Como ya conocemos el efecto de diseño de la media y podemos también calcular el
tamaño promedio de los conglomerados, se puede conocer de cuanto es la correlación
intraclase de la media.
Entonces:

deff  1
b 1
40
b   2.67
15

1.215  1 0.215

 0.129
2.67  1 1.67
Es evidente que lo deseable en una encuesta por conglomerados es que se
tenga baja correlación entre sus elementos, lo cual se logra aplicando lo
1
siguiente: correlación mínima si  
, en este caso tanto la varianza del
b 1
estimador como el deff son iguales a cero. Por otra parte, el caso más
desfavorable se presenta cuando   1 lo cual induce a un incremento
sistemático de la varianza y en esta situación todos los elementos son iguales
por lo que el efecto de diseño asumirá un valor igual al tamaño promedio del
conglomerado b  , de modo que la varianza será tan grande como la de las
unidades elementales.
En el caso de que   0 significa que la variable está completamente
distribuida al azar, por lo que el efecto de diseño es igual a uno (deff = 1) y
tanto el esquema de selección del muestreo aleatorio simple, como el diseño
empleado dan la misma varianza.
El término b 1 se debe de interpretar como el aumento que se genera en la
varianza del estimador por haber seleccionado n conglomerados de tamaño
b en lugar de n b unidades elementales.
Variable
Estimación
E. S.
C.V.
DEFF
PEA
PO
PDA
PONOEA
P12
PM12
POBTOTAL
468
444
24
301
769
195
964
44.38
38.57
11.95
82.57
85.79
37.37
86.66
0.09
0.09
0.50
0.27
0.11
0.19
0.09
1.26
1.0
1.14
3.7
1.65
0.95
1.18
LA ESTIMACIÓN Y EL USO ADECUADO DEL DISEÑO DE MUESTREO
Para hacer un uso adecuado de la información es necesario que los usuarios
conozcan los detalles del método de estratificación utilizado y el
procedimiento que se aplicó para la selección de la muestra, a fin de estar en
condiciones de calcular los factores de expansión, así como para estimar el
efecto del diseño sobre la varianza de los estimadores.
En realidad son pocas las instituciones que calculan los errores de muestreo y
el efecto de diseño para las distintas variables de interés, casi nunca se
conoce en este sentido, los usuarios en la mayoría de las veces con poco
conocimiento sobre métodos de análisis de encuestas complejas no le dan
importancia a este hecho lo cual puede llevar a malos usos de la
información.
La manera de sensibilizar a los usuarios sobre los riesgos que representan
hacer caso omiso de las especificaciones del diseño de la muestra y las
limitaciones de desagregación de los datos, es que las oficinas nacionales de
estadística publiquen de manera permanente las estimaciones de los errores
de muestreo y del efecto de diseño, además las bases de datos se hagan
acompañar con la información necesaria para que los analistas
especializados puedan realizar su trabajo.