Download Uso del Diseño y Estimadores Básicos en Muestras Complejas
Document related concepts
Transcript
Instituto Nacional de Estadística y Geografía Uso del Diseño y Estimadores Básicos en Muestras Complejas Jaime Mojica Cuevas Agosto 2010. Panamá ESTIMADORES BÁSICOS EN ENCUESTAS COMPLEJAS Ya sabemos que un estimador θ̂ de un parámetro poblacional es sencillamente una variable aleatoria unidimensional. Por lo cual nos interesarán sus características de centralización y dispersión, particularmente, su esperanza, su varianza y sus momentos, así como otras medidas relativas a su precisión. Se define la varianza del estimador θ̂ del parámetro poblacional θ a través de la siguiente expresión: ˆ Eθ ˆ E θ ˆ Vθ 2 ˆ Eθ ˆ Eθ 2 2 Se define el sesgo del estimador θ̂ del parámetro poblacional θ como: ˆ Eθ ˆ θ Bθ La precisión de un estimador se mide a partir del error cuadrático medio: ˆ Eθ ˆ θ Eθ ˆ E θ ˆ E θ ˆ θ ECM θ 2 ˆ) Β(θ ˆ) Var(θ 2 2 Por lo tanto la precisión (error cuadrático medio) de un estimador se descompone en la suma del cuadrado del error de muestreo y el cuadrado del sesgo. De esta forma se pueden representar las tres magnitudes en un triángulo rectángulo cuyos catetos son σ θˆ y B θˆ y cuya hipotenusa es ECM θˆ de la forma siguiente: En esta figura se observa que la contribución del sesgo y la desviación típica a ECM(θˆ) viene dada por la tangente del ángulo que ha de ser lo más pequeña posible para minimizar la raíz cuadrada de la precisión. Pero tenemos que tan( ) B(ˆ) , (ˆ) de tal forma que entre menor sea este cociente menos influyentes serán el sesgo y la desviación típica en la raíz cuadrada de la precisión, o lo que es lo mismo, la influencia del sesgo es menor cuanto menor sea el cociente. Referencia 1 En la práctica se considera que el sesgo no es influyente B(ˆ) 1 cuando (ˆ) 10 . Por otra parte, ya sabemos que a menor contribución del sesgo a ECM(θˆ) mayor contribución de (ˆ) . Para comparar en cuanto a precisión varios estimadores θ̂i unos sesgados .y otros insesgados del parámetro poblacional θ , se utilizará el error cuadrático medio. Y el estimador más preciso será el que menor error cuadrático medio presente. A veces, ante las dificultades de cálculo del error cuadrático medio se utiliza el coeficiente de variación σ θˆi ˆ CV θi E θˆi , siendo más preciso el estimador con menor coeficiente de variación (error relativo). Si los estimadores sesgados tienen todos sesgo B θˆi 1 despreciable, σ θˆi 10 , se haría la comparación global como insesgado de acuerdo a los valores de σ θˆi . El coeficiente de variación presenta la ventaja de ser una medida relativa, por lo que se utilizará asiduamente el coeficiente de variación para comparar precisiones y calcular ganancias o pérdidas en precisión. RAZONES El estimador de razón es uno de los estimadores sesgados que mas se emplea en las encuestas complejas. El estimador de razón de R obtenido con base en una muestra por muestreo aleatorio simple “mas” es: n Rˆ y i i 1 n x y x i i 1 Y resulta ser sesgado. El promedio de los posibles valores de R̂ al repetir muchas veces el muestreo no es R, es decir, E Rˆ R, B Rˆ E Rˆ R 0, BRˆ es el sesgo de R̂ Sin embargo está bastante cerca de R. Resulta que R̂ es un estimador consistente, lo que quiere decir es que si n se hace grande R̂ se acerca más y más a ˆ R. R R, es decir, nlim E Rˆ es el valor del promedio señalado, entonces se puede demostrar Des Raj (1984) la siguiente desigualdad página 101: B Rˆ C.V.x V Rˆ O bien (sesgo de R̂ estandarizado), C.V.x V Rˆ B Rˆ El lado izquierdo es el sesgo de R̂ dividido entre su desviación estándar. El lado derecho es el coeficiente de variación de x , de manera que lo que se hace usualmente es tomar la muestra de modo que CV x sea pequeño. Un valor frecuente es hacer que C.V.x sea 0.1 o menor. Para ver el efecto del sesgo en la probabilidad de cobertura de los intervalos con 95% de confianza, se tiene que si I ˆθ 1.96 Vˆθ ,ˆθ 1.96 Vˆθ , entonces, B θˆ 0.00 0.01 0.03 0.05 0.07 0.09 0.10 0.20 0.30 0.50 0.70 0.90 1.00 P θ I V θˆ 0.9500 0.9500 0.9499 0.9497 0.9494 0.9491 0.9489 0.9454 0.9396 0.9210 0.8923 0.8533 0.8300 Fuente: Des, Raj, “Teoría del muestreo”. De lo anterior se puede ver que a medida que aumenta la ˆ) B( θ relación del sesgo con respecto a la desviación ˆ) V( θ estándar disminuye la probabilidad de cobertura del intervalo de confianza. En el caso de tener valores para B(θˆ ) V(θˆ ) menores a 0.1 la probabilidad se mantiene muy próxima al 0.95 que es el caso en el que no existe sesgo. B(θˆ ) Aún más, para valores de V(θˆ ) menores o iguales a 0.2 no son tan lejanos a 0.95, de hecho, la probabilidad disminuye a 0.9454. Por lo anterior, es conveniente que B(ˆθ) tolerable si V(ˆθ) 0.2 B(ˆθ) V(ˆθ) 0.1 , pero , para cubrir con las expectativas de la probabilidad. Por otro lado recuerde que, B(Rˆ ) V(Rˆ ) C.V. X De aquí que se pida un coeficiente de variación pequeño, a decir, C.V. X < 0.2; La expresión para calcular el sesgo del estimador de razón es: B(R) sesgo R Var(x) - cov(x, y) x2 Leslie Kish Interpretación del Coeficiente de Variación. 1. Si el C.V(x) < 10%, la información se considera muy aceptable. 2. Si el C.V(x) ESTA ENTRE 10 Y 20% la información se considera aceptable. 3. Si el C.V(x) es mayor de 20%, la información se considera no aceptable. ESTIMADOR DE RAZÓN APLICADO EN ENCUESTAS COMPLEJAS a) Totales L nh' h 1 i 1 ˆ Y w hi y hi , ' n'h n 2 h ˆ var Y ' y hi y h h 1 n 1 i 1 h L Donde: w hi = factor de expansión (inverso de la y hi probabilidad de selección) de la i-ésima UPM, del h-ésimo estrato. = valor observado en la i-ésima UPM, del hésimo estrato. b) Media de razón ˆ yw Varianza L nh' h 1 i 1 w hi y hi L nh' h 1 i 1 w hi ˆ Y w nh' nh' nh' nh' 2 2 2 y hi y h ˆy w w hi w h 2ˆy w y hi y h w hi w h ' h 1 n 1 i 1 i 1 i 1 h Var ˆy w w2 L L nh' h 1 i 1 w w hi Como guía práctica es conveniente asegurarse que el C.V.(W) < 20% antes de utilizar la expresión del calculo de la varianza. c) Proporciones nh' L ˆ p w hi y hi h 1 i 1 nh' L w hi ˆ Y , w y hi 1 si tiene la caracterís tica 0 si no la tiene h 1 i 1 nh' ' h 1 n h L varˆp nh' nh' nh' 2 2 ˆ ˆ y y p w w 2 p y y w w hi hi hi h h h hi h i 1 i 1 i 1 1 w2 2 Como guía práctica es conveniente. d) Razones L ˆ R nh' w hi y hi h 1 L i 1 nh' h 1 i 1 w hi y hi ˆ Y ˆ X 2 n'h n'h n'h L 2 2 ˆ x hi x h 2 R y hi y h x hi x h y hi y h R ' h 1 n i 1 i 1 1 h 1 h ˆ var R ˆx 2 L En la grafica el grado de concentración de las estimadas de la muestra en torno del valor que se busca (co) es mayor para la distribución B que para la distribución U, aunque B no tiene su centro en co y si U. La probabilidad de que las estimadas de la muestra queden comprendidas en el intervalo (a,b) es mucho mayor en el caso de B que en el U. En esas condiciones es preferible el estimador sesgado al insesgado. Estimadores sesgados e insesgados ANÁLISIS DE LAS ENCUESTAS Para realizar el análisis de los datos de una encuesta puede emplear cualquier técnica estadística de entre un amplio rango, a continuación daremos solo algunas consideraciones especiales involucradas en el análisis de datos a partir de un diseño complejo de muestreo. Ir a documento metodológico FACTORES DE EXPANSIÓN (PONDERADORES) Los factores de expansión se usan para asignar una mayor importancia relativa a algunos elementos muestreados en el análisis de la encuesta; los factores son necesarios cuando los elementos muestreados se seleccionan con probabilidades desiguales, también se usan en la postestratificación y para hacer ajustes a la no respuesta, realmente los factores de expansión cargan con todos los ajustes y de manera implícita también con el diseño de muestreo, es por eso que los factores de expansión son muy importantes en cualquier análisis de encuestas. Para ilustrar una aplicación de este procedimiento de ponderación, hemos considerado una pequeña encuesta de ejemplo, la cual se describe a continuación. DISEÑO DE LA ENCUESTA Esta encuesta esta diseñada para obtener resultados de algunas variables de población y principalmente de tipo económico. El diseño muestral de la encuesta es probabilístico, estratificado, bietápico y por conglomerados. Para la mayoría de los ejemplos se usara la información de esta pequeña encuesta levantada en una pequeña localidad del estado de Jalisco. El tamaño de muestra fue de 45 viviendas, seleccionadas en 15 unidades primarias de muestreo (UPM), distribuidas en tres estratos. Los resultados de la encuesta se presentan en el cuadro 1. Resultados de la encuesta de Ocupación en las Margaritas Cuadro 1 Est 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 upm 1 1 2 2 2 3 3 3 4 4 4 5 5 5 6 6 7 7 7 8 8 Viv. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 * hi W 8 8 5 5 5 5 5 5 5 5 5 5 5 5 8 8 5 5 5 8 8 pea po 3 3 2 2 3 3 1 1 2 2 1 1 4 4 1 1 0 0 2 2 1 1 3 3 4 4 2 1 3 3 4 4 2 2 4 3 5 5 2 2 2 2 pda 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 ponoea 1 0 1 2 0 1 0 1 1 1 1 2 1 1 1 2 2 2 5 1 2 p12 4 2 4 3 2 2 4 2 1 3 2 5 5 3 4 6 4 6 10 3 4 pm12 2 0 1 2 0 2 4 1 0 3 2 2 1 3 2 0 0 1 1 0 0 pobtotal 6 2 5 5 2 4 8 3 1 6 4 7 6 6 6 6 4 7 11 3 4 Resultados de la encuesta de Ocupación en las Margaritas Cuadro 1 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 9 22 9 23 9 24 10 25 10 26 11 27 11 28 11 29 12 30 12 31 12 32 13 33 13 34 13 35 14 36 14 37 14 38 15 39 15 40 TOTAL 6 6 6 9 9 6 6 6 6 6 6 4 4 4 4 4 4 6 6 231 1 1 1 1 1 1 2 2 1 1 2 1 2 2 2 2 1 1 2 2 1 1 3 2 1 1 3 2 1 1 2 2 2 2 1 1 1 1 81 76 0 0 0 0 0 1 0 0 0 0 0 1 0 1 0 0 0 0 0 5 1 0 0 0 0 3 4 1 0 1 1 2 0 2 2 3 2 1 4 55 2 1 1 2 1 5 6 3 1 3 2 5 1 5 3 5 4 2 5 136 0 0 0 2 0 0 1 1 0 1 0 0 0 0 0 0 0 2 0 34 2 1 1 4 1 5 7 4 1 4 2 5 1 5 3 5 4 4 5 170 De esta encuesta vamos a suponer que queremos estimar promedios de algunas de las variables de interés, así como de la tasa de desempleo abierto (TDA). La media simple se puede calcular por medio de yi y n Ejemplo 1: si se deseara estimar el promedio de habitantes por vivienda sería 170 y 4.25 claramente este es un estimador sesgado debido a las 40 probabilidades desiguales de selección. El total poblacional se estima sencillamente con la suma ponderada de la muestra como se indica: L ni' h 1 i 1 Ŷ w hi y hi Cuando se usan ponderadores, la media muestral se define como: ni' L yw w hi y hi h 1 i 1 L ni' w hi ˆY w h 1 i 1 ni' L w w hi h 1 i 1 mhi y hi y hij j 1 mhi = número de viviendas en la i-ésima UPM, del h-ésimo estrato. Ejemplo 2: si quisiéramos calcular el promedio de personas por vivienda, sería yw 964 4.17 231 Un valor apreciablemente menor que la media simple y 4.25 . El denominador de la media muestral ponderada, no es una cantidad fija, si no que varia de muestra a muestra, por lo que estamos ante un estimador de razón y como ya sabemos no es un estimador insesgado de la media poblacional, pero el sesgo es despreciable siempre que el coeficiente de variación del denominador sea menor que el 10%. La varianza, el error estándar y el coeficiente de variación de los factores de expansión se calculan empleando las siguientes expresiones: ni' ni 2 varw ' w i w 2.142 h 1 n i 1 1 i L ' E.Sw varw 2.142 1.463 var w 1.463 C.V w 0.00634 w 231 L ni' w w hi 231 h 1 i 1 El coeficiente de variación es menor de 10%, lo que significa que el sesgo es despreciable para la media de razón. Siempre que el coeficiente de variación de W sea menor a 20%, un estimador de la varianza para la media esta dada por: v yˆ y 2w v w 2y w cov yˆ, w Var y w w2 Usando los datos del cuadro 1, se pueden realizar los cálculos de la media. ni' ni' 2 var ˆy ' y hi y h 7510 h 1 n 1 i 1 i L ni' ni' covˆy, w ' y hi y h w hi w h 15 h 1 n 1 i 1 i L Por lo tanto, 7510 4.17 2.14286 24.17 15 7672.36193 Var y w 0.1438 2 53361 231 2 E.S.y w var y w 0.379186, C.V.y w 0.09093 Como ya hemos calculado el coeficiente de variación de los factores de expansión, para la media ponderada y resulto que es mucho menor de 10%, condición necesaria para garantizar un sesgo despreciable de esta media, pero para ilustrar el cálculo del sesgo y comprobar que efectivamente se cumple la condición, lo debemos de calcular aplicando la siguiente expresión: El calculo del sesgo de las ŷ se obtuvo por la siguiente expresión: Byˆ w yˆ w var w cov y, w w2 4.172.142 15 8.9238 15 23.9238 0.00045 2 2 53361 231 231 Byˆ w 0.00045 0.0012 0.12% σ Rˆ 0.379186 Se observa que la contribución del sesgo es de 0.12% cantidad despreciable y por lo tanto el sesgo contribuye muy poco en el error cuadrático medio. Es importante comparar la precisión de esta muestra, con una muestra aleatoria del mismo tamaño. Para este propósito se necesita una estimación de la varianza de los elementos de las viviendas seleccionadas en la muestra. Una estimación de esta varianza esta dado por: L V y w MAS ni' w hi yhi yw 2 h 1 i 1 L ni' m whi 1093.0759 0.1183 40231 h 1 i 1 m = es el número de registros (viviendas). Entonces, la varianza de la media muestral para un MAS es 0.1183. El efecto de diseño estimado para el diseño empleado es entonces: deff Var y w 0.1438 1.215 V y w MAS 0.1183 Indicando un aumento de varianza de cerca de 21% como resultado de las probabilidades desiguales de selección. Es usual una pérdida de precisión cuando ocurren probabilidades desiguales de selección como resultado de deficiencias en el marco, y la pérdida puede ser sustancial cuando las probabilidades de selección varían mucho. La interpretación del efecto de diseño: i) si deff=1 significa que el diseño empleado es igual de eficiente que un muestreo aleatorio simple con el mismo tamaño de muestra. ii) si deff > 1 significa que el muestreo en el diseño empleado es menos eficiente que un diseño de muestreo aleatorio simple con el mismo tamaño de muestra. iii) si deff < 1 significa que el diseño empleado es más eficiente que el diseño de un muestreo aleatorio simple con un mismo tamaño de muestra. Según Kish el efecto de diseño en una encuesta por conglomerados se puede expresar también de la forma siguiente: deff 1 b 1 Donde: b = es el promedio de unidades muestreadas en cada conglomerado. = es la correlación intraclase. Como ya conocemos el efecto de diseño de la media y podemos también calcular el tamaño promedio de los conglomerados, se puede conocer de cuanto es la correlación intraclase de la media. Entonces: deff 1 b 1 40 b 2.67 15 1.215 1 0.215 0.129 2.67 1 1.67 Es evidente que lo deseable en una encuesta por conglomerados es que se tenga baja correlación entre sus elementos, lo cual se logra aplicando lo 1 siguiente: correlación mínima si , en este caso tanto la varianza del b 1 estimador como el deff son iguales a cero. Por otra parte, el caso más desfavorable se presenta cuando 1 lo cual induce a un incremento sistemático de la varianza y en esta situación todos los elementos son iguales por lo que el efecto de diseño asumirá un valor igual al tamaño promedio del conglomerado b , de modo que la varianza será tan grande como la de las unidades elementales. En el caso de que 0 significa que la variable está completamente distribuida al azar, por lo que el efecto de diseño es igual a uno (deff = 1) y tanto el esquema de selección del muestreo aleatorio simple, como el diseño empleado dan la misma varianza. El término b 1 se debe de interpretar como el aumento que se genera en la varianza del estimador por haber seleccionado n conglomerados de tamaño b en lugar de n b unidades elementales. Variable Estimación E. S. C.V. DEFF PEA PO PDA PONOEA P12 PM12 POBTOTAL 468 444 24 301 769 195 964 44.38 38.57 11.95 82.57 85.79 37.37 86.66 0.09 0.09 0.50 0.27 0.11 0.19 0.09 1.26 1.0 1.14 3.7 1.65 0.95 1.18 LA ESTIMACIÓN Y EL USO ADECUADO DEL DISEÑO DE MUESTREO Para hacer un uso adecuado de la información es necesario que los usuarios conozcan los detalles del método de estratificación utilizado y el procedimiento que se aplicó para la selección de la muestra, a fin de estar en condiciones de calcular los factores de expansión, así como para estimar el efecto del diseño sobre la varianza de los estimadores. En realidad son pocas las instituciones que calculan los errores de muestreo y el efecto de diseño para las distintas variables de interés, casi nunca se conoce en este sentido, los usuarios en la mayoría de las veces con poco conocimiento sobre métodos de análisis de encuestas complejas no le dan importancia a este hecho lo cual puede llevar a malos usos de la información. La manera de sensibilizar a los usuarios sobre los riesgos que representan hacer caso omiso de las especificaciones del diseño de la muestra y las limitaciones de desagregación de los datos, es que las oficinas nacionales de estadística publiquen de manera permanente las estimaciones de los errores de muestreo y del efecto de diseño, además las bases de datos se hagan acompañar con la información necesaria para que los analistas especializados puedan realizar su trabajo.