Download Modelos de Variable Dependiente Limitada
Document related concepts
no text concepts found
Transcript
Modelos de Variable Dependiente Limitada Econometría Aplicada UCEMA Daniel Lema Modelos de Variable Dependiente Limitada • Censura y muestras seleccionadas • Modelos de regresión censurados • Modelos para muestras seleccionadas Censura y Muestras Seleccionadas • Cuando se analizan datos microeconómicos no resulta infrecuente descubrir que la variable dependiente se encuentra de alguna forma “limitada”, en el sentido de que solo es observada plenamente en una parte de su rango (censura) o solo es observada para una parte de la población (truncamiento o muestras seleccionadas). • En estos casos se rompe una de las hipótesis básicas del modelo de regresión clásico: el empleo de una muestra aleatoria representativa de la población de interés • En consecuencia, el estimador OLS es inconsistente y resulta necesario recurrir a métodos de estimación alternativos (2SLS, ML, aproximaciones semiparametricas). Ejemplos • Tanto la censura como las muestras seleccionadas provocan que algunos datos no estén disponibles para algunas unidades de la muestra. • Sin embargo, el origen de esta ausencia es muy diferente. • La censura aparece debido a la no observabilidad de la variable dependiente en una parte de los valores en los que esta está definida (por ejemplo, por secreto estadístico). • Por lo tanto, si el muestreo se ha realizado correctamente, la muestra sería representativa de la población. • Además, la información relativa a las explicativas será, en general, completa. • En cambio, cuando existe selección o truncamiento la muestra analizada procede de un subconjunto de la población de interés, por lo que en general no será representativa de la población. • No obstante, en general se dispondrá de información relativa a todas las variables del modelo. Muestras truncadas • En el caso de selección o truncamiento la muestra es un subconjunto de la población. • Sólo algunos valores se incluyen en la muestra. • Faltan los valores de la variable de respuesta y de las explicativas. • Por ejemplo una muestra de características de individuos con estudios secundarios. • La encuesta se generó mediante entrevistas a individuos que completaron el secundario. • Esto es una muestra truncada con respecto a la población. • Los individuos excluidos no tendrán seguramente las mismas características que los incluidos. • Esto implica truncar la distribución de una variable aleatoria • El valor esperado se aleja del punto de truncamiento y la variancia se reduce • En el ejemplo el nivel medio de educación será mayor que en la población y la variancia será menor. • No es posible usar esta muestra para hacer inferencia sobre la población • Aunque pareciera que es posible hacer inferencia sobre la subpoblación , tampoco es posible esto. • Una regresión sobre la subpoblación genera coeficientes sesgados hacia cero o “atenuados” en la medida que la variancia del termino de error está sesgada hacia abajo. Muestras censuradas • En el caso de una variable censurada la variable de respuesta está fija en un valor arbitrario cuando la variable está más allá del punto de censura. • En el caso de truncamiento no se observa ni la variable dependiente ni las explicativas para los individuos cuya yi está en la región de truncamiento. • Cuando los datos son censurados no se observa los valores de la variable dependiente, pero se observan los de las variables explicativas. • Un ejemplo es cuando hay una codificación tope, que ocurre cuando una variable que toma valores de x o más se registra como x (ej. Ingreso de la familia mas de x$) • Otro es el consumo cero (solución de esquina). • • • • Si analizamos el gasto en automóvil (y), por ejemplo, este será positivo para aquellos individuos de la muestra que efectivamente posean un auto y será nulo para el resto. Sin embargo, los determinantes del gasto (ingreso, situación familiar, etc.) serán, en general, observados tanto para los que tienen auto como para los que no lo tienen. Así, la correspondiente regresión censurada podría escribirse como: La censura no solo es común en estudios de demanda de bienes sino también en estudios de demanda con restricciones de capacidad (billetes de avión, entradas para un concierto, etc.). • En este caso el problema tiene tres elementos: la demanda potencial del bien (y*i ), el nivel de capacidad (y0) y la demanda real o consumo efectivo (yi), siendo yi = y*i si yi < y0,, , e yi = y0 en caso contrario. • La regresión sobre la variable latente podría escribirse como: • Los mecanismos de selección pueden tener que ver con el diseño de la muestra (muestreo estratificado, “sobremuestreo”), • Los casos mas comunes son aquellos en los que el muestreo se realiza dependiendo de los valores de la variable dependiente (“muestreo endógeno”, también conocido como “truncamiento” o “muestreo basado en la respuesta” si la variable es continua y “muestreo basado en la elección” si es discreta) • O en función del comportamiento de los individuos respecto a otra variable dependiente (“truncamiento incidental”, “auto-seleccion” o “selección muestral”). Ejemplo • Supongamos que estamos interesados en analizar los determinantes de los ingresos (y) a partir de la siguiente relación funcional : • y = f (educación, edad, experiencia, . . .) . • Disponemos de una muestra de individuos cuyos ingresos son inferiores a un determinado umbral c • Esto significa que la variable dependiente esta “truncada por arriba” y las observaciones por encima del umbral no están incluidas en nuestra muestra. • En particular, si tomamos como principal deteminante de los ingresos los años de • educación (x), la ecuación de regresión será: • Dado que sólo observamos yi cuando yi ≤c • Entonces el término de error: • En consecuencia la esperanza del término de error es: • Los residuos estarán correlacionados con la variable explicativa y los estimadores MCO serán inconsistentes. • Dado que en el ejemplo es esperable que el β sea positivo y que la esperanza del término de error decrezca con xi , entonces el estimador MCO estará sesgado “hacia abajo” • Esto implica subvaluar el efecto de la educación sobre los ingresos • Alternativamente, la selección de la muestra puede venir gobernada por el comportamiento de una variable ajena al modelo de interés. • Un ejemplo clásico es el de la ecuación de oferta salarial femenina (Heckman 1974): si tomamos una muestra aleatoria de mujeres, el salario (wi) solo es observable para aquellas que estan en el mercado laboral. • Por lo tanto, la participación en el mercado laboral (zi) es la que determina que el salario (no) sea observable. Esto supone que el modelo consta en realidad de dos ecuaciones: • Una ecuación de selección o participación (por ejemplo, un modelo probit): • Una ecuación de interés principal (por ej. Modelo lineal clásico) • En la que se observa wi sólo si zi*>0 Estimación • El problema de la estimación por MCO • Estimación por MV (ML) Funciones de densidad Normales con Censura o Truncamiento • La censura rompe la evolución natural de la distribución,“uniéndola” de forma brusca con el eje de abscisas en el punto de censura. • Por su parte, el truncamiento implica la no observación de las colas de la distribución (desde el punto de truncamiento). • Los gráficos sugieren que el empleo de MCO para estimar relaciones censuradas es tan poco recomendable como el hacerlo para relaciones truncadas. • Los estimadores MCO son inconsistentes • Si la dependiente y las explicativas siguen una distribución Normal conjunta y la censura se produce por la izquierda en cero, el estimador MCO de las pendientes converge hacia el verdadero valor de las mismas multiplicado por la fracción de la muestra con valores positivos en la dependiente. • Por su parte, para condiciones análogas en el contexto de • truncamiento, la convergencia se produce en un factor entre 0 y 1 (Goldberger). Estimación MV • Sea y el valor incompletamente observado de la variable latente y* con regla de observación y = g (y*). • Esto significa que si la censura se produce por la izquierda en el valor c, la función g() vendrá definida por: • De la misma forma, si la variable sufre de truncamiento por la izquierda en el valor c, entonces: • y = y* si y* > c • Obviamente, las expresiones son extensibles al caso en el que la censura o el truncamiento se producen por la derecha o por la derecha y la izquierda. • Por simplicidad nos concentramos en los casos de censura y truncamiento por la izquierda. Censura por la izquierda • Si y > c, la densidad de probabilidad de y es igual que la de y*, por lo que f (y|x) = f* (y|x). • Si y = c, la densidad de probabilidad de y corresponde a la de una variable discreta con masa probabilıstica equivalente a la probabilidad de observar y*≤ c. • Sea F (c|x) la correspondiente función de distribución. • Combinando estos resultados, la función de densidad se define como una “mezcla” (mixture) de una distribución continua y una discreta: • Es mas útil definir esta función en términos de la siguiente variable “indicador”: • La función de densidad de y puede reescribirse como: • Entonces el logaritmo de la función de verosimilitud es: • Donde θ es el vector de parámetros de interés. Truncamiento por la izquierda • En presencia de truncamiento en la variable dependiente el par (yi, x) solo es observable cuando y > c, por lo que para obtener la distribución de probabilidad de la variable aleatoria truncada es necesario normalizar la función de distribución para que la probabilidad total sea igual a 1. • La nueva función de densidad es: • Y la función de verosimilitud: - Modelos de Regresión Censurados • Los modelos de regresión censurados se emplean en contextos en los que la variable dependiente es (parcialmente) continua pero presenta un punto (o varios) con masa probabilıstica positiva. • No obstante, dentro de esta categorización encontramos dos tipos de problemáticas diferentes. • Por un lado, situaciones en las que la estructura de la variable dependiente (y) viene generada por una problema de observabilidad (“Modelo Tobit”). • En este tipo de situaciones la variable latente (y) tiene pleno sentido económico y el interés, consecuentemente, se centra en la regresión poblacional E (y|x). • Por otro lado, situaciones en las que la estructura de la variable dependiente viene generada por la solución (esquina) a un problema de optimización o la combinación de dos procesos estocásticos (Modelos con “soluciones esquina” o “dos partes”). • En este tipo de situaciones el interés se centra en la distribución de y dado x, particularmente a partir del análisis de E (y|x) y Pr (y = 0|x). Modelo Tobit • En un estudio sobre los gastos en consumo de un bien duradero (automóviles) Tobin observo que a una familia que no hubiera adquirido un coche se le asignaría una demanda nula de ese bien, cuando en realidad lo que estaría ocurriendo es que su decisión de gasto, aunque positiva, estaría por debajo del gasto mínimo necesario para adquirir el bien. • Tobin propuso entonce modelizar este tipo de situaciones empleando la siguiente especificación: • Supuestos del modelo • Linealidad • Normalidad-Homoscedasticidad Linealidad • La regla de observabilidad de los modelos censurados establece que y es observable si y* > c. • Dado el supuesto de linealidad, la anterior desigualdad se puede expresar de manera equivalente como: • Solo la diferencia β− c esta identificada. • La constante del modelo solo esta identificada si el umbral de censura es cero (c = 0) Normalidad y Homoscedasticidad • Estos supuestos facilitan la derivación del logaritmo de la función de verosimilitud • Permiten definir: • Entonces: • Por otro lado, los supuestos de Normalidad y homoscedasticidad permiten derivar una • expresión para E (y|x). • La esperanza es: • Bajo los supuestos enunciados: • En consecuencia: • Donde • Es la inversa del ratio de Mills (o hazard función) evaluada en xβ/σ • La expresión (no lineal) obtenida para E (y|x) sugiere que, dada la naturaleza mixta de la distribución, el estimador MCO no resultara apropiado para el modelo Tobit. • ¿que ocurriría si en lugar de intentar estimar β partir de E (y|x) lo hiciéramos a partir de E (y | x,y > 0)? • La regresión resultante sería mas sencilla, pero el problema en ese caso radicaría en la presencia de la inversa del ratio de Mills como variable explicativa. El procedimiento de Heckman • Heckman (1976) propuso estimar la inversa del ratio de Mills en una primera etapa empleando un modelo Probit. • El procedimiento a seguir seria: • Etapa 1. Estimación ML del modelo • Con todas las observaciones de la muestra • Etapa 2: Estimación MCO del modelo • Empleando las observaciones no censuradas. Interpretación de coeficientes en el Modelo Tobit • El efecto marginal que presenta el beta estimado es sobre la variable latente y* • El coeficiente estimado debe ajustarse para ser interpretado como efecto marginal sobre la variable y • Un cambio en la variable explicativa x tiene dos efectos sobre E (y|x): por un lado afecta a la media condicional de la variable dependiente en la parte positiva de la distribución y por otro lado afecta a la probabilidad de que la observación pertenezca a esa parte de la distribución • En el modelo Tobit: • En general se evalúa para las variables explicativas en las medias muestrales