Download Modelos de Variable Dependiente Limitada

Document related concepts
no text concepts found
Transcript
Modelos de Variable
Dependiente Limitada
Econometría Aplicada
UCEMA
Daniel Lema
Modelos de Variable Dependiente
Limitada
• Censura y muestras seleccionadas
• Modelos de regresión censurados
• Modelos para muestras seleccionadas
Censura y Muestras Seleccionadas
• Cuando se analizan datos microeconómicos no
resulta infrecuente descubrir que la variable
dependiente se encuentra de alguna forma
“limitada”, en el sentido de que solo es observada
plenamente en una parte de su rango (censura) o
solo es observada para una parte de la población
(truncamiento o muestras seleccionadas).
• En estos casos se rompe una de las hipótesis
básicas del modelo de regresión clásico: el empleo
de una muestra aleatoria representativa de la
población de interés
• En consecuencia, el estimador OLS es
inconsistente y resulta necesario recurrir a métodos
de estimación alternativos (2SLS, ML,
aproximaciones semiparametricas).
Ejemplos
• Tanto la censura como las muestras seleccionadas provocan
que algunos datos no estén disponibles para algunas unidades
de la muestra.
• Sin embargo, el origen de esta ausencia es muy diferente.
• La censura aparece debido a la no observabilidad de la
variable dependiente en una parte de los valores en los que
esta está definida (por ejemplo, por secreto estadístico).
• Por lo tanto, si el muestreo se ha realizado correctamente, la
muestra sería representativa de la población.
• Además, la información relativa a las explicativas será, en
general, completa.
• En cambio, cuando existe selección o truncamiento la muestra
analizada procede de un subconjunto de la población de
interés, por lo que en general no será representativa de la
población.
• No obstante, en general se dispondrá de información relativa a
todas las variables del modelo.
Muestras truncadas
• En el caso de selección o truncamiento la muestra es un
subconjunto de la población.
• Sólo algunos valores se incluyen en la muestra.
• Faltan los valores de la variable de respuesta y de las
explicativas.
• Por ejemplo una muestra de características de
individuos con estudios secundarios.
• La encuesta se generó mediante entrevistas a individuos
que completaron el secundario.
• Esto es una muestra truncada con respecto a la
población.
• Los individuos excluidos no tendrán seguramente las
mismas características que los incluidos.
• Esto implica truncar la distribución de una variable
aleatoria
• El valor esperado se aleja del punto de truncamiento y la
variancia se reduce
• En el ejemplo el nivel medio de educación será mayor
que en la población y la variancia será menor.
• No es posible usar esta muestra para hacer inferencia
sobre la población
• Aunque pareciera que es posible hacer inferencia sobre
la subpoblación , tampoco es posible esto.
• Una regresión sobre la subpoblación genera coeficientes
sesgados hacia cero o “atenuados” en la medida que la
variancia del termino de error está sesgada hacia abajo.
Muestras censuradas
• En el caso de una variable censurada la variable de
respuesta está fija en un valor arbitrario cuando la
variable está más allá del punto de censura.
• En el caso de truncamiento no se observa ni la variable
dependiente ni las explicativas para los individuos cuya yi
está en la región de truncamiento.
• Cuando los datos son censurados no se observa los
valores de la variable dependiente, pero se observan los
de las variables explicativas.
• Un ejemplo es cuando hay una codificación tope, que
ocurre cuando una variable que toma valores de x o más
se registra como x (ej. Ingreso de la familia mas de x$)
• Otro es el consumo cero (solución de esquina).
•
•
•
•
Si analizamos el gasto en automóvil (y), por ejemplo, este será
positivo para aquellos individuos de la muestra que efectivamente
posean un auto y será nulo para el resto.
Sin embargo, los determinantes del gasto (ingreso, situación
familiar, etc.) serán, en general, observados tanto para los que
tienen auto como para los que no lo tienen.
Así, la correspondiente regresión censurada podría escribirse como:
La censura no solo es común en estudios de demanda de bienes
sino también en estudios de demanda con restricciones de
capacidad (billetes de avión, entradas para un concierto, etc.).
• En este caso el problema tiene tres
elementos: la demanda potencial del bien (y*i
), el nivel de capacidad (y0) y la demanda real
o consumo efectivo (yi), siendo yi = y*i si yi <
y0,, , e yi = y0 en caso contrario.
• La regresión sobre la variable latente podría
escribirse como:
• Los mecanismos de selección pueden tener que
ver con el diseño de la muestra (muestreo
estratificado, “sobremuestreo”),
• Los casos mas comunes son aquellos en los que el
muestreo se realiza dependiendo de los valores de
la variable dependiente (“muestreo endógeno”,
también conocido como “truncamiento” o
“muestreo basado en la respuesta” si la variable es
continua y “muestreo basado en la elección” si es
discreta)
• O en función del comportamiento de los individuos
respecto a otra variable dependiente
(“truncamiento incidental”, “auto-seleccion” o
“selección muestral”).
Ejemplo
• Supongamos que estamos interesados en
analizar los determinantes de los ingresos (y) a
partir de la siguiente relación funcional :
• y = f (educación, edad, experiencia, . . .) .
• Disponemos de una muestra de individuos
cuyos ingresos son inferiores a un determinado
umbral c
• Esto significa que la variable dependiente esta
“truncada por arriba” y las observaciones por
encima del umbral no están incluidas en nuestra
muestra.
• En particular, si tomamos como principal
deteminante de los ingresos los años de
• educación (x), la ecuación de regresión
será:
• Dado que sólo observamos yi cuando yi ≤c
• Entonces el término de error:
• En consecuencia la esperanza del término
de error es:
• Los residuos estarán correlacionados con la
variable explicativa y los estimadores MCO
serán inconsistentes.
• Dado que en el ejemplo es esperable que
el β sea positivo y que la esperanza del
término de error decrezca con xi ,
entonces el estimador MCO estará
sesgado “hacia abajo”
• Esto implica subvaluar el efecto de la
educación sobre los ingresos
• Alternativamente, la selección de la muestra
puede venir gobernada por el comportamiento
de una variable ajena al modelo de interés.
• Un ejemplo clásico es el de la ecuación de
oferta salarial femenina (Heckman 1974): si
tomamos una muestra aleatoria de mujeres, el
salario (wi) solo es observable para aquellas
que estan en el mercado laboral.
• Por lo tanto, la participación en el mercado
laboral (zi) es la que determina que el salario
(no) sea observable. Esto supone que el
modelo consta en realidad de dos ecuaciones:
• Una ecuación de selección o participación
(por ejemplo, un modelo probit):
• Una ecuación de interés principal (por ej.
Modelo lineal clásico)
• En la que se observa wi sólo si zi*>0
Estimación
• El problema de la estimación por MCO
• Estimación por MV (ML)
Funciones de densidad Normales con Censura o
Truncamiento
• La censura rompe la evolución natural de la
distribución,“uniéndola” de forma brusca con el eje de abscisas
en el punto de censura.
• Por su parte, el truncamiento implica la no observación de las
colas de la distribución (desde el punto de truncamiento).
• Los gráficos sugieren que el empleo de MCO para estimar
relaciones censuradas es tan poco recomendable como el
hacerlo para relaciones truncadas.
• Los estimadores MCO son inconsistentes
• Si la dependiente y las explicativas siguen una distribución
Normal conjunta y la censura se produce por la izquierda en
cero, el estimador MCO de las pendientes converge hacia el
verdadero valor de las mismas multiplicado por la fracción de la
muestra con valores positivos en la dependiente.
• Por su parte, para condiciones análogas en el contexto de
• truncamiento, la convergencia se produce en un factor entre 0
y 1 (Goldberger).
Estimación MV
• Sea y el valor incompletamente observado
de la variable latente y* con regla de
observación y = g (y*).
• Esto significa que si la censura se produce
por la izquierda en el valor c, la función g()
vendrá definida por:
• De la misma forma, si la variable sufre de
truncamiento por la izquierda en el valor c,
entonces:
• y = y* si y* > c
• Obviamente, las expresiones son extensibles al
caso en el que la censura o el truncamiento se
producen por la derecha o por la derecha y la
izquierda.
• Por simplicidad nos concentramos en los casos
de censura y truncamiento por la izquierda.
Censura por la izquierda
• Si y > c, la densidad de probabilidad de y es
igual que la de y*, por lo que f (y|x) = f* (y|x).
• Si y = c, la densidad de probabilidad de y
corresponde a la de una variable discreta con
masa probabilıstica equivalente a la
probabilidad de observar y*≤ c.
• Sea F (c|x) la correspondiente función de
distribución.
• Combinando estos resultados, la función de
densidad se define como una “mezcla” (mixture)
de una distribución continua y una discreta:
• Es mas útil definir esta función en
términos de la siguiente variable
“indicador”:
• La función de densidad de y puede
reescribirse como:
• Entonces el logaritmo de la función de
verosimilitud es:
• Donde θ es el vector de parámetros de
interés.
Truncamiento por la izquierda
• En presencia de truncamiento en la
variable dependiente el par (yi, x) solo es
observable cuando y > c, por lo que para
obtener la distribución de probabilidad de
la variable aleatoria truncada es necesario
normalizar la función de distribución para
que la probabilidad total sea igual a 1.
• La nueva función de densidad es:
• Y la función de verosimilitud:
-
Modelos de Regresión Censurados
• Los modelos de regresión censurados se emplean en
contextos en los que la variable dependiente es
(parcialmente) continua pero presenta un punto (o
varios) con masa probabilıstica positiva.
• No obstante, dentro de esta categorización
encontramos dos tipos de problemáticas diferentes.
• Por un lado, situaciones en las que la estructura de la
variable dependiente (y) viene generada por una
problema de observabilidad (“Modelo Tobit”).
• En este tipo de situaciones la variable latente (y) tiene
pleno sentido económico y el interés,
consecuentemente, se centra en la regresión
poblacional E (y|x).
• Por otro lado, situaciones en las que la
estructura de la variable dependiente viene
generada por la solución (esquina) a un
problema de optimización o la combinación de
dos procesos estocásticos (Modelos con
“soluciones esquina” o “dos partes”).
• En este tipo de situaciones el interés se centra
en la distribución de y dado x, particularmente a
partir del análisis de E (y|x) y Pr (y = 0|x).
Modelo Tobit
• En un estudio sobre los gastos en consumo de
un bien duradero (automóviles) Tobin observo
que a una familia que no hubiera adquirido un
coche se le asignaría una demanda nula de ese
bien, cuando en realidad lo que estaría
ocurriendo es que su decisión de gasto, aunque
positiva, estaría por debajo del gasto mínimo
necesario para adquirir el bien.
• Tobin propuso entonce modelizar este tipo de
situaciones empleando la siguiente
especificación:
• Supuestos del modelo
• Linealidad
• Normalidad-Homoscedasticidad
Linealidad
• La regla de observabilidad de los modelos censurados
establece que y es observable si y* > c.
• Dado el supuesto de linealidad, la anterior desigualdad se
puede expresar de manera equivalente como:
• Solo la diferencia β− c esta identificada.
• La constante del modelo solo esta identificada si el umbral de
censura es cero (c = 0)
Normalidad y Homoscedasticidad
• Estos supuestos facilitan la derivación del
logaritmo de la función de verosimilitud
• Permiten definir:
• Entonces:
• Por otro lado, los supuestos de Normalidad y
homoscedasticidad permiten derivar una
• expresión para E (y|x).
• La esperanza es:
• Bajo los supuestos enunciados:
• En consecuencia:
• Donde
• Es la inversa del ratio de Mills (o hazard función)
evaluada en xβ/σ
• La expresión (no lineal) obtenida para E (y|x)
sugiere que, dada la naturaleza mixta de la
distribución, el estimador MCO no resultara
apropiado para el modelo Tobit.
• ¿que ocurriría si en lugar de intentar estimar
β partir de E (y|x) lo hiciéramos a partir de E
(y | x,y > 0)?
• La regresión resultante sería mas sencilla,
pero el problema en ese caso radicaría en la
presencia de la inversa del ratio de Mills
como variable explicativa.
El procedimiento de Heckman
• Heckman (1976) propuso estimar la inversa del
ratio de Mills en una primera etapa empleando
un modelo Probit.
• El procedimiento a seguir seria:
• Etapa 1. Estimación ML del modelo
• Con todas las observaciones de la muestra
• Etapa 2: Estimación MCO del modelo
• Empleando las observaciones no
censuradas.
Interpretación de coeficientes en el
Modelo Tobit
• El efecto marginal que presenta el beta
estimado es sobre la variable latente y*
• El coeficiente estimado debe ajustarse para ser
interpretado como efecto marginal sobre la
variable y
• Un cambio en la variable explicativa x tiene dos
efectos sobre E (y|x): por un lado afecta a la
media condicional de la variable dependiente en
la parte positiva de la distribución y por otro lado
afecta a la probabilidad de que la observación
pertenezca a esa parte de la distribución
• En el modelo Tobit:
• En general se evalúa para las variables
explicativas en las medias muestrales