Download Tema 4 MODELOS CON DATOS DE RECUENTO

Document related concepts
no text concepts found
Transcript
ECONOMETRÍA II
Prof.: Begoña Álvarez
2007-2008
Tema 4
MODELOS CON DATOS DE RECUENTO
1. Datos de recuento: ejemplos
2. ¿Por qué utilizamos modelos específicos para datos de recuento?
3. Modelo Poisson
4. Modelo binomial negativo
5. Estimación
6. Interpretación de los coeficientes
7. Inferencia
8. Selección de modelos
9. Exceso de ceros
REFERENCIAS
Cameron, A.C. y P.K. Trivedi (1998). The Analysis of Count Data. Cambridge.
University Press.
Cap. 19: Greene, A.S. (1999) Análisis Econométrico, Prentice-Hall
1. DATOS DE RECUENTO
Se denominan variables de recuento (count data) a aquéllas que toman valores
positivos, enteros (incluido el cero).
EJEMPLOS:
•
•
•
•
•
Economía de la salud: Número de veces que los individuos acudieron a un
determinado servicio médico; número de episodios de enfermedad durante
un periodo de tiempo.
Economía del transporte: El número de viajes efectuados en un
determinado medio de transporte, o a un determinado lugar.
Economía industrial: Número de patentes registradas por las empresas
Economía de la familia: Número de hijos
Finanzas: Número de clientes embargados por impago de hipotecas en
diferentes entidades bancarias……
1. DATOS DE RECUENTO
EJEMPLO: Número de visitas al médico
1. DATOS DE RECUENTO
EJEMPLO: Horas de trabajo doméstico por día
1. DATOS DE RECUENTO
0
.1
.2
Density
.3
.4
.5
EJEMPLO: Número de patentes solicitadas
0
5
10
patents applied for
15
20
2. ¿POR QUÉ UTILIZAMOS MODELOS ESPECÍFICOS PARA
DATOS DE RECUENTO?
Supongamos que queremos estudiar la relación entre la variable Yi ``número de
patentes solicitadas por una empresa'' y k variables explicativas X i  1, X 2i ,
. . . , X ki   . Disponemos de una muestra de n empresas, para los que observamos
X i , Yi , i=1,...,n.
MODELOS ECONOMÉTRICOS:
¾ Modelo de regresión lineal
¾ Modelos de elección binaria
¾ Modelo probit o logit ordenado
¾ Modelos con datos de recuento: Poisson, binomial negativo, modelo
“valla” (hurdle), zero-inflated model
2. ¿POR QUÉ UTILIZAMOS MODELOS ESPECÍFICOS PARA
DATOS DE RECUENTO?
MODELO DE REGRESIÓN LINEAL
• Las predicciones de Y pueden salirse del rango de valores en el que está definido.
• Las estimaciones pueden ser inconsistentes.
• Puede tener validez para hacer una exploración previa de las relaciones
MODELOS DE ELECCIÓN BINARIA
Si la variable Y toma muchos valores, plantear un modelo de elección binaria nos
conduce a un pérdida de eficiencia (...porque perdemos información) ya que agregamos
todos los valores mayores que 0 en un solo valor.
MODELOS ORDENADOS
•
Si la variable Y toma muchos valores o si tiene pocas observaciones en alguno de
los valores, es necesario agrupar si queremos estimar un modelo ordenado. Esto,
•
en determinados contextos, puede suponer pérdida de información.
Un aspecto positivo de los modelos ordenados es que podemos utilizarlos cuando
queremos analizar variables que toman valores enteros negativos.
3. MODELO POISSON
Nuestra variable dependiente es el número de patentes
GÉNESIS DE UNA VARIABLE POISSON:
Cada patente solicitada es un experimento Bernouilli
La empresa i solicita una patente con probabilidad ai
La empresa i no solicita patente con probabilidad (1 - ai)
El número total de patentes es la suma de todos estos eventos para el periodo de tiempo
considerado. Si suponemos que los experimentos Bernouilli son independientes y la
probabilidad de que la empresa solicite una patente es constante e igual a a i   i /,
siendo  el número de experimentos, entonces cuando    , el número de patentes
se distribuye Poisson con parámetro  i ,
Este parámetro es función de las X
3. MODELO POISSON
FUNCIÓN DE DISTRIBUCIÓN
y
PrYi  y i  X i   e
 i
i i
yi!
i  0
y i  0, 1, 2, . . .
El parámetro, en este contexto, se especifica como una forma funcional de las variables
explicativas. La especificación más habitual es una exponencial lineal con el fin de
garantizar que  i  0
 i  expX i 
La distribución Poisson se caracteriza por la igualdad de sus primeros momentos
EYi  X i   VarYi  X i    i
PROPIEDAD DE EQUIDISPERSIÓN
3. MODELO POISSON
CRÍTICAS AL MODELO POISSON
a) la propiedad de equidispersión del modelo es muy restrictiva y se
corresponde poco con la naturaleza de los datos económicos
b) los datos presentan, generalmente, una frecuencia de ceros que no es
consistente con el modelo Poisson;
c) la independencia de los sucesos no siempre se cumple; y
d) la especificación del parámetro de la distribución como una función
determinista del vector de características elimina la posibilidad de que
exista algún tipo de heterogeneidad no observable.
i
4. MODELO BINOMIAL NEGATIVO
FUNCIÓN DE DISTRIBUCIÓN
Las carencias del modelo Poisson se resuelven añadiendo una fuente de
aleatoriedad en el parámetro λ
 i  expX i    i    i exp i 
En trabajos aplicados, generalmente se supone que
se distribuye
 i ,  i 
Bajo estos supuestos, la variable de recuento tiene una distribución binomial
negativa
PrYi  y i  X i  
 i  expX i 
y i   i 
y i  1 i 
i
i
i   i
ν i = (1 / α )λt i
i
i  i
yi
,
donde t = 0,1
i
4. MODELO BINOMIAL NEGATIVO
FUNCIÓN DE DISTRIBUCIÓN
La especificación final depende de cómo definamos ν
Si ν = (1/α)
BINOMIAL NEGATIVA 1 (NEGBIN I)
E (Yi | X i ) = exp( X i′ β )
Var (Yi | X i ) = (1 + α ) exp( X i′ β )
Si ν = (1/α) λ
BINOMIAL NEGATIVA 2 (NEGBIN II)
E (Yi | X i ) = exp( X i′ β )
Var (Yi | X i ) = exp( X i′ β )(1 + α exp( X i′ β ))
En estos modelos
0
VarYi  X i   EYi  X i 
SOBREDISPERSIÓN
i
5. ESTIMACIÓN
Si estamos interesados no sólo en los parámetros de la media condicional, sino
en toda la distribución (queremos estimar probabilidades)
POISSON
MAXIMA VEROSIMILITUD
El estimador MV Poisson tiene las siguientes propiedades:
™
Consistente si media condicional está bien especificada. La consistencia se
mantiene incluso si la distribución condicional no es Poisson.
™ Las inferencias obtenidas son válidas, al menos asintóticamente, siempre que
exista equidispersión condicional en los datos e independientemente de que
procedan o no de una distribución Poisson.
™
Incluso si no existe equidispersión, es posible realizar inferencias válidas sobre
los parámetros si la media condicional está correctamente especificada,
utilizando errores estándar robustos, como sugiere White (1980).
™
Si los datos no están equidispersos, siempre es posible utilizar otros
estimadores más eficientes que el Poisson (Cameron y Trivedi, 1998).
i
5. ESTIMACIÓN
Si estamos interesados no sólo en los parámetros de la media condicional, sino
en toda la distribución (queremos estimar probabilidades)
POISSON
MAXIMA VEROSIMILITUD
A pesar de las buenas propiedades del estimador MV Poisson, si bien podemos
obtener estimaciones consistentes de los parámetros (y por tanto del efecto de las
variables explicativas sobre la variable dependiente), si la distribución de los datos
es otra, tendremos estimaciones de las probabilidades inconsistentes.
i
5. ESTIMACIÓN
Si estamos interesados no sólo en los parámetros de la media condicional, sino
en toda la distribución (queremos estimar probabilidades)
BINOMIAL NEGATIVO
MAXIMA VEROSIMILITUD
™
Gourieroux y otros (1984 a y b) demuestran que la estimación máximo verosímil
de todos los parámetros del modelo a la vez, puede conducir a inconsistencias si
esa no es la verdadera distribución de la variable.
QUASI-MAXIMUM LIKELIHOOD (ver notas)
™
Se estima el modelo binomial negativo por MV pero fijando el valor del parámetro α.
Es necesario calcular las varianzas de los estimadores para garantizar que las
inferencias (contrastes) son correctos.
i
6. INTERPRETACIÓN DE LOS COEFICIENTES
Tanto si el modelo es Poisson como si es Binomial Negativo, la media
condicional se especifica
E (Yi | X i ) = exp( X i′ β )
1) Si Xk es una variable dummy,
E (Yi | X ik = 1)
= exp( β k )
E (Yi | X ik = 0)
La media condicional es exp(βk) veces mayor si Xk toma valor 1 en vez de 0.
2) Si Xk es una variable continua, su coeficiente se interpreta como una
semielasticidad, es decir, (100*βk) representa el cambio porcentual en la media
de la variable dependiente, cuando la variable explicativa aumenta en una
unidad.
3) Si Xk es una variable en logaritmos, su coeficiente se interpreta como una
elasticidad, βk representa el cambio porcentual en la media de la variable
dependiente, cuando la variable explicativa aumenta en un 1%.
7. SELECCIÓN DE MODELOS
CONTRASTE DE SOBREDISPERSIÓN
Podemos contrastar sobredispersión en dos contextos:
1. A partir de las estimaciones del modelo Poisson
2. A partir de las estimaciones del modelo binomial negativo
7. SELECCIÓN DE MODELOS
CONTRASTE DE SOBREDISPERSIÓN
A partir de las estimaciones POISSON
H0: equidispersión
H1: sobredispersión del tipo Negbin I
Esta hipótesis se contrasta a partir de una regresión auxiliar.
1. Creamos las variables
 i  expx   
(
Vˆi = Yi − λˆi
)
2
Estimación de la media condicional
Estimación de la varianza condicional
2. Estimamos por MCO la siguiente regresión lineal
(Vˆi − Yi ) / λˆi = δ + ωi
Contrastamos H0: δ =0
Si rechazamos, rechazamos el Poisson
frente al Negbin I
7. SELECCIÓN DE MODELOS
CONTRASTE DE SOBREDISPERSIÓN
A partir de las estimaciones POISSON
H0: equidispersión
H1: sobredispersión del tipo Negbin II
Esta hipótesis se contrasta a partir de una regresión auxiliar.
1. Creamos las variables
 i  expx   
V i  Yi   i
Estimación de la media condicional
2
Estimación de la varianza condicional
2. Estimamos por MCO la siguiente regresión lineal
(Vˆi − Yi ) / λˆi = δλˆi + ωi
Contrastamos H0: δ =0
Si rechazamos, rechazamos el Poisson
frente al Negbin II
7. SELECCIÓN DE MODELOS
CONTRASTE DE SOBREDISPERSIÓN
A partir del modelo BINOMIAL NEGATIVO
Me permite contrastar formalmente si los datos muestran evidencia de
equidispersión (suponiendo que hemos especificado bien la media condicional).
H0: equidispersión
H1: sobredispersión
Queremos contrastar si :
EYi  X i   VarYi  X i .
Si nos fijamos en las varianzas del modelo binomial negativo, la condición que
deben cumplir para ser iguales a la media condicional es que α = 0.
De hecho, cuando α =0 el modelo binomial negativo se convierte en el Poisson.
Por tanto, debemos contrastar en el modelo binomial negativo:
H0: α = 0
Podemos calcular un
contraste de ratio de
verosimilitudes:
H1: α >0
Modelo restringido= Poisson
Modelo no restring=NEGBIN
7. SELECCIÓN DE MODELOS
CONTRASTE DE SOBREDISPERSIÓN
A partir del modelo BINOMIAL NEGATIVO
Me permite contrastar formalmente si los datos muestran evidencia de
equidispersión (suponiendo que hemos especificado bien la media condicional).
H0: equidispersión
H1: sobredispersión
¿Qué pasa si rechazo H0?
Obtengo evidencia en contra del modelo Poisson.
¿Significa eso que el modelo binomial negativo es el “verdadero”?
No necesariamente. El modelo binomial negativo es uno de los que
supone sobredispersión en los datos. Pero hay otras especificaciones
que también tienen esta propiedad.
7. SELECCIÓN DE MODELOS
Reglas de selección de modelos
• Discutir la coherencia de los coeficientes estimados en relación a las
predicciones de la teoría económica.
• Comparar los R2 en este caso corregidos para los modelos BN2 y Poisson,
según la propuesta de Cameron y Windmeijer (1996).
R2dev
N
Yi logexpX i  /Y  expX i    Y
 i1

.
N
Yi logYi /Y
 i1
En el Poisson funciona bien (cumple todas las reglas habituales en un R2). Pero en la
Negbin II no siempre aumenta cuando se añaden variables explicativas.
7. SELECCIÓN DE MODELOS
Reglas de selección de modelos
• CRITERIOS DE INFORMACIÓN:
Estos criterios nos sirven para seleccionar entre modelos no anidados. Se
basan en la comparación de log-verosimilitudes pero penalizando a
aquellos modelos con más variables explicativas y con mayor número de
observaciones.
Criterio de informacion de Akaike: AIC = −2ln L + k
Criterio de informacion Bayesiano: BIC = −2ln L + ln n ⋅ k
Criterio de informacion consistente de Akaike: CAIC = − 2ln L + (1 + ln n)k
Se selecciona aquel modelo con menor valor en el criterio que se utilice.
7. SELECCIÓN DE MODELOS
Reglas de selección de modelos
• Comparar la capacidad predictiva de los modelos
Se lleva a cabo comparando las probabilidades marginales estimadas bajo
las distintas especificaciones paramétricas propuestas, con las frecuencias
muestrales correspondientes.
7. SELECCIÓN DE MODELOS
Bondad de ajuste del modelo seleccionado
Uno de los contrastes más populares se basa en la comparación de
las probabilidades predichas y las observadas.
Chi-squared goodness-of-fit test:
H0: el modelo está bien especificado
H1: mal especificado
Tgof = (P - Pˆ )' V -1 (P - Pˆ )'
Vector de probabilidades
marginales muestrales
Matriz de varianzascovarianzas de las
probabilidades predichas
Número de
valores que Y
toma en la
muestra
Se distribuye como χ2 (q -1)
Vector de probabilidades
marginales predichas
8. EXCESO DE CEROS
Algunas variables de recuento muestran un porcentaje de ceros muy
grande. Esa cantidad de ceros no es consistente con las distribuciones
Poisson o binomial negativa (generalmente es mayor).
Dos de los modelos más utilizados en la literatura para abordar este tipo de
situaciones son:
- Hurdle models
- Zero-inflated model
La idea básica de estos modelos es que los ceros (todos o parte de ellos)
no proceden del mismo proceso generador de datos que el resto de
valores.
8. EXCESO DE CEROS
EJEMPLOS:
1. Número de publicaciones internacionales obtenidas en el último
año por investigadores
Los que tiene cero publicaciones puede ser por dos motivos:
-Su investigación es tal que no es posible para ellos conseguir ninguna
publicación internacional.
-Sí realizan una investigación que puede ser publicada a nivel
internacional, pero durante ese año no han conseguido publicar ningún
artículo.
2. Número de consultas al médico realizadas en los últimos 15 días.
Algunas teorías plantean que el proceso de decisión es el siguiente:
- La decisión de ir o no al médico (decisión que determina los ceros) depende
de la voluntad del paciente y, por tanto, de sus características.
- El número de veces que van los que deciden ir viene determinada por el
médico (hipótesis de la demanda inducida por la oferta).
8. EXCESO DE CEROS
EJEMPLOS:
3. Número de veces que va una persona a pescar en el último mes
Los que responden cero veces pueden tener dos motivos
- No son pescadores.
- Sí son pescadores, pero ese mes no han ido a pescar debido a
restricciones de tiempo, dinero…
4. Número de patentes solicitadas por una empresa en un año.
Los motivos por los que una empresa solicita cero patentes pueden ser dos:
- Es una empresa que, por la naturaleza de su actividad, no crea patentes.
- La empresa sí lleva a cabo actividades de I+D y, por tanto, puede desarrollar
patentes, pero ese año no ha solicitado ninguna por diversos motivos
económicos o de funcionamiento de la empresa...
8. EXCESO DE CEROS
HURDLE MODELS (MODELOS VALLA)
El proceso que genera los ceros es diferente al proceso que genera los
valores positivos.
La idea básica es que hay una decisión binaria que determina si el
resulado es cero/no cero y una segunda parte de la decisión que
determina los valores mayores que cero cuando esa “valla” cero/no cero
se ha cruzado.
Demanda de asistencia sanitaria: Número de visitas al médico
Acude al médico
Número de veces
VALLA
Individuo
No acude
Decisión de contacto
Frecuencia de visitas
8. EXCESO DE CEROS
HURDLE MODELS (MODELOS VALLA)
El proceso se divide en 2:
- Modelo de decisión binaria (generado por una distribución f1)
- Modelo truncado en cero (generado por una distribución f2)
Probabilidad de cero
Pr ( yi = 0 ) = f1 (0)
Probabilidad de
valores >0
Pr( yi = j ) = (1 − f1 (0))
Probabilidad de cruzar la
valla
f 2 ( y)
1 − f 2 ( 0)
j>0
La probabilidad de obtener un
valor “y” si se ha cruzado la valla
9. EXCESO DE CEROS
ZERO-INFLATED MODELS
Estos modelos suponen que los ceros se generan de dos formas:
- Por una parte tenemos los “siempre cero”.
- Los ceros que proceden de la distribución (Poisson, binomial negativa…) que
se ha supuesto y que es la que genera, también, los valores Y>0.
Nº de patentes solicitadas
Crea patentes Y>=0
Empresa
0
Número de
patentes
1
2
3
….
No crea patentes Y=0
9. EXCESO DE CEROS
ZERO-INFLATED MODELS
Por tanto, la probabilidad de que Y=0 tiene dos componentes.
Pr ( yi = 0 ) = g i + (1 − g i ) f (0) poisson / bineg
Probabilidad de los “siempre cero”
que viene definida por un proceso
de decisión binario (logit, probit…)
Probabilidad de observar cero en
aquellos individuos que no
pertenecen a la categoría de
“siempre cero”. Esta parte de
especifica como una distribución de
recuento.
La probabilidad de observar un valor >0
Pr( yi = j ) = (1 − g i ) f ( y )
j>0