Download Tema 4 MODELOS CON DATOS DE RECUENTO
Document related concepts
no text concepts found
Transcript
ECONOMETRÍA II Prof.: Begoña Álvarez 2007-2008 Tema 4 MODELOS CON DATOS DE RECUENTO 1. Datos de recuento: ejemplos 2. ¿Por qué utilizamos modelos específicos para datos de recuento? 3. Modelo Poisson 4. Modelo binomial negativo 5. Estimación 6. Interpretación de los coeficientes 7. Inferencia 8. Selección de modelos 9. Exceso de ceros REFERENCIAS Cameron, A.C. y P.K. Trivedi (1998). The Analysis of Count Data. Cambridge. University Press. Cap. 19: Greene, A.S. (1999) Análisis Econométrico, Prentice-Hall 1. DATOS DE RECUENTO Se denominan variables de recuento (count data) a aquéllas que toman valores positivos, enteros (incluido el cero). EJEMPLOS: • • • • • Economía de la salud: Número de veces que los individuos acudieron a un determinado servicio médico; número de episodios de enfermedad durante un periodo de tiempo. Economía del transporte: El número de viajes efectuados en un determinado medio de transporte, o a un determinado lugar. Economía industrial: Número de patentes registradas por las empresas Economía de la familia: Número de hijos Finanzas: Número de clientes embargados por impago de hipotecas en diferentes entidades bancarias…… 1. DATOS DE RECUENTO EJEMPLO: Número de visitas al médico 1. DATOS DE RECUENTO EJEMPLO: Horas de trabajo doméstico por día 1. DATOS DE RECUENTO 0 .1 .2 Density .3 .4 .5 EJEMPLO: Número de patentes solicitadas 0 5 10 patents applied for 15 20 2. ¿POR QUÉ UTILIZAMOS MODELOS ESPECÍFICOS PARA DATOS DE RECUENTO? Supongamos que queremos estudiar la relación entre la variable Yi ``número de patentes solicitadas por una empresa'' y k variables explicativas X i 1, X 2i , . . . , X ki . Disponemos de una muestra de n empresas, para los que observamos X i , Yi , i=1,...,n. MODELOS ECONOMÉTRICOS: ¾ Modelo de regresión lineal ¾ Modelos de elección binaria ¾ Modelo probit o logit ordenado ¾ Modelos con datos de recuento: Poisson, binomial negativo, modelo “valla” (hurdle), zero-inflated model 2. ¿POR QUÉ UTILIZAMOS MODELOS ESPECÍFICOS PARA DATOS DE RECUENTO? MODELO DE REGRESIÓN LINEAL • Las predicciones de Y pueden salirse del rango de valores en el que está definido. • Las estimaciones pueden ser inconsistentes. • Puede tener validez para hacer una exploración previa de las relaciones MODELOS DE ELECCIÓN BINARIA Si la variable Y toma muchos valores, plantear un modelo de elección binaria nos conduce a un pérdida de eficiencia (...porque perdemos información) ya que agregamos todos los valores mayores que 0 en un solo valor. MODELOS ORDENADOS • Si la variable Y toma muchos valores o si tiene pocas observaciones en alguno de los valores, es necesario agrupar si queremos estimar un modelo ordenado. Esto, • en determinados contextos, puede suponer pérdida de información. Un aspecto positivo de los modelos ordenados es que podemos utilizarlos cuando queremos analizar variables que toman valores enteros negativos. 3. MODELO POISSON Nuestra variable dependiente es el número de patentes GÉNESIS DE UNA VARIABLE POISSON: Cada patente solicitada es un experimento Bernouilli La empresa i solicita una patente con probabilidad ai La empresa i no solicita patente con probabilidad (1 - ai) El número total de patentes es la suma de todos estos eventos para el periodo de tiempo considerado. Si suponemos que los experimentos Bernouilli son independientes y la probabilidad de que la empresa solicite una patente es constante e igual a a i i /, siendo el número de experimentos, entonces cuando , el número de patentes se distribuye Poisson con parámetro i , Este parámetro es función de las X 3. MODELO POISSON FUNCIÓN DE DISTRIBUCIÓN y PrYi y i X i e i i i yi! i 0 y i 0, 1, 2, . . . El parámetro, en este contexto, se especifica como una forma funcional de las variables explicativas. La especificación más habitual es una exponencial lineal con el fin de garantizar que i 0 i expX i La distribución Poisson se caracteriza por la igualdad de sus primeros momentos EYi X i VarYi X i i PROPIEDAD DE EQUIDISPERSIÓN 3. MODELO POISSON CRÍTICAS AL MODELO POISSON a) la propiedad de equidispersión del modelo es muy restrictiva y se corresponde poco con la naturaleza de los datos económicos b) los datos presentan, generalmente, una frecuencia de ceros que no es consistente con el modelo Poisson; c) la independencia de los sucesos no siempre se cumple; y d) la especificación del parámetro de la distribución como una función determinista del vector de características elimina la posibilidad de que exista algún tipo de heterogeneidad no observable. i 4. MODELO BINOMIAL NEGATIVO FUNCIÓN DE DISTRIBUCIÓN Las carencias del modelo Poisson se resuelven añadiendo una fuente de aleatoriedad en el parámetro λ i expX i i i exp i En trabajos aplicados, generalmente se supone que se distribuye i , i Bajo estos supuestos, la variable de recuento tiene una distribución binomial negativa PrYi y i X i i expX i y i i y i 1 i i i i i ν i = (1 / α )λt i i i i yi , donde t = 0,1 i 4. MODELO BINOMIAL NEGATIVO FUNCIÓN DE DISTRIBUCIÓN La especificación final depende de cómo definamos ν Si ν = (1/α) BINOMIAL NEGATIVA 1 (NEGBIN I) E (Yi | X i ) = exp( X i′ β ) Var (Yi | X i ) = (1 + α ) exp( X i′ β ) Si ν = (1/α) λ BINOMIAL NEGATIVA 2 (NEGBIN II) E (Yi | X i ) = exp( X i′ β ) Var (Yi | X i ) = exp( X i′ β )(1 + α exp( X i′ β )) En estos modelos 0 VarYi X i EYi X i SOBREDISPERSIÓN i 5. ESTIMACIÓN Si estamos interesados no sólo en los parámetros de la media condicional, sino en toda la distribución (queremos estimar probabilidades) POISSON MAXIMA VEROSIMILITUD El estimador MV Poisson tiene las siguientes propiedades: Consistente si media condicional está bien especificada. La consistencia se mantiene incluso si la distribución condicional no es Poisson. Las inferencias obtenidas son válidas, al menos asintóticamente, siempre que exista equidispersión condicional en los datos e independientemente de que procedan o no de una distribución Poisson. Incluso si no existe equidispersión, es posible realizar inferencias válidas sobre los parámetros si la media condicional está correctamente especificada, utilizando errores estándar robustos, como sugiere White (1980). Si los datos no están equidispersos, siempre es posible utilizar otros estimadores más eficientes que el Poisson (Cameron y Trivedi, 1998). i 5. ESTIMACIÓN Si estamos interesados no sólo en los parámetros de la media condicional, sino en toda la distribución (queremos estimar probabilidades) POISSON MAXIMA VEROSIMILITUD A pesar de las buenas propiedades del estimador MV Poisson, si bien podemos obtener estimaciones consistentes de los parámetros (y por tanto del efecto de las variables explicativas sobre la variable dependiente), si la distribución de los datos es otra, tendremos estimaciones de las probabilidades inconsistentes. i 5. ESTIMACIÓN Si estamos interesados no sólo en los parámetros de la media condicional, sino en toda la distribución (queremos estimar probabilidades) BINOMIAL NEGATIVO MAXIMA VEROSIMILITUD Gourieroux y otros (1984 a y b) demuestran que la estimación máximo verosímil de todos los parámetros del modelo a la vez, puede conducir a inconsistencias si esa no es la verdadera distribución de la variable. QUASI-MAXIMUM LIKELIHOOD (ver notas) Se estima el modelo binomial negativo por MV pero fijando el valor del parámetro α. Es necesario calcular las varianzas de los estimadores para garantizar que las inferencias (contrastes) son correctos. i 6. INTERPRETACIÓN DE LOS COEFICIENTES Tanto si el modelo es Poisson como si es Binomial Negativo, la media condicional se especifica E (Yi | X i ) = exp( X i′ β ) 1) Si Xk es una variable dummy, E (Yi | X ik = 1) = exp( β k ) E (Yi | X ik = 0) La media condicional es exp(βk) veces mayor si Xk toma valor 1 en vez de 0. 2) Si Xk es una variable continua, su coeficiente se interpreta como una semielasticidad, es decir, (100*βk) representa el cambio porcentual en la media de la variable dependiente, cuando la variable explicativa aumenta en una unidad. 3) Si Xk es una variable en logaritmos, su coeficiente se interpreta como una elasticidad, βk representa el cambio porcentual en la media de la variable dependiente, cuando la variable explicativa aumenta en un 1%. 7. SELECCIÓN DE MODELOS CONTRASTE DE SOBREDISPERSIÓN Podemos contrastar sobredispersión en dos contextos: 1. A partir de las estimaciones del modelo Poisson 2. A partir de las estimaciones del modelo binomial negativo 7. SELECCIÓN DE MODELOS CONTRASTE DE SOBREDISPERSIÓN A partir de las estimaciones POISSON H0: equidispersión H1: sobredispersión del tipo Negbin I Esta hipótesis se contrasta a partir de una regresión auxiliar. 1. Creamos las variables i expx ( Vˆi = Yi − λˆi ) 2 Estimación de la media condicional Estimación de la varianza condicional 2. Estimamos por MCO la siguiente regresión lineal (Vˆi − Yi ) / λˆi = δ + ωi Contrastamos H0: δ =0 Si rechazamos, rechazamos el Poisson frente al Negbin I 7. SELECCIÓN DE MODELOS CONTRASTE DE SOBREDISPERSIÓN A partir de las estimaciones POISSON H0: equidispersión H1: sobredispersión del tipo Negbin II Esta hipótesis se contrasta a partir de una regresión auxiliar. 1. Creamos las variables i expx V i Yi i Estimación de la media condicional 2 Estimación de la varianza condicional 2. Estimamos por MCO la siguiente regresión lineal (Vˆi − Yi ) / λˆi = δλˆi + ωi Contrastamos H0: δ =0 Si rechazamos, rechazamos el Poisson frente al Negbin II 7. SELECCIÓN DE MODELOS CONTRASTE DE SOBREDISPERSIÓN A partir del modelo BINOMIAL NEGATIVO Me permite contrastar formalmente si los datos muestran evidencia de equidispersión (suponiendo que hemos especificado bien la media condicional). H0: equidispersión H1: sobredispersión Queremos contrastar si : EYi X i VarYi X i . Si nos fijamos en las varianzas del modelo binomial negativo, la condición que deben cumplir para ser iguales a la media condicional es que α = 0. De hecho, cuando α =0 el modelo binomial negativo se convierte en el Poisson. Por tanto, debemos contrastar en el modelo binomial negativo: H0: α = 0 Podemos calcular un contraste de ratio de verosimilitudes: H1: α >0 Modelo restringido= Poisson Modelo no restring=NEGBIN 7. SELECCIÓN DE MODELOS CONTRASTE DE SOBREDISPERSIÓN A partir del modelo BINOMIAL NEGATIVO Me permite contrastar formalmente si los datos muestran evidencia de equidispersión (suponiendo que hemos especificado bien la media condicional). H0: equidispersión H1: sobredispersión ¿Qué pasa si rechazo H0? Obtengo evidencia en contra del modelo Poisson. ¿Significa eso que el modelo binomial negativo es el “verdadero”? No necesariamente. El modelo binomial negativo es uno de los que supone sobredispersión en los datos. Pero hay otras especificaciones que también tienen esta propiedad. 7. SELECCIÓN DE MODELOS Reglas de selección de modelos • Discutir la coherencia de los coeficientes estimados en relación a las predicciones de la teoría económica. • Comparar los R2 en este caso corregidos para los modelos BN2 y Poisson, según la propuesta de Cameron y Windmeijer (1996). R2dev N Yi logexpX i /Y expX i Y i1 . N Yi logYi /Y i1 En el Poisson funciona bien (cumple todas las reglas habituales en un R2). Pero en la Negbin II no siempre aumenta cuando se añaden variables explicativas. 7. SELECCIÓN DE MODELOS Reglas de selección de modelos • CRITERIOS DE INFORMACIÓN: Estos criterios nos sirven para seleccionar entre modelos no anidados. Se basan en la comparación de log-verosimilitudes pero penalizando a aquellos modelos con más variables explicativas y con mayor número de observaciones. Criterio de informacion de Akaike: AIC = −2ln L + k Criterio de informacion Bayesiano: BIC = −2ln L + ln n ⋅ k Criterio de informacion consistente de Akaike: CAIC = − 2ln L + (1 + ln n)k Se selecciona aquel modelo con menor valor en el criterio que se utilice. 7. SELECCIÓN DE MODELOS Reglas de selección de modelos • Comparar la capacidad predictiva de los modelos Se lleva a cabo comparando las probabilidades marginales estimadas bajo las distintas especificaciones paramétricas propuestas, con las frecuencias muestrales correspondientes. 7. SELECCIÓN DE MODELOS Bondad de ajuste del modelo seleccionado Uno de los contrastes más populares se basa en la comparación de las probabilidades predichas y las observadas. Chi-squared goodness-of-fit test: H0: el modelo está bien especificado H1: mal especificado Tgof = (P - Pˆ )' V -1 (P - Pˆ )' Vector de probabilidades marginales muestrales Matriz de varianzascovarianzas de las probabilidades predichas Número de valores que Y toma en la muestra Se distribuye como χ2 (q -1) Vector de probabilidades marginales predichas 8. EXCESO DE CEROS Algunas variables de recuento muestran un porcentaje de ceros muy grande. Esa cantidad de ceros no es consistente con las distribuciones Poisson o binomial negativa (generalmente es mayor). Dos de los modelos más utilizados en la literatura para abordar este tipo de situaciones son: - Hurdle models - Zero-inflated model La idea básica de estos modelos es que los ceros (todos o parte de ellos) no proceden del mismo proceso generador de datos que el resto de valores. 8. EXCESO DE CEROS EJEMPLOS: 1. Número de publicaciones internacionales obtenidas en el último año por investigadores Los que tiene cero publicaciones puede ser por dos motivos: -Su investigación es tal que no es posible para ellos conseguir ninguna publicación internacional. -Sí realizan una investigación que puede ser publicada a nivel internacional, pero durante ese año no han conseguido publicar ningún artículo. 2. Número de consultas al médico realizadas en los últimos 15 días. Algunas teorías plantean que el proceso de decisión es el siguiente: - La decisión de ir o no al médico (decisión que determina los ceros) depende de la voluntad del paciente y, por tanto, de sus características. - El número de veces que van los que deciden ir viene determinada por el médico (hipótesis de la demanda inducida por la oferta). 8. EXCESO DE CEROS EJEMPLOS: 3. Número de veces que va una persona a pescar en el último mes Los que responden cero veces pueden tener dos motivos - No son pescadores. - Sí son pescadores, pero ese mes no han ido a pescar debido a restricciones de tiempo, dinero… 4. Número de patentes solicitadas por una empresa en un año. Los motivos por los que una empresa solicita cero patentes pueden ser dos: - Es una empresa que, por la naturaleza de su actividad, no crea patentes. - La empresa sí lleva a cabo actividades de I+D y, por tanto, puede desarrollar patentes, pero ese año no ha solicitado ninguna por diversos motivos económicos o de funcionamiento de la empresa... 8. EXCESO DE CEROS HURDLE MODELS (MODELOS VALLA) El proceso que genera los ceros es diferente al proceso que genera los valores positivos. La idea básica es que hay una decisión binaria que determina si el resulado es cero/no cero y una segunda parte de la decisión que determina los valores mayores que cero cuando esa “valla” cero/no cero se ha cruzado. Demanda de asistencia sanitaria: Número de visitas al médico Acude al médico Número de veces VALLA Individuo No acude Decisión de contacto Frecuencia de visitas 8. EXCESO DE CEROS HURDLE MODELS (MODELOS VALLA) El proceso se divide en 2: - Modelo de decisión binaria (generado por una distribución f1) - Modelo truncado en cero (generado por una distribución f2) Probabilidad de cero Pr ( yi = 0 ) = f1 (0) Probabilidad de valores >0 Pr( yi = j ) = (1 − f1 (0)) Probabilidad de cruzar la valla f 2 ( y) 1 − f 2 ( 0) j>0 La probabilidad de obtener un valor “y” si se ha cruzado la valla 9. EXCESO DE CEROS ZERO-INFLATED MODELS Estos modelos suponen que los ceros se generan de dos formas: - Por una parte tenemos los “siempre cero”. - Los ceros que proceden de la distribución (Poisson, binomial negativa…) que se ha supuesto y que es la que genera, también, los valores Y>0. Nº de patentes solicitadas Crea patentes Y>=0 Empresa 0 Número de patentes 1 2 3 …. No crea patentes Y=0 9. EXCESO DE CEROS ZERO-INFLATED MODELS Por tanto, la probabilidad de que Y=0 tiene dos componentes. Pr ( yi = 0 ) = g i + (1 − g i ) f (0) poisson / bineg Probabilidad de los “siempre cero” que viene definida por un proceso de decisión binario (logit, probit…) Probabilidad de observar cero en aquellos individuos que no pertenecen a la categoría de “siempre cero”. Esta parte de especifica como una distribución de recuento. La probabilidad de observar un valor >0 Pr( yi = j ) = (1 − g i ) f ( y ) j>0