Download Econometría Aplicada - Variable dependiente cualitativa y función
Document related concepts
no text concepts found
Transcript
Econometría Aplicada Econometría Aplicada Variable dependiente cualitativa y función de Verosimilitud Víctor Medina Econometría Aplicada Variable dependiente cualitativa Variable dependiente cualitativa Econometría Aplicada Variable dependiente cualitativa Variable dependiente cualitativa Los objetivos de esta parte del curso principalmente son: 1. Dar algunos ejemplos de decisiones económicas donde la variable dependiente es una varible binaria. 2. Explicar por qué Probit y Logit son usualmente preferibles a mínimos cuadrados cuando estimamos un modelo de variable dependiente binaria. 3. Conocer otras formas de estimación, en particular, introducir la función de verosimilitud. I I Hasta ahora nos hemos enfocado en modelos econométricos donde la variable dependiente es continua: cantidades, precios, etc. Sin embargo, muchas de las decisiones que los individuos y las empresas hacen no pueden ser medidas por una variable continua. Ahora veremos modelos que son usados para describir decisiones (si o no) o comportamientos (bueno, malo, etc.) Econometría Aplicada Variable dependiente cualitativa Modelos con variables dependientes binarias I I I I I Muchas de las decisiones que hacemos, o que las empresas hacen, son dicotómicas. Por ejemplo, decidir si comprar una casa o arrendar. Una empresa decide si publicitar su producto en el diario o no, etc. Como econometristas estamos interesados en explicar por qué decisiones particulares son tomadas, y qué factores entran en el proceso de decisión. También nos gustaría saber cuánto contribuye cada factor en la decisión. Este tipo de decisiones se puede interpretar por un indicador binario que toma el valor 1 si una de las opciones es elegidas o 0 en caso contrario. Ahora,la variable dependiente (y) toma valores 0 o 1 (no la variable independiente como vimos anteriormente). Esto afecta nuestra elección de modelo estadístico. Ejemplos son variados: I I I Modelo econométrico que explica por qué un banco acepta o rechaza créditos Modelo econométrico que explica por qué algunas mujeres deciden estudiar ingeniería y otras no Modelo econométrico que explica por qué un cliente se va a la competencia y otros se quedan Econometría Aplicada Variable dependiente cualitativa Modelos con variables dependientes binarias Supongamos que queremos explicar por qué una persona decide o bien viajar al trabajo en el transantiago o manejar su propio auto (asumiendo por simplicidad que estas son las dos únicas opciones). Entonces y= 1 0 si maneja si ocupa transantiago Si la probabilidad que una persona maneje al trabajo es p, entonces P (y = 1) = p y P (y = 0) = 1 − p, es decir, la función de probabilidad es f (y) = py (1 − p)1−y , y = 0, 1 Con E(y) = p y var(y) = p(1 − p) I ¿Qué factores podrían afectar la decisión? Supongamos que el tiempo que toma un medio versus el otro. Definimos por ahora sólo una variable dada por x = (tiempo en transantiago − tiempo en auto) A priori esperamos que si x aumenta, p también. Econometría Aplicada Variable dependiente cualitativa Modelo de probabilidad lineal En los modelo de regresión vistos, hemos separado la variable dependiente como la suma de su valor esperado y la parte aleatoria y = E(y) + e = p + e Luego, relacionamos la parte esperada de la forma E(y) = p = β1 + β2 x, o de otra forma, y = β1 + β2 x + e La función de densidad de probabilidad para y y el error e toman los valores Se puede observar que var(e) = (β1 + β2 x)(1 − β1 − β2 x) Es decir, el error es heterocedástico. Econometría Aplicada Variable dependiente cualitativa Modelo de probabilidad lineal En la práctica, este enfoque puede traer algunas dificultades en su implementación. Si estimamos los parámetros del valor esperado de y con MC, tendríamos p̂ = β̂1 + β̂2 x I I Cuando usamos este modelo para predecir comportamiento, podríamos obtener valores de p̂ mayores a 1 o menores a 0, lo cual pierde sentido en términos probabilísticos. El otro problema que aparece es que el modelo lineal implícitamente asume que un incremento marginal en x tiene un efecto constante en la probabilidad dp = β2 dx Es decir, a medida que aumentamos x, la probabilidad de manejar aumenta a una tasa constante. Sin embargo, p está acotada, por lo tanto, una tasa de incremento constante no es posible. Econometría Aplicada Variable dependiente cualitativa Modelo Probit Una función que resuelve los problemas anteriores es la función Probit. Su función de distribución acumulada se ilustra a continuación (normal estándar) Econometría Aplicada Variable dependiente cualitativa Modelo Probit Y su función de densidad de probabilidad es Econometría Aplicada Variable dependiente cualitativa Modelo Probit Si Z es una variable aleatoria normal estándar, entonces la función Probit es (distribución normal acumulada) Z z Φ(z) = P (Z ≤ z) = −∞ 2 1 √ e−0.5u du 2π El modelo Probit computa la probabilidad p que y tenga el valor 1 p = P (Z ≤ β1 + β2 x) = Φ(β1 + β2 x) Si supieramos los valores de β1 y β2 , podríamos calcular la probabilidad que una persona vaya manejando al trabajo. I ¡Debemos estimar los coeficientes! Econometría Aplicada Variable dependiente cualitativa Función de Verosimilitud Supongamos que aleatoriamente seleccionamos 3 personas. Dos de ellas manejan al trabajo y la otra va en transantiago. Es decir, y1 = 1, y2 = 1 e y3 = 0. Además, supongamos que los valores de x, en minutos, son x1 = 15, x2 = 6 y x3 = 7. I ¿Cuál es la probabilidad conjunta de observar y1 = 1, y2 = 1 e y3 = 0? La densidad marginal es f (yi ) = [Φ(β1 + β2 xi )]yi [1 − Φ(β1 + β2 xi )]1−yi , yi = 0, 1 Si las observaciones son independientes, entonces la probabilidad conjunta es la multiplicación de las densidades marginales f (y1 , y2 , y3 ) = f (y1 )f (y2 )f (y3 ) Para nuestro ejemplo, P (y1 = 1, y2 = 1, y3 = 0) = Φ(β1 + β2 · 15)Φ(β1 + β2 · 6)(1 − Φ(β1 + β2 · 7)) = L(β1 , β2 ) En estadística, la probabilidad de observar la muestra se llama función de verosimilitud Econometría Aplicada Variable dependiente cualitativa Función de Verosimilitud I I I I La notación L(β1 , β2 ) indica que la función depende de los parámetros desconocidos. El método de máxima verosimilitud (MV) busca los parámetros β˜1 y β˜2 que maximizan la probabilidad de observar esa muestra. Desgraciadamente el problema no es despejable y se deben utilizar métodos iterativos para calcular los coeficientes En general, se utiliza el logaritmo de la función de verosimilitud porque facilita el cálculo de maximización En nuestro ejemplo ln L(β1 , β2 ) = ln Φ(β1 + β2 · 15) + ln Φ(β1 + β2 · 6) + ln[1 − Φ(β1 + β2 · 7)] I I Tanto ln L(β1 , β2 ) como L(β1 , β2 ) tienen el mismo argmax, es decir, al maximizar ln L y L llegamos a los mismos β˜1 y β˜2 A β˜1 y β˜2 son los estimadores de máxima verosimilitud Usamos 3 observaciones sólo con un fin ilustrativo, en la realidad la estimación a través de máxima verosimilitud se debe usar para muestras grandes, sino tenemos problemas de interpretación. Econometría Aplicada Variable dependiente cualitativa Ejemplo Transantiago Supongamos que tenemos la siguiente información de usuarios de transantiago y autos. donde dtiempo = (t_bus − t_auto)/10 Econometría Aplicada Variable dependiente cualitativa Ejemplo Transantiago Los resultados de la regresion probit son P (auto = 1) = Φ(β1 + β2 · dtiempo) Econometría Aplicada Variable dependiente cualitativa Ejemplo Transantiago Efecto marginal Supongamos que queremos estimar el efecto marginal de incrementar el tiempo en el transporte público si es que este toma 20 minutos más que el viaje en auto, es decir, dp̂ = φ(β̃1 + β̃2 dtiempo)β̃2 = φ(−0.0644 + 0.3 · 2) · 0.3 ddtiempo = φ(0.5355) · 0.3 = 0.3456 · 0.3 = 0.1037 Luego, un incremento de 20 minutos en el tiempo de viaje en bus, trae consigo un incremento en la probabilidad de ir en auto en 0.1037 Predecir el comportamiento Supongamos ahora que una persona se demora 30 minutos más en bus que en auto en llegar a su trabajo, entonces la probabilidad estimada que eligirá el auto es p̂ = Φ(β̃1 + β̃2 dtiempo) = Φ(−0.0644 + 0.3 · 3) = 0.7983 En otras palabras, la persona estaría más inclinada a irse en auto que en bus. Econometría Aplicada Variable dependiente cualitativa Modelo Logit I Ya vimos que el modelo Probit presentaba algunas complicaciones por su forma funcional (distribución normal) 2 1 φ(u) = √ e−0.5u , 2π I Una alternativa es el modelo Logit, que también tiene la forma de “S” y su densidad de probabilidad viene dada por λ(l) = I −∞ < u < ∞ e−l , (1 + e−l )2 −∞ < l < ∞ La función de distribución acumulada, a diferencia de la distribución normal, tiene una expresión cerrada, dada por Z l Λ(l) = P (L ≤ l) = λ(x)dx −∞ = 1 1 + e−l Econometría Aplicada Variable dependiente cualitativa Modelo Logit Comparación de densidades de probabilidad logit probit 0.4 y 0.3 0.2 0.1 0.0 −4 −2 0 x 2 4 Econometría Aplicada Variable dependiente cualitativa Modelo Logit Comparación de distribuciones acumuladas logit probit 1.00 y 0.75 0.50 0.25 0.00 −4 −2 0 x 2 4 Econometría Aplicada Variable dependiente cualitativa Modelo Logit I I Entonces, la probabilidad p que un valor observado tome el valor 1 es 1 p = P (L ≤ β1 + β2 x) = Λ(β1 + β2 x) = 1 + e−(β1 +β2 x) eβ1 +β2 x = 1 + eβ1 +β2 x y, por lo tanto, 1 1−p= 1 + eβ1 +β2 x La estimación es análoga al caso Probit, intercambiando Φ por Λ. Es decir, si consideramos N observaciones, la función de verosimilitud para el modelo Probit es L(β1 , β2 ) = N Y Φ(β1 + β2 xi )yi (1 − Φ(β1 + β2 xi ))1−yi i=1 y la función de verosimilitud del modelo Logit L(β̃1 , β̃2 ) = N Y i=1 Λ(β̃1 + β̃2 xi )yi (1 − Λ(β̃1 + β̃2 xi ))1−yi Econometría Aplicada Variable dependiente cualitativa Generalizaciones de Modelo Probit y Logit La generalización de los modelos cuando tenemos K parámetros a estimar es directa y queda de la siguiente forma I Modelo Probit L(β1 , β2 , . . . , βK ) = N Y Φ[Xi β]yi (1 − Φ[Xi β])1−yi i=1 donde Xi β = β1 + β2 xi2 + · · · + βK xiK I Modelo Logit L(β̃1 , β̃2 , . . . , β̃K ) = N Y Λ[Xi β̃]yi (1 − Λ[Xi β̃])1−yi i=1 donde Xi β̃ = β̃1 + β̃2 xi2 + · · · + β̃K xiK Econometría Aplicada Variable dependiente cualitativa Ejemplo Transantiago Con el modelo Probit teníamos P (auto = 1) = Φ(β1 + β2 · dtiempo) Econometría Aplicada Variable dependiente cualitativa Ejemplo Transantiago Con el modelo Logit tenemos P (auto = 1) = Λ(β1 + β2 · dtiempo) Econometría Aplicada Variable dependiente cualitativa Ejemplo Transantiago Econometría Aplicada Variable dependiente cualitativa Estimadores de Máxima Verosimilitud Para ilustrar el significado del estimador de máxima verosimilitud, consideremos el siguiente ejemplo. I Se lanza un dado tres veces, obteniendo los siguientes resultados (asumimos que los lanzamientos son independientes), {3, 1, 5} I Les dicen que existen dos dados, I I I Uno donde la probabilidad de que salga un 1 es p = 1/6 Otro donde la probabilidad de que salga un 1 es p = 1/2 De qué dado es más probable que se hayan obtenido esos números? La probabilidad de obtener esa secuencia para el primer dado es (1 − p)p(1 − p) = 1 5 2 ( ) = 0.1157407 6 6 La probabilidad de obtenerla con el segundo dado es (1 − p)p(1 − p) = 1 1 2 ( ) = 0.125 2 2 Econometría Aplicada Variable dependiente cualitativa Estimadores de Máxima Verosimilitud Es decir, es más probable obtener la secuencia {3,1,5} con el segundo dado. I El estimador de máxima verosimilitud actúa encontrando p̂ que maximiza la probabilidad de obtener los valores observados En este caso, la función de verosimilitud es L(p) = (1 − p)p(1 − p) = p(1 − p)2 Luego, el p̂ que maximiza la probabilidad de haber obtenido esa secuencia es dL(p) 1 ! = (1 − p)(1 − 3p) = 0 ⇒ p̂ = ∨ p̂ = 1 dp 3 El p̂ que maximiza L es p̂ = 1 3 Econometría Aplicada Variable dependiente cualitativa Estimadores de Máxima Verosimilitud (EMV) Gráficamente, la función de verosimilitud es 0.15 L(p) 0.10 0.05 0.00 0.00 0.25 0.50 p 0.75 1.00 Econometría Aplicada Inferencia con Estimadores de Máxima Verosimilitud Inferencia con Estimadores de Máxima Verosimilitud Econometría Aplicada Inferencia con Estimadores de Máxima Verosimilitud Inferencia con Estimadores de Máxima Verosimilitud Si estimamos a través de MV, ¿Cómo podemos testear hipótesis y construir intervalos de confianza? I I Supongamos que X es una variable aleatoria (discreta o continua) con función de densidad de probabilidad f (x|θ), donde θ es desconocido. La función logaritmo de verosimilitud para una muestra x1 , . . . , xN es ln L(θ) = N X ln f (xi |θ) i=1 I Si f (x|θ) es relativamente suave y otras consideraciones técnicas son satisfechas, entonces para muestras lo suficientemente grandes, el estimador de máxima verosimilitud θ̂ del parámetro θ tiene una distribución que es aproximadamente normal (es asintóticamente normal) a θ̂ ∼ N (θ, var(θ̂)) Entonces el intervalo de confianza “asintótico” a un nivel α quedaría definido por θ ∈ [θ̂ − Z1−α/2 · se(θ̂), θ̂ + Z1−α/2 · se(θ̂)] Econometría Aplicada Inferencia con Estimadores de Máxima Verosimilitud Inferencia con Estimadores de Máxima Verosimilitud Varianza de EMV Como hemos visto anteriormente, un elemento clave en la inferencia estadística es la varianza del estimador (o su error estándar). I ¿Cómo la estimamos? se(θ̂)2 = var(θ̂) = h −E d2 ln L(θ) i−1 dθ2 Econometría Aplicada Inferencia con Estimadores de Máxima Verosimilitud Inferencia con Estimadores de Máxima Verosimilitud Cuando usamos EMV, existen 3 test que se pueden usar. I I I Test de razón de verosimilitud (LR test) Test de Wald Test de score o multiplicador de Lagrange (test LM) Los tres son asintóticamente equivalentes, es decir, darán los mismos resultados cuando la muestra es grande. I Supongamos que estamos testeando H0 : θ = c vs H1 : θ 6= c Básicamente lo que hacen los tres test es medir la distancia θ̂ − c pero la distancia la definen de manera diferente. Econometría Aplicada Inferencia con Estimadores de Máxima Verosimilitud Test LR Si consideramos la siguiente figura Definimos H LR = 2[ln L(θ̂) − ln L(c)] ∼0 χ21 Luego, rechazamos H0 a un nivel α si LR ≥ χ21−α,1 Econometría Aplicada Inferencia con Estimadores de Máxima Verosimilitud Test de Wald Si consideramos ahora la siguiente figura, podemos notar que la distancia depende de la curvatura Definimos W = (θ̂ − c)2 − d2 ln L(θ) H0 2 ∼ χ1 dθ2 Econometría Aplicada Inferencia con Estimadores de Máxima Verosimilitud Test de Wald Entre mayor es la curvatura de la función log-verosimilitud, menor es la varianza. Es decir, tenemos más información acerca del parámetro desconocido θ. O en otras palabras, entre más información tenemos, la varianza es menor (más precisa es nuestra estimación). Usando esta idea, se define la información de Fisher I(θ) = −E d2 ln L(θ) dθ2 Y se define de una segunda forma el estadístico de Wald, como W = (θ̂ − c)2 I(θ) I I En muestras grandes, las dos definiciones son equivalentes. Para implementar el test de Wald, usamos la varianza estimada b v ar(θ̂) = [I(θ̂)]−1 Econometría Aplicada Inferencia con Estimadores de Máxima Verosimilitud Test LM Este test también intenta medir la distancia entre θ̂ y c. La pendiente de la función log-verosimilitud (definida como score) es s(θ) = d ln L(θ) dθ La lógica es que si θ̂ está cerca de c, entonces la pendiente en c debiera ser cercana a cero. Se define LM = s(c)2 H0 2 ∼ χ1 I(θ) Econometría Aplicada Inferencia con Estimadores de Máxima Verosimilitud Para implementar el test LM podemos evaluar la medida de información I(θ) en el punto c, es decir, s(c)2 LM = I(c) Observaciones de cada test I I I I En casos donde la estimación de MV es dificil de obtener, el test LM tiene la ventaja que θ̂ no se necesita A diferencia del test de Wald que necesita I(θ̂) y θ̂. Es preferible cuando la estimación de θ̂ como su varianza son fáciles de obtener El test LR necesita calcular la función log-verosimilitud en θ̂ y c LR es el test que es considerado el más confiable, es decir, si estamos en duda, mejor usar LR.