Download Econometría Aplicada - Variable dependiente cualitativa y función

Document related concepts
no text concepts found
Transcript
Econometría Aplicada
Econometría Aplicada
Variable dependiente cualitativa y función de Verosimilitud
Víctor Medina
Econometría Aplicada
Variable dependiente cualitativa
Variable dependiente cualitativa
Econometría Aplicada
Variable dependiente cualitativa
Variable dependiente cualitativa
Los objetivos de esta parte del curso principalmente son:
1. Dar algunos ejemplos de decisiones económicas donde la variable
dependiente es una varible binaria.
2. Explicar por qué Probit y Logit son usualmente preferibles a mínimos
cuadrados cuando estimamos un modelo de variable dependiente binaria.
3. Conocer otras formas de estimación, en particular, introducir la función
de verosimilitud.
I
I
Hasta ahora nos hemos enfocado en modelos econométricos donde la
variable dependiente es continua: cantidades, precios, etc. Sin embargo,
muchas de las decisiones que los individuos y las empresas hacen no
pueden ser medidas por una variable continua.
Ahora veremos modelos que son usados para describir decisiones (si o
no) o comportamientos (bueno, malo, etc.)
Econometría Aplicada
Variable dependiente cualitativa
Modelos con variables dependientes binarias
I
I
I
I
I
Muchas de las decisiones que hacemos, o que las empresas hacen, son
dicotómicas. Por ejemplo, decidir si comprar una casa o arrendar. Una
empresa decide si publicitar su producto en el diario o no, etc.
Como econometristas estamos interesados en explicar por qué decisiones
particulares son tomadas, y qué factores entran en el proceso de decisión.
También nos gustaría saber cuánto contribuye cada factor en la decisión.
Este tipo de decisiones se puede interpretar por un indicador binario que
toma el valor 1 si una de las opciones es elegidas o 0 en caso contrario.
Ahora,la variable dependiente (y) toma valores 0 o 1 (no la variable
independiente como vimos anteriormente). Esto afecta nuestra
elección de modelo estadístico.
Ejemplos son variados:
I
I
I
Modelo econométrico que explica por qué un banco acepta o rechaza
créditos
Modelo econométrico que explica por qué algunas mujeres deciden
estudiar ingeniería y otras no
Modelo econométrico que explica por qué un cliente se va a la
competencia y otros se quedan
Econometría Aplicada
Variable dependiente cualitativa
Modelos con variables dependientes binarias
Supongamos que queremos explicar por qué una persona decide o bien viajar
al trabajo en el transantiago o manejar su propio auto (asumiendo por
simplicidad que estas son las dos únicas opciones). Entonces
y=
1
0
si maneja
si ocupa transantiago
Si la probabilidad que una persona maneje al trabajo es p, entonces
P (y = 1) = p y P (y = 0) = 1 − p, es decir, la función de probabilidad es
f (y) = py (1 − p)1−y ,
y = 0, 1
Con E(y) = p y var(y) = p(1 − p)
I
¿Qué factores podrían afectar la decisión?
Supongamos que el tiempo que toma un medio versus el otro. Definimos por
ahora sólo una variable dada por
x = (tiempo en transantiago − tiempo en auto)
A priori esperamos que si x aumenta, p también.
Econometría Aplicada
Variable dependiente cualitativa
Modelo de probabilidad lineal
En los modelo de regresión vistos, hemos separado la variable dependiente
como la suma de su valor esperado y la parte aleatoria
y = E(y) + e = p + e
Luego, relacionamos la parte esperada de la forma
E(y) = p = β1 + β2 x, o de otra forma, y = β1 + β2 x + e
La función de densidad de probabilidad para y y el error e toman los valores
Se puede observar que
var(e) = (β1 + β2 x)(1 − β1 − β2 x)
Es decir, el error es heterocedástico.
Econometría Aplicada
Variable dependiente cualitativa
Modelo de probabilidad lineal
En la práctica, este enfoque puede traer algunas dificultades en su
implementación. Si estimamos los parámetros del valor esperado de y con
MC, tendríamos
p̂ = β̂1 + β̂2 x
I
I
Cuando usamos este modelo para predecir comportamiento, podríamos
obtener valores de p̂ mayores a 1 o menores a 0, lo cual pierde sentido en
términos probabilísticos.
El otro problema que aparece es que el modelo lineal implícitamente
asume que un incremento marginal en x tiene un efecto constante en la
probabilidad
dp
= β2
dx
Es decir, a medida que aumentamos x, la probabilidad de manejar
aumenta a una tasa constante. Sin embargo, p está acotada, por lo
tanto, una tasa de incremento constante no es posible.
Econometría Aplicada
Variable dependiente cualitativa
Modelo Probit
Una función que resuelve los problemas anteriores es la función Probit. Su
función de distribución acumulada se ilustra a continuación (normal
estándar)
Econometría Aplicada
Variable dependiente cualitativa
Modelo Probit
Y su función de densidad de probabilidad es
Econometría Aplicada
Variable dependiente cualitativa
Modelo Probit
Si Z es una variable aleatoria normal estándar, entonces la función Probit es
(distribución normal acumulada)
Z
z
Φ(z) = P (Z ≤ z) =
−∞
2
1
√ e−0.5u du
2π
El modelo Probit computa la probabilidad p que y tenga el valor 1
p = P (Z ≤ β1 + β2 x) = Φ(β1 + β2 x)
Si supieramos los valores de β1 y β2 , podríamos calcular la probabilidad que
una persona vaya manejando al trabajo.
I
¡Debemos estimar los coeficientes!
Econometría Aplicada
Variable dependiente cualitativa
Función de Verosimilitud
Supongamos que aleatoriamente seleccionamos 3 personas. Dos de ellas
manejan al trabajo y la otra va en transantiago. Es decir, y1 = 1, y2 = 1 e
y3 = 0. Además, supongamos que los valores de x, en minutos, son x1 = 15,
x2 = 6 y x3 = 7.
I
¿Cuál es la probabilidad conjunta de observar y1 = 1, y2 = 1 e y3 = 0?
La densidad marginal es
f (yi ) = [Φ(β1 + β2 xi )]yi [1 − Φ(β1 + β2 xi )]1−yi ,
yi = 0, 1
Si las observaciones son independientes, entonces la probabilidad
conjunta es la multiplicación de las densidades marginales
f (y1 , y2 , y3 ) = f (y1 )f (y2 )f (y3 )
Para nuestro ejemplo,
P (y1 = 1, y2 = 1, y3 = 0) = Φ(β1 + β2 · 15)Φ(β1 + β2 · 6)(1 − Φ(β1 + β2 · 7))
= L(β1 , β2 )
En estadística, la probabilidad de observar la muestra se llama función de
verosimilitud
Econometría Aplicada
Variable dependiente cualitativa
Función de Verosimilitud
I
I
I
I
La notación L(β1 , β2 ) indica que la función depende de los parámetros
desconocidos.
El método de máxima verosimilitud (MV) busca los parámetros β˜1 y
β˜2 que maximizan la probabilidad de observar esa muestra.
Desgraciadamente el problema no es despejable y se deben utilizar
métodos iterativos para calcular los coeficientes
En general, se utiliza el logaritmo de la función de verosimilitud porque
facilita el cálculo de maximización
En nuestro ejemplo
ln L(β1 , β2 ) = ln Φ(β1 + β2 · 15) + ln Φ(β1 + β2 · 6) + ln[1 − Φ(β1 + β2 · 7)]
I
I
Tanto ln L(β1 , β2 ) como L(β1 , β2 ) tienen el mismo argmax, es decir, al
maximizar ln L y L llegamos a los mismos β˜1 y β˜2
A β˜1 y β˜2 son los estimadores de máxima verosimilitud
Usamos 3 observaciones sólo con un fin ilustrativo, en la realidad la
estimación a través de máxima verosimilitud se debe usar para muestras
grandes, sino tenemos problemas de interpretación.
Econometría Aplicada
Variable dependiente cualitativa
Ejemplo Transantiago
Supongamos que tenemos la siguiente información de usuarios de
transantiago y autos.
donde dtiempo = (t_bus − t_auto)/10
Econometría Aplicada
Variable dependiente cualitativa
Ejemplo Transantiago
Los resultados de la regresion probit son
P (auto = 1) = Φ(β1 + β2 · dtiempo)
Econometría Aplicada
Variable dependiente cualitativa
Ejemplo Transantiago
Efecto marginal
Supongamos que queremos estimar el efecto marginal de incrementar el
tiempo en el transporte público si es que este toma 20 minutos más que el
viaje en auto, es decir,
dp̂
= φ(β̃1 + β̃2 dtiempo)β̃2 = φ(−0.0644 + 0.3 · 2) · 0.3
ddtiempo
= φ(0.5355) · 0.3 = 0.3456 · 0.3 = 0.1037
Luego, un incremento de 20 minutos en el tiempo de viaje en bus, trae
consigo un incremento en la probabilidad de ir en auto en 0.1037
Predecir el comportamiento
Supongamos ahora que una persona se demora 30 minutos más en bus que
en auto en llegar a su trabajo, entonces la probabilidad estimada que eligirá
el auto es
p̂ = Φ(β̃1 + β̃2 dtiempo) = Φ(−0.0644 + 0.3 · 3) = 0.7983
En otras palabras, la persona estaría más inclinada a irse en auto que en bus.
Econometría Aplicada
Variable dependiente cualitativa
Modelo Logit
I
Ya vimos que el modelo Probit presentaba algunas complicaciones por
su forma funcional (distribución normal)
2
1
φ(u) = √ e−0.5u ,
2π
I
Una alternativa es el modelo Logit, que también tiene la forma de “S” y
su densidad de probabilidad viene dada por
λ(l) =
I
−∞ < u < ∞
e−l
,
(1 + e−l )2
−∞ < l < ∞
La función de distribución acumulada, a diferencia de la distribución
normal, tiene una expresión cerrada, dada por
Z
l
Λ(l) = P (L ≤ l) =
λ(x)dx
−∞
=
1
1 + e−l
Econometría Aplicada
Variable dependiente cualitativa
Modelo Logit
Comparación de densidades de probabilidad
logit
probit
0.4
y
0.3
0.2
0.1
0.0
−4
−2
0
x
2
4
Econometría Aplicada
Variable dependiente cualitativa
Modelo Logit
Comparación de distribuciones acumuladas
logit
probit
1.00
y
0.75
0.50
0.25
0.00
−4
−2
0
x
2
4
Econometría Aplicada
Variable dependiente cualitativa
Modelo Logit
I
I
Entonces, la probabilidad p que un valor observado tome el valor 1 es
1
p = P (L ≤ β1 + β2 x) = Λ(β1 + β2 x) =
1 + e−(β1 +β2 x)
eβ1 +β2 x
=
1 + eβ1 +β2 x
y, por lo tanto,
1
1−p=
1 + eβ1 +β2 x
La estimación es análoga al caso Probit, intercambiando Φ por Λ. Es
decir, si consideramos N observaciones, la función de verosimilitud para
el modelo Probit es
L(β1 , β2 ) =
N
Y
Φ(β1 + β2 xi )yi (1 − Φ(β1 + β2 xi ))1−yi
i=1
y la función de verosimilitud del modelo Logit
L(β̃1 , β̃2 ) =
N
Y
i=1
Λ(β̃1 + β̃2 xi )yi (1 − Λ(β̃1 + β̃2 xi ))1−yi
Econometría Aplicada
Variable dependiente cualitativa
Generalizaciones de Modelo Probit y Logit
La generalización de los modelos cuando tenemos K parámetros a estimar es
directa y queda de la siguiente forma
I
Modelo Probit
L(β1 , β2 , . . . , βK ) =
N
Y
Φ[Xi β]yi (1 − Φ[Xi β])1−yi
i=1
donde Xi β = β1 + β2 xi2 + · · · + βK xiK
I
Modelo Logit
L(β̃1 , β̃2 , . . . , β̃K ) =
N
Y
Λ[Xi β̃]yi (1 − Λ[Xi β̃])1−yi
i=1
donde Xi β̃ = β̃1 + β̃2 xi2 + · · · + β̃K xiK
Econometría Aplicada
Variable dependiente cualitativa
Ejemplo Transantiago
Con el modelo Probit teníamos
P (auto = 1) = Φ(β1 + β2 · dtiempo)
Econometría Aplicada
Variable dependiente cualitativa
Ejemplo Transantiago
Con el modelo Logit tenemos
P (auto = 1) = Λ(β1 + β2 · dtiempo)
Econometría Aplicada
Variable dependiente cualitativa
Ejemplo Transantiago
Econometría Aplicada
Variable dependiente cualitativa
Estimadores de Máxima Verosimilitud
Para ilustrar el significado del estimador de máxima verosimilitud,
consideremos el siguiente ejemplo.
I
Se lanza un dado tres veces, obteniendo los siguientes resultados
(asumimos que los lanzamientos son independientes),
{3, 1, 5}
I
Les dicen que existen dos dados,
I
I
I
Uno donde la probabilidad de que salga un 1 es p = 1/6
Otro donde la probabilidad de que salga un 1 es p = 1/2
De qué dado es más probable que se hayan obtenido esos números?
La probabilidad de obtener esa secuencia para el primer dado es
(1 − p)p(1 − p) =
1 5 2
( ) = 0.1157407
6 6
La probabilidad de obtenerla con el segundo dado es
(1 − p)p(1 − p) =
1 1 2
( ) = 0.125
2 2
Econometría Aplicada
Variable dependiente cualitativa
Estimadores de Máxima Verosimilitud
Es decir, es más probable obtener la secuencia {3,1,5} con el segundo dado.
I
El estimador de máxima verosimilitud actúa encontrando p̂ que
maximiza la probabilidad de obtener los valores observados
En este caso, la función de verosimilitud es
L(p) = (1 − p)p(1 − p) = p(1 − p)2
Luego, el p̂ que maximiza la probabilidad de haber obtenido esa secuencia es
dL(p)
1
!
= (1 − p)(1 − 3p) = 0 ⇒ p̂ = ∨ p̂ = 1
dp
3
El p̂ que maximiza L es p̂ =
1
3
Econometría Aplicada
Variable dependiente cualitativa
Estimadores de Máxima Verosimilitud (EMV)
Gráficamente, la función de verosimilitud es
0.15
L(p)
0.10
0.05
0.00
0.00
0.25
0.50
p
0.75
1.00
Econometría Aplicada
Inferencia con Estimadores de Máxima Verosimilitud
Inferencia con Estimadores de Máxima Verosimilitud
Econometría Aplicada
Inferencia con Estimadores de Máxima Verosimilitud
Inferencia con Estimadores de Máxima Verosimilitud
Si estimamos a través de MV, ¿Cómo podemos testear hipótesis y construir
intervalos de confianza?
I
I
Supongamos que X es una variable aleatoria (discreta o continua) con
función de densidad de probabilidad f (x|θ), donde θ es desconocido.
La función logaritmo de verosimilitud para una muestra x1 , . . . , xN es
ln L(θ) =
N
X
ln f (xi |θ)
i=1
I
Si f (x|θ) es relativamente suave y otras consideraciones técnicas son
satisfechas, entonces para muestras lo suficientemente grandes, el
estimador de máxima verosimilitud θ̂ del parámetro θ tiene una
distribución que es aproximadamente normal (es asintóticamente
normal)
a
θ̂ ∼ N (θ, var(θ̂))
Entonces el intervalo de confianza “asintótico” a un nivel α quedaría
definido por
θ ∈ [θ̂ − Z1−α/2 · se(θ̂), θ̂ + Z1−α/2 · se(θ̂)]
Econometría Aplicada
Inferencia con Estimadores de Máxima Verosimilitud
Inferencia con Estimadores de Máxima Verosimilitud
Varianza de EMV
Como hemos visto anteriormente, un elemento clave en la inferencia
estadística es la varianza del estimador (o su error estándar).
I
¿Cómo la estimamos?
se(θ̂)2 = var(θ̂) =
h
−E
d2 ln L(θ) i−1
dθ2
Econometría Aplicada
Inferencia con Estimadores de Máxima Verosimilitud
Inferencia con Estimadores de Máxima Verosimilitud
Cuando usamos EMV, existen 3 test que se pueden usar.
I
I
I
Test de razón de verosimilitud (LR test)
Test de Wald
Test de score o multiplicador de Lagrange (test LM)
Los tres son asintóticamente equivalentes, es decir, darán los mismos
resultados cuando la muestra es grande.
I
Supongamos que estamos testeando
H0 : θ = c
vs
H1 : θ 6= c
Básicamente lo que hacen los tres test es medir la distancia θ̂ − c pero la
distancia la definen de manera diferente.
Econometría Aplicada
Inferencia con Estimadores de Máxima Verosimilitud
Test LR
Si consideramos la siguiente figura
Definimos
H
LR = 2[ln L(θ̂) − ln L(c)] ∼0 χ21
Luego, rechazamos H0 a un nivel α si LR ≥ χ21−α,1
Econometría Aplicada
Inferencia con Estimadores de Máxima Verosimilitud
Test de Wald
Si consideramos ahora la siguiente figura, podemos notar que la distancia
depende de la curvatura
Definimos
W = (θ̂ − c)2 −
d2 ln L(θ) H0 2
∼ χ1
dθ2
Econometría Aplicada
Inferencia con Estimadores de Máxima Verosimilitud
Test de Wald
Entre mayor es la curvatura de la función log-verosimilitud, menor es la
varianza. Es decir, tenemos más información acerca del parámetro
desconocido θ. O en otras palabras, entre más información tenemos, la
varianza es menor (más precisa es nuestra estimación). Usando esta idea, se
define la información de Fisher
I(θ) = −E
d2 ln L(θ) dθ2
Y se define de una segunda forma el estadístico de Wald, como
W = (θ̂ − c)2 I(θ)
I
I
En muestras grandes, las dos definiciones son equivalentes.
Para implementar el test de Wald, usamos la varianza estimada
b
v ar(θ̂) = [I(θ̂)]−1
Econometría Aplicada
Inferencia con Estimadores de Máxima Verosimilitud
Test LM
Este test también intenta medir la distancia entre θ̂ y c. La pendiente de la
función log-verosimilitud (definida como score) es
s(θ) =
d ln L(θ)
dθ
La lógica es que si θ̂ está cerca de c, entonces la pendiente en c debiera ser
cercana a cero. Se define
LM =
s(c)2 H0 2
∼ χ1
I(θ)
Econometría Aplicada
Inferencia con Estimadores de Máxima Verosimilitud
Para implementar el test LM podemos evaluar la medida de información I(θ)
en el punto c, es decir,
s(c)2
LM =
I(c)
Observaciones de cada test
I
I
I
I
En casos donde la estimación de MV es dificil de obtener, el test LM
tiene la ventaja que θ̂ no se necesita
A diferencia del test de Wald que necesita I(θ̂) y θ̂. Es preferible cuando
la estimación de θ̂ como su varianza son fáciles de obtener
El test LR necesita calcular la función log-verosimilitud en θ̂ y c
LR es el test que es considerado el más confiable, es decir, si estamos en
duda, mejor usar LR.