Download Análisis de datos categóricos - Universidad Nacional Agraria La

Document related concepts
no text concepts found
Transcript
Introducción
Regresión logística nominal
Regresión logística ordinal
Análisis de datos categóricos
Regresión multinomial
Ms Carlos López de Castilla Vásquez
Universidad Nacional Agraria La Molina
2017-1
Ms Carlos López de Castilla Vásquez
Análisis de datos categóricos
Introducción
Regresión logística nominal
Regresión logística ordinal
Distribución multinomial
Distribución multinomial
Considere una variable aleatoria Y con J categorías P
cuyas
probabilidades respectivas son π1 , · · · , πJ tales que πj = 1.
Si existen n observaciones independientes para Y tales que y1
corresponden a la categoría 1, y2 corresponden a la categoría 2
y así sucesivamente, entonces:
y ∼ M (n, π)
donde y = (y1 , · · · , yJ ) y π = (π1 , · · · , πJ ) .
La función de probabilidad es:
f (y|n) =
n!
π y1 · · · πJyJ
y1 ! · · · , yJ ! 1
Ms Carlos López de Castilla Vásquez
Análisis de datos categóricos
Introducción
Regresión logística nominal
Regresión logística ordinal
Distribución multinomial
Distribución multinomial
La distribución multinomial no cumple con los requisitos de
una familia exponencial.
Sin embargo existe una relación con la distribución de Poisson
que permite usar los modelos lineales generalizados.
P
Sean Y1 , · · · , YJ P
v.a.i. tales que Yj ∼ P(λj ). Si n = Yj
entonces n ∼ P ( λj ). Se puede demostrar que:
λj
y|n ∼ M n, πj = P
λj
La distribución multinomial se puede considerar como la
función de probabilidad conjunta del vector aleatorio de
Poisson condicionado en su suma.
Ms Carlos López de Castilla Vásquez
Análisis de datos categóricos
Introducción
Regresión logística nominal
Regresión logística ordinal
Regresión logística nominal
Ejemplo: Vida después de la muerte
Regresión logística nominal
Se usa cuando no existe un orden natural entre las categorías
de Y .
Una de las categorías se elige como referencial. Supongamos
que se trata de la primera.
Los logits para las otras categorías se denen por:
log
πj
π1
j = 2, · · · , J
= xT β j
La probabilidad para la categoría referencial es:
π̂1 =
1
1+
PJ
Ms Carlos López de Castilla Vásquez
T
k=2 exp {x β k }
Análisis de datos categóricos
Introducción
Regresión logística nominal
Regresión logística ordinal
Regresión logística nominal
Ejemplo: Vida después de la muerte
Regresión logística nominal
Las probabilidades restantes se calculan por:
exp xT β j
π̂j =
P
1 + Jk=2 exp {xT β k }
j = 2, · · · , J
Los residuales de Pearson son:
oi − ei
ri = √
ei
y pueden ser usados para determinar si el modelo es adecuado.
Ms Carlos López de Castilla Vásquez
Análisis de datos categóricos
Introducción
Regresión logística nominal
Regresión logística ordinal
Regresión logística nominal
Ejemplo: Vida después de la muerte
Regresión logística nominal
El estadístico chi-cuadrado: X 2 =
El estadístico de devianza:
PN
2
i=1 ri
D = 2 l(β̂ max ) − l(β̂)
El estadístico chi-cuadrado de razón de verosimilitud:
C = 2 l(β̂) − l(β̂ min )
El pseudo R cuadrado:
R2 =
l(β̂ min ) − l(β̂)
Ms Carlos López de Castilla Vásquez
l(β̂ min )
Análisis de datos categóricos
Introducción
Regresión logística nominal
Regresión logística ordinal
Regresión logística nominal
Ejemplo: Vida después de la muerte
Regresión logística nominal
Los efectos de las variables predictoras se interpretan en
términos de los odds ratios.
Si se tienen J categorías y una variable predictora que
representa la exposición a un factor tal que:
(
X =
1 si el factor esta presente
0 si el factor esta ausente
El odds ratio para la categoría j relativa a la categoría de
referencia con respecto a la variable predictora es:
ORj =
Ms Carlos López de Castilla Vásquez
πjp
πja
π1p
π1a
Análisis de datos categóricos
Introducción
Regresión logística nominal
Regresión logística ordinal
Regresión logística nominal
Ejemplo: Vida después de la muerte
Regresión logística nominal
Considere el modelo:
log
πj
π1
= β0j + β1j x
j = 2, · · · , J
Si el factor de exposición esta presente:
log
πjp
π1p
= β0j + β1j
Si el factor de exposición no esta presente:
log
Ms Carlos López de Castilla Vásquez
πja
π1a
= β0j
Análisis de datos categóricos
Introducción
Regresión logística nominal
Regresión logística ordinal
Regresión logística nominal
Ejemplo: Vida después de la muerte
Regresión logística nominal
El logaritmo del odds ratio es:
log ORj
= log
πjp
π1p
− log
πja
π1a
donde:
ORj = exp {β1j }
Si β1j = 0 entonces ORj = 1 lo cual indica que el factor de
exposición no tiene efecto importante en el modelo.
La elección de la categoría de referencia para Y afecta las
estimaciones de los coecientes del modelo pero no las
probabilidades estimadas.
Ms Carlos López de Castilla Vásquez
Análisis de datos categóricos
Introducción
Regresión logística nominal
Regresión logística ordinal
Regresión logística nominal
Ejemplo: Vida después de la muerte
Ejemplo: Vida después de la muerte
Se clasicaron las respuestas de un grupo de estudiantes de
acuerdo al género, raza y sobre su opinión acerca de la vida
después de la muerte.
Los datos se encuentran en el aula virtual del curso.
Tabla 1: Opinión sobre la vida después de la muerte
Raza
Blanca
Negra
Género
Femenino
Masculino
Femenino
Masculino
Si
371
250
64
25
Ms Carlos López de Castilla Vásquez
No sabe
49
45
9
5
Análisis de datos categóricos
No
74
71
15
13
Introducción
Regresión logística nominal
Regresión logística ordinal
Regresión logística nominal
Ejemplo: Vida después de la muerte
Regresión logística nominal
Regresión logística nominal
> library(nnet)
> attach(Opiniones)
> m1 <- multinom(Opinion ~ Raza + Genero, weights=Frec)
> tted.values(m1)
Cambio de categoría referencial
> Raza <- relevel(Raza, "Negra")
> Genero <- relevel(Genero, "Masculino")
> Opinion <- relevel(Opinion, "Nosabe")
> m2 <- multinom(Opinion ~ Raza + Genero, weights=Frec)
> tted.values(m2)
Ms Carlos López de Castilla Vásquez
Análisis de datos categóricos
Introducción
Regresión logística nominal
Regresión logística ordinal
Modelo logístico acumulativo
Modelo de categorías adyacentes
Ejemplo: Discapacidad mental
Regresión logística ordinal
Si existe un orden natural entre las categorías de Y entonces
deben ser tomadas en cuenta en la construcción del modelo.
En algunas situaciones existen variables aleatorias difíciles de
medir tales como la severidad de una enfermedad.
Se pueden identicar puntos de corte Cj para una variable
latente Z .
Los pacientes con valores pequeños de Z son clasicados como
no tiene enfermedad y aquellos con valores grandes de Z son
clasicados como enfermedad leve o enfermedad moderada.
Los puntos de corte C1 , · · · , CJ−1 denen J categorías
ordinales con probabilidades asociadas π1 , · · · , πJ .
Ms Carlos López de Castilla Vásquez
Análisis de datos categóricos
Introducción
Regresión logística nominal
Regresión logística ordinal
Modelo logístico acumulativo
Modelo de categorías adyacentes
Ejemplo: Discapacidad mental
Modelo logístico acumulativo
El odds acumulativo para la categoría j es:
π1 + π2 + · · · + πj
Pr (Z ≤ Cj )
=
Pr (Z > Cj )
πj+1 + πj+2 + · · · + πJ
El modelo logit acumulativo es:
log
π1 + π2 + · · · + πj
πj+1 + πj+2 + · · · + πJ
Ms Carlos López de Castilla Vásquez
= xT β j
Análisis de datos categóricos
Introducción
Regresión logística nominal
Regresión logística ordinal
Modelo logístico acumulativo
Modelo de categorías adyacentes
Ejemplo: Discapacidad mental
Modelo de odds proporcionales
Suponga que en el predictor lineal solo el intercepto depende
de la categoría j .
El modelo de odds proporcionales es:
log
π1 + · · · + πj
πj+1 + · · · + πJ
= β0j + β1 x1 + · · · + βp xp
El modelo anterior se basa en el supuesto que los efectos de
las variables predictoras son iguales para cualquiera de las
categorías.
Ms Carlos López de Castilla Vásquez
Análisis de datos categóricos
Introducción
Regresión logística nominal
Regresión logística ordinal
Modelo logístico acumulativo
Modelo de categorías adyacentes
Ejemplo: Discapacidad mental
Modelo de categorías adyacentes
Se puede considerar ratios de probabilidad para categorías
consecutivas, por ejemplo:
π1 π2
πJ−1
, ,··· ,
π2 π3
πJ
El modelo logit de categorías adyacentes es:
log
πj
πj+1
= β0j + β1 x1 + · · · + βp xp
El efecto de cada variable predictora se asume que es el mismo
para categorías adyacentes.
Ms Carlos López de Castilla Vásquez
Análisis de datos categóricos
Introducción
Regresión logística nominal
Regresión logística ordinal
Modelo logístico acumulativo
Modelo de categorías adyacentes
Ejemplo: Discapacidad mental
Otros modelos
Otra alternativa es modelar:
π1
π2
πJ−1
,
,··· ,
π2 + · · · + πJ π3 + · · · + πJ
πJ
El modelo sería:
log
πj
πj+1 + · · · + πJ
Ms Carlos López de Castilla Vásquez
= xT β j
Análisis de datos categóricos
Introducción
Regresión logística nominal
Regresión logística ordinal
Modelo logístico acumulativo
Modelo de categorías adyacentes
Ejemplo: Discapacidad mental
Ejemplo: Discapacidad mental
Se realizó un estudio de salud mental para una muestra
aleatoria de adultos residentes de Florida.
El estudio intenta relacionar la discapacidad mental de los
pacientes con dos variables explicativas.
La discapacidad mental se considera una varible ordinal con
categorías: ausente, leve, moderado y presente.
La variable explicativa X1 mide el número de eventos
importantes en la vida del paciente como el nacimiento de los
hijos, cambio de trabajo, divorcio, fallecimiento en el entorno
familiar, etc durante los últimos tres años.
La variable explicativa X2 mide el nivel socioeconómico del
paciente (1 = alto y 0 = bajo).
Ms Carlos López de Castilla Vásquez
Análisis de datos categóricos
Introducción
Regresión logística nominal
Regresión logística ordinal
Modelo logístico acumulativo
Modelo de categorías adyacentes
Ejemplo: Discapacidad mental
Ejemplo: Discapacidad mental
Modelo logístico acumulativo
> attach(Mental)
> Discapacidad <- ordered(Discapacidad, labels=c("Ausente",
"Leve", "Moderado", "Presente"))
> library(VGAM)
> m1 <- vglm(Discapacidad ~ x1 + x2, family=cumulative)
Modelo de odds proporcionales
> m2 <- vglm(Discapacidad ~ x1 + x2,
family=cumulative(parallel=TRUE))
Ms Carlos López de Castilla Vásquez
Análisis de datos categóricos
Introducción
Regresión logística nominal
Regresión logística ordinal
Modelo logístico acumulativo
Modelo de categorías adyacentes
Ejemplo: Discapacidad mental
Ejemplo: Cinturón de seguridad
Se tiene información correspondiente a 68694 accidentes de
automóviles y camiones ocurridos en el estado de Maine en
1991.
Los conductores fueron clasicados por género, ubicación del
accidente y el uso del cinturón de seguridad.
La variable respuesta es la condición del conductor luego del
accidente: (y1) no resulto herido, (y2) herido pero no
transportado por servicios médicos de emergencia, (y3) herido,
transportado por los servicios médicos de emergencia pero no
hospitalizado, (y4) herido y hospitalizado y (y5) fallecido.
Los datos se encuentran en el aula virtual del curso.
Ms Carlos López de Castilla Vásquez
Análisis de datos categóricos