Download Introducción a la regresión logística

Document related concepts
no text concepts found
Transcript
Introducción al modelo de regresión logística
J OSÉ R. B ERRENDERO
D EPARTAMENTO DE M ATEMÁTICAS
U NIVERSIDAD AUTÓNOMA DE M ADRID
1.
I NTRODUCCIÓN Y MOTIVACIÓN
El modelo de regresión logística se utiliza para investigar la relación entre una variable
respuesta dicotómica (es decir, una variable cualitativa que toma dos posibles valores) y un
conjunto de variables regresoras. Veamos un ejemplo de esta situación.
El 4 de julio de 1999 una tormenta con vientos que excedían las 90 millas por hora azotó
el nordeste de Minnesota, en EE.UU., causando graves daños en los bosques de un parque
natural de la zona. Los científicos analizaron los efectos de la tormenta determinando para
más de 3600 árboles del parque su diámetro en cm (variable D), una medida de la severidad
local de la tormenta relacionada con el porcentaje inerte de área basal1 de cuatro de las
especies (variable S), una variable que registraba si cada árbol había muerto (y = 1) o si había
sobrevivido (y = 0) y finalmente la especie a la que pertenecía cada árbol (variable SSP). Los
datos se encuentran en el fichero tormenta.sav y han sido analizados, por ejemplo, en el
capítulo 12 de Weisberg (2005). La figura 1 muestra diagramas de cajas de los diámetros de
los árboles y de la variable que mide la fuerza de la tormenta, tanto para los árboles que
sobrevivieron a la tormenta como para los que no.
Aunque los dos grupos se solapan se observa que los árboles que sobreviven tienden a
tener un menor diámetro. También se observa que, como es lógico, la fuerza de la tormenta
tiende a ser menor en las zonas correspondientes a los árboles supervivientes. A la vista de
estas observaciones, parece que el diámetro y la variable S pueden ser útiles para estimar
la probabilidad de supervivencia de un árbol. El modelo de regresión logística nos permite
describir la probabilidad de que un árbol sobreviva o no como función del resto de las variables
explicativas, determinar si estas variables modifican significativamente dicha probabilidad y
estimar, en función de las variables regresoras, la probabilidad de que un árbol sobreviva o no.
1 El área de un terreno ocupada por la sección de los troncos de los árboles en la base
1
1.0
●
60
0.8
80
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0.2
0.4
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
40
0.6
●
●
●
S
●
●
0.0
20
Diámetro
●
0
1
0
1
Figura 1: Diagramas de cajas para los datos de la tormenta
2.
E L MODELO DE REGRESIÓN LOGÍSTICA
2.1.
F ORMULACIÓN DEL MODELO
Disponemos de n observaciones. Cada observación (Yi , x i 1 , . . . , x i k ) está formada por el valor
de la variable respuesta Yi , que es cero o uno, y un vector de variables regresoras (x i 1 , . . . , x i k ).
Resulta conveniente denotar x i = (1, x i 1 , . . . , x i k ), donde la primera coordenada igual a 1 corresponde al término independiente del modelo. Las dos primeras hipótesis necesarias para
especificar el modelo de regresión logística son:
(H1) Las variables Y1 , . . . , Yn son independientes.
(H2) Cada respuesta Yi tiene distribución de Bernoulli, B(1, p i ), donde p i = P (Yi = 1 | x i ).
La hipótesis (H2) supone una diferencia importante respecto a los modelos de regresión
lineal. La distribución normal ya no resulta adecuada como modelo para Yi y se sustituye por
la distribución de Bernoulli. Además, la probabilidad de que una observación pertenezca a
uno de los dos posibles grupos (y = 0 ó y = 1) depende en general de los valores de las variables
regresoras x i .
Para terminar de especificar el modelo necesitamos determinar cuál es la relación entre
la variable respuesta y el vector de variables regresoras. En principio podríamos pensar en
extender de forma directa la formulación del modelo de regresión lineal a esta nueva situación.
Sin embargo la relación p i = β0 + β1 x i 1 + · · · + βk x i k no es adecuada ya que, en general, una
combinación lineal de variables regresoras no tomará valores entre 0 y 1 por lo que no se puede
usar como modelo para describir una probabilidad. La solución es usar una transformación
F (β0 + β1 x i 1 + · · · + βk x i k ) que siempre tome valores entre 0 y 1. Hay varias transformaciones
F que se pueden usar, pero la más utilizada es la función logística,
F (x) =
1
.
1 + e −x
2
1.0
0.8
0.6
F(x)
0.4
0.2
0.0
−6
−4
−2
0
2
4
6
x
Figura 2: La función logística
Esta función es relativamente fácil de manejar y además, como veremos, proporciona un
modelo cuyos parámetros tienen una interpretación clara. La representación gráfica de esta
función se puede ver en la figura 2. Usando la función logística, llegamos a la tercera hipótesis
del modelo:
(H3) La relación entre x i y p i viene dada por:
p i = P (Yi = 1 | x i ) =
1
1 + e −β0 −β1 xi 1 −···−βk xi k
.
(1)
Las hipótesis (H1), (H2) y (H3) especifican totalmente el modelo.
2.2.
I NTERPRETACIÓN DE LOS PARÁMETROS
Es fácil comprobar que (1) se puede escribir también de la siguiente forma:
Oi =
pi
= e β0 +β1 xi 1 +···+βk xi k .
1 − pi
(2)
La variable O i corresponde a la razón de probabilidades del suceso y i = 1 respecto al suceso
y i = 0. Por ejemplo, cuando O i = 2, entonces y i = 1 es el doble de probable que y i = 0.
Resulta conveniente interpretar los coeficientes β j del modelo en función de la razón de
probabilidades: supongamos que O i es la razón de probabilidades para el individuo i cuando
la variable regresora j toma un valor u, y sea O i0 la razón de probabilidades para el individuo i
cuando dicha variable regresora se incrementa una unidad (y pasa a valer u + 1) mientras que
el resto de variables permanece constante. Entonces, por (2),
O i0
Oi
=
e β0 +···+β j (u+1)+···+βk xi k
e β0 +···+β j u+···+βk xi k
= eβj .
3
Como consecuencia, podemos interpretar e β j en términos de la variación de la razón de
probabilidades cuando la variable regresora j se incrementa en una unidad y el resto de
variables permanece constante. Por ejemplo, si e β j = 2 entonces, para un incremento de una
unidad de la variable j y manteniendo el resto de variables constantes, se duplica la razón de
probabilidades del suceso y i = 1 frente a y i = 0.
3.
E STIMACIÓN DE LOS PARÁMETROS DEL MODELO
Sea β el vector de coeficientes (β0 , . . . , βk ). El vector β se puede estimar usando el método
de máxima verosimilitud. Dado que las variables Y1 , . . . , Yn tienen distribución binomial, la
función de verosimilitud es
n
Y
Y
L(β) =
p i i (1 − p i )1−Yi .
i =1
En la expresión anterior hay que observar que p i depende de β según se describe en la ecuación (1). Los estimadores de máxima verosimilitud corresponden al vector β̂ que maximiza
L(β).
Como de costumbre, resulta más fácil maximizar el logaritmo de la verosimilitud:
`(β) = ln L(β) =
n £
X
¤
Yi ln p i + (1 − Yi ) ln(1 − p i ) .
i =1
Para maximizar, derivamos `(β) para obtener el gradiente ∇`(β) y después resolvemos el
sistema de ecuaciones ∇`(β) = 0. Teniendo en cuenta que al derivar p i respecto de β se obtiene
∇p i = p i (1 − p i )x i , se deduce que los estimadores de máxima verosimilitud β̂ resuelven el
siguiente sistema de k + 1 ecuaciones:
n
X
i =1
donde
p̂ i =
Yi x i =
n
X
p̂ i x i ,
(3)
i =1
1
.
1 + e −β̂0 −β̂1 xi 1 −···−β̂k xi k
La ecuación (3) es razonable: los estimadores de máxima verosimilitud son aquellos valores de
los coeficientes tales que la suma de los vectores muestrales x i para los casos en los que Yi = 1
(término de la izquierda) coincide con la suma de los mismos vectores x i ponderados por
las probabilidades estimadas de Yi = 1 (término de la derecha). Poblacionalmente, la misma
igualdad se tendría que cumplir al usar las verdaderas probabilidades p i , lo que da cierta
garantía de consistencia de los estimadores.
No es posible despejar β̂ en (3) para obtener una expresión explícita. Es necesario resolver la
ecuación mediante algún método numérico iterativo. Un método muy utilizado es el algoritmo
de Newton-Raphson. Algunos de estos métodos están implementados en SPSS o R y permiten
también aproximar el error típico de los estimadores.
4
4.
R EGRESIÓN LOGÍSTICA CON SPSS
Para explicar cómo se ajusta un modelo de regresión logística con SPSS consideramos los
datos del ejemplo. El modelo es:
p i = P (Yi = 1 | D i , S i ) =
1
1 + e −β0 −β1 D i −β2 S i
,
donde D i es el diámetro del árbol i , S i mide la fuerza local de la tormenta en la posición
del árbol i y la respuesta es Yi = 1 si el árbol i no sobrevivió a la tormenta e Yi = 0 en caso
contrario.
Una vez tenemos el fichero de datos a la vista vamos al menú:
Analizar ,→ Regresión ,→ Logística binaria...
Como variable dependiente elegimos la variable respuesta y. En la ventana Covariables
situamos las variables regresoras D y S. Pulsamos el botón Aceptar. De todos los resultados
que aparecen los más relevantes son los que aparecen en la figura 3.
Resumen del modelo
Paso
1
-2 log de la
verosimilitud
3883,256 a
R cuadrado
de Cox y Snell
,274
R cuadrado
de
Nagelkerke
,366
a. La estimación ha finalizado en el número de
iteración 5 porque las estimaciones de los
parámetros han cambiado en menos de ,001.
Variables en la ecuación
Paso 1 a
D
B
,097
E.T.
,005
Wald
346,022
S
4,424
,189
-3,543
,127
Constante
gl
1
Sig.
,000
Exp(B)
1,102
545,122
1
,000
83,412
774,463
1
,000
,029
a. Variable(s) introducida(s) en el paso 1: D, S.
Figura 3: Ajuste del modelo para los datos de la tormenta.
El cuadro inferior tiene una interpretación análoga a la de los modelos de regresión lineales.
En las dos columnas B y E.T. aparecen los estimadores de máxima verosimilitud y sus errores
típicos: β̂0 = −3,543(0,127), β̂1 = 0,097(0,005) y β̂2 = 4,424(0,189). Por lo tanto,
p̂ i =
1
1 + e 3,543−0,097D i −4,424S i
.
Si en el botón Guardar... del cuadro de diálogo marcamos la opción Probabilidades, el programa calcula las probabilidades estimadas p̂ i para todos los árboles de la muestra. Estas
probabilidades aparecen en una nueva columna en el fichero de datos. Es posible añadir los
5
datos de nuevos árboles para los que no se conoce si sobrevivieron o no y el programa también
calculará las correspondientes probabilidades estimadas.
En la columna Exp(B) del cuadro aparecen los valores e β̂ j , cuya interpretación hemos
comentado anteriormente. Por ejemplo, dado que e β̂1 = 1,102 la razón de probabilidades
de no supervivencia frente a supervivencia se multiplica por 1,102 si el diámetro del árbol
aumenta 1 cm y la variable S no cambia.
La nota al pie del cuadro superior nos informa de que el método numérico para resolver
(3) necesitó de 5 iteraciones para converger. En la primera columna de este cuadro aparece
el valor de D 2 = −2`(β̂) = 3883,256, que en algunos libros llaman la desviación (deviance).
Cuanto menor es la desviación, mayor es la verosimilitud (debido al signo negativo) y, por lo
tanto, mejor es el ajuste del modelo a los datos disponibles. Los coeficientes de determinación
de Cox-Snell y de Nagelkerke comparan las desviaciones del modelo completo y del modelo
reducido que sólo incluye el término independiente2 . Ambos toman valores entre cero y uno y
su interpretación es análoga a la del coeficiente de determinación en los modelos de regresión
lineal.
5.
C ONTRASTES E INTERVALOS DE CONFIANZA
Bajo condiciones de regularidad, la distribución de los estimadores de máxima verosimilitud
es aproximadamente normal, es decir, los valores estandarizados
zj =
β̂ j − β j
error típico de β j
tienen aproximadamente distribución normal estándar. Como consecuencia, un intervalo de
confianza de nivel aproximado 1 − α para β j se obtiene mediante la fórmula:
[β̂ j ∓ z α/2 × error típico de β̂ j ].
Dada la interpretación de los parámetros en el modelo logístico resulta de interés la obtención de intervalos de confianza para e β j . Como la función exponencial es monótona, basta
transformar adecuadamente el intervalo anterior:
[exp(β̂ j − z α/2 × error típico de β̂ j ), exp(β̂ j + z α/2 × error típico de β̂ j )].
Bajo H0 : βi = 0, se verifica que el estadístico de Wald
zj =
β̂ j
error típico de β̂ j
2 Por ejemplo, el coeficente de Cox-Snell se define como R 2 = 1 − exp[(D 2 − D 2 )/n], donde D 2 es la desviación del
0
0
modelo reducido y n es el tamaño muestral. Si R 2 ≈ 0, las desviaciones de los dos modelos son similares lo que
implica que el conjunto de variables regresoras no es muy significativo. El coeficiente de Nagelkerke es una
modificación del de Cox-Snell.
6
se distribuye aproximadamente según una normal estándar. Este valor (elevado al cuadrado)
aparece en la columna Wald de la figura 3 en la sección anterior. Una región crítica con nivel
de significación aproximado α para contrastar H0 : β j = 0 es, por lo tanto,
(
) (Ã
!2
)
| β̂ j |
β̂ j
2
> χ1,α ,
R=
> z α/2 =
error típico de β̂ j
error típico de β̂ j
teniendo en cuenta que una normal estándar al cuadrado tiene distribución χ21 . El p-valor
para este contraste aparece en la columna Sig de la figura 3. Para los datos del ejemplo, todos
los coeficientes son significativamente distintos de 0 (p < 0,001).
6.
A PLICACIÓN AL PROBLEMA DE CLASIFICACIÓN
En el modelo de regresión logística, predecir el valor de la variable respuesta Y0 dado un
nuevo vector independiente de variables regresoras x 0 equivale a clasificar la correspondiente
observación en uno de los dos posibles grupos. Resulta razonable predecir Ŷ0 = 1 cuando
p̂ 0 > 1/2, donde
1
p̂ 0 =
−
β̂
−
β̂
1 + e 0 1 x01 −···−β̂k x0k
es la probabilidad estimada de Y0 = 1 dado el vector de variables x 0 . Este criterio lleva a la
siguiente regla de clasificación lineal:
1.0
Ŷ0 = 1 ⇐⇒ β̂0 + β̂1 x 01 + · · · + β̂k x 0k > 0.
●
●●
●
●
●
●
● ●
●
● ●●
●
●
●
● ●●●● ●
●
● ●●●
●
●
●●●● ●●
●● ● ● ● ● ●
●●
●●●●●●●●
●
●● ●
●
●
●●
●
● ● ● ● ●● ●
●●● ●
●●●
● ● ●●●
● ●
● ● ●●●
●
●
● ● ●
●●
●
●●
● ●●●●
●●●
●●
●
●●●
●●●
●
●●
●
●●
●
● ●●● ● ●
●
●● ● ●
●●●
● ●
●● ●
●
● ● ●●●●
●
●● ● ●●
●● ●●● ●● ● ●●●● ● ●●
●
● ●
●●
●
●●●
● ●
●
●●●●●
● ●● ●
●
●
● ●●● ●●● ●
●
●●● ●
●
●
●● ● ●●●
●
● ● ● ●
●
●
●●
●●●
●●
● ● ●●
● ●
●●
●●●
●●●
● ●●● ● ● ●● ●
●●●●●●
●
● ● ● ● ● ●●
●
●
●● ●● ●
● ● ● ● ● ● ●●● ● ● ●
●●
●●
● ● ●●
●●●●
●●● ● ● ●
●●
●●●● ●●●
●●●
●●
●● ● ●●
●
●●
● ●●
●
●●
●●●
●
●●●●●
● ● ●●
●●● ● ● ● ●
●
●●●●
●●
●●
●●
● ●
●
●●●●●●●
●● ●
●
●
●
●●
● ●●
●●
● ● ●●● ●
●●●●● ●
●●
●●●
● ●●
●●● ●●●
●●
●●
●●●
● ●●●
●
●●
●●●
●●● ●
●●●
● ●●
●
●
● ●
●
●
● ●●●
●
●●
●●●
●●
●●
●●
●●
●●●●
●●
●●
●
●●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
● ●●
● ●●●
●
●● ●●
● ●
●●
● ● ●● ● ● ● ● ● ●●
●
●
●●
●●●●●
●●
●●●
●●●
●●
●●●
● ●●●
●
●
●●
●●
●
● ●●●●
● ● ● ● ● ● ● ●●● ● ● ●● ● ●
●●
●
●
●
● ●●
●●●
●
● ●
●
●
●
●
●●●
●●
● ●
●●
●●
●●●
●● ●●
●●●●
● ●●●●●●●
● ●●● ●
●●●
● ●●●
●●●
● ●
● ● ● ● ● ● ● ●●● ●
●
●●
● ●
●●● ●
●● ●● ● ●●
●
●●
●●●
●●
●●
●●
●●
●●
●● ● ● ● ● ●
●
●
●
●●●
●●
●
●●
● ●●
●
●●
●
●
●
●
●●
●●●●
●●
● ●
●●
●●
●
●
●●●
●●
●●
●●
●●
●●
●●●
● ●●●
●●
●●●
●●
●●
●
●
●
●●
●
● ●●●
●●●
●● ●
● ●●
● ●●● ●
● ●●● ●
●●
●
●
●
●
●
●
●
●●
● ●●● ●
●●● ● ●
●●●●● ●●
●
● ● ● ● ●●● ●
●●● ● ●
●
●●●
●
●●●●
● ●
●
●
●
● ●
● ●
●●
●●●
●●●●●
● ●
●● ●●●
●●●●
●
●
●
●●●
● ● ● ●●●
●●●●●
●●
●●●
●●●
●●●●
●●
●●●
● ●
●● ● ●
●
●●
●●
●●●
●
●
● ●●
● ●●●
●●● ●● ●
●●
●
●●●
●●●●
●
●
●
●
●● ● ●
●●
●●
● ●●
●●
●
●●●
●● ●
●●
●●●●
●●
●●●
●
●
●
● ● ●
●
●●
●
●●●
●●
● ●●
●
●
●
●
●●
●
●● ●
●●
●●
●●●●
●
●
●
●
●●●
●●
●●
●
●●
● ●
●
● ●●● ● ●
● ●
●
●
●
●●●
●
●●
●●
●●
●●
●
●●
●●
●●
● ●
●
●
●●
●●
●●
●●●●
●●● ●● ●
●
●
●
●
●
●●
●●
●●●
● ●●●
●● ●
● ●
●
●●
●
●
●
●
●
●
●
●
●
●●
●●
●
●●
●●● ● ●
●
●● ●
●● ● ●
● ● ●●
●
●
● ●●●
●
●● ● ●
●
●●●●●
●
●●
●●
●
●●● ● ●
●●
●●
● ●●
●
● ●●
●●
●●
●
●●●
●
●
●
●
●
●●
●●
●●
●● ●
●●●
● ●
●●
●●●
● ● ● ● ● ●●●
●●
●●●
●●●
●●
● ●
●●
●
●
●
●●
●●
●●
●●
●●
●●
●● ●
● ●
●●●
●●
●●●●●
●
●
● ● ●●
●
●●●●
●
●●
●●
●●
●●●
●
●●
● ●
●●
●●
●●
●●●
● ●
●●●
●●
●●●
●
●
●
●
●
●
●●
●
● ●
●●
●●
●
●
● ● ● ●●
●●●
●●●
●
●
●●
●
●●●●●
●
●●
●
●●●
●
●
●
●
● ● ●● ●
●
● ●
●
●
●
●●
●●
●
●●●
●●
●●
●●
●●
●●
●●●●●
●●●●
●●
●●
●
●●
●●
●●●
●●
●●●
●●
●●●●
●●●
●●●●●
●
●●
●●● ●
●●●●
●
●
●●
●
●
●
●
●
●
●
●
●●●●●
●
●
●●●
●
● ●● ●
●● ●
●●
●
●
●
●●●
●● ●
●●●
●●●●
●●
●●
● ● ●
●
● ●
●●
●●
●●●
●●
●●●
●●
●●
●
●●●●
● ●● ●●●
●
●●
●
●
●
●
●
●●
●
●
●
●
● ● ●●● ● ●
●
●
●●
●●
●●
●●● ● ● ● ● ● ● ● ● ●
● ●●●
●●
●●
●
●
●
●● ●
●
●●
●
●
●●
●
●●
●● ●
●
● ●
●●●
●●
●●
●●
● ●
●●
●
●
●
●
●
●
●
●
●
●●
●● ● ● ●
● ●●●● ●●●●
●●●
●●
●●●
●●
●●
●●
●●●
●●
●●
●●
●
●●●
●
●●
●●
●● ●●
●
●●●
●●
●
●
● ●●
●
●
●●
●●
●●
●●●
●●
●
●●
●●
●●
●●●
●●
●●
●●● ●
●●●
●●●
●●●
●
● ●●
●
●
●
●●
●
●
●
●
●●●
●● ●
● ●●●
●●●
●●●
●
●●
●
●●●
●●●
●
● ●
●●
●●
● ●●
●
●●
●
●
●●
●●
●
●
●
●
●●
●
● ●●●●● ●
●
●
●●
●●●
●●
●
●●
●●
●●
●●
●●●
●●●
●● ●● ●
● ●
●
●● ●●●
●●
●
●●●
●
●
●
●
●
●●●●●
●● ●●●● ●●●●●●● ●
●●●●●
●
●●●
●●●●
●●
●
● ●●
● ●
●
●
●● ● ●●● ● ●
●●
●● ●
●●
●●●●
●●
●●
●●
● ●
● ● ●
● ● ●●● ● ●
●●
●●●●●
●●
●●●
● ●
●
●
●
●
●●
●●●●
● ●
●
● ● ● ●●● ●
●●
●●●
●●●●●
●
●●
●
●
●●●
●●
●●
●●●
● ●
●●●●●
●
●●
●●
●●
●●
●●
●
●●
●
●
●
●●
●●
●●●
●●
●
●●
●●
●●
●●
●●●
●●
●
● ●
●
●
●
●●●
●
●●
●
●●
●●
●
●
●●
●●
● ●
● ● ●●● ● ●
●
●
●
●●●●●
●●
●
●
●●
●●
●
●●
● ●●●
●●●
●●●
●●
●●
●●●
●
●●●
●●
●●●
●● ●
●●●
●●
●
●●
●●
●
● ● ●● ●●
●●
● ●
●
●
●
●
●●●
●●
●●● ●
●●● ●●
●●
●●●
●●
●●
●●
● ●●
● ●●● ●
●
●
●
●● ●
● ●
● ●●● ● ●
0.0
0.2
0.4
S
0.6
0.8
●
20
40
●
●
●
●
60
80
Diametro
Figura 4: La regla de clasificación logística
Por ejemplo, clasificaremos un árbol como no superviviente (Ŷ0 = 1) si las correspondientes
variables D 0 y S 0 verifican
0,097 · D 0 + 4,424 · S 0 > 3,543.
7
En la figura 4 se representan los pares (D i , S i ) para todos los árboles de la muestra, en color
gris (no supervivientes) o color negro (supervivientes) junto con la representación gráfica de
la recta que divide las regiones en las que clasificaríamos un nuevo árbol como superviviente
o no superviviente.
E JERCICIOS
1. Teniendo en cuenta la salida de SPSS que aparece en la sección 4, responde a las cuestiones siguientes:
(a) La probabilidad estimada de que un árbol sobreviva a la tormenta, ¿crece o decrece
con el diámetro?
(b) Calcula un intervalo de confianza de nivel 95 % para β1 .
(c) Calcula un intervalo de confianza de nivel 95 % para e β1 .
(d) Estima la probabilidad de que no sobreviva un árbol cuyo diámetro es de 30 cm
situado en una zona en la que la fuerza de la tormenta viene dada por S = 0,8.
2. Ajusta un modelo de regresión logística simple que incluya únicamente el diámetro
como variable regresora para explicar la probabilidad de no supervivencia de los árboles.
Responde a las siguientes cuestiones relacionadas con este modelo:
(a) A nivel α = 0,001, ¿es posible afirmar que el diámetro influye en la probabilidad de
que un árbol sobreviva?
(b) Escribe la regla para clasificar un árbol como superviviente o no superviviente en
función de su diámetro.
3. Se dispone de medidas en cm (fichero iris.sav) de la longitud y anchura del pétalo y
el sépalo de 100 lirios correspondientes a dos especies diferentes: iris versicolor (y = 0) e
iris virginica (y = 1). Se ha ajustado un modelo de regresión logística a los datos con el
fin de estudiar la probabilidad de que un lirio pertenezca a cada una de las dos especies
en función de las cuatro medidas. Los resultados más relevantes obtenidos con SPSS se
muestran en la figura 5.
Contesta a las siguientes cuestiones relacionadas con el ajuste:
(a) ¿Es bueno el ajuste del modelo a los datos?
(b) A nivel α = 0,05, ¿qué variables son significativas? ¿Y a nivel α = 0,1?
(c) Calcula un intervalo de confianza de nivel 95 % para el coeficiente correspondiente
a la anchura del sépalo.
(d) Escribe la regla de clasificación lineal que proporciona el modelo con las cuatro
variables. Usando esta regla, ¿en cuál de las dos especies se clasifica un lirio tal que
la longitud de su pétalo es 5 cm, la anchura de su pétalo es 2 cm, la longitud de su
sépalo es 6 cm y la anchura de su sépalo es 3 cm?
8
Resumen del modelo
Paso
1
-2 log de la
verosimilitud
11,899 a
R cuadrado
de Cox y Snell
,718
R cuadrado
de
Nagelkerke
,958
a. La estimación ha finalizado en el número de
iteración 11 porque las estimaciones de los
parámetros han cambiado en menos de ,001.
Variables en la ecuación
Paso 1 a
LSepalo
B
-2,465
E.T.
2,394
Wald
1,060
ASepalo
-6,681
4,480
LPetalo
9,429
4,737
APetalo
18,286
-42,638
Constante
gl
1
Sig.
,303
Exp(B)
,085
2,224
1
,136
,001
3,962
1
,047
12448,870
9,743
3,523
1
,061
8,741E7
25,708
2,751
1
,097
,000
a. Variable(s) introducida(s) en el paso 1: LSepalo, ASepalo, LPetalo, APetalo.
Figura 5: Ajuste del modelo para los datos de los lirios.
R EFERENCIAS
Weisberg, S. (2005). Applied linear regression, tercera edición. Wiley, Nueva York.
Página 1
9