Download Construcción de modelos y análisis residual

Document related concepts
no text concepts found
Transcript
Pronósticos, Series
de Tiempo y
Regresión
Capítulo 5: Construcción de
Modelos y Análisis Residual
Temas
1. Construcción de modelos y los efectos
de la multicolinealidad
2. Análisis residual en la regresión simple
3. Análisis residual en la regresión
múltiple
4. Diagnóstico para detectar
observaciones atípicas e influyentes
Construcción de modelos y los
efectos de la multicolinealidad
 Sub-temas



multicolinealidad
comparación de los modelos de regresión
con base en R2, s, R2 ajustada, longitud del
intervalo de predicción y estadística C
regresión por pasos y eliminación hacia
atrás
Multicolinealidad
 las variables independientes están
relacionadas entre sí o dependen una de otra
 Cuando existe la multicolinealidad entre dos o
más variables independientes, la importancia
de éstas parecerá ser menor.
 Se utiliza una matriz de correlación
 La multicolinealidad es grave si por lo menos
uno de los coeficientes de correlación simple
entre las variables independientes es al menos
de 0.9.
Multicolinealidad
 factores de inflación de la varianza (variance inflation
factor)
1
VIFj 
1  R 2j
 Rj2 es el coeficiente de determinación múltiple para el
modelo que relaciona xj con las otras variables
independientes.
 VIFj > 1
Multicolinealidad
 La multicolinealidad es grave si:
1. el VIF más grande > 10
2. el VIF medio es sustancialmente > 1
Construcción de modelos y los
efectos de la multicolinealidad
 comparación de los modelos de
regresión con base en R2, s, R2 ajustada,
longitud del intervalo de predicción y
estadística C
R2 = (variación explicada)/(variación total)

el R2  al  el número de variables
Construcción de modelos y los
efectos de la multicolinealidad
 comparación de los modelos de regresión con
base en R2, s, R2 ajustada, longitud del
intervalo de predicción y estadística C
s 


SSE
n  k  1
al  el número de variables, se pierden grados de
libertad
si al introducir otra variable independiente al
modelo, el s , no debemos sumar la variable
independiente al modelo.
Construcción de modelos y los
efectos de la multicolinealidad
 comparación de los modelos de regresión con
base en R2, s, R2 ajustada, longitud del
intervalo de predicción y estadística C
k  n  1 


R 2   R2 

n  1  n  k  1 



al  el número de variables, se pierden grados de
libertad
si al introducir otra variable independiente al
modelo, el R2 ajustada ↓, no debemos sumar la
variable independiente al modelo.
Construcción de modelos y los
efectos de la multicolinealidad
 comparación de los modelos de regresión con
base en R2, s, R2 ajustada, longitud del
intervalo de predicción y estadística C
SSE
C  2  n  2k  1
sp




Queremos que C sea pequeña.
Queremos que C sea casi igual a k + 1.
Si C >> k + 1, el modelo tiene un sesgo notable.
Si C < k + 1, el modelo no tiene sesgo y es
deseable.
Construcción de modelos y los
efectos de la multicolinealidad
Regresión por pasos

Se especifican αentry y αstay

Paso 1:
se corre una regresión para cada variable
independiente.
Se denomina a la variable con el mayor valor de la
estadística t, x[1]
1.
2.
3.
Si la estadística t no indica que x[1] sea significante en
el nivel αentry , el procedimiento termina. Si es
significante, se conserva para usarla en el paso 2.
Construcción de modelos y los
efectos de la multicolinealidad
Regresión por pasos

Paso 2:
1.
se corre una regresión agregando cada variable
independiente al modelo
y = β0 + β1x[1] + β2xj + 
1.
Se denomina a la variable (nueva) con el mayor valor
de la estadística t, x[2]
2.
Si la estadística t no indica que x[2] sea significante en
el nivel αentry , el procedimiento termina. Si es
significante, se comprueba que la estadística t >αstay
para x[1].
Construcción de modelos y los
efectos de la multicolinealidad
Regresión por pasos

Pasos posteriores:
1.
se continúan agregando variables independientes, una
por una, al modelo. En cada paso se suma una
variable independiente al modelo si teine la estadística
t más grande de las variables independientes que no
están en el modelo y si su estadística t indica que es
significante en el nivel
2.
Después de añadir una variable independiente, el
procedimiento comprueba que todas las variables
independientes ya incluidas tienen t significante en el
nivel αstay
Construcción de modelos y los
efectos de la multicolinealidad
eliminación hacia atrás
1.
Se corre una regresión con todas las p variables
independientes.
2.
Si la estadística t más pequeña es significante en el
nivel αstay , se conserva el modelo con todas las
variables.
3.
Si la estadística t más pequeña no es significante en el
nivel αstay , se elimina esa variable del modelo y se corre
la regresión de nuevo.
4.
Se repite estos pasos hasta conseguir que la
estadística t más pequeña sea significante en el nivel
αstay .
Análisis residual en la
regresión simple
 Sub-temas






gráficas de residuos
suposición de varianza constante
suposición de la forma funcional correcta
suposición de la normalidad
suposición de independencia
transformación de la variable dependiente
Análisis residual en la
regresión simple
 recuerda que
e  y  yˆ
 Si las suposiciones de la regresión se
mantienen, los residuos deben parecer que
han sido seleccionados en forma aleatoria e
independiente de poblaciones distribuidas
normalmente cuya media es 0 y su varianza
es σ2
Análisis residual en la
regresión simple
gráficas de residuos
 Se elaboran gráficas de residuos
contra
1. valores de x
2. valores de y
3. el orden en el tiempo en el cual los
datos han sido observados (para series
de tiempo)
Análisis residual en la
regresión simple
suposición de varianza constante
 se examinan las gráficas de los residuos


varianza de error creciente
varianza de error decreciente
Análisis residual en la
regresión simple
suposición de la forma funcional correcta
 Si usamos un modelo de regresión lineal
simple cuando la relación verdadera es
curva, la gráfica de residuos tendrá una
apariencia curva.
Análisis residual en la
regresión simple
suposición de la normalidad
 Se acomodan los errores en orden ascendente
 Se grafican contra el valor z correspondiente.
 z = punto en el eje horizontal bajo la curva
normal estándar de modo que el área bajo la
curva a la izquierda de z(i) es (3i-1)/(3n+1)
 Esta gráfica debe asemejarse a una recta.
Análisis residual en la
regresión simple
suposición de independencia
 más probable violar esta suposición en
series de tiempo:



autocorrelación positiva
patrón cíclico en los errores
autocorrelación negativa
 Los términos de error deben ocurrir en
un patrón aleatorio en el tiempo.
Análisis residual en la
regresión simple
transformación de la variable dependiente
 posible remedio en casos de
transgresión de las suposiciones de



varianza constante
forma funcional correcta
normalidad
Análisis residual en la
regresión simple
transformación de la variable dependiente
 transformación de la raíz cuadrada
y*  y  y.5
 transformación de la raíz cuárta
y*  4 y  y.25
 transformación logarítmica
y*  ln y
Análisis residual en la
regresión múltiple
 Se grafican los residuos contra
1. valores de cada variable independiente
2. valores del valor predicho de la variable
dependiente
3. orden en el tiempo en el cual se
observaron los datos
Diagnóstico para detectar
observaciones atípicas e
influyentes
 Sub-temas





valor de la ventaja
residuos y residuos estudentizados
residuos eliminados y residuos eliminados
estudentizados
medida de la distancia de Cook
Qué hacer con respecto a las
observaciones atípicas y las influyentes
Diagnóstico para detectar
observaciones atípicas e
influyentes
 atípica: una observación muy separada
del resto de los datos
 influyente: cambia de forma significativa
algún aspecto importante (b o s) del
análisis de regresión si se elimina la
observación
Diagnóstico para detectar
observaciones atípicas e
influyentes
valor de la ventaja
 mide la distancia entre los valores x de la
observación y el centro de la región
experimental
 Si el valor de la ventaja es grande, la
observación es atípica con respecto a sus
valores x.
 Se considera grande si es mayor que lo doble
del promedio de todos los valores de la ventaja.
(2(k+1)/n)
Diagnóstico para detectar
observaciones atípicas e
influyentes
residuos y residuos estudentizados
 Cualquier residuo notablemente
diferente de los otros es sospechoso.
 residuo estudentizado: e/s
 Si el resiguo estudentizado es mayor
que 2, hay alguna evidencia de que la
observación es atípica.
Diagnóstico para detectar
observaciones atípicas e
influyentes
 residuos eliminados y residuos eliminados
estudentizados
 se calcula la distancia entre yi y y(i)
 residuo eliminado estudentizado = (residuo
eliminado) / s
 Hay fuerte evidencia de que la observación es
atípica con respecto a su valor y si el residuo
eliminado estudentizado es mayor que
 n   k  2 
t.005
Medida de la Distancia de
Cook
 D de Cook
 Si la D de Cook de la observación i es
grande, entonces las estimaciones
puntuales de mínimos cuadrados
cambian mucho con la inclusión de i
 Si D < F[.80], i no es influyente
 Si D > F[.50], i sí es influyente
Qué hacer con respecto a las
observaciones atípicas y las
influyentes

1.
2.

3.
4.
Comenzar con las observaciones atípicas en la
variable y
Comprobar que el valor esté capturado
correctamente; corregirlo si es necesario.
Si no se puede corregir o si es correcto, desechar
la observación y correr la regresión de nuevo.
Luego ver los valores x
Tratar de detectar razones (causas) para el valor
y atípico (ver si algún valor x también es atípico).
Considerar otras variables independientes no
incluidas en el modelo.