Download el análisis de regresión

Document related concepts

Homocedasticidad wikipedia , lookup

Mínimos cuadrados ordinarios wikipedia , lookup

Regresión lineal wikipedia , lookup

Factor de inflación de la varianza wikipedia , lookup

Coeficiente de determinación wikipedia , lookup

Transcript
EL ANÁLISIS DE REGRESIÓN
ANÁLISIS DE REGRESIÓN LINEAL
El modelo de regresión lineal
permite determinar la relación
estadística que existe entre una
variable dependiente (Y) y una o
más variables independientes
(X₁, X₂, X₃...). Para poder realizar
esta relación, se debe postular
una relación funcional entre las
variables. La más simple relación
entre dos variables es una línea
recta.
La aplicación de este método implica un supuesto de linealidad cuando la demanda presenta un
comportamiento creciente o decreciente, por tal razón, se hace indispensable que previo a la
selección de este método exista un análisis de regresión que determine la intensidad de las
relaciones entre las variables que componen el modelo.
SUPUESTOS BÁSICOS DEL ANÁLISIS DE REGRESIÓN LINEAL
1. LINEALIDAD.
-
Que la relación entre las variables sea lineal.
la linealidad implica que las medias de las
distribuciones de la variable dependiente
deben situarse en una línea recta para cada
variable independiente y que, para cada
combinación de valores de las variables
independientes, la distribución de la variable
dependiente es normal con variancia
constante.
Si no se tiene linealidad se dice que tenemos un
error de especificación.
Las medias µx de las distintas poblaciones están relacionadas linealmente con X.
µx = E (Y/ X= x) = β₀ + β₁ x
⇒ β₀ = ordenada al origen = MEDIA POBLACIONAL de la variable resultante cuando la variable
regresora (dosis) toma valor 0.
⇒ β₁ = pendiente = cambio en la MEDIA POBLACIONAL de la variable resultante cuando la variable
regresora aumenta en 1 unidad.
1
2. INDEPENDENCIA
-
Que los errores en la medición de las variables explicativas sean independientes entre sí.
Los valores de
independientes.
Y
son
estadísticamente
Es Independencia entre los residuos mediante el
estadístico de Durbin-Watson que toma valor 2
cuando los residuos son completamente
independientes (entre 1.5 y 2.5 se considera que
existe
independencia),
DW<2
indica
autocorrelación positiva y DW>2 autocorrelación
negativa.
El supuesto de independencia de las variables
aleatorias error, se puede chequear gráficamente
por medio de un diagrama de dispersión entre los
residuales eje Y y el orden en que se tomaron las
observaciones (si se tiene) eje X.
3. HOMOCEDASTICIDAD
-
Que los errores tengan varianza constante.
El supuesto de Homocedasticidad exige que para
todo el recorrido de la variable X la varianza del
error sea constante. Esto es importante de cara a
la predicción de valores en los cuales la desviación
tipo de los residuos forma parte del cálculo del
intervalo de confianza.
El recurso gráfico para comprobar la
Homocedasticidad es el ya conocido de Residuos
frente a Valores predichos.
Esta condición se estudia utilizando las variables:
ZPRED=pronósticos tipificados y ZRESID=residuos
tipificados mediante:
• El estadístico de Levene (ver explorar)
• un gráfico de dispersión .Que se obtiene en
Analizar-Regresión-Lineal-Gráficos.
El supuesto de Homocedasticidad implica que la variación de los residuos sea uniforme en todo el
rango de valores de los pronósticos (gráfico sin pautas de asociación).
2
4. NORMALIDAD DE LOS RESIDUOS TIPIFICADOS.
-
Que los errores tengan una esperanza matemática igual a cero
Para facilitar la estimación por intervalo del
modelo de regresión es exigible la
normalidad de la distribución de los errores.
Podemos contrastarla mediante gráficos de
normalidad de tipo P-P o mediante el
histograma.
Gráfico de Probabilidad Normal de tipo P-P:
Representa las proporciones acumuladas de
la variable esperada respecto a las
proporciones acumuladas de la variable
observada.
En el eje de ordenadas se representa la función teórica bajo el supuesto de normalidad y en el eje
de abscisas, la función empírica. Desviaciones de los puntos del gráfico respecto de la diagonal
indican alteraciones de la normalidad. Observamos la ubicación de los puntos del gráfico, estos
puntos se aproximan razonablemente bien a la diagonal lo que confirma la hipótesis de normalidad.
o
Para cada valor de X, Y es una variable aleatoria con distribución Normal con media µx.
5. NO-COLINEALIDAD
-
Que el error total sea la suma de todos los errores.
Es decir la inexistencia de colinealidad. Esta
puede ser:
Colinealidad perfecta si una de las variables
independientes tiene una relación lineal
con otra/as independientes.
Colinealidad parcial si entre las variables
independientes existen altas correlaciones
3