Download Análisis Regresión

Document related concepts
no text concepts found
Transcript
Master Intervención
Psicosocial
Análisis de la regresión
Modelos de análisis
estadístico
I. Conceptos básicos.
II. Regresión múltiple
Parte I. Conceptos básicos
Análisis estadístico
En un sentido amplio, se refiere a todos
los métodos que describen las relaciones
que se dan entre diversas variables o
dimensiones de variación.
Modelos de análisis estadístico y
diseño de estudio
Conceptos básicos
 Datos: observaciones realizadas de los
individuos o grupos de individuos
 Escalas de medida: no métricas (nominales y
ordinales) y métricas (intervalos y de razón)
 Diseños: estrategias de recogida de datos
 Estrategia del diseño: transversal o longitudinal
 Modelos de análisis: sistemas o ecuaciones que
permiten inferir el tipo de relación entre los
datos
 Clases de relaciones: asociativas y causales
A propósito de los datos (1)
Elaboración de datos
Observación
directa
Escala
de medida
Dato científico
o valor
numérico
La conversión de una observación directa en
un dato científico se realiza mediante la
aplicación de una adecuada escala de medida.
Reunión de datos
Sistemas de reunión de datos
a) Tablas
b) Gráficos
Tablas

Las tablas se usan en los informes
científicos para resumir los datos u otra
información que no puede ser presentada
de forma conveniente en la narrativa del
texto.
Acerca de las tablas
Las tablas deben tener un título que informe
claramente sobre su contenido como por
ejemplo preferencias del partido político. Las
tablas estadísticas deberían informar también
sobre el número de observaciones que se
incluyen (frecuencia). La parte superior de la
columna del lado izquierdo de la tabla es
referida como título de filas e informa sobre el
contenido de las fila. El cuerpo de la tabla
contiene los datos de interés. En el ejemplo
propuesto se muestra el número de individuos
que prefieren un partido político.
..//..
Las tablas que se refieren a una sola variable
son
conocidas
por
representaciones
univariadas y las que informan sobre dos
variables, representaciones bivariadas. En la
representaciones bivariadas una variables
está asociada a las filas y la otra a las
columnas y se conocen, también, por tablas
de contingencia. Ejemplo de tabla bivariada
que relaciona preferencia de un partido
político y afiliación religiosa (en paréntesis
están los porcentajes).
Ejemplos (tablas)
Ejemplos (tablas)
Gráficos

Con los gráficos se consigue una
representación visual de los datos, por lo
que es un procedimiento útil a la
investigación. Los gráficos captan mejor la
atención del lector, permite clarificar los
resultados y facilitar su interpretación
Histograma de frecuencias o gráfico de
barras
El histograma de frecuencias es un gráfico que
muestra la distribución de frecuencias de una
variable de intervalo. El eje horizontal del
histograma o gráfico de barras presenta los
intervalos y el eje vertical la cantidad de
puntuaciones de cada intervalo (frecuencia). La
altura de la barra indica la frecuencia de casos de
cada categoría. El gráfico siguiente muestra la
cantidad de amigos reportados por estudiantes
de un College americano.
..//..
Cantidad de amigos reportados por
estudiantes de un College
En el segundo ejemplo, se muestra un gráfico
de barras sobre el efecto de dos drogas
antiansiolíticas. Se trata de una escala
nominal y la diferencia entre el primer y
segundo panel estriba en la forma de
representar las unidades en el eje vertical
(unidades pequeñas en el primer panel y
punto cero y unidades grandes en el
segundo). Nótese que la gran diferencia entre
las dos drogas que se observa en el primer
panel y que desaparece en la segunda
representación.
Efectos de dos psicofármacos sobre la
ansiedad
Polígono de frecuencias
Es una forma alternativa de representa el
histograma de frecuencias. Así, en lugar de
barras se utilizan líneas que conectan las
frecuencias de los intervalos de clase. En el
ejemplo siguiente se muestra la misma
información sobre la cantidad de amigos,
pero utilizando el sistema de líneas y no de
barras. De igual modo, se tiene el gráfico de
la cantidad de divorcios al aprobarse
correspondiente ley en el Estado de
Nebraska.
Cantidad de amigos reportados por
estudiantes de un College
Cantidad de divorcios antes y después de
su promulgación en el Estado de Nebraska
Escalas de medida y datos (2)
Cuantificación de las variables
Las variables se cuantifican al asignar
valores numéricos a los atributos o
características de los individuos, objetos y
hechos de acuerdo a reglas.
El proceso de asignación de los números
de acuerdo a reglas se denomina medida.
Escalas de medida
 Las reglas particulares de asignación de
números a las variables se definen como
escalas de medida.
Clasificación:
Nominal
Ordinal
débiles
Escalas
De intervalo
De razón
fuertes
Escalas de medida
Nominal
1 = varón
2 = hembra
Ordinal
1
2
3
De intervalo
15
16 17
18
19
20 21 22
3
4
5
23
De razón
0
1
2
6
7
8
Ejemplos de escalas
Nominal
los valores sólo representan
categorías o nombres (género, raza, religión, etc.)
Ordinal
los valores representan el orden en
función del grado como actitud, preferencia, etc.
De intervalo
la distancia entre los valores se
mantiene constante como la temperatura,
respuestas correctas, etc.
De razón
cuando además de la constancia del
intervalo hay un valor cero que coincide con la
ausencia del atributo.
Escalas y naturaleza de los
datos
Escala
Nominal
Ordinal
De intervalo
De razón
Tipo
Dato
Cualitativa
No-paramétrico
Cuantitativa
No-paramétrico
Cuantitativa discreta Paramétrico
Cuantitativa continua Paramétrico
Naturaleza de los datos y prueba
estadística
Datos de escala
Prueba estadística
Nominal
Ordinal
Prueba
no paramétrica
De intervalo
De razón
Prueba no paramétrica y
paramétrica
Variable dependiente
Datos métricos o gaussianos
Datos no métricos o no gaussianos
En torno a los diseños (3)
Concepto de diseño
El diseño es una estrategia particular de
recogida de datos y es función de los
objetivos o hipótesis propuestos.
Los diseños son transversales y
longitudinales, según la no presencia o
presencia de la dimensión temporal en el
estudio.
A modo de resumen
¿Cuál es la relación entre diseño (estudio)
matriz de datos y modelo de análisis?
¿Cuál es la estructura de cualquier
investigación científica?
Estructura de la investigación
en ciencias sociales
Diseño
Datos
Modelo análisis
Problema
Estadístico
Hipótesis
Estimación
Variables
Inferencia
Modelo de escala
A modo de resumen
Se ha visto la secuencia entre las tres
fases o momentos de una investigación:
diseño, datos y análisis.
Es importante conocer la estructura del
diseño,
así
como
los
distintos
procedimientos o tipos de investigación
Estructura del diseño (4)
Tipología del diseño de
investigación
Diseños observacionales
Diseños correlaciones o predictivos
(estudios de encuesta)
Diseños cuasi-experimentales
Diseños experimentales
Naturaleza de los datos (variable
dependiente)
Datos métricos o cuantitativos
distribución gaussiana o normal)
(de
Datos no métricos o categóricos (de
distribución no-gaussiana)
Estrategia del diseño y modelo
de análisis
Diseños experimentales y cuasiexperimentales
Diseño
Datos cuantitativos
Estrategia
ANOVA
Transversal
AR
Grupos
paralelos
Medidas
repetidas
Factorial
Cross-over
Datos cualitativos
Longitudinal
MANOVA
Medidas
repetidas
Antes-después
Cohortes
Factorial
mixto
Split-plot
TC
Modelo log-lineal
Regresión
logística
Diseños no experimentales
En
el
contexto
no
experimental
(experimento
verdadero
y
cuasiexperimentales) los diseños suelen ser
observacionales
y
correlacionales.
Los diseños correlacionales se basan en
el análisis de múltiples variables con el
propósito de estimar la magnitud de
cambio entre ellas.
Sigue…
El objetivo es poder predecir la variable
dependiente a partir de la o las variables
predictoras o independientes. También se
pretende explicar la proporción de
variación de la variable dependiente por la
o las variables independientes.
Modelos de análisis
estadísticos (5)
¡Cuestión!
Una vez recogidos los datos, ¿qué hacer
con ellos?
A esta cuestión cabe responder lo
siguiente: los datos se analizan de
acuerdo
con
modelos
estadísticos
adecuados a fin de derivar consecuencias
teóricamente interpretables; es decir, se
obtienen resultados que han de ser
interpretados.
El modelo lineal general
Modelo estadístico general
Y = f(X) + g(E)
V.Dep.
Parte fija
Parte aleatoria
Concepto
El modelo estadístico, o ecuación de
carácter lineal, asume que una observación
Y es el resultado de la combinación aditiva
de alguna función f de variables fijas y de
alguna función g de componentes
aleatorios, y que tanto f como g pueden
tomar
parámetros
conocidos
o
desconocidos.
..//..
continuación
Considerada esta ecuación como un
modelo estadístico general, se tiene que
cualquier observación es la suma de dos
partes o componentes: una parte fija o
determinista, f(X), y una parte aleatoria
desconocida, g(E).
Clases de relaciones entre
variables o hipótesis (6)
Clases de hipótesis
Asociativa
Hipótesis
Causal
Hipótesis asociativa
X
Y
Los valores de la variable X
covarían con los valores de la
variable Y
Ejemplos (hipótesis asociativas)
a) Hay una correlación entre el estilo de
dirección y la moral de los empleados
b) La visualización de los dibujos
animados está asociado con el
comportamiento agresivo de los niños.
c) La percepción de culpabilidad o
inocencia de los acusados está
asociada a los argumentos legales.
..//..
d) El consumo de heroína es función
de la clase social.
e) El consumo de tabaco está
positivamente relacionado con el nivel
de alerta en sujetos humanos.
g) Los niños sensibles al ritmo
progresan más en el aprendizaje de
lectura.
Hipótesis causal
X
Y
Los valores de la variable X
determinan los valores de la
variable Y
Ejemplos (hipótesis causales)
a) Leer dos veces una lista de ítems
favorece su recuerdo.
b) La intensidad de un estímulo determina
una respuesta de discriminación más
rápida.
c) A mayor incentivo más rápido es el
aprendizaje de una actividad académica.
..//..
d) El castigo genera respuesta de
evitación.
e) La frustración es causa de conductas
agresivas.
f)
El nivel de alerta aumenta la
efectividad del rendimiento escolar.
g) El ejercicio aumenta el rendimiento
en una actividad motora.
Contextos de las hipótesis
Hipótesis
Contexto
científico
asociativas
correlacional
causales
de manipulación
Universo de las hipótesis
 Hipótesis de investigación
 Hipótesis estadística
Hipótesis de investigación
Se plantean por intereses teóricos o
sustantivos
Definen cómo se relacionan las variables
Suelen ser asociativas y causales
Hipótesis estadísticas
Las hipótesis estadísticas se establecen
mediante
características
de
las
poblaciones de origen. Las poblaciones de
origen están definidas por parámetros,
que son valores de la distribución fijos
pero desconocidos. Los parámetros
poblacionales se asemejan a los
estadísticos de muestra y se estiman a
partir de estos últimos.
continuación
Mediante los datos de muestra podemos
aceptar o rechazar, con cierto grado de
confianza determinado numéricamente,
una hipótesis hecha sobre una población
determinada. Tal proceso se conoce como
contraste de hipótesis estadísticas o
prueba de significación estadística.
Prueba de hipótesis estadística
En investigación social, interesa más los
parámetros asociados a la parte fija del
modelo estadístico porque representan la
magnitud de un cambio (grado de
asociación entre las variables) o el efecto
causal (el impacto de una variable sobre
otra). De ahí, el propósito de cualquier
prueba de hipótesis es determinar el nivel
de significación de estos parámetros.
Hipótesis estadística sobre un
parámetro individual
H0: parámetro = 0
H0: β = 0
O bien, sobre los parámetros del
modelo
En el modelo de la regresión múltiple, se
asume que los distintos coeficientes
(pendientes) son cero:
H0: b1 = b2 = … = bp = 0
en consecuencia,
Si se demuestra, como resultado de la
prueba, que
H0: bi = 0, entonces no hay relación lineal
entre la variable Xi e Y.
En caso contrario, se tiene
H1: bi ≠ 0, se infiere que hay una relación
lineal entre ambas v ariables.
Hipótesis nula: H0
En
teoría
estadística
se
asume,
inicialmente, la no significación de los
parámetros, siendo este supuesto la
hipótesis que se somete a prueba y es
conocida por hipótesis nula (H0). Si se
demuestra que este supuesto no es
aceptable, se recurre a la hipótesis
alternativa (H1) como la explicación más
plausible de los datos.
Prueba de la hipótesis estadística o
prueba de significación
La prueba de significación estadística
contrasta la hipótesis de nulidad con los
datos del estudio. A partir del resultado de la
prueba de significación, se procede a la
toma de decisiones estadísticas. El
resultado de la prueba consiste, de forma
sucinta, en la aceptación o no de la
hipótesis de nulidad que asume la norelación entre la variable independiente
(predictora) y la variable dependiente
(criterio).
..//..
Cabe matizar, no obstante, que entre la
variable independiente y dependiente
pueden darse relaciones de asociación o
de causalidad, de modo que la posible
implicación de una variable sobre otra
depende
del
diseño
utilizado
(correlacional o experimental). La relación
de asociación es la magnitud de cambio
que se da entre dos variables, mientras
que la relación de causalidad es el
tamaño del impacto de una variable sobre
otra.
Inferencia de la hipótesis de
nulidad
La inferencia de la hipótesis nulidad nos
lleva a aceptar que la variable
independiente no está relacionada con la
dependiente (inferir su efecto). En caso
contrario, se toma la decisión en favor de
un modelo alternativo asumiendo, como
explicación más plausible (no exenta de
riesgo), el modelo de una relación efectiva
entre ambas variables.
..//..
Al tomar esta decisión, se corre el
riesgo de que sea falsa. Este riesgo se
define, en teoría estadística, en
términos de probabilidad y es conocido
por nivel de significación. El nivel de
significación describe el grado de
credibilidad que merece la hipótesis
considerada.
Errores en el rechazo o aceptación de
H0
Situación actual de la H0
Decisión
Verdadera
Falsa
Rechazo H0
Error Tipo I
No error
Aceptación H0
No error
Error Tipo II
Error Tipo I y error Tipo II
A) Error Tipo I o decisión positiva falsa se
comete al rechazar la hipótesis de nulidad
cuando es verdadera; es decir, cuando se
toma una decisión positiva, en favor de la
existencia de un efecto cuando en realidad
no existe (falsa alarma).
La probabilidad de cometer este error es el
nivel de significación o valor α de la
prueba estadística.
..//..
B) Error Tipo II o decisión negativa
falsa se comete cuando la prueba lleva
a la aceptación de una hipótesis de
nulidad falsa. Se trata de no aceptar el
hecho de un efecto de la variable
independiente cuando en realidad
ocurre. El error de Tipo II se define por
la probabilidad β y está asociado
inversamente con la probabilidad α y
directamente con la potencia de la
prueba.
Decisión estadística y error
Resultado
de la prueba
estadística
Probabilidad
de azar
α = 0.05
Decisión
Significativo
p < α
NA(H0)
No significativo
p > α
A(H0)
H0
Inferencia de H0
Probabilidad
de azar
1
Región de
decisión
Si p > 0.05
A(H0)
Si p < 0.05
α = 0.05
NA(H0)
0
Sobre la discusión de los
resultados
Concepto
Las actividades propias de la discusión de
los resultados son las siguientes:
a) Inferir a partir de la prueba estadística
las consecuencias de carácter teórico.
b) Interpretar estas consecuencias a la luz
de las hipótesis formuladas
c) Establecer el alcance de los resultados
mediante la generalización de los mismos
Inferencia teórica de la hipótesis
Supongamos que la prueba de la hipótesis
estadística nos lleva a no aceptar la
hipótesis de nulidad. En este caso, se
suele inferir, como la más adecuada, la
hipótesis alternativa que coincide con la
hipótesis de trabajo o investigación. Está
claro que esta inferencia está sujeta a un
riesgo de error (definido en términos de
probabilidad).
Interpretación de los resultados
Las
actividades
propias
de
la
interpretación de los resultados son:
a) Examinar y explicar los datos por la
hipótesis de investigación.
b) Extraer los contenidos científicamente
significativos.
c) Interpretar los resultados en términos
de hipótesis alternativas o rivales.
Generalización de los
resultados
En la generalización se evalúa el alcance
de los resultados, es decir, para qué
poblaciones son vigentes los supuestos
teóricos probados. La generalización de los
resultados suele realizarse, por lo común,
con la población de sujetos.
Parte II. Modelos de la
regresión múltiple y otros
Regresión múltiple
Modelos de la
Regresión múltiple
No Lineal
Lineal
Lineal
Polinómica.
V. Dummy
Raíz
Cuadrada
Interac.
Loglineal
Recíproca
Exponencial
Modelo lineal de la regresión
múltiple
El modelo lineal de la regresión es un
caso especial Modelo Lineal General. De
este modo, el componente determinista
(parte fija del modelo) está formado por un
conjunto de variables objeto de estudio en
la investigación (predictores) y el
componente aleatorio por un término de
error (falta de ajuste).
..//..
El análisis de la regresión múltiple es
utilizado cuando se pretende predecir una
variable dependiente continua de un
conjunto de variables independientes
(predictores).
Cuando
la
variable
dependiente es dicotómica, se aplica, en
este caso, la regresión logística .
Las variables independientes usadas en la
regresión pueden ser cuantitativas o
cualitativas (dummy).
..//..
Por lo general, el análisis de la regresión
múltiple utiliza variables que son propias
de los contextos naturales, en oposición a
variables
que
son
manipuladas
experimentalmente, aunque es posible
utilizar la regresión con esta clase de
variables.
..//..
Cabe tener en cuenta, por último, que con
el análisis de la regresión (en sentido
estricto) no pueden inferirse relaciones
causales entre las variables. Por lo
general, la terminología es la siguiente: X
predice a Y, y no puede decirse que X
causa a Y.
Modelo de la regresión simple
Y = b0 + b1X1 + e
Observación
Parte fija
(determinista)
Parte aleatoria
(error)
Descripción
En el modelo de la regresión simple, Y
denota la variable dependiente (criterio), X
la variable explicativa, ‘b0’ es el intercepto,
‘b1’ (la pendiente) denota el parámetro
estimado de la variable X y ‘e’ es el
término
de
error
aleatoriamente
distribuido. Constituye, con el modelo de
la regresión múltiple, uno de los modelos
más utilizados en ciencias sociales.
Representación del modelo en
forma condensada
Y1 = b0 + b1X11 + e1
Y2 = b0 + b1X21 + e2
...............................
Yn = b0 + b1Xn1 + en
y =
Xβ
+ε
(forma matricial
compacta)
Modelo de la regresión múltiple
Y = b0 + b1X1 + b2X2 + ... + bpXp + e
Forma simplificada:
Y = b0 + ΣpbpXp + e
Modelo de la regresión múltiple
Expresa un modelo de la regresión de p
variables como una serie de ecuaciones.
Las p ecuaciones agrupadas en un
sistema nos dan el modelo lineal general
familiar.
Los coeficientes b son conocidos como
coeficientes de la regresión parciales.
Representación del modelo en
forma condensada
Y1 = b0 + b1X11 + b2X21 + ... + bpXp1 + e1
Y2 = b0 + b1X12 + b2X22 + ... + bpXp2 + e2
................................................................
Yn = b0 + b1X1n + b2X2n + ... + bpXpn + en
y =
Xb
+ε
Modelos de la regresión de p
variables
Yi  b1  b 2 X 2i  b 3 X 3i    b p X pi   i
b1
b2bp
i
- Intercepto
- Coeficientes de pendiente parciales
de la regresión
- Término residual asociado con Ia ‘i’
observación
Supuestos del modelo de la
regresión
Normalidad
Linealidad
Homoscedasticidad
Multicolinealidad y singularidad
Normalidad
En principio, cabe pensar que los datos
tienen una distribución normal. Es posible
verificar este supuesto, construyendo
histogramas
y
comprobando
la
distribución de los datos. A veces, en los
histogramas se incluye una línea que
representa la forma de la distribución con
la que es posible comprobar si la
distribución de los datos de desvía de
esta línea.
En otras palabras…
Los valores de la variable dependiente
son normalmente distribuidos para cada
posible combinación de los niveles de las
variables X.
Distribución normal de la
variable edad
Linealidad
Se asume una relación lineal recta entre las
variables independientes y la dependiente.
En la práctica, este supuesto no suele
verificarse, dado que los procedimientos de
regresión múltiple no suelen ser gravemente
afectados por leves desviaciones de este
supuesto. Si la curvatura de la relación es
evidente, se pueden
transformar las
variables o recurrir de forma explícita a
componentes no lineales.
Definición de modelo lineal
Los modelos en que todos los parámetros
(b0,b1,…,bp) tienen exponentes de uno se
denominan modelos lineales.
Los
modelos
cuyos
parámetros
(b0,b1,…,bp) tienen exponentes con
valores distintos de la unidad se
denominan modelos no-lineales.
Línea de ajuste del peso a la altura
libras/pulgadas
Height vs Weight
80
Weight (lbs)
75
70
65
60
55
115
125
135
145
Height (ins)
155
165
175
Líneas de Regresión (línea de
mejor ajuste)
Regression line for r = - 1.00
Regression line for r =1.00
12
Dependent variable
Dependent variable
12
10
8
6
4
2
10
8
6
4
2
0
0
0
2
4
6
8
Independent variable
10
12
0
2
4
6
8
Independent variable
10
12
Cambio en la línea de mejor
ajuste
Regression line for r = 0.85
Regression line for r = 0.95
12
Dependent variable
Dependent variable
12
10
8
6
4
2
10
8
6
4
2
0
0
0
2
4
6
8
Independent variable
10
12
0
2
4
6
8
Independent variable
10
12
Los supuestos de normalidad, linealidad y
homoscedasticidad
pueden
ser
examinados al inspeccionar el gráfico de
dispersión con los valores predichos de Y
(Ŷ ) en el eje X y los residuales (Y-Ŷ) en el
eje Y.
Homoscedasticidad
Las variancias de los valores de la
variable dependiente (datos del estudio),
para cada posible combinación de niveles
de la variable X, son iguales; es decir, la
variancia de los residuales es constante.
Multicolinealidad
La multicolinealidad significa que las
variables
independientes
están
correlacionadas. Supóngase que la altura
de una persona tiene dos predictores:
peso en libras y peso en kilos. Estos dos
predictores son redundantes, ya que el
peso es único independiente de si se mide
con libras o kilos.
..//..
Cuando ocurre esto significa que al menos
una de las variables predictoras es
totalmente redundante con otras. Los
indicadores estadísticos de este fenómeno
es conocido por tolerancia.
Relación entre variables
independientes
De tolerancia: el grado en que un predictor
puede ser predicho por otros predictores.
La tolerancia es igual a 1 cuando las
variables
independientes
no
están
relacionadas.
Singular: De igual modo, la relación es
singular
cuando
un
predictor
es
perfectamente
predecible
de
otros
predictores (tolerancia igual a cero).
Resumen supuestos del
modelo
 Normalidad
- Y valores son normalmente distribuidos por
cada X
- La distribución de probabilidad del error
debe ser normal
 Homoscedasticidad (variancia constante)
E(σi2)
Sigue…
Independencia de errores E(eiej)=0 (i ≠ j)
Linealidad
Las variables independientes son medidas
sin error
No debe darse una relación lineal exacta
entre cualquier subconjunto de variables
explicativas (perfecta multicolinialidad)
Otros modelos
Modelos con variables dummy
(categóricas) y de interacción
Variables dummy
Las variables ‘dummy’ (ficticias) se
refieren a las dimensiones en que se
tienen en cuenta dos valores o categorías.
Por lo general, se utilizan los valores 0 y 1
para representar una categoría u otra de
la variable (por ejemplo género).
Diseño experimental
En el diseño experimental, las variables
independientes suelen ser categóricas y, a
veces, dummy.
Suelen recibir el nombre de variables de
tratamiento.
El objetivo es comparar las medidas de
los grupos de tratamiento.
Se utiliza el modelo estadístico ANOVA.
Modelos con componentes no
aditivos o interactivos
Y = b0 + b1X1 + b2X2 + b12X1X2 + e
Y = b0 + Σj bjXj + ΣjΣk bjkXjXk + e
Modelos no lineales
Modelos
cuyas
variables
tienen
exponentes, como por ejemplo, los
modelos polinómicos, exponenciales, etc.
Modelos polinómicos no lineales
Y = b0 + b1X1 + b2X1² + ... + bkX1k + e
Modelo de dos variables, k = 2
Y = b0 + b1X1 + b2X2 + b11X1² + b22X2² +
b12X1X2 + e
Forma simplificada:
Y = b0 + Σj bjXj + Σj bjjXj² + ΣjΣk bjkXjXk + e
¡Cuestión!
Hemos presentado un conjunto de
modelos estadísticos basados en la
regresión simple y múltiple (lineal y no
lineal). La cuestión que se nos plantea es
la siguiente:
¿Dados unos datos, cómo se procede
para ajustar un modelo estadístico?
Proceso de ajuste del modelo
estadístico
Selección del modelo
Estimación de parámetros
Inferencia estadística
Pasos para el ajuste
Selección (1)
Selección del modelo
El modelo de la regresión se selecciona
teniendo en cuenta:
a) la naturaleza de la variable
dependiente
b) cantidad de variables independientes o
explicativas (su estatus teórico)
..//..
c) Si la variable dependiente es
cuantitativa de distribución normal, se
aplica la regresión lineal. Si la variable
dependiente es categórica, entonces la
alternativa es la regresión logística.
d) Cuando se tiene una sola variable
independiente, el modelo de la regresión
es simple. Con dos o más variables
explicativas el modelo de la regresión es
múltiple.
Estimación de parámetros (2)
Parámetros del modelo
Sea el modelo:
Yi = bo + b1X1 + b2X2+ e
Los parámetros a estimar son:
b0 = intercepto o constante
b1 = efecto asociado a la primera variable X
b2 = efecto asociado a la segunda variable X
2e = variancia del error o residual
..//..
b1 se interpreta como un cambio en Y por
1 unidad de cambio de X1, siendo X2
constante. Este enunciado no es muy
claro cuando X1 y X2 no son
independientes.
Malentendido 1: ‘bj’ siempre mide el efecto
de Xj sobre E(Y), independiente de otras
variables X.
Malentendido 2: un valor ‘b’ significativo
estadísticamente establece una relación
de causa y efecto entre X e Y.
Resumen: interpretación de los
parámetros o coeficientes
Constante ‘b0’:
Intercepto o valor promedio de Y
cuando todas las Xj = 0.
 Pendiente ‘bj’:
Cambios estimados de Y por cada 1
unidad de cambio en Xj. Siendo
todas las otras variables constantes.
¡Cuestión!
Dada la importancia que tienen, para el
ajuste el modelo y la interpretación de los
resultados, los parámetros o coeficientes,
cabe distinguir entre los coeficientes ‘b’
(no estandarizados) y los coeficientes ‘b’
(beta o estandarizados).
..//..
El coeficiente ‘b’ es el cambio esperado en
Y por cada unidad de cambio en Xj,
cuando el resto de variables están
controladas.
El coeficiente ‘b’ es el cambio esperado en
Y en unidades de desviación estándar por
cada unidad estándar de cambio en Xj,
cuando el resto de variables están
controladas.
A propósito de la interpretación
de los coeficientes
Los parámetros ‘b’ tienen la ventaja de
que se interpretan en unidades de medida
originales.
Los coeficientes ‘b’ son directamente
comparables en cuanto a su importancia
en la variable Y. No pueden ser
interpretados en la escala de medida
original.
..//..
Ejemplo de ‘b’
El valor beta es una medida de la
intensidad con cada predictor influye en la
variable criterio. Es medida en unidades
de desviación estándar. Así, un valor beta
de 2.5 indica que un cambio en una
unidad estándar del predictor resulta un
cambio de 2.5 unidades estándar en la
variable criterio.
Inferencia y significación
estadística (3)
Pasos a seguir en la evaluación
del modelo
Una vez se ha especificado el modelo de
la regresión, se necesita conocer en qué
medida se ajusta a los datos.
En primer lugar, probaremos el ajuste del
modelo global de la regresión.
Luego, probamos la significación de cada
variable independiente.
Evaluación del modelo de la
regresión múltiple
Medidas de variación
Pruebas de significación
Medidas de variación
Coeficiente de determinación
múltiple (R2)
Proporción de variación en Y ‘explicada’
por todas las variables X tomadas en su
conjunto.
Jamás decrece cuando una nueva
variable X es introducida en el modelo.
La prueba de R2 = 0 expresa que todas las
variables X, de forma conjunta, no
explican la variación de Y.
Prueba de significación global
del modelo
Ejemplo práctico (datos
simulados)
Supongamos que se pretende estudiar el
impacto que sobre un Cuestionario de
Satisfacción Vital tienen las siguientes
variables:
• Edad
• Ingresos
• Cantidad hijos
• Salud
Pruebas de significación
En el contexto de la regresión pueden
seguirse, como se ha indicado, dos
estrategias de prueba:
a) Prueba del modelo completo, con todos
los coeficientes. Para ello se usa el
coeficiente
de
determinación
(R2)
mediante el estadístico F.
b) Prueba de los coeficientes individuales
de la regresión con el estadístico t.
c) Cabe también la posibilidad de probar
un
subconjunto
de
variables
independientes o modelos parciales.
Estadísticos para la prueba del
modelo total (a)
Para conocer el grado de ajuste del
modelo se utilizan dos estadísticos: R2
(coeficiente de determinación) y R2
ajustado.
R2: indica la proporción de variación en la
variable criterio (y) explicada por el
modelo. En suma, es un medida de la
bondad de la predicción de la variable
criterio por las variables predictoras.
..//..
R2
ajustado:
el
coeficiente
de
determinación tiende, en cierto modo, a
sobre-estimar la bondad del modelo
cuando se aplica al mundo real. Por ello,
se calcula el coeficiente de determinación
ajustado que tiene en cuenta el número de
variables del modelo y el número de
observaciones (participantes) en que se
basa el modelo.
Inconvenientes de R2: no sirve para
comparar modelos.
R2 ajustado
Dicho de forma más simple:
El coeficiente de determinación R2 es
sensitivo a la magnitud de la muestra (n) y
a la cantidad de variables independientes
o regresores (p) con muestras pequeñas.
Si p es grande en relación a n, el modelo
tiende a ajustarse muy bien. Una medida
mejor de bondad de ajuste es calculada
como sigue:
cálculo
•
•
•
n -1
R2 ajustado= 1 - (--------------)(1-R2)
n–p–1
Ventajas: refleja el tamaño de muestra y la
cantidad de variables independientes;
sirve para comparar modelos
Coeficiente de determinación
múltiple (R2)
Proporción de variación en Y ‘explicada’
por todas las variables X tomadas
conjuntamente.
El estadístico R2 mide la contribución total
de las X’s.
SC yy  SCE
Variación explicada
SCE
R 

 1
Variación total
SC yy
SC yy
2
Prueba de R2
Se ha señalado que cuando se prueban
todos los coeficientes de la regresión, se
utiliza el coeficiente de determinación. En
este caso, se prueba si hay una relación
lineal entre la variable criterio y las
variables independientes o predictores del
modelo.
Hipótesis a probar:
H0: b1=… bk= 0
H1: al menos un parámetro es no cero,
bk ≠ 0
Puesto que no hay un forma de
distribución de probabilidad para el
estadístico R2, se utiliza en su lugar el
estadístico F (ANOVA aplicado a la
regresión).
¿Qué tipo de prueba ha de
usarse?
La distribución utilizada se denomina distribución
de Fisher. El estadístico F es utilizado con esta
Curva de la distribución de F
Area = 
F,v ,v
1
2
reject H0
Prueba de significación total
Ejemplo hipotético
•H0: b1 = b2 = … = bp = 0
•H1: Al menos una bI  0
 = .05
•gl= 4 y 14
•Valor crítico:
Prueba estadística:
F 
23.751
Decisión:
Rechazo con  = 0.05
Conclusión:
 = 0.05
0
3.11
F
Hay evidencia de que al
menos una variable
independiente afecta a Y
Prueba de los coeficientes de la
regresión individuales (b)
 Siguiendo los pasos del programa SPSS:
• 1.Se calculan los coeficientes no estandarizados
• 2. Se calcula el error estándar de estos
coeficientes
• 3. Se calculan los coeficientes beta
• 4. Se calcula la t de los coeficientes no
estandarizados
• 5. Se obtiene la significación estadística de las t
Significación individual de los
coeficientes o parámetros no
estandarizados
Pruebas de hipótesis de los
parámetros estimados ‘b’
 Prueba de una cola
H0: bj = 0
H1: bj > 0, o bj < 0
Prueba de dos colas
H0: bj = 0
H1: bj ≠ 0
La prueba es de una cola o dos según se
tenga
una
hipótesis
unidireccional
o
bidireccional (no importan que el valor del
estadístico sea mayor o menor que cero). ..//..

 Prueba estadística: t  b / s 
bj
Se utiliza la t de Student: el valor estimado del
parámetro partido por su error estándar.
 Región de rechazo de H0:
to > t (o to < t)
|to| > t/2
Sea, por ejemplo, el siguiente
modelo
Y = b0 + b1X1 + b2X2 + b3X3 + b4X4 + e
Prueba de H0: bi = 0
H0: b1 = 0 (X1 no contribuye)
H1: b1 ≠ 0 (X1 contribuye)
H0: b2 = 0 (X2 no contribuye)
H1: b2 ≠ 0 (X2 contribuye)
H0: b3 = 0 (X3 no contribuye)
H1: b3 ≠ 0 (X3 contribuye)
Sigue…
H0: b4 = 0 (X4 no contribuye)
H1: b4 ≠ 0 (X4 contribuye)
Pruebas estadísticas
.
b1
t= s
b1
rechazar Ho if |t| > t ./2,n-k-1
(1- ) 100% Intervalo de confianza
bi - t/2,n-k-1sbi
to
bi + t/2,n-k-1sbi
Significación coeficientes
individuales
El único parámetro estadísticamente
significativo es el asociado a la Variable
Ingresos.
t Test : Ejemplo hipotético
Test con un  = 0.05.
•H0: b2 = 0
Prueba estadística:
•H1: b2  0
t Test Statistic = 3.491
Decisión:
Reject H0 at  = 0.05
•gl = 14
Valores críticos:
Rechazo H0
.025
-2.145
Rechazo H0
.025
0 2.145
Conclusión:
Hay evidencia de un efecto
significativo.
Z
Intervalos de confianza
 Algunos autores prefieren los intervalos de
confianza a la prueba t.
 El Intervalo de confianza se refiere al intervalo
que, a un cierto nivel de confianza, contiene al
parámetro estimando.
 Nivel de confianza es la "probabilidad" de que el
intervalo calculado contenga al verdadero valor
del parámetro.
El cálculo es como sigue:
b ± t(/2, g.l.)sb
Donde t es el valor de t tabulado para
/2, con los grados de libertad
asociados a la SCR (g.l. de la Suma de
Cuadrados Residual del ANOVA) y sb el
error estándar de b.
 El IC se representa por (1-)100%. Calculemos
el intervalo de confianza del 95% para un valor
estimado de b = 1.18 y sb = .28. Entrando en las
tablas de t para un alfa de .05/2 =.025 y, por
ejemplo, con 18 g.l. (t =2.101). El intervalo de
confinaza del 95% es
1.18 ± (2.101)(.28) = .59 y 1.77
Con el intervalo de confianza, la prueba de la
hipótesis nula, b = 0, viene a ser un caso
especial. Con el ejemplo presente, 0 no está
incluido en el rango y la hipótesis de b = 0 es
por lo tanto rechazada con un  = 0.05.
Prueba de significación de
modelos parciales
Prueba de modelos parciales (c)
 Se examina la contribución de un
conjunto de variables en relación a Y.
 La forma como se analiza la específica
contribución de las variables define el
procedimiento o método a seguir.
 Hay varios procedimientos que permiten
evaluar la contribución particular de cada
variable o predictor.
Sigue…
Hipótesis nula:
La variables del conjunto no mejoran
significativamente el modelo, cuando
todas las otras son incluidas.
Los modelos deben estimarse por
separado
Prueba estadística de partes
del modelo
Test H0: b1 = 0 en un modelo de 2 variables
SSR ( X 1 and X 2 ) - SSR ( X 2 )
F
MSE ( X 1 and X 2 )
De la tabla ANOVA de
la regresión para
Yi  b0  b1X 1i  b2 X 2i
De la tabla ANOVA de
la regresión para
Yi  b0  b2 X 2i
Prueba estadística de partes
del modelo
Test H0: b1= b 2 = 0 en un modelo de 3 variables
( SSR( X 1 , X 2 , X 3 ) - SSR ( X 3 ))/k
F
MSE ( X 1 , X 2 , X 3 )
De la tabla ANOVA de
la regresión para
Yˆi  b0  b1 X1i  b2 X 2i  b3 X 3i
De la tabla ANOVA de
la regresión para
Yˆi  b0  b3 X 3i
Procedimientos de selección
de variables
Tipos de procedimientos
Procedimiento enter o global
Jerárquico (de acuerdo a un orden)
Método simultáneo (Enter)
En el método simultáneo, denominado en
el SPSS por ENTER, el investigador define
el conjunto de predictores que forman el
modelo. A continuación se evalúa la
capacidad de este modelo de predecir la
variable criterio.
Se trata, en definitiva, de probar el modelo
global o completo.
Métodos jerárquicos de
selección de variables
En los métodos jerárquicos las variables
entran en el modelo de acuerdo con un
orden determinado. El orden depende de
las consideraciones teóricas o de
resultados previos.
Desde la perspectiva estadística, el orden
de entrada de las variables en el modelo
viene determinado por la fuerza de su
correlación con la variable criterio.
En la actualidad hay diferentes versiones
de este método: stepwise selection,
forward selection, backward selection y
remove.
Stepwise selection
Cada predictor o variable independiente
es entrando de forma secuencial y su
valor es evaluado. Si añadir el predictor
contribuye al modelo, entonces es
retenido y el resto de variables son
entonces reevaluadas para probar si
siguen contribuyendo al éxito del modelo.
Si no contribuyen significativamente son
eliminadas.
Sigue…
A cada paso del proceso, se observa si la
variable menos significativa del modelo
puede ser removida debido que a su valor
F, FMIN, es menor que el especificado o
valor F por defecto.
Sigue…
Si ninguna variable puede ser removida,
se verifica si la más significativa que no
está en el modelo puede ser añadida dado
que su valor F, FMAX, es el mayor que el
especificado o por defecto.
El procedimiento se para cuando no se
puede añadir o eliminar ninguna otra
variable.
Forward selection
Al igual que el procedimiento stepwise, las
variables son entradas secuencialmente
en el modelo.
La primera variable considerada para
entrar en el modelo es la que tiene una
mayor correlación positiva o negativa con
la variable dependiente.
Sigue…
La variable es entrada en el modelo, sólo
cuando satisface el criterio de entrada
(tiene un valor F mayor que el criterio).
El procedimiento se para cuando no hay
más variables que se ajusten el criterio de
entrada.
Backward selection
Se empieza con todas las variables del
modelo y se elimina la menos útil a un
tiempo. Una variable, cuyo valor p
asociado a la F parcial es mayor que un
valor prescrito, PMIN, es la menos útil y
ha de ser eliminada del modelo. El
proceso continúa hasta que no puede
eliminarse ninguna otra variable de
acuerdo con el criterio propuesto.
Sigue…
Una vez eliminada la variable del modelo,
no puede ser entrada de nuevo en un
paso posterior.
Remove
Es un procedimiento de selección de
variables en que se eliminan todas las
variables de un bloque en un solo paso.
A modo de resumen
Finalizada la prueba de significación del
modelo o de los coeficientes, es posible
llevar a cabo un análisis de residuales de
forma
gráfica
(mediante
los
correspondientes plots) o bien utilizando la
prueba de Durbin-Watson.
Verificación de los supuestos
del modelo
Multicolinealidad
Estadísticos de colinealidad
Tolerancia y VIF (variancia
inflation factors)
 Tolerancia: Una primera medida para para
probar la colinealidad o no dependencia lineal
entre los regresores (Tp = 1 – Rp2).
 Cuando tiene un valor máximo de 1, la variable
no tiene ningún grado de colinealidad con las
restantes, Un valor 0 indica que la variable es
una combinación lineal perfecta de otros
regresores. Es deseable que, en general, sea
mayor a .40
Sigue…
 VIF (variance inflation factor): a medida que es
mayor la multicolinealidad, en un de los
regresores, la variancia de su coeficiente
comienza a crecer. La multicolinealidad infla la
variancia del coeficiente (VIFp= 1/(1-Rxp2).
 La VIF tomará un valor mínimo de 1 cuando no
hay colinealidad y no tendrá límite superior en el
caso de multicolinealidad.
Sigue..
En presencia de multicolinealidad, una
solución lógica consiste en eliminar del
modelo aquellas variables con más alto
VIF (o más baja tolerancia).
Diagnósticos de colinealidad
 Dimensiones: factores diferentes que se hallan
en el conjunto de variables independientes.
 Autovalores: los valores próximos a 0 indican
colinealidad.
 Índices
de
condición:
raíz
cuadrada
(autovalormayor/autovalor). Valores por encima
de 15 indican posibles problemas de
colinealidad
 Proporciones de variancia: proporción de la
variancia de cada coeficiente de la regresión
parcial bj que está explicada por cada factor.
Sigue…
Proporciones de variancia: Hay problema
de colinealidad si una dimensión (de
índice de condición alto) explica gran
cantidad de la variable de dos o más
variables.
Resto de supuestos
Pruebas del resto de supuestos
del modelo
Prueba de la linealidad
Pruebas de independencia
Prueba de homoscedasticidad
Prueba de normalidad
Scatter- plot (gráfico de
dispersión)
 El scatter plot nos permite obtener respuesta a
la siguientes cuestiones:
1. ¿Las variables X e Y están relacionadas?
2. ¿Las variables X e Y están linealmente
relacionales?
3. ¿Las variables X e Y están relacionadas nolinealmente?
4. ¿La variación en el cambio de Y depende de
X?
5. ¿Hay outliers (valores extremos o atípicos)?
Variables listadas en el SPSS
 DEPENDEN : variable dependiente.
 ZPRED: valores pronósticos tipificados; valores
pronósticos divididos por su desviación estándar
(media de 0 y desviación 1).
 ZRESID: residuos tipificados.
Sigue…
 DRESID: residuos eliminados; es decir, al
efectuar los pronósticos se elimina de la
ecuación el caso sobre el que se efectúa el
pronóstico.
 ADJPRED: pronósticos ajustados; es decir,
valores pronosticados sin incluir el caso
pronosticado.
 SRESID: residuos estudentizados; divididos por
su desviación estándar y se distribuyen según la
t de Student.
 SDRESID: residuos estudentizados
Interpretando los plots de
valores predichos y residuales
 Los plots de los valores predichos, observados y
residuales son esenciales en determinar si el
modelo
ajustado
satisface
los
‘cuatro
presupuestos de la regresión lineal:
1. Linealidad de la relación entre la variable
dependiente e independientes.
2. Independencias o no autocorrelación de los
errores.
3. Homoscedasticidad o variancia constante de
los errores.
4. Normalidad de la distribución del error.
1. Linealidad
 Se obtiene del plot de los valores observados y
predichos versus la variable independiente. Si la
relación no es lineal, la dispersión (scatter) de
los puntos mostrará una desviación sistemática
de la línea de regresión.
 Con el modelo de la regresión múltiple es mejor
generar un gráfico simple (plot) de los valores
observados versus los valores predichos.
Teóricamente, en un gráfico de observados vs.
predichos los puntos deberían moverse entre
torno a la línea recta diagonal.
Sigue…
El gráfico de valores residuales vs. valores
predichos es esencialmente el mismo que
el anterior, a excepción de que la línea de
referencia es horizontal más que de 45
grados.
2) Independencia
Uno de los supuestos básicos del MRL
(modelos de la regresión lineal) es la
independencia entre los residuos. El
estadístico de Durbin-Watson aporta
información
sobre
el
grado
de
independencia existente entre ellos
El estadístico de Durbin-Watson
El estadístico de Durbin-Watson (DW)
proporciona información sobre el grado de
independencia entre los residuales. El
estadístico DW varía entre 0 y 4, y toma el
valor 2 cuando los residuales son
independientes. Valores menores que 2
indica autocorrelación positiva. Podemos
asumir independencia entre los residuales
cuando DW toma valores entre 1.5 y 2.5
Residual Analysis: Autocorrelation

Durbin-Watson Test for Autocorrelation
 Statistic
n
 (et  et 1)2
d  t 2
n
 et2
t 1
 The statistic ranges in value from zero to four.
 If successive values of the residuals are close
together (positive autocorrelation), the statistic
will be small.
 If successive values are far apart (negative auto correlation), the statistic will be large.
 A value of two indicates no autocorrelation.
Sigue..
El valor del residual se calcula por
ei = Yi - Ŷi
3) Homoscedasticidad
En el cuadro de diálogo de Gráficos de la
regresión lineal del SPSS, se obtienen
una serie de variables listadas para
obtener diferentes gráficos de dispersión:
Prueba de homoscedasticidad
 Los valores ZRESID se trasladan al eje Y y los
valores ZPRED al eje X.
 La variación de los residuos debe ser uniforme
en todo el rango de valores pronosticados; es
decir, el tamaño de los residuos es
independiente del tamaño de los pronósticos.
Por lo tanto, el gráfico de dispersión no debe
mostrar ninguna pauta de asociación entre los
pronósticos y los residuos.
4) Prueba de normalidad
A) Mediante el histograma de los residuos
tipificados. La curva se construye con
media 0 y un desviación típica de 1.
B) Gráfico de probabilidad normal. En el
eje de las abscisas se representa la
probabilidad acumulada de cada residuo y
en de las ordenadas la probabilidad
acumulada teórica o esperada.
Sigue…
 Teóricamente este gráfico debería ser una línea
recta diagonal. Si los datos se inclinan hacia
arriba o hacia abajo, indica una distribución
asimétrica (sesgada).
 Si el gráfico de probabilidad normal muestra una
línea recta, es razonable asumir que los datos
observados proceden de una distribución
normal. Si los puntos se desvían de la línea
recta, hay evidencia en contra de la distribución
normal e independiente.
Correlaciones
Correlaciones
Correlaciones de orden cero: Se
presentan en la matriz de correlaciones
simples entre todas las variables,
incluyendo la variable de control. Se trata
de la correlación ordinaria entre dos
variables, no controlando ninguna (cero)
otra variable.
Sigue…
Correlación parcial: La correlación que
hay entre dos variables después de
remover la correlación debida a su
asociación con otras variables. Es decir, la
correlación entre la variable dependiente y
una variable independiente cuando los
efectos lineales de las otras variables
independientes del modelo han sido
removidos. Neutralizando su efecto sobre
la dependiente e independiente.
Sigue…
 Part Correlation (semiparcial). Es la posible
relación entre un variable dependiente e
independiente, controlando la relación que esta
variable independiente pueda tener con otra u
otras variables independientes. Se neutraliza los
efectos lineales de una variable independiente
del resto de variables independientes.
 Está relacionada al cambio en R al cuadrado
cuando una variable es añadida a la ecuación.
 Es
conocida,
también,
por
correlación
semiparcial.
Sigue…
 El procedimiento de Correlaciones Parciales
calcula los coeficientes de correlación parcial
que describen la relación lineal entre dos
variables mientras se controlan los efectos de
una o más variables adicionales. Las
correlaciones son medidas de asociación lineal.
Dos variables pueden estar perfectamente
correlacionadas, pero si la relación es no linear,
un coeficiente de correlación no es una
estadístico apropiado para medir su asociación.
Fin parte teórica