Download Curso 2011
Document related concepts
no text concepts found
Transcript
PSICOLOGIA DEL TRABAJO Y DE LAS ORGANIZACIONES Metodología Análisis de la regresión Modelos de análisis estadístico I. Conceptos básicos. II. Regresión múltiple Parte I. Conceptos básicos Modelo estadístico En un sentido amplio, el modelo estadístico es una expresión matemática que, a modo de igualdad o ecuación, especifica la relación entre las diferentes variables independientes y la variable de respuesta. Modelos de análisis estadístico y diseño de estudio Conceptos básicos Datos: observaciones realizadas de los individuos o grupos de individuos Escalas de medida: no métricas (nominales y ordinales) y métricas (intervalos y de razón) Diseños: estrategias de recogida de datos Estrategias del diseño: transversal o longitudinal Modelos de análisis: sistemas o ecuaciones que permiten inferir el tipo de relación entre los datos Clases de relaciones: asociativas y causales A propósito de los datos (1) Elaboración de datos Observación directa Escala de medida Dato científico o valor numérico La conversión de una observación directa en un dato científico se consigue mediante la aplicación de una adecuada escala de medida. Reunión de datos Sistemas de reunión de datos a) Tablas b) Gráficos Tablas Las tablas se usan en los informes científicos para resumir los datos u otra información que no puede ser mostrada de forma conveniente en la narrativa del texto. Acerca de las tablas Las tablas han de tener un título que informe claramente sobre su contenido como por ejemplo preferencias a un partido político. Las tablas estadísticas deberían de informar también sobre el número de observaciones que se incluyen (frecuencia). La parte superior de la columna del lado izquierdo de la tabla es referida como el título de filas e informa sobre el contenido de las filas. El cuerpo de la tabla contiene los datos de interés. En el ejemplo propuesto se muestra la cantidad de individuos que prefieren un partido político. ..//.. Ejemplos (tablas) Las tablas con una sola variable son conocidas por representaciones univariadas y las que informan sobre dos variables, representaciones bivariadas. En la representaciones bivariadas una variable está asociada a las filas y la otra a las columnas y se conocen, también, por tablas de contingencia. Ejemplo de tabla bivariada que relaciona preferencia a un partido político y afiliación religiosa (en paréntesis están los porcentajes). Ejemplos (tablas) Gráficos Con los gráficos se consigue una representación visual de los datos, por lo que se convierte en un procedimiento útil a la investigación. Los gráficos captan mejor la atención del lector, permiten clarificar los resultados y facilitar su interpretación. Histograma de frecuencias o gráfico de barras El histograma de frecuencias es un gráfico que muestra la distribución de frecuencias de una variable de intervalo. El eje horizontal del histograma o gráfico de barras muestra los intervalos y el eje vertical la cantidad de puntuaciones de cada intervalo (frecuencia). La altura de la barra indica la frecuencia de casos de cada categoría. El gráfico siguiente muestra la cantidad de amigos reportados por estudiantes de un College americano. ..//.. Cantidad de amigos reportados por los estudiantes de un College En un segundo ejemplo, se muestra un gráfico de barras relativo al efecto de dos drogas antiansiolíticas. Se trata de una escala nominal y la diferencia que se observa entre el primer y segundo panel estriba en la forma de representar las unidades del eje vertical (unidades pequeñas en el primer panel y punto cero y unidades grandes en el segundo). Nótese que la gran diferencia entre las dos drogas que se observa en el primer panel desaparece en la segunda representación o panel. Efectos de las drogas sobre la ansiedad Polígono de frecuencias Es una forma alternativa de representar el histograma de frecuencias. Así, en lugar de barras se utilizan líneas que conectan las frecuencias de los intervalos de clase. En el ejemplo siguiente se muestra la misma información sobre la cantidad de amigos, pero utilizando el sistema de líneas y no el de barras. En un segundo ejemplo, se muestra el gráfico de la cantidad de divorcios tras aprobarse la correspondiente ley en el Estado de Nebraska. Cantidad de amigos reportados por estudiantes de un College Cantidad de divorcios antes y después de su promulgación en el Estado de Nebraska Escalas de medida y datos (2) Cuantificación de las variables La variables se cuantifican al asignar valores numéricos a los atributos o características de los individuos, objetos y hechos de acuerdo a reglas. El proceso de asignación de los números de acuerdo a reglas se denomina medida. Escalas de medida Las reglas particulares de asignación de números a las variables se denominan escalas de medida. Clasificación: Nominal Ordinal débiles Escalas De intervalo De razón fuertes Escalas de medida Nominal 1 = varón 2 = hembra Ordinal 1 2 3 De intervalo 15 16 17 18 19 20 21 22 3 4 5 23 De razón 0 1 2 6 7 8 Ejemplos de escalas Nominal los valores sólo representan categorías o nombres (género, raza, religión, etc.) Ordinal los valores representan el orden en función del grado o intensidad como actitud, preferencia, etc. De intervalo la distancia entre los valores se mantiene constante como la temperatura, respuestas correctas, etc. De razón cuando además de la constancia del intervalo hay un valor cero que coincide con la ausencia del atributo. Escalas y naturaleza de los datos Escala Nominal Ordinal De intervalo De razón Tipo Dato Cualitativa No-paramétrico Cuantitativa No-paramétrico Cuantitativa discreta Paramétrico Cuantitativa continua Paramétrico Naturaleza de los datos y prueba estadística Datos de escala Prueba estadística Nominal Ordinal Prueba no paramétrica De intervalo De razón Prueba no paramétrica y paramétrica Variable dependiente Datos métricos o gaussianos Datos no métricos o no gaussianos En torno a los diseños (3) Concepto de diseño El diseño es una estrategia particular de recogida de datos que es función de los objetivos o hipótesis propuestos. Los diseños pueden clasificarse en transversales y longitudinales, según la ausencia o presencia de la dimensión temporal en el estudio. Cuestiones a plantear ¿Cuál es la relación entre diseño (estudio) matriz de datos y modelo de análisis? ¿Cuál es la estructura de cualquier investigación científica? Estructura de la investigación en ciencias sociales Diseño Datos Modelo análisis Problema Estadístico Hipótesis Estimación Variables Inferencia Modelo de escala A modo de resumen Se ha visto la secuencia entre las tres fases o momentos de una investigación: diseño, datos y análisis. Es importante conocer la estructura del diseño así como los distintos procedimientos o tipos de investigación. Estructura del diseño (4) Tipología del diseño de investigación Diseños observacionales Diseños correlaciones o predictivos (estudios de encuesta) Diseños cuasi-experimentales Diseños experimentales Naturaleza de los datos (variable dependiente) Datos métricos o cuantitativos (de distribución gaussiana o normal) Datos no métricos o categóricos (de distribución no-gaussiana) Estrategia del diseño y modelo de análisis Diseños experimentales y cuasiexperimentales Diseño Datos cuantitativos Estrategia ANOVA Transversal Longitudinal AR Grupos paralelos Medidas repetidas Factorial Cross-over Datos cualitativos MANOVA Medidas repetidas Antes-después Cohortes Factorial mixto Split-plot TC Modelo log-lineal Regresión logística Diseños no experimentales En el contexto no experimental los diseños suelen ser, por lo general, observacionales y correlacionales. Los diseños observacionales son estudios de carácter descriptivo. Los diseños correlacionales se basan en el análisis de múltiples variables con el propósito de estimar la magnitud del cambio entre ellas. sigue… El objetivo del diseño correlacional es la predicción de los valores de la variable dependiente a partir de la o las variables predictoras o independientes. Con este diseño se pretende también explicar la proporción de variación de la variable dependiente debido a la o las variables independientes. Modelos de análisis estadístico (5) ¡Cuestión! Una vez recogidos los datos ¿qué hacer con ellos? A esta cuestión cabe responder lo siguiente: los datos se analizan de acuerdo a modelos estadísticos adecuados a fin de derivar consecuencias teóricamente interpretables; es decir, para la obtención de resultados que han de ser interpretados. El modelo lineal general Modelo estadístico general Y = f(X) + g(E) V.Dep. Parte fija Parte aleatoria Concepto El modelo estadístico, o ecuación de carácter lineal, asume que una observación Y es el resultado de la combinación aditiva de alguna función f de variables fijas y de alguna función g de componentes aleatorios, y que tanto f como g pueden tomar parámetros conocidos o desconocidos. ..//.. sigue… Considerada esta ecuación como un modelo estadístico general, se tiene que cualquier observación es la suma de dos partes o componentes: una parte fija o determinista, f(X), y una parte aleatoria desconocida, g(E). Tipo de relaciones entre variables o hipótesis (6) Clases de hipótesis Asociativa Hipótesis Causal Hipótesis asociativa X Y Los valores de la variable X covarían con los valores de la variable Y Ejemplos (hipótesis asociativas) a) Se da una correlación entre el estilo de dirección y la moral de los empleados b) La visualización de los dibujos animados está asociada con el comportamiento agresivo de los niños. c) La percepción de culpabilidad o inocencia de los acusados está asociada a los argumentos legales. ..//.. d) El consumo de heroína es función de la clase social. e) El consumo de tabaco está positivamente relacionado con el nivel de alerta en sujetos humanos. g) Los niños sensibles al ritmo progresan más en el aprendizaje de lectura. Hipótesis causal X Y Los valores de la variable X determinan los valores de la variable Y Ejemplos (hipótesis causales) a) Leer dos veces una lista de ítems favorece su recuerdo. b) La intensidad del estímulo determina una respuesta de discriminación más rápida. c) A mayor incentivo más rápido es el aprendizaje de una actividad académica. ..//.. d) El castigo genera respuesta de evitación. e) La frustración es causa de conductas agresivas. f) El nivel de alerta aumenta la efectividad del rendimiento escolar. g) El ejercicio aumenta el rendimiento de una actividad motora. Contextos de las hipótesis Hipótesis Contexto científico asociativas correlacional causales de manipulación Universo de las hipótesis Hipótesis de investigación Hipótesis estadística Hipótesis de investigación Se plantean por intereses teóricos o sustantivos Especifican el modo como se relacionan las variables Suelen ser asociativas y causales Hipótesis estadísticas Las hipótesis estadísticas se especifican en términos de las propiedades de las poblaciones de origen. Las poblaciones de origen están definidas por una serie de parámetros, que son valores fijos de la distribución pero desconocidos. Los parámetros poblacionales se asemejan a los estadísticos de muestra y se estiman a partir de estos últimos. sigue… Mediante los datos de muestra podemos aceptar o rechazar, con un determinado grado de confianza (numéricamente calculado), la hipótesis propuesta sobre la población estudiada. Este proceso se conoce por contraste de hipótesis estadística o prueba de significación estadística. Prueba de hipótesis estadística En investigación social, interesa más los parámetros asociados a la parte fija del modelo estadístico porque representan la magnitud de un cambio (grado de asociación entre las variables) o el efecto causal (el impacto de una variable sobre otra). De ahí, el propósito de cualquier prueba de hipótesis es determinar el nivel de significación de estos parámetros. Hipótesis estadística sobre un parámetro individual H0: parámetro = 0 H0: β = 0 O bien, sobre los parámetros del modelo En el modelo de la regresión múltiple, se asume que los distintos coeficientes o parámetros del modelo son cero: H0: β1 = β2 = … = βp = 0 en consecuencia… Si se demuestra, como resultado de la prueba estadística, que H0: βi = 0, entonces se infiere la no relación lineal entre la variable Y y Xi. En caso contrario, se tiene H1: βi ≠ 0, de la que se infiere una relación lineal entre ambas v ariables. Hipótesis nula: H0 En teoría estadística se asume, inicialmente, la no significación de los parámetros, siendo este supuesto la hipótesis que se somete a prueba y es conocida por hipótesis nula (H0). Si se demuestra que este supuesto no es aceptable, se recurre a la hipótesis alternativa (H1) como la explicación más plausible de los datos. Prueba de la hipótesis estadística o prueba de significación La prueba de significación estadística contrasta la hipótesis de nulidad con los datos del estudio. A partir del resultado de la prueba de significación, se procede a la toma de decisiones estadísticas. El resultado de la prueba consiste, de forma sucinta, en la aceptación o no de la hipótesis de nulidad que asume la norelación entre la variable dependiente (criterio) y la variable independiente (predictora). ..//.. Cabe matizar, no obstante, que entre la variable dependiente e independiente pueden darse relaciones de asociación o de causalidad, de modo que la posible implicación de la variable independiente sobre la variable dependiente es función del diseño utilizado (correlacional o experimental). La relación de asociación es la magnitud de cambio que se da entre dos variables, mientras que la relación de causalidad es el tamaño del impacto de una variable sobre otra. Inferencia de la hipótesis de nulidad La inferencia de la hipótesis nulidad nos lleva a aceptar que la variable independiente no está relacionada con la dependiente. En caso contrario, se toma la decisión a favor de un modelo alternativo asumiendo, como explicación más plausible (no exenta de riesgo), el modelo de una relación efectiva entre ambas variables. ..//.. Al tomar esta decisión, se corre el riesgo de que sea falsa. Este riesgo se define, en teoría estadística, en términos de probabilidad y es conocido por nivel de significación. El nivel de significación describe el grado de credibilidad que merece la hipótesis considerada. Errores en el rechazo o aceptación de H0 Situación actual de la H0 Decisión Verdadera Falsa Rechazo H0 Error Tipo I No error Aceptación H0 No error Error Tipo II Error Tipo I y error Tipo II A) El error Tipo I o decisión positiva falsa se comete al rechazar la hipótesis de nulidad siendo verdadera; es decir, al tomar una decisión positiva a favor de la existencia de un efecto cuando en realidad no existe (falsa alarma). La probabilidad de cometer este error es el nivel de significación o valor α de la prueba estadística. ..//.. B) El error Tipo II o decisión negativa falsa se comete cuando la prueba lleva a la aceptación de una hipótesis de nulidad falsa. Se trata de asumir el efecto de la variable independiente cuando en realidad no ocurre. El error de Tipo II se define por la probabilidad β y está asociado inversamente con la probabilidad α y directamente a la potencia de la prueba. Decisión estadística y error Resultado de la prueba estadística Significativo Probabilidad de azar α = 0.05 p < α Decisión NA(H0) H0 No significativo p > α A(H0) Inferencia de H0 Probabilidad de azar 1 Región de decisión Si p > 0.05 A(H0) Si p < 0.05 α = 0.05 NA(H0) 0 Sobre la discusión de los resultados Concepto Las actividades propias de la discusión de los resultados se reducen a 1) Inferir a partir de la prueba estadística consecuencias de carácter teórico. 2) Interpretar estas consecuencias a la en función de las hipótesis formuladas 3) Establecer el alcance de los resultados mediante la generalización de los mismos Inferencia teórica de la hipótesis Supongamos que la prueba de la hipótesis estadística nos lleva a no aceptar la hipótesis de nulidad. En este caso se suele inferir, como la hipótesis más adecuada, la hipótesis alternativa que coincide con la hipótesis de trabajo o investigación. Claro está, esta inferencia está sujeta a un riesgo de error (definido en términos de probabilidad). Interpretación de los resultados Las actividades propias de la interpretación de los resultados son: a) Examinar y explicar los datos en base a la hipótesis de investigación. b) Extraer los contenidos científicamente significativos. c) Interpretar los resultados en términos de hipótesis alternativas o rivales. Generalización de los resultados En la generalización se evalúa el alcance de los resultados; es decir, para qué poblaciones son vigentes los supuestos teóricos probados. La generalización de los resultados suele realizarse, por lo común, para la población de sujetos. Parte II. Modelos de la regresión múltiple y otros Regresión múltiple Modelos de la Regresión múltiple No Lineal Lineal Lineal Polinómica. V. Dummy Raíz Cuadrada Interac. Loglineal Recíproca Exponencial Modelo lineal de la regresión múltiple El modelo lineal de la regresión es un caso especial Modelo Lineal General. Según este modelo, el componente determinista (parte fija del modelo) está formado por las variables que se examinan en la investigación (predictores) y el componente aleatorio por un término de error (falta de ajuste). ..//.. El análisis de la regresión múltiple se aplica para predecir los valores de una variable dependiente continua a partir de un conjunto de variables independientes (predictores). Cuando la variable dependiente es dicotómica se aplica, en este caso, la regresión logística . Las variables independientes usadas en la regresión pueden ser cuantitativas o cualitativas (dummy). ..//.. Por lo general, el análisis de la regresión múltiple usa variables que ocurren en contextos naturales, en oposición a variables que son manipuladas experimentalmente, aunque es posible utilizar la regresión con esta clase de variables. ..//.. Cabe tener en cuenta, por último, que en base al análisis de la regresión (en sentido estricto) no pueden inferirse relaciones causales entre las variables. Por lo general, la terminología es la siguiente: X predice a Y, y no puede decirse que X causa a Y. Modelo de la regresión simple (en términos de estimadores) Y = b0 + b1X1 + e Observación Parte fija (determinista) Parte aleatoria (error) Descripción En el modelo de la regresión simple, Y denota la variable dependiente (criterio), X la variable explicativa, ‘b0’ es el intercepto, ‘b1’ (la pendiente) denota el parámetro estimado de la variable X y ‘e’ es el término de error de distribución aleatoria. Constituye, con el modelo de la regresión múltiple, uno de los modelos más utilizados en ciencias sociales. Representación del modelo en forma compacta Y1 = b0 + b1X11 + e1 Y2 = b0 + b1X21 + e2 ............................... Yn = b0 + b1Xn1 + en y = Xβ + ε (forma matricial compacta) Modelo de la regresión múltiple Y = b0 + b1X1 + b2X2 + ... + bpXp + e Forma simplificada: Y = b0 + ΣpbpXp + e Modelo de la regresión múltiple Un modelo de la regresión de p variables puede ser considerado como un sistema de n ecuaciones . Las n ecuaciones redefinidas en términos matriciales nos dan el modelo lineal general familiar. Los coeficientes β son conocidos como coeficientes de la regresión parciales. Representación del modelo en forma condensada Y1 = b0 + b1X11 + b2X21 + ... + bpXp1 + e1 Y2 = b0 + b1X12 + b2X22 + ... + bpXp2 + e2 ................................................................ Yn = b0 + b1X1n + b2X2n + ... + bpXpn + en y = Xβ + ε Modelos de la regresión de p variables Yi = β0 + β1xi1 + β2xi2 + … + βpxip+ ei β0 β 1 β p ei - Intercepto - Coeficientes de pendiente parciales de la regresión - Término residual asociado con Ia ‘i’ observación Supuestos del modelo de la regresión Normalidad Linealidad Homoscedasticidad No colinealidad o tolerancia entre las variables independientes Normalidad En principio, cabe pensar que los datos muestran una distribución normal. Este supuesto se verifica con la construcción de histogramas y comprobando la distribución de los datos. A veces, en los histogramas se incluye una línea que representa la forma de la distribución y así es posible comprobar visualmente si la distribución de los datos de desvía de esta línea. En otras palabras… Los valores de la variable dependiente son normalmente distribuidos para cada posible combinación de los niveles de las X variables. Distribución normal de la variable edad. Linealidad Se asume una relación lineal recta entre la variable dependiente y las independientes. En la práctica, este supuesto no suele verificarse, dado que los procedimientos de regresión múltiple no suelen ser gravemente afectados por leves desviaciones de este supuesto. Si la curvatura de la relación es evidente, se pueden transformar las variables o recurrir de forma explícita a modelos no lineales. sigue… La linealidad implica que las medias de las distribuciones de la variable dependiente han de ubicarse en una línea recta para cada variable independiente y que, para cada combinación de valores de las variables independientes, la distribución de la variable dependiente es normal con variancia constante. Definición de modelo lineal Los modelos en que todos los parámetros (b0,b1,…,bp) tienen exponentes de uno se denominan modelos lineales. Los modelos cuyos parámetros (b0,b1,…,bp) tienen de exponente valores distintos de la unidad se denominan modelos no-lineales. Línea de ajuste del peso a la altura libras/pulgadas Height vs Weight 80 Weight (lbs) 75 70 65 60 55 115 125 135 145 Height (ins) 155 165 175 Líneas de Regresión (Línea de mejor ajuste) Regression line for r = - 1.00 Regression line for r =1.00 12 Dependent variable Dependent variable 12 10 8 6 4 2 10 8 6 4 2 0 0 0 2 4 6 8 Independent variable 10 12 0 2 4 6 8 Independent variable 10 12 Cambios en la línea de mejor ajuste Regression line for r = 0.85 Regression line for r = 0.95 12 Dependent variable Dependent variable 12 10 8 6 4 2 10 8 6 4 2 0 0 0 2 4 6 8 Independent variable 10 12 0 2 4 6 8 Independent variable 10 12 Homoscedasticidad Las variancias de los valores de la variable dependiente (datos del estudio), para cada posible combinación de niveles de las variables X, son iguales; es decir, la variancia de los residuales es constante. Los supuestos de normalidad, linealidad y homoscedasticidad se pueden verificar mediante el gráfico de dispersión. En este gráfico, los valores predichos de Y (Ŷ) se trasladan al eje X (eje horizontal) y los residuales Y-Ŷ al eje Y (eje vertical). No colinealidad La colinealidad asume que las variables independientes están correlacionadas. Supóngase que la altura de una persona tiene dos predictores: peso en libras y peso en kilos. Estos dos predictores son redundantes, ya que el peso es único independientemente de si se mide con libras o kilos. ..//.. Cuando esto ocurre, significa que al menos una de las variables predictoras es totalmente redundante con otras variables del modelo. El indicador estadístico de este fenómeno es conocido por tolerancia. Es decir, el modelo de las regresión múltiple asume la no correlación entre las variables independientes. Relación entre variables independientes Tolerancia es el grado en que puede ser predicho de otros La tolerancia es igual a 1 variables independientes relacionadas. un predictor predictores. cuando las no están Singular. De igual modo una relación es singular cuando un predictor es perfectamente predecible de otros predictores (tolerancia igual a cero). Resumen supuestos del modelo Normalidad - Los valores de Y han de distribuirse normalmente para cada uno de los valores de X - La distribución de probabilidad del error ha de ser normal Homoscedasticidad (variancia constante) E(σi2) sigue… Independencia de errores E(eiej)=0 (i ≠ j) Linealidad (las medias de los valores de Y se ordenan en línea recta) Las variables independientes son medidas sin error No debe producirse una relación lineal exacta entre cualquier subconjunto de variables explicativas (perfecta multicolinialidad) Otros modelos Modelos de variables dummy (categóricas) y de interacción Variables dummy Las variables ‘dummy’ (ficticias) se refieren a las dimensiones de variación que toman dos valores o categorías. Por lo general, se utilizan los valores 0 y 1 para representar una categoría u otra de la variable (por ejemplo género). Diseño experimental Con el diseño experimental, las variables independientes suelen ser categóricas y, a veces, dummy. Suelen recibir el nombre de variables de tratamiento. El objetivo es comparar las medias de los grupos de tratamiento. Se utiliza el modelo estadístico ANOVA. Modelos con componentes no aditivos o interactivos Y = b0 + b1X1 + b2X2 + b12X1X2 + e Y = b0 + ΣjbjXj + ΣjΣkbjkXjXk + e Modelos no lineales Modelos cuyas variables tienen exponentes distintos de la unidad, como por ejemplo, los modelos polinómicos, exponenciales, etc. Modelos polinómicos no lineales Y = b0 + b1X1 + b2X1² + ... + bkX1k + e Modelo de dos variables, k = 2 Y = b0 + b1X1 + b2X2 + b11X1² + b22X2² + b12X1X2 + e Forma simplificada: Y = b0 + ΣjbjXj + ΣjbjjXj² + ΣjΣkbjkXjXk + e ¡Cuestión! Hemos presentado un conjunto de modelos estadísticos basados en la regresión simple y múltiple (lineal y no lineal). La cuestión que se nos plantea es la siguiente: ¿Dados unos datos, cómo se procede para ajustar un modelo estadístico? Proceso de ajuste del modelo estadístico Selección del modelo Estimación de parámetros Inferencia estadística Pasos para el ajuste Selección (1) Selección del modelo El modelo de la regresión se selecciona teniendo en cuenta: a) la naturaleza de la variable dependiente b) cantidad de variables independientes o explicativas (su estatus teórico) ..//.. c) Si la variable dependiente es cuantitativa de distribución normal, se aplica la regresión lineal. Si la variable dependiente es categórica, entonces la alternativa es la regresión logística. d) Cuando se tiene una sola variable independiente, el modelo de la regresión es simple. Con dos o más variables explicativas el modelo de la regresión es múltiple. Estimación de parámetros (2) Parámetros del modelo Sea el modelo: Yi = bo + b1X1 + b2X2+ e Los parámetros a estimar son: b0 = intercepto o constante b1 = efecto asociado a la primera variable X1 b2 = efecto asociado a la segunda variable X2 2e = variancia del error o residual ..//.. b1 se interpreta como un cambio en Y por una unidad de cambio en X1, siendo X2 constante. Este enunciado no es muy claro cuando X1 y X2 no son independientes. Malentendido 1: ‘bj’ siempre mide el efecto de Xj sobre E(Y), independiente de otras variables X. Malentendido 2: un valor ‘b’ estadísticamente significativo establece una relación de causa y efecto entre X e Y. Resumen: interpretación de los parámetros o coeficientes Constante ‘b0’: Intercepto o valor promedio de Y cuando todas las Xj = 0. Pendiente ‘bj’: Cambios estimados de Y por cada unidad de cambio en Xj. Siendo todas las otras variables constantes. ¡Cuestión! Dada la importancia que tienen, para el ajuste el modelo y la interpretación de los resultados, los parámetros o coeficientes, se suele distinguir entre los coeficientes ‘b’ (no estandarizados) y los coeficientes ‘β’ (beta o estandarizados). ..//.. El coeficiente ‘b’ es, como se indicado, el cambio esperado en Y por cada unidad de cambio en Xj, cuando el resto de variables están controladas. El coeficiente ‘β’ es el cambio esperado en Y en unidades de desviación estándar por cada unidad estándar de cambio en Xj, cuando el resto de variables están controladas. A propósito de la interpretación de los coeficientes Los parámetros ‘b’ tienen la ventaja de ser interpretados en las unidades de medida originales. Los coeficientes ‘β’ son directamente comparables por su importancia en la variable Y. No pueden ser interpretados en la escala de medida original. Ejemplo de ‘’ El valor beta es una medida de la intensidad con que cada predictor influye en la variable criterio. Es medida en unidades de desviación estándar. Así, un valor beta de 2.5 indica que un cambio en una unidad estándar del predictor resulta un cambio de 2.5 unidades estándar en la variable criterio. Inferencia y significación estadística (3) Pasos a seguir en la evaluación del modelo Una vez especificado el modelo de la regresión, se necesita conocer en qué medida se ajusta a los datos. Para ello, a) probaremos, en primer lugar, el ajuste del modelo global de la regresión. b) a continuación, probamos la significación de cada variable independiente. c) o bien, modelos parciales. Cómo evaluar el modelo de la regresión múltiple Se suele recurrir a distintas estrategias según se trate del modelo global o de los parámetros individuales. A veces se prueban submodelos o modelos parciales. Evaluación global Evaluación individual de los parámetros Evaluación de submodelos Pruebas de significación a partir de un ejemplo Ejemplo práctico (datos simulados) Supongamos que se pretende estudiar el impacto que sobre un Cuestionario sobre Satisfacción Vital tienen las siguientes variables: Edad Ingresos Cantidad de hijos Salud Pruebas de significación En el contexto de la regresión pueden seguirse, tres estrategias de prueba: a) Prueba del modelo completo o global, con todos los coeficientes. Para ello se usa el coeficiente de determinación (R2) mediante el estadístico F. b) Prueba de los coeficientes individuales de la regresión mediante el estadístico t. c) Cabe también la posibilidad de probar subconjuntos de variables independientes o modelos parciales. (a) Estadísticos para la prueba del modelo total Para conocer el grado de ajuste del modelo se utilizan dos estadísticos: R2 (coeficiente de determinación) y R2 ajustado. R2 indica la proporción de variación de la variable criterio (Y) explicada por el modelo. En suma, es un medida de la bondad de la predicción de la variable criterio por las variables predictoras. ..//.. Coeficiente de determinación múltiple (R2) Proporción de variación en Y ‘explicada’ por el conjunto de variables X. Nunca decrece cuando una nueva variable X es introducida en el modelo. La prueba de la hipótesis R2 = 0 indica que todas las variables X, de forma conjunta, no explican la variación de Y. sigue… El estadístico R2 mide la contribución total de las X’s. Su cálculo viene dado por la expresión siguiente: R 2 Variación explicada Variación total SC yy SCE SC yy 1 SCE SC yy El coeficiente de determinación R2 tiende, en cierto modo, a sobre-estimar la bondad del modelo cuando se aplica al mundo real. Por ello, se calcula el coeficiente de determinación ajustado que tiene en cuenta el número de variables del modelo y el número de observaciones (participantes) en que se basa el modelo. Inconvenientes del R2: no sirve para comparar modelos. R2 ajustado Dicho de forma más simple, el coeficiente de determinación R2 es sensitivo a la magnitud de la muestra (n) y a la cantidad de variables independientes o regresores (p) cuando las muestras son pequeñas. Si p es grande en relación a n, el modelo tiende a ajustarse muy bien. Una mejor medida de bondad de ajuste es el R2 ajustado. cálculo n -1 R2 ajustado= 1 - (--------------)(1-R2) n–p–1 Ventajas: R2 es corregido por el tamaño de la muestra y la cantidad de variables independientes; sirve para comparar modelos. Prueba de R2 Se ha señalado que cuando se prueban todos los coeficientes de la regresión, se utiliza el coeficiente de determinación. En este caso, se prueba si hay una relación lineal entre la variable criterio y el conjunto de variables independientes o predictores del modelo. Hipótesis a probar: H0: β1=… βk= 0 H1: al menos un parámetro es no cero, βk ≠ 0 Puesto que no se conoce la forma de la distribución de probabilidad del estadístico R2, se utiliza en su lugar el estadístico F (ANOVA aplicado a la regresión). ¿Qué tipo de prueba ha de usarse? La distribución utilizada se denomina distribución de Fisher. El estadístico F toma la siguiente forma. Curva de la distribución de F Area = F,v ,v 1 2 reject H0 Prueba de significación total. Ejemplo hipotético H0: β1 = β2 = … = βp = 0 H1: Al menos una βp 0 = .05 gl= 4 y 14 Valor crítico: Prueba estadística: F 23.751 Decisión: Rechazo con = 0.05 Conclusión: = 0.05 0 3.11 F Hay evidencia de que al menos una variable independiente afecta a Y (b) Significación individual de os parámetros. Prueba de los coeficientes individuales Prueba de los coeficientes de la regresión individuales Siguiendo los pasos del programa SPSS se tiene: 1. Cálculo de los coeficientes no estandarizados 2. Estimación del error estándar de estos coeficientes 3. Obtención de los coeficientes beta 4. Cómputo del valor de t de los coeficientes no estandarizados 5. Significación estadística de las t Pruebas de hipótesis de los parámetros estimados ‘β’ Prueba de una cola H0: βj = 0 H1: βj > 0, o βj < 0 Prueba de dos colas H 0 : βj = 0 H 1 : βj ≠ 0 La prueba es de una cola o dos según la hipótesis a probar sea unidireccional o bidireccional (no importa que el valor del estadístico sea mayor o menor que cero). ..//.. Prueba estadística: t b / s bj Se utiliza la t de Student: el valor estimado del parámetro partido por su error estándar. Región de rechazo de H0: to > t (o to < t) |to| > t/2 Sea, por ejemplo, el siguiente modelo Y = β0 + β1X1 + β2X2 + β3X3 + β4X4 + e Prueba de H0: bi = 0 H0: β1 = 0 (X1 no contribuye) H1: β1 ≠ 0 (X1 contribuye) H0: β2 = 0 (X2 no contribuye) H1: β2 ≠ 0 (X2 contribuye) H0: β3 = 0 (X3 no contribuye) H1: β3 ≠ 0 (X3 contribuye) sigue… H0: β4 = 0 (X4 no contribuye) H1: β4 ≠ 0 (X4 contribuye) Pruebas estadísticas b1 t= s b1 rechazar Ho si |t| > t /2,n-k-1 (1- ) 100% Intervalo de confianza bi - t/2,n-k-1sbi a bi + t/2,n-k-1sbi Significación coeficientes individuales Obsérvese que sólo el coeficiente asociado a la variable ingresos es estadísticamente significativo. t Test : Ejemplo hipotético Test con un = 0.05. H0: β2 = 0 Prueba estadística: H1: β2 0 t Test Statistic = 3.491 Decisión: Reject H0 con = 0.05 gl = 14 Valores críticos: Rechazo H0 .025 -2.145 Rechazo H 0 .025 0 2.145 Conclusión: Hay evidencia de un efecto significativo. t Intervalos de confianza Algunos autores prefieren los intervalos de confianza a la prueba t. El Intervalo de confianza se refiere al intervalo que, a un cierto nivel de confianza, contiene al parámetro estimando. Nivel de confianza es la probabilidad de que el intervalo calculado contenga el verdadero valor del parámetro. El cálculo es como sigue: b ± t(/2, g.l.)sb Donde t es el valor teórico del estadístico para /2 y los grados de libertad asociados a la SCR (g.l. de la Suma de Cuadrados Residual del ANOVA); sb el error estándar de b. El IC se representa por (1-)100%. Calculemos el intervalo de confianza del 95% para un valor estimado de b = 1.18 y sb = .28. Entrando en las tablas de t con un alfa de .05/2 =.025, y por ejemplo, con 18 g.l. (t =2.101). El intervalo de confianza del 95% es 1.18 ± (2.101)(.28) = .59 y 1.77 Con el intervalo de confianza, la prueba de la hipótesis nula, β = 0, viene a ser un caso especial. Con el ejemplo presente, 0 no está incluido en el rango y la hipótesis de β = 0 es por lo tanto rechazada con un = 0.05 (c) Prueba de significación de modelos parciales Prueba de modelos parciales Se examina la contribución de un conjunto de variables en Y. La forma como se analiza la contribución específica del conjunto de variables define el procedimiento o método a seguir. Varios procedimientos permiten evaluar la contribución particular de cada variable o predictor. Métodos de selección de variables Cantidad de modelos Con el programa SPSS es posible construir diferentes modelos a partir de las mismas variables independientes. Así, con 5 variables independientes es posible construir 32 modelos diferentes: 1 modelo con sólo la constante, 5 modelos con sólo una variable independiente, 10 modelos con 2 variables independientes, 10 modelos con 3 variables independientes, 5 modelos con 4 variables independientes y 1 modelo con 5 variables independientes. Procedimientos a seguir Con pocas variables independientes es posible evaluar todos los posibles modelos. Con muchas variables independientes se utilizan, por lo general, métodos que añaden y quitan secuencialmente las variables del modelo. Tipos de procedimientos Procedimiento enter o global Jerárquico (de acuerdo a un orden) Método simultáneo (Enter) En el método simultáneo, denominado en el SPSS por ENTER, el investigador define e introduce en el sistema el conjunto de predictores que forman el modelo. A continuación se evalúa la capacidad de este modelo en predecir la variable criterio. Se trata, en definitiva, de probar un modelo global o completo. Métodos jerárquicos de selección de variables En los métodos jerárquicos, las variables entran en el modelo de acuerdo con un orden determinado. El orden depende de las consideraciones teóricas o de resultados previos. Desde la perspectiva estadística, el orden de entrada de las variables en el modelo viene determinado por la fuerza de su correlación con la variable criterio. En la actualidad hay diferentes versiones de este método: stepwise selection, forward selection, backward selection y remove. Forward selection Forward selection: con el programa SPSS se entran las variables una a un tiempo, de acuerdo con la intensidad de su correlación con la variable criterio. Se evalúa el efecto de haber sido añadida al modelo. El procedimiento se para cuando no hay más variables independientes que incrementen la significación del estadístico (R2). Backward selection La Backward selection empieza con todas las variables del modelo y elimina la menos útil a un tiempo. Una vez eliminada la variable del modelo, no puede ser entrada de nuevo en un paso posterior. Remove El Remove es un procedimiento de selección de variables en que se eliminan todas las variables de un bloque en un solo paso. Diagnóstico del modelo Consideraciones generales Por lo general, para verificar si se cumplen o violan los supuestos del modelo de la regresión, se utilizan los residuales. Cuando se estudian las relaciones entre las variables se desconoce si los datos violan los supuestos del análisis de la regresión. No se sabe si hay una relación lineal entre las variables (dependiente e independientes), si la distribución de la variable dependiente es normal y tiene variancia igual para todas las combinaciones de valores de las independientes, etc. Enfoques del diagnóstico Finalizada la prueba de significación del modelo o de los coeficientes, es posible llevar a cabo un análisis de residuales de forma gráfica (mediante los correspondientes plots) o bien la prueba de Durbin-Watson (para comprobar si ha correlación serial entre los residuales). Verificación del supuesto de no-colinealidad Estadísticos de colinealidad: Tolerancia y VIF (factor de inflación de la varianza ) Tolerancia: es una primera medida de la fuerza de dependencia lineal entre las variables independientes (Tp = 1 – Rp2). Un valor máximo de 1 indica que la variabilidad de una variable independiente es escasamente explicada por las otras. Un valor 0 indica que la variable viene a ser una combinación lineal de las restantes. Se dice, en este caso, que hay multicolinealidad. Es deseable que, en general, sea mayor a .40 sigue… VIF (variance inflation factor): a medida que la multicolinealidad de uno de los regresores aumenta, la variancia de su coeficiente comienza a crecer. La multicolinealidad infla la variancia del coeficiente (VIFp= 1/(1-Rxp2). • La VIF tomará un valor mínimo de 1 cuando no hay colinealidad y no tiene límite superior en el caso de multicolinealidad. Por lo general, valores superiores a 2 se consideran problemáticos. sigue.. Ante la presencia de colinealidad o multicolinealidad, una solución lógica consiste en quitar del modelo aquellas variables con más alto VIF (o más baja tolerancia). Estos dos coeficientes (tolerancia y VIF) son recíprocos, de modo que valores bajos para la tolerancia o altos para FIV indica la existencia de colinealidad. El problema es que este procedimiento no expresa las variables involucradas. Diagnóstico de la colinealidad Diagnósticos de la colinealidad Dimensiones: factores diferentes que subyacen en el conjunto de las variables independientes. Autovalores o raíces características: ordenados de mayor a menor, los valores próximos a 0 indican colinealidad. Índices de condición: raíz cuadrada (autovalor mayor/autovalor). Valores por encima de 15 (30) indican posibles problema de colinealidad Proporciones de variancia: proporción de la variancia de cada coeficiente de la regresión parcial bj que está explicada por cada factor. sigue… Proporciones de variancia: Hay problema de colinealidad si una dimensión (de índice de condición alto) explica gran cantidad de la variancia de dos o más variables. Si no existe colinealidad entonces cada dimensión explica casi la varianza de un solo coeficiente (salvo el b0 o Constante que va asociado a uno de los otros coeficientes). Hay problema de colinealidad si una dimensión (de índice de condición alto) explica gran cantidad de la varianza de dos o más variables. Resto de supuestos: mediante plots de los residuales Obtención de los plots en el SPSS En el modelo de la Regresión múltiple, marcamos la opción plots. Al abrirse cuadro de diálogo, tenemos las siguientes opciones: – Obtener un scatterplot seleccionando las variables del listado (una se mueve al recuadro Y y la otra al recuadro X). – Generar todos los plots parciales. – Obtener el histograma y el plot de probabilidad normal. Variables disponibles (listadas en el recuadro) DEPENDEN : variable dependiente ZPRED: valores predichos estandarizados de la variable dependiente; valores pronósticos divididos por su desviación estándar (media de 0 y desviación 1). ZREDI: residuales estandarizados. DRESID: residuales eliminados; es decir, al efectuar los pronósticos se elimina de la ecuación el caso sobre el que se efectúa el pronóstico. Variables disponibles (listadas en el recuadro) DEPENDEN : variable dependiente ZPRED: pronósticos tipificados; pronósticos divididos por su desviación estándar (media de 0 y desviación 1) ZREDI: residuos tipificados DRESID: residuos eliminados; es decir, al efectuar los pronósticos se eliminan de la ecuación el caso sobre el que se efectúa el pronóstico sigue… ADJPRED: valores predichos ajustados; es decir, valores pronosticados sin incluir el caso pronosticado. SRESID: residual estudentizado; dividido por su desviación estándar que varía de un caso a otro y se distribuye según la t de Student. SDRESID: residuales estudentizados eliminados de la ecuación de la regresión. 1) Prueba de la linealidad Por lo general, la prueba de linealidad o ajuste lineal es mediante el gráfico de la variable dependiente contra la variable independiente. Si los puntos se hallan cercanos a un línea recta se infiere el supuesto. Se puede evaluar, también, la linealidad con el scatterplot de los residuales estandarizados o estudentizados contra los valores predichos. Scatterplot 1 Scatterplot 1 2) Prueba de independencia Uno de los supuestos básicos del MRL (modelos de la regresión lineal) es la independencia entre las observaciones (y en consecuencia residuales). La dependencia, por lo general, es un problema cuando los datos se obtienen de una serie. sigue… Se puede probar la independencia mediante el plot de los residuales estudentizados contra la variable de secuencia (orden en que las observaciones se obtienen). Cabe la posibilidad de utilizar el estadístico de Durbin-Watson que aporta información sobre si las observaciones adyacentes están correlacionadas. Si no hay correlación entre los residuales, el valor del estadístico debería ser cerca de 2. Un valor de 0 indicaría un correlación positiva entre los residuales. El estadístico de Durbin-Watson El estadístico de Durbin-Watson (DW) proporciona información sobre el grado de independencia entre los residuales. El estadístico DW varía entre 0 y 4,y toma el valor 2 cuando los residuales son independientes. Valores menores que 2 indica autocorrelación positiva. A nivel práctico, se asume la independencia entre los residuales cuando DW toma valores entre 1.5 y 2.5 sigue.. El valor del residual es calculado por la diferencia entre el correspondiente valor empírico y teórico. ei = Yi - Ŷi 3) Prueba de homoscedasticidad La variación de los residuos debe ser uniforme en todo el rango de valores pronosticados; es decir, el tamaño de los residuos es independiente del tamaño de los pronósticos. O sea, el diagrama de dispersión no debe mostrar ninguna pauta de asociación entre los pronósticos y los residuos. Para ello, ZRESID se traslada al eje Y y ZPRED al eje X. Los residuales se dispersan aleatoriamente alrededor de la línea horizontal de 0. Variancia constante 4) Prueba de normalidad Mediante el histograma de los residuos estandarizados. La curva se construye con media 0 y un desviación típica de 1. Estos no ayuda ver si tienen una distribución normal. O bien, mediante el gráfico de probabilidad normal. En el eje de las abscisas se representa la probabilidad acumulada de cada residuo y en el eje de las ordenadas la probabilidad acumulada teórica o esperada. Histograma de frecuencias Plot de la probabilidad normal Correlaciones Correlaciones de orden cero: Una matriz de correlaciones simple entre todas las variables, incluyendo la variable de control. Correlaciones de Pearson satvital Pearson Correlationsatvital 1,000 edad ,800 ingresos ,889 nhijos ,811 salud ,425 Correlations edad ingresos ,800 ,889 1,000 ,845 ,845 1,000 ,727 ,789 ,545 ,516 nhijos ,811 ,727 ,789 1,000 ,405 salud ,425 ,545 ,516 ,405 1,000 Sig. (1-tailed) satvital edad ingresos nhijos salud . ,000 ,000 ,000 ,031 ,000 . ,000 ,000 ,006 ,000 ,000 . ,000 ,010 ,000 ,000 ,000 . ,038 ,031 ,006 ,010 ,038 . N satvital edad ingresos nhijos salud 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 Correlación parcial Correlación parcial: La correlación que hay entre dos variables excluyendo el efecto que una tercera variable puede tener sobre ambas. Es pues, la correlación entre la variable dependiente y una variable independiente cuando los efectos lineales de las otras variables independientes del modelo han sido removidos. Neutralizando su efecto sobre la dependiente e independiente. Resumen correlaciones sigue… Part Correlation (semiparcial). Denota la posible relación entre un variable dependiente e independiente, controlando la relación que esta variable independiente pueda tener con otra u otras variables independientes. Se neutraliza la relación entre las dos independientes. Por lo tanto, la correlación es semiparcial. Es referida, también, al cambio en R2 cuando una variable es añadida una variable a la ecuación (el cuadrado de la semiparcial es igual al coeficiente de determinación de esta variable cuando es añadida al modelo). sigue… El procedimiento de Correlaciones Parciales calcula los coeficientes de correlación parcial que describen la relación lineal entre dos variables mientras se controlan los efectos de una o más variables adicionales. Las correlaciones son medidas de asociación lineal. Dos variables pueden estar perfectamente correlacionadas, pero si la relación es no linear, un coeficiente de correlación no es una estadístico apropiado para medir su asociación. Fin parte teórica