Download regresión lineal
Document related concepts
Transcript
CURSO DE SPSS REGRESIÓN LINEAL REGRESIÓN LINEAL La regresión lineal estima los coeficientes de la ecuación lineal, con una o más variables independientes (en este caso se le llamará regresión lineal múltiple), Y = aX + b Y = a1X1 + a2X2 + b que mejor prediga el valor de la variable dependiente, la que queremos estimar, en el ejemplo anterior se corresponde con la variable Y. Por ejemplo, puede intentar predecir el total de ventas anuales de un vendedor (la variable dependiente) a partir de variables independientes tales como la edad, la formación y los años de experiencia. Estadísticos Para cada variable: número de casos válidos, media y desviación típica. Para cada modelo: coeficientes de regresión, matriz de correlaciones, R cuadrado, R cuadrado corregida, cambio, error típico de la estimación, tabla de análisis de la varianza, valores pronosticados y residuos. Además, intervalos de confianza al 95% para cada coeficiente de regresión, tolerancia, prueba de Durbin-Watson, intervalos de predicción y diagnósticos por caso. En la salida del análisis de regresión obtenemos algunos estadísticos de los que vamos a comentar algunos: Estadístico R (ó coeficiente de correlación) Medida de asociación lineal entre dos variables. Los valores de R van de -1 a +1. Si R es negativo, nos indica que la asociación entre las variables es opuesta, a medida que crece una, la otra decrece y viceversa. Si R es positivo, la asociación entre las dos variables es positiva las dos crecen o decrecen a la vez. Un valor de 0 indica que no existe relación lineal. Si R es próximo a 0, hay poca asociación, mientras que si es próximo a 1 ó –1 hay buena asociación. R2 (ó coeficiente de determinación) Medida de la bondad de ajuste de un modelo lineal. Es la proporción de la variación de la variable dependiente explicada por el modelo de regresión. Sus valores van desde 0 a 1. Los valores pequeños indican que el modelo no se ajusta bien a los datos, mientras que los valores próximos a 1 indican una buena aproximación. R múltiple Coeficiente de correlación entre los valores observados y pronosticados en la variable dependiente. Su valor tiene un rango de 0 a 1. Un valor pequeño indica que hay poca o ninguna relación lineal entre la variable dependiente y las variables independientes. Este estadístico tiene sentido en regresión lineal múltiple. En un modelo con un R dado, al añadir más variables independientes el R 41 CURSO DE SPSS REGRESIÓN LINEAL crece, aunque esas variables no tengan ninguna relación con la variable dependiente. Este coeficiente nos resuelve este problema al corregir por el R por el número de variables independientes. Coeficientes de regresión La opción Estimaciones muestra el coeficiente de regresión B, el error típico de B, el coeficiente tipificado beta, el valor de t para B y el nivel de significación bilateral (de dos colas) de t. Intervalos de confianza presenta los intervalos de confianza al 95% para cada coeficiente de regresión. Ajuste del modelo Presenta una lista de las variables introducidas y eliminadas del modelo y muestra los siguientes estadísticos de bondad de ajuste: R-múltiple, R2 y R2 corregida, error típico de la estimación y una tabla de análisis de la varianza. Cambio en R cuadrado. Muestra los cambios en el cambio en R**2, el cambio en F y la significación del cambio en F. Descriptivos Proporciona el número de casos válidos, la media y la desviación típica para cada variable en el análisis. También muestra una matriz de correlaciones con el nivel de significación unilateral y el número de casos para cada correlación. Correlaciones parcial y semiparcial Presenta correlaciones de orden cero, parciales y semiparciales. Diagnósticos de colinealidad Muestra los autovalores de la matriz de productos cruzados no centrada y escalada, los índices de condición y las proporciones de la descomposición de la varianza junto con los factores de inflación de la varianza (FIV) y las tolerancias para las variables individuales. Residuos. Presenta la prueba de Durbin-Watson sobre la correlación serial de los residuos y los diagramas por casos para los casos que cumplan el criterio de selección (los valores atípicos por encima de n desviaciones típicas). Gráficos Diagramas de dispersión, gráficos parciales, histogramas y gráficos de probabilidad normal. Selección del Método La selección del método permite especificar cómo se introducen las variables independientes en el análisis. Utilizando distintos métodos se pueden construir diversos modelos de regresión a partir del 42 CURSO DE SPSS REGRESIÓN LINEAL mismo conjunto de variables, aunque en este caso nos ceñimos al método en un solo paso, o clásico. Para introducir las variables del bloque en un solo paso seleccione Introducir. Para eliminar las variables del bloque en un solo paso, seleccione Eliminar. La selección de variables hacia delante (también llamado Foward) introduce las variables del bloque una a una basándose en los criterios de entrada. La eliminación de variables del método hacia atrás (Backward) introduce todas las variables del bloque en un único paso y después las elimina una a una basándose en los criterios de salida. La entrada y salida de variables mediante Pasos sucesivos (método Stepwise) examina las variables del bloque en cada paso para introducirlas o excluirlas. Se trata de un procedimiento hacia adelante por pasos. Todas las variables deben superar el criterio de tolerancia para que puedan ser introducidas en la ecuación, independientemente del método de entrada especificado. El nivel de tolerancia por defecto es 0,0001. Tampoco se introduce una variable si esto provoca que la tolerancia de otra ya presente en el modelo se sitúe por debajo del criterio de tolerancia. Todas las variables independientes seleccionadas se añaden a un mismo modelo de regresión. Sin embargo, puede especificar distintos métodos de introducción para diferentes subconjuntos de variables. Por ejemplo, puede introducir en el modelo de regresión un bloque de variables que utilice la selección por pasos sucesivos, y un segundo bloque que emplee la selección hacia adelante. Para añadir al modelo de regresión un segundo bloque de variables, pulse en Siguiente. Menús: Estadística – Regresión - Lineal... En el cuadro de diálogo Regresión lineal, seleccione una variable numérica dependiente. Seleccione una más variables numéricas independientes. Si lo desea, tiene la posibilidad de: Agrupar variables independientes en bloques y especificar distintos métodos de entrada para diferentes subconjuntos de variables. Elegir una variable de selección para limitar el análisis a un subconjunto de casos que tengan valores particulares para esta variable. Seleccionar una variable de identificación de casos para identificar los puntos en los diagramas. Pulsar en MCP para obtener un análisis de mínimos cuadrados ponderados, es decir, asignar distintos pesos a los distintos elementos de la muestra que intervienen en el análisis de regresión. 43