Download Presentación de PowerPoint
Document related concepts
no text concepts found
Transcript
Prueba del Modelo de Regresión Lineal Simple Herramienta: Análisis de Varianza de la Regresión Lineal Modelación • Un modelo es una función de aproximación que se espera sea una representación adecuada de la imagen real (principalmente en la región de interés) • En muchas ocasiones un modelo de regresión lineal simple no es el que mejor se ajusta a la realidad los datos, pero que si brinda una aproximación satisfactoria generalmente se prefiere por su simplicidad. Validación del modelo Suponga que para un conjunto de datos el modelo que mejor se le aproxima es m Y|x1,x2=a + bx1+ gx2 Si usted aproximara propone usar el modelo: m Y|x1=a + bx existirá bastante variación, la estimación s2 (para s2 ) estaría sesgada debido a la variable faltante x2 ¿ Cómo saber si el modelo de regresión lineal simple planteado es adecuado? PRUEBA DE LA ADECUACIÓN DEL MODELO Herramienta: Análisis de Varianza • El problema de analizar la calidad de la línea de regresión estimada se maneja mediante el enfoque del análisis de varianza. • El análisis de varianza es un procedimiento por el cual la variación total en la variable dependiente se subdivide en componentes significativos. Teoría del Análisis de Varianza Suponga n puntos de datos experimentales en la forma acostumbrada (xi,yi) y que se estima la línea de regresión Considerando que: Syy=bSxy+SSE Como formulación alternativa: n i 1 2 yi y y y yi y i 1 i 1 2 n ^ n ^ 2 Partición Suma de Cuadrados Partición de la suma de cuadrados Considerando: SST=SSR+SSE 2 2 n n n ^ ^ 2 yi y y y yi y i 1 i 1 i 1 SST = es la suma de cuadrados totales. SSR = es la suma de cuadrados de la regresión y refleja la variación de los valores y los explicados por el modelo (la línea recta en este caso). SSE = es la suma de cuadrados del error que refleja la variación alrededor de la línea de regresión Hipótesis de Interés Ho: b=0 vrs H1:b0 • Esta hipótesis nula plantea que en esencia que el modelo es m Y|x1= a • Bajo las condiciones hipótesis nula se puede mostrar que Grados del valores c2 libertad (g.l.) SSR/s2 SSE/ s2 SST/ s2 1 n-2 Estadística para probar la hipótesis • Razón de variables c2 f SSR SSE 1 n2 SSR 2 s Representación del Análisis • Los cálculos se acostumbran presentar resumidos en una tabla para análisis de varianza • Se denominan cuadrados medios a la razón de las sumas de cuadrados divididas entre los grados de libertad Tabla para Análisis de Varianza FUENTE SUMA G.L. CUAD. CUADRA. MEDIOS Regresión SSR 1 SSR Error n-2 SSE/(n-2) SSE = s2 Total SST n-1 F cálculo SSR/s2 Región de rechazo de Ho Ho se rechazara a un nivel de significancia a cuando f > f a (1,n-2) H1 Ho f a,v1,v2 Rechazo de Ho • Cuando se rechaza Ho se concluye que hay una cantidad significativa de la variación en la respuesta explicada por el modelo que se postula, la función de línea recta. • En el caso de que Ho no se rechace, se concluirá que los datos no reflejaron suficiente evidencia para apoyar el modelo postulado. OTRAS FORMAS DE ANALIZAR LA APLICABILIDAD DEL MODELO Estadística T para probar Ho También es posible usa la estadística T: t b s Sxx que sigue una distribución t-student con v = n-2 grados de libertad Ho se rechazara cuando t<ta/2,v o t>ta/2,v Relación entre estadísticas f y t • La relación básica entre la distribución t con v=n-1 g.l. y F con 1 y v g .l. es ta/22=f a(1,v) 2 b Sxx b Sxy SSR t 2 2 2 f s s s 2 • La diferencia es que la prueba t permite probar Ho contra alguna alternativa unilateral mientras que la prueba f se restringe a alternativas bilaterales ¿ Cómo saber si el modelo de regresión simple plantado es adecuado pero no en un nivel lineal? MODELOS DE REGRESIÓN SIMPLE NO LINEALES Modelos no lineales • Debido a que no siempre un modelo de regresión lineal es el que mejor se ajusta a la realidad los datos, uno de los motivos puede ser que aunque la variable y es dependiente de la variable independiente x esta dependencia se puede dar a niveles no de modelo lineal sino de otro orden superior. Observaciones “y” repetidas • Para analizar si se requiere de un modelo de orden no lineal, se requiere tener más de una estimación de la respuesta y obtenida para al menos algunos de los valores de la variable independiente x. Esto no siempre se puede realizar. Requisito para evaluar modelos no lineales • Aunque no es necesario tener observaciones repetidas para estimar a o b , cuando el experimentador tienen la capacidad de obtener observaciones repetidas sobre la variable respuesta para cada valor de x, se dice que recolectó “observaciones repetidas”, y el tenerlas permite obtener información cuantitativa respecto a lo apropiado del modelo El caso de observaciones repetidas • Si se selecciona una muestra de n observaciones con el uso de k valores distintos de x, como x1,x2,...,xk tal que la muestra contenga n1 valores observados de la variable aleatoria Y1 que corresponden a x1, n2 valores para Y2 que corresponden a x2, ....,nk valores de Yk que corresponde a xk, X Y • Así si se hacen n4=3 mediciones de Y 4 12 correspondientes a x=x4 estas se 4 11 indicarían como y41,y42,y43 4 10 ANOVA para evaluar modelos no lineales La suma de cuadrados del error se divide en dos partes 1) La cantidad debida a la variación entre los valores de Y dentro de los valores dados de x , llamado el “error puro” 2) La falta de ajuste (“Lack of Fit”) Error Experimental Puro • Es la variación entre los valores de Y dentro de los valores dados de x, el primer componente descrito anteriormente • Refleja solamente la variación aleatoria Falta de Ajuste • Es una medida de la variación sistemática ocasionada por los términos de órden superior. • Son términos en x, diferentes de la contribución lineal o de primer orden. Supuesto en la Selección de un Modelo Lineal • Al elegir un modelo lineal se supone que la falta de ajuste no existe y que la suma de cuadrados del error se debe únicamente a los errores aleatorios. s2=SSE/(n-2) es una estimación insesgada de s2 • Sin embargo si el modelo no se ajusta a los datos, SSE se infla y se produce una estimación sesgada de s2 Cálculo del Error Experimental Puro • El numerador de s2 es una medida del error experimental puro. Esta suma tiene v=n-k grados de libertad asociados y el cuadrado medio que resulta es una estimación insesgada s2 de s2 s 2 n 1s i 1 i nk 2 i y k k ni i 1 j 1 ij yi. nk 2 Cálculo de la Falta de Ajuste • Suma de cuadrados del error = la suma de cuadrados del error puro + falta de ajuste Falta de ajuste= Suma cuadrados error-Suma cuadrados error puro • Los grados de libertad de la falta de ajuste también se obtienen simplemente de restar: (n-2) – (n-k) = k-2 ANOVA para evaluar coeficiente regresor y linealidad del modelo - Prueba de la regresión (y depende de x) Ho: b=0 H1:b0 - Prueba de la linealidad del modelo Ho: No existe falta de ajuste significativa H1: Existe falta de ajuste significativa Tabla Análisis de Varianza Fuente Suma C Regresión SSR Error Falta ajuste Error puro Total SSE g.l. 1 SSR SSR s2 n-2 k-2 SSE SSEpuro n-k SSEpuro SST Cuad. Medios F calc n-1 SSE SSEpuro SSE SSEpuro k 2 s 2 k 2 s2 SSE SSEpuro nk Modelo correcto vrs Modelo incorrecto • Cuando hay falta de ajuste existe variación considerable alrededor de la línea de regresión además del error puro • La falta de ajuste se utiliza así para probar lo adecuado del modelo lineal que se postula Ejemplo* • Observaciones del rendimiento de una reacción química a varias temperaturas Datos de ejemplo Tabla ANOVA Fuente Suma C. g.l. CuadM Regresión 509.105 1 Error 4.0117 Falta 1.3517 ajuste Error puro 2.66 Total Fcalc ValorP 509.105 1531.6 <0.0001 10 2 0.6758 8 0.3325 513.116 11 2.03 0.19 Decisiones - Prueba de la regresión (y depende de x) Ho: b=0 Decisión: Rechazar Ho, H1:b0 b es distinto de 0 - Prueba de la linealidad del modelo Ho: No existe falta de ajuste significativa H1: Existe falta de ajuste significativa Decisión: Rechazar Ho, existe falta de ajuste significativa Conclusiones • La división de la variación total revela de esta manera una variación significativa explicada por el modelo lineal y un monto insignificante de la variación debida a la falta de ajuste • Por tanto, los datos experimentales no parecen sugerir la necesidad de considerar términos mayores que los de primer orden TAREA • Walpole 6 edición pág. 385 Ejercicios 4, 5 8 edición pág. 423 Ejercicios 11.38, 11.39 Gráficas y Transformaciones de Datos • A menudo se aconseja trabajar con un modelo alternativo en el que x o y, o ambas entran de forma no lineal. • Se puede indicar una transformación de los datos debido a las consideraciones teóricas inherentes al estudio científico, o una simple gráfica de los datos puede sugerir la necesidad de reexpresar las variables en el modelo Tarea Investigar sobre el tema (libros Probabilidad y Estadística aplicada) Correlación • Hasta este punto se ha supuesto que la variable de regresión independiente x es una variable física o científica pero no aleatoria • Pero x es una variable matemática que en el proceso de muestreo se mide con un error insignificante • Suponiendo que tanto x como y son variables aleatorias y que las mediciones (xi,yi) son observaciones de una población, se considera el problema de medir la relación entre estas dos variables Relación entre variables “x” y “y” • Ejemplo: si “x” representa la longitud y “y” la circunferencia de un hueso, valores grandes de “x” se pueden asociar con valores grandes de “y” y viceversa • Ejemplo: si “x” representa la antigüedad de un automóvil y “y” su costo, para valores grandes de “x” se esperarían valores pequeños de “y” Análisis de Correlación • Intenta medir la fuerza de las relaciones entre dos variables por medio de un solo número, llamado coeficiente de correlación: 2 2 s s 2 2 r 1 2 b x2 sy sy • La constante r se llama coeficiente de correlación poblacional Diferencia entre correlación y regresión • Considere la línea recta dada por m Y|x=a+bx, con sus estimaciones de a y b • El valor de r es 0 cuando b es 0, que resulta cuando en esencia no hay una regresión lineal entre las variables, es decir la regresión es horizontal Como sy2 =>s2 y r2 <1,1< r<1 Relación Lineal Perfecta • Los valores de r = ±1 solo ocurren cuando s2=0, que es cuando existe una relación lineal perfecta entre las dos variables El signo positivo implica una relación lineal perfecta con pendiente positiva El signo negativo implica una relación lineal perfecta con pendiente negativo • Así las estimaciones de r cercanas a 1 indican una buena asociación lineal entre las variables “x” y “y” Estimación de r • Se calcula el coeficiente de correlación muestral r que es: Sxx Sxy r b Syy SxxSyy • Nota: si se obtiene un r=0.3 y otro r=0.6 esto no quiere decir que la segunda muestra tenga una relación lineal el doble de buena. Solo indica que una correlación lineal es mas fuerte que la otra Coeficiente de Determinación Muestral • r2 expresa la proporción de la variación total de los valores de la variable Y que dan razón o se pueden explicar mediante una relación lineal con los valores de la variable aleatoria X • Se calcula como r2=SSR/Syy, es la proporción de la variación de Syy explicada por la regresión de Y sobre x, a saber, SSR. • Así una correlación r =0.6 implica que r2=0.36, que indica que el 36% de la variación total de los valores de Y en la muestra se explica mediante su relación lineal con los valores de X Ejemplo Datos del modulo de ruptura kPA para varias gravedades específicas g/cm3 *Walpole 6 ed. Ej 11.10 página 397 continuación Cálculos: • Sxx=0.11273, Syy=11807327786, Sxy=34422.75972 • Por tanto r=Sxy/(Sxx*Syy)^0.5=0.9435 • El coeficiente de correlación de 0.9435 indica una alta correlación lineal entre “x” y “y” respuesta • El coeficiente de determinación muestral es r2= 0.8902, lo que indica que el 89% de la variación de los datos y, es decir del modulo de ruptura, se EXPLICA mediante su relación lineal con x, con la gravedad especifica Prueba de Hipótesis para r • Una prueba de hipótesis especial es r=0 contra la alternativa apropiada equivalente a probar b=0 para el modelo de regresión lineal simple • Se puede utilizar así la estadística t con n-2 g.l. , o bien la estadística f con v1=1,v2=n-2 grados de libertad Estadistica t modificada • Se puede modificar para este caso como: t r n2 1 r 2 siempre se mantiene con v = n-2 g.l. Ejemplo Para los datos del ejemplo anterior probar: Ho: r=0 Vrs H1:r0 a=0.05 Región crítica: t < t 0.025, 29-2 = -2.052 y t > t 0.025, 29-2 = 2.052 Walpole 6 ed. Ej 11.10 página 397 Cálculos: t 0.94356 29 2 1 0.94352 14.79 • Así el valor P es menor a 0.0001, y por tanto se rechaza Ho, existe una asociación lineal entre las variables. Prueba de hipótesis específica para r Ho: r=ro contra la alternativa adecuada Utilizar la estadística z n 3 1 r 1 r o z ln 2 1 r 1 r o Ejemplo* Para los datos del ejemplo anterior probar Ho: r=0.9 H1: r>0.9 a=0.05, Región Crítica: z > 1.645 *Walpole ejemplo 11.12 pag. 399 29 3 1 0.94351 0.9 z ln 1.51 2 1 0.94351 0.9 • Decisión: No rechazar Ho. • Conclusión: En realidad no hay evidencia de que el coeficiente de correlación excede 0.9 TAREA Walpole 6 ed. Pag. 400 Ejercicios 4, 5, Ejercicios de Repaso 2,5,6 Investigar el intervalo de confianza para r Walpole 8 ed. Pag. 438 Ejercicios 11.52, 11.53, Ejercicios de Repaso 11.57,11.59 y 11.60 Investigar el intervalo de confianza para r