Download Presentación de PowerPoint

Document related concepts
no text concepts found
Transcript
Prueba del Modelo de
Regresión Lineal Simple
Herramienta: Análisis de Varianza de
la Regresión Lineal
Modelación
• Un modelo es una función de aproximación
que se espera sea una representación
adecuada de la imagen real (principalmente
en la región de interés)
• En muchas ocasiones un modelo de
regresión lineal simple no es el que mejor se
ajusta a la realidad los datos, pero que si
brinda una aproximación satisfactoria
generalmente se prefiere por su simplicidad.
Validación del modelo
Suponga que para un conjunto de datos el
modelo que mejor se le aproxima es
m Y|x1,x2=a + bx1+ gx2
Si usted aproximara propone usar el modelo:
m Y|x1=a + bx
existirá bastante variación, la estimación s2
(para s2 ) estaría sesgada debido a la
variable faltante x2
¿ Cómo saber si el modelo de
regresión lineal simple planteado es
adecuado?
PRUEBA DE LA ADECUACIÓN
DEL MODELO
Herramienta: Análisis de
Varianza
• El problema de analizar la calidad de la
línea de regresión estimada se maneja
mediante el enfoque del análisis de
varianza.
• El análisis de varianza es un procedimiento
por el cual la variación total en la variable
dependiente se subdivide en componentes
significativos.
Teoría del Análisis de Varianza
Suponga n puntos de datos experimentales en
la forma acostumbrada (xi,yi) y que se
estima la línea de regresión
Considerando que: Syy=bSxy+SSE
Como formulación alternativa:

n
i 1

2




yi  y    y  y     yi  y 
 i 1 

i 1 
2
n
^
n
^
2
Partición
Suma de
Cuadrados
Partición de la suma de
cuadrados
Considerando: SST=SSR+SSE
2
2
n
n
n
^
^
2




yi  y    y  y     yi  y 

 i 1 

i 1
i 1 
SST = es la suma de cuadrados totales.
SSR = es la suma de cuadrados de la regresión y
refleja la variación de los valores y los explicados
por el modelo (la línea recta en este caso).
SSE = es la suma de cuadrados del error que refleja
la variación alrededor de la línea de regresión


Hipótesis de Interés
Ho: b=0 vrs H1:b0
• Esta hipótesis nula plantea que en esencia
que el modelo es m Y|x1= a
• Bajo las condiciones hipótesis nula se puede
mostrar que
Grados del
valores c2
libertad (g.l.)
SSR/s2
SSE/ s2
SST/ s2
1
n-2
Estadística para probar la
hipótesis
• Razón de variables c2
f 
SSR
SSE
1
n2
SSR
 2
s
Representación del Análisis
• Los cálculos se acostumbran presentar
resumidos en una tabla para análisis de
varianza
• Se denominan cuadrados medios a la razón
de las sumas de cuadrados divididas entre
los grados de libertad
Tabla para Análisis de Varianza
FUENTE SUMA G.L.
CUAD.
CUADRA.
MEDIOS
Regresión SSR
1
SSR
Error
n-2
SSE/(n-2)
SSE
= s2
Total
SST
n-1
F
cálculo
SSR/s2
Región de rechazo de Ho
Ho se rechazara a un nivel de
significancia a cuando f > f a (1,n-2)
H1
Ho
f a,v1,v2
Rechazo de Ho
• Cuando se rechaza Ho se concluye que hay
una cantidad significativa de la variación en
la respuesta explicada por el modelo que se
postula, la función de línea recta.
• En el caso de que Ho no se rechace, se
concluirá que los datos no reflejaron
suficiente evidencia para apoyar el modelo
postulado.
OTRAS FORMAS DE ANALIZAR LA
APLICABILIDAD DEL MODELO
Estadística T para probar Ho
También es posible usa la estadística T:
t
b
s
Sxx
que sigue una distribución t-student con
v = n-2 grados de libertad
Ho se rechazara cuando t<ta/2,v o t>ta/2,v
Relación entre estadísticas f y t
• La relación básica entre la distribución t con v=n-1
g.l. y F con 1 y v g .l. es ta/22=f a(1,v)
2
b Sxx b Sxy SSR
t  2  2  2  f
s
s
s
2
• La diferencia es que la prueba t permite probar Ho
contra alguna alternativa unilateral mientras que la
prueba f se restringe a alternativas bilaterales
¿ Cómo saber si el modelo de
regresión simple plantado es
adecuado pero no en un nivel lineal?
MODELOS DE REGRESIÓN
SIMPLE NO LINEALES
Modelos no lineales
• Debido a que no siempre un modelo de
regresión lineal es el que mejor se ajusta a
la realidad los datos, uno de los motivos
puede ser que aunque la variable y es
dependiente de la variable independiente x
esta dependencia se puede dar a niveles no
de modelo lineal sino de otro orden
superior.
Observaciones “y” repetidas
• Para analizar si se requiere de un modelo de
orden no lineal, se requiere tener más de una
estimación de la respuesta y obtenida para al
menos algunos de los valores de la variable
independiente x. Esto no siempre se puede
realizar.
Requisito para evaluar modelos
no lineales
• Aunque no es necesario tener observaciones
repetidas para estimar a o b , cuando el
experimentador tienen la capacidad de
obtener observaciones repetidas sobre la
variable respuesta para cada valor de x, se
dice que recolectó “observaciones
repetidas”, y el tenerlas permite obtener
información cuantitativa respecto a lo
apropiado del modelo
El caso de observaciones
repetidas
• Si se selecciona una muestra de n observaciones
con el uso de k valores distintos de x, como
x1,x2,...,xk tal que la muestra contenga n1 valores
observados de la variable aleatoria Y1 que
corresponden a x1, n2 valores para Y2 que
corresponden a x2, ....,nk valores de Yk que
corresponde a xk,
X
Y
• Así si se hacen n4=3 mediciones de Y
4
12
correspondientes a x=x4 estas se
4
11
indicarían como y41,y42,y43
4
10
ANOVA para evaluar modelos
no lineales
La suma de cuadrados del error se divide en dos
partes
1) La cantidad debida a la variación entre los
valores de Y dentro de los valores dados de x
, llamado el “error puro”
2) La falta de ajuste (“Lack of Fit”)
Error Experimental Puro
• Es la variación entre los valores de Y dentro
de los valores dados de x, el primer
componente descrito anteriormente
• Refleja solamente la variación aleatoria
Falta de Ajuste
• Es una medida de la variación sistemática
ocasionada por los términos de órden
superior.
• Son términos en x, diferentes de la
contribución lineal o de primer orden.
Supuesto en la Selección de un
Modelo Lineal
• Al elegir un modelo lineal se supone que la falta
de ajuste no existe y que la suma de cuadrados del
error se debe únicamente a los errores aleatorios.
s2=SSE/(n-2) es una estimación insesgada de s2
• Sin embargo si el modelo no se ajusta a los datos,
SSE se infla y se produce una estimación sesgada
de s2
Cálculo del Error Experimental
Puro
• El numerador de s2 es una medida del error
experimental puro. Esta suma tiene v=n-k
grados de libertad asociados y el cuadrado
medio que resulta es una estimación
insesgada s2 de s2
s 
2
 n  1s
i 1
i
nk
2
i
 y
k
k

ni
i 1 j 1
ij
 yi.
nk

2
Cálculo de la Falta de Ajuste
• Suma de cuadrados del error = la suma de
cuadrados del error puro + falta de ajuste
Falta de ajuste= Suma cuadrados error-Suma
cuadrados error puro
• Los grados de libertad de la falta de ajuste
también se obtienen simplemente de restar:
(n-2) – (n-k) = k-2
ANOVA para evaluar coeficiente
regresor y linealidad del modelo
- Prueba de la regresión (y depende de x)
Ho: b=0
H1:b0
- Prueba de la linealidad del modelo
Ho: No existe falta de ajuste significativa
H1: Existe falta de ajuste significativa
Tabla Análisis de Varianza
Fuente
Suma C
Regresión SSR
Error
Falta
ajuste
Error
puro
Total
SSE
g.l.
1
SSR
SSR
s2
n-2
k-2
SSE  SSEpuro
n-k
SSEpuro
SST
Cuad. Medios F calc
n-1
SSE  SSEpuro SSE  SSEpuro
k  2
s 2 k  2
s2 
SSE  SSEpuro
nk
Modelo correcto vrs Modelo
incorrecto
• Cuando hay falta
de ajuste existe
variación
considerable
alrededor de la
línea de regresión
además del error
puro
• La falta de ajuste se utiliza así para probar
lo adecuado del modelo lineal que se
postula
Ejemplo*
• Observaciones del rendimiento de una reacción
química a varias temperaturas
Datos de ejemplo
Tabla ANOVA
Fuente
Suma C. g.l. CuadM
Regresión 509.105 1
Error
4.0117
Falta
1.3517
ajuste
Error puro 2.66
Total
Fcalc
ValorP
509.105 1531.6 <0.0001
10
2
0.6758
8
0.3325
513.116 11
2.03
0.19
Decisiones
- Prueba de la regresión (y depende de x)
Ho: b=0
Decisión: Rechazar Ho,
H1:b0
b es distinto de 0
- Prueba de la linealidad del modelo
Ho: No existe falta de ajuste significativa
H1: Existe falta de ajuste significativa
Decisión: Rechazar Ho, existe falta de
ajuste significativa
Conclusiones
• La división de la variación total revela de
esta manera una variación significativa
explicada por el modelo lineal y un monto
insignificante de la variación debida a la
falta de ajuste
• Por tanto, los datos experimentales no
parecen sugerir la necesidad de considerar
términos mayores que los de primer orden
TAREA
• Walpole
6 edición pág. 385 Ejercicios 4, 5
8 edición pág. 423 Ejercicios 11.38, 11.39
Gráficas y Transformaciones de
Datos
• A menudo se aconseja trabajar con un modelo
alternativo en el que x o y, o ambas entran de
forma no lineal.
• Se puede indicar una transformación de los datos
debido a las consideraciones teóricas inherentes al
estudio científico, o una simple gráfica de los
datos puede sugerir la necesidad de reexpresar las
variables en el modelo
Tarea Investigar sobre el tema
(libros Probabilidad y Estadística aplicada)
Correlación
• Hasta este punto se ha supuesto que la variable de
regresión independiente x es una variable física o
científica pero no aleatoria
• Pero x es una variable matemática que en el
proceso de muestreo se mide con un error
insignificante
• Suponiendo que tanto x como y son variables
aleatorias y que las mediciones (xi,yi) son
observaciones de una población, se considera el
problema de medir la relación entre estas dos
variables
Relación entre variables “x” y “y”
• Ejemplo: si “x” representa la longitud y “y”
la circunferencia de un hueso, valores
grandes de “x” se pueden asociar con
valores grandes de “y” y viceversa
• Ejemplo: si “x” representa la antigüedad de
un automóvil y “y” su costo, para valores
grandes de “x” se esperarían valores
pequeños de “y”
Análisis de Correlación
• Intenta medir la fuerza de las relaciones
entre dos variables por medio de un solo
número, llamado coeficiente de correlación:
2
2
s
s
2
2
r  1  2  b x2
sy
sy
• La constante r se llama coeficiente de
correlación poblacional
Diferencia entre correlación y
regresión
• Considere la línea recta dada por m
Y|x=a+bx, con sus estimaciones de a y b
• El valor de r es 0 cuando b es 0, que resulta
cuando en esencia no hay una regresión
lineal entre las variables, es decir la
regresión es horizontal
Como sy2 =>s2 y r2 <1,1< r<1
Relación Lineal Perfecta
• Los valores de r = ±1 solo ocurren cuando s2=0,
que es cuando existe una relación lineal perfecta
entre las dos variables
El signo positivo implica una relación lineal
perfecta con pendiente positiva
El signo negativo implica una relación lineal
perfecta con pendiente negativo
• Así las estimaciones de r cercanas a 1 indican una
buena asociación lineal entre las variables “x” y
“y”
Estimación de r
• Se calcula el coeficiente de correlación muestral r
que es:
Sxx
Sxy
r b

Syy
SxxSyy
• Nota: si se obtiene un r=0.3 y otro r=0.6 esto no
quiere decir que la segunda muestra tenga una
relación lineal el doble de buena. Solo indica que
una correlación lineal es mas fuerte que la otra
Coeficiente de Determinación
Muestral
• r2 expresa la proporción de la variación total de los
valores de la variable Y que dan razón o se pueden
explicar mediante una relación lineal con los
valores de la variable aleatoria X
• Se calcula como r2=SSR/Syy, es la proporción de
la variación de Syy explicada por la regresión de
Y sobre x, a saber, SSR.
• Así una correlación r =0.6 implica que r2=0.36,
que indica que el 36% de la variación total de los
valores de Y en la muestra se explica mediante su
relación lineal con los valores de X
Ejemplo
Datos del modulo de ruptura kPA para varias
gravedades específicas g/cm3
*Walpole 6 ed. Ej 11.10 página 397
continuación
Cálculos:
• Sxx=0.11273, Syy=11807327786,
Sxy=34422.75972
• Por tanto r=Sxy/(Sxx*Syy)^0.5=0.9435
• El coeficiente de correlación de 0.9435
indica una alta correlación lineal entre “x” y
“y”
respuesta
• El coeficiente de determinación muestral es
r2= 0.8902, lo que indica que el 89% de la
variación de los datos y, es decir del modulo
de ruptura, se EXPLICA mediante su
relación lineal con x, con la gravedad
especifica
Prueba de Hipótesis para r
• Una prueba de hipótesis especial es r=0
contra la alternativa apropiada equivalente a
probar b=0 para el modelo de regresión
lineal simple
• Se puede utilizar así la estadística t con n-2
g.l. , o bien la estadística f con v1=1,v2=n-2
grados de libertad
Estadistica t modificada
• Se puede modificar para este caso como:
t
r n2
1 r
2
siempre se mantiene con v = n-2 g.l.
Ejemplo
Para los datos del ejemplo anterior probar:
Ho: r=0
Vrs H1:r0
a=0.05
Región crítica:
t < t 0.025, 29-2 = -2.052 y t > t 0.025, 29-2 = 2.052
Walpole 6 ed. Ej 11.10 página 397
Cálculos:
t
0.94356 29  2
1  0.94352
 14.79
• Así el valor P es menor a 0.0001, y por
tanto se rechaza Ho, existe una asociación
lineal entre las variables.
Prueba de hipótesis específica
para r
Ho: r=ro contra la alternativa adecuada
Utilizar la estadística z
n  3  1  r 1  r o 
z
ln 

2
 1  r 1  r o 
Ejemplo*
Para los datos del ejemplo anterior probar
Ho: r=0.9
H1: r>0.9
a=0.05,
Región Crítica:
z > 1.645
*Walpole ejemplo 11.12 pag. 399
29  3  1  0.94351  0.9
z
ln 
 1.51

2
 1  0.94351  0.9
• Decisión: No rechazar Ho.
• Conclusión: En realidad no hay evidencia
de que el coeficiente de correlación excede
0.9
TAREA
Walpole 6 ed.
Pag. 400 Ejercicios 4, 5, Ejercicios de Repaso
2,5,6
Investigar el intervalo de confianza para r
Walpole 8 ed. Pag. 438 Ejercicios 11.52,
11.53, Ejercicios de Repaso 11.57,11.59 y
11.60
Investigar el intervalo de confianza para r