Download Estadística Industrial

Document related concepts

Modelo autorregresivo integrado de media móvil wikipedia , lookup

Función de autocorrelación parcial wikipedia , lookup

Prueba de Portmanteau wikipedia , lookup

Transcript
Estadística Industrial
Universidad Carlos III de Madrid
Series temporales
Práctica 4
Objetivos:
Estimar los parámetros de los procesos autoregresivos (AR), media móvil (MA) y
proceso ARMA (ARIMA si la serie se trabaja con diferencias), una vez que han sido
identificados mediante la función de autocorrelación simple (FAS) y la función de
autocorrelación parcial (FAP).
Datos:
•
Fichero: Fichero anterior de la práctica 3 (Practica3Series.sf)
Pasos previos antes de estimar los parámetros de algún proceso AR, MA ó
ARMA en la serie (recordar prácticas 1, 2 y 3).
•
•
Importar el fichero de datos (FILE-> OPEN DATA FILE).
Análisis descriptivo de series temporales. Representación del gráfico
temporal de la serie: SPECIAL -> TIME-SERIES ANALYSIS -> DESCRIPTIVE
METHODS.
•
Eliminar tendencia: mediante una diferencia regular,
-> DIFFERENCING -> NON-SEASONAL ORDER.
•
Representación del gráfico de FAS y FAP: GRAPHICAL OPTIONS
,
opciones Autocorrelation Function (FAS) y Partial Autocorrelation Function
(FAP).
Identificar la serie con algún proceso AR, MA ó ARMA (con o sin diferencia).
•
ANALYSIS OPTIONS
Diagnosis del Modelo
Una vez identificada la serie, el paso siguiente es la estimación de los parámetros
del modelo y de la diagnosis o validación del mismo. Lo primero que debe hacerse
tras la estimación es estudiar si la estructura que hemos introducido con nuestro
modelo es significativa, es decir, ver si todo lo que introducimos en el modelo
influye sobre la serie. Debemos ver si los parámetros que estimamos son
significativamente distintos de cero o no. Si todos los parámetros son distintos
de cero, significa que toda la estructura introducida es influyente, siendo el
siguiente paso la realización de la diagnosis de los residuos. Si por el contrario
algún parámetro es estadísticamente igual a cero, lo que está ocurriendo es que
estamos introduciendo información irrelevante en nuestro modelo, es decir,
estamos sobreparametrizando nuestro modelo (introduciendo más parámetros de
los necesarios). En este caso hay que identificar otro modelo en el que dicha
información irrelevante no aparezca (eliminamos lo que no influya).
La herramienta que nos permite determinar qué influye en nuestro modelo y qué
no, es el contraste sobre el parámetro. En términos prácticos, consideraremos que
un parámetro es distinto de cero si su p-valor es menor que 0.05 y consideraremos
que es igual a cero (la estructura asociada no influye) cuando dicho valor sea
mayor que 0.05.
Una vez que se dispone de un modelo con todos los parámetros distintos de cero,
realizamos la diagnosis sobre los residuos, pero recordando cuál es nuestro objetivo
1
final: se persigue la extracción de toda la estructura de la serie, de todas las
relaciones, de todas las influencias. Si esto se ha conseguido, los residuos no
deberían presentar retardos ni de FAS ni de FAP distintos de cero (retardos fuera de
las bandas de confianza). Esto es, debemos obtener que los residuos se
comporten como un ruido blanco en todas sus propiedades (FAS y FAP, que sean
aleatorios, que sean homogéneos, etc.).
Por tanto la diagnosis de los residuos estará basada en:
•
•
•
•
•
FAS y FAP de los residuos. Hay que comprobar que los palos no son
significativos.
El test de Box-Pierce proporciona información sobre si el conjunto de los
primeros palos de la función de autocorrelación de los residuos son cero.
Este test indica problemas cuando el p-valor es bajo, por ejemplo menor que
0.05. Cuanto mayor sea, hay más evidencia a favor de que los residuos son
ruido blanco.
Test de rachas (Runm en Statgraphics): Estudia si hay muchos puntos
consecutivos por encima o por debajo de la mediana de los residuos.
Test de tendencias (Runs en Statgraphics): Estudia si hay tendencias
estrictamente crecientes o decrecientes dentro de la serie de los residuos.
Tests para determinar si tanto la media como la varianza son iguales al
principio y al final de la serie de residuos.
La diagnosis es la validación en el Diagrama de Flujo, para la metodología de Box y
Jenkins (ver figura 1).
Identificación del modelo ARIMA en la Serie4:
Como vimos en la práctica pasada, al graficar la FAS de la serie4 (Ver figura 2, FAS
y FAP), observamos que tiene un primer retardo muy significativo y un segundo
retardo cercano al límite superior de confianza. La FAP en cambio tiene los tres
primeros retardos significativos que van decayendo. Por tanto entre los modelos
tentativos (viendo la gráfica) estaría un proceso de media móvil de orden 1, es
decir un MA(1) ó un ARMA(1,1). Las ecuaciones de los modelos estarían dados por:
yt = c + at − θ1at −1 ≡ ARIMA(0,0,1) (1)
yt = c + φ1 yt −1 + at − θ1at −1 ≡ ARIMA(1,0,1) (2)
2
Figura 1.- Diagrama de Flujo para la Identificación, Estimación, Validación y Predicción de un
Modelo ARIMA
3
Figura 2. FAS (izquierda) y FAP (derecha) de la Serie 4
FAS
FAP
1
1
0,6
0,6
0,2
0,2
-0,2
-0,2
-0,6
-0,6
-1
-1
0
5
10
15
20
25
0
5
10
15
20
25
Estimación de la Serie4:
Una vez identificada la serie, es decir, cuando se conoce el modelo ARIMA (p,d,q)
que puede seguir, es preciso estimar los parámetros. Esto lo hace el ordenador:
SPECIAL -> TIME SERIES ANALYSIS -> FORECASTING
Se ingresa la Serie4 en DATA y se pulsa el botón OK.
Figura 3. Ventana Forecasting
4
Se pulsa el botón derecho del ratón
y se selecciona Analysis Options:
Se pincha en ARIMA Model y se introducen los valores de los parámetros
ARIMA(p,d,q)=ARIMA(0,0,1), introduciendo el valor 1 como el número de
parámetros en la parte MA.
p
d
q
5
Obteniéndose la tabla de resultados:
ARIMA Model Summary
Parameter
Estimate
Stnd. Error
t
P-value
---------------------------------------------------------------------------MA(1)
-0,909237
0,0292069
-31,131
0,000000
Mean
0,109094
0,0828568
1,31666
0,189476
Constant
0,109094
---------------------------------------------------------------------------Backforecasting: yes
Estimated white noise variance = 0,377024 with 198 degrees of freedom
Estimated white noise standard deviation = 0,614023
Number of iterations: 6
El parámetro es significativo debido que el p-valor<0,05. Por tanto, el modelo
queda expresado como:
yt = 0,109 + at + 0,909at −1
Donde a t ≈ N (0, σ a ) . Para ver que at sea ruido blanco, graficaremos su FAS y su
2
FAP. Para esto pulsamos el botón azul Graphical options
y activamos:
Obteniéndose los siguientes gráficos:
FAS
FAP
1
1
0,6
0,6
0,2
0,2
0,2
-0,2
0,6
-0.6
-1
-1
0
5
10
15
20
25
0
5
10
15
20
25
6
En la FAS y en la FAP observamos que existe correlación entre at y at −1 , vemos por
tanto at no es ruido blanco. Lo más recomendable será ajustar otro modelo para la
Serie4.
Repitiendo los mismos pasos (botón derecho del ratón
modificamos al modelo ARMA(1,1) y pulsamos OK:
-> Analysis Options),
p
q
Los resultados se muestran a continuación:
ARIMA Model Summary
Parameter
Estimate
Stnd. Error
t
P-value
---------------------------------------------------------------------------AR(1)
0,356804
0,0738678
4,83031
0,000003
MA(1)
-0,816592
0,0471655
-17,3133
0,000000
Mean
0,104872
0,116937
0,896826
0,370907
Constant
0,0674535
---------------------------------------------------------------------------Backforecasting: yes
Estimated white noise variance = 0,341282 with 197 degrees of freedom
Estimated white noise standard deviation = 0,584194
Number of iterations: 4
Los parámetros son significativos debido que los p-valores<0,05. Por tanto, el
modelo queda expresado:
yt = 0,067 + 0,356 yt −1 + at + 0,816at −1
Donde
at debe distribuirse como N (0, σ a2 ) . Para que at sea ruido blanco,
graficaremos los residuos en el tiempo para comprobar que sea estacionario en
media y varianza, su FAS y su FAP. Para esto pulsamos el botón azul Graphical
options
y activamos:
7
Obteniéndose los siguientes gráficos:
Residual Plot for Serie4
ARIMA(1,0,1) with constant
3,1
Residual
2,1
1,1
0,1
-0,9
-1,9
0
40
(
80
120
160
FAS
)
200
( FAP
, , )
1
1
0,6
0,6
0,2
0,2
-0,2
-0,2
-0,6
-0,6
-1
-1
0
5
10
15
20
25
0
5
10
15
20
25
En el gráfico de residuos observamos que la serie es estacionaria en media y
varianza. En la FAS y FAP observamos at es incorrelada. El test de Box Pierce
proporciona información bajo la hipótesis nula que los primeros palos de la función
de autocorrelación simple de los residuos son cero versus la hipótesis alternativa
que son distinto de cero, es decir:
H0:
ρj = 0
vs. H1:
ρj ≠ 0
8
Pulsando el botón amarillo Tabular options
y activando Residual Test for
Randomness, obtenemos:
Box-Pierce Test
--------------Test based on first 24 autocorrelations
Large sample test statistic = 19,2565
P-value = 0,62944
Las autocorrelaciones no son significativas, debido que el p-valor>0,05. Lo último
que nos queda para decir que at es ruido blanco, es comprobar que es aleatorio,
de media constante y varianza constante. Si queremos comparar el actual modelo
ARMA(1,1) con el modelo MA(1), repetimos los mismos pasos (botón derecho del
-> Analysis Options), y seleccionamos B como segundo modelo,
ratón
modificando el modelo y pulsando el botón OK:
Luego pulsando el botón amarillo Tabular options
y activando Model
Comparisson, obtenemos:
Models
-----(A) ARIMA(1,0,1) with constant
(B) ARIMA(0,0,1) with constant
9
Model RMSE
RUNS RUNM AUTO MEAN VAR
----------------------------------------------(A)
0,584181
OK
OK
OK
OK
**
(B)
0,613874
OK
**
*
OK
**
Se observa que la raiz del error cuadrático medio (RSME) es más pequeño en el
modelo ARMA(1,1). Las pruebas de rachas para ver aleatoriedad (RUNS y RUNM)
dan buenos resultados para este ajuste de modelo, en la media se prueba que es
constante (MEAN). Lo único que no se demuestra es lo relacionado a la varianza
constante (p-valor<0,05 y >0,01).
Para la predicción pulsamos el botón amarillo Tabular options
y activamos
Forecast Table
Obteniéndose los siguientes resultados doce momentos después:
Lower 95,0%
Upper 95,0%
Period
Forecast
Limit
Limit
-----------------------------------------------------------------------------201,0
-0,874235
-2,02631
0,277843
202,0
-0,244477
-2,02064
1,53169
203,0
-0,019777
-1,86027
1,82072
204,0
0,060397
-1,78813
1,90892
205,0
0,0890034
-1,76054
1,93855
206,0
0,0992103
-1,75046
1,94888
207,0
0,102852
-1,74684
1,95254
208,0
0,104152
-1,74554
1,95384
209,0
0,104615
-1,74508
1,95431
210,0
0,104781
-1,74491
1,95447
211,0
0,10484
-1,74485
1,95453
212,0
0,104861
-1,74483
1,95455
------------------------------------------------------------------------------
Nota: Observen en la Figura 3, que en la celda Number of forecasting tiene por
defecto doce momentos después.
Cuestiones:
Estima los parámetros del modelo para las Series 1 - 3, considerando el fichero
Practica3Series.sf. (Nota: Los modelos se identificaron el la práctica 3).
Escribe la ecuación del modelo ARIMA con sus valores.
10