Download Estadística Industrial
Document related concepts
Transcript
Estadística Industrial Universidad Carlos III de Madrid Series temporales Práctica 4 Objetivos: Estimar los parámetros de los procesos autoregresivos (AR), media móvil (MA) y proceso ARMA (ARIMA si la serie se trabaja con diferencias), una vez que han sido identificados mediante la función de autocorrelación simple (FAS) y la función de autocorrelación parcial (FAP). Datos: • Fichero: Fichero anterior de la práctica 3 (Practica3Series.sf) Pasos previos antes de estimar los parámetros de algún proceso AR, MA ó ARMA en la serie (recordar prácticas 1, 2 y 3). • • Importar el fichero de datos (FILE-> OPEN DATA FILE). Análisis descriptivo de series temporales. Representación del gráfico temporal de la serie: SPECIAL -> TIME-SERIES ANALYSIS -> DESCRIPTIVE METHODS. • Eliminar tendencia: mediante una diferencia regular, -> DIFFERENCING -> NON-SEASONAL ORDER. • Representación del gráfico de FAS y FAP: GRAPHICAL OPTIONS , opciones Autocorrelation Function (FAS) y Partial Autocorrelation Function (FAP). Identificar la serie con algún proceso AR, MA ó ARMA (con o sin diferencia). • ANALYSIS OPTIONS Diagnosis del Modelo Una vez identificada la serie, el paso siguiente es la estimación de los parámetros del modelo y de la diagnosis o validación del mismo. Lo primero que debe hacerse tras la estimación es estudiar si la estructura que hemos introducido con nuestro modelo es significativa, es decir, ver si todo lo que introducimos en el modelo influye sobre la serie. Debemos ver si los parámetros que estimamos son significativamente distintos de cero o no. Si todos los parámetros son distintos de cero, significa que toda la estructura introducida es influyente, siendo el siguiente paso la realización de la diagnosis de los residuos. Si por el contrario algún parámetro es estadísticamente igual a cero, lo que está ocurriendo es que estamos introduciendo información irrelevante en nuestro modelo, es decir, estamos sobreparametrizando nuestro modelo (introduciendo más parámetros de los necesarios). En este caso hay que identificar otro modelo en el que dicha información irrelevante no aparezca (eliminamos lo que no influya). La herramienta que nos permite determinar qué influye en nuestro modelo y qué no, es el contraste sobre el parámetro. En términos prácticos, consideraremos que un parámetro es distinto de cero si su p-valor es menor que 0.05 y consideraremos que es igual a cero (la estructura asociada no influye) cuando dicho valor sea mayor que 0.05. Una vez que se dispone de un modelo con todos los parámetros distintos de cero, realizamos la diagnosis sobre los residuos, pero recordando cuál es nuestro objetivo 1 final: se persigue la extracción de toda la estructura de la serie, de todas las relaciones, de todas las influencias. Si esto se ha conseguido, los residuos no deberían presentar retardos ni de FAS ni de FAP distintos de cero (retardos fuera de las bandas de confianza). Esto es, debemos obtener que los residuos se comporten como un ruido blanco en todas sus propiedades (FAS y FAP, que sean aleatorios, que sean homogéneos, etc.). Por tanto la diagnosis de los residuos estará basada en: • • • • • FAS y FAP de los residuos. Hay que comprobar que los palos no son significativos. El test de Box-Pierce proporciona información sobre si el conjunto de los primeros palos de la función de autocorrelación de los residuos son cero. Este test indica problemas cuando el p-valor es bajo, por ejemplo menor que 0.05. Cuanto mayor sea, hay más evidencia a favor de que los residuos son ruido blanco. Test de rachas (Runm en Statgraphics): Estudia si hay muchos puntos consecutivos por encima o por debajo de la mediana de los residuos. Test de tendencias (Runs en Statgraphics): Estudia si hay tendencias estrictamente crecientes o decrecientes dentro de la serie de los residuos. Tests para determinar si tanto la media como la varianza son iguales al principio y al final de la serie de residuos. La diagnosis es la validación en el Diagrama de Flujo, para la metodología de Box y Jenkins (ver figura 1). Identificación del modelo ARIMA en la Serie4: Como vimos en la práctica pasada, al graficar la FAS de la serie4 (Ver figura 2, FAS y FAP), observamos que tiene un primer retardo muy significativo y un segundo retardo cercano al límite superior de confianza. La FAP en cambio tiene los tres primeros retardos significativos que van decayendo. Por tanto entre los modelos tentativos (viendo la gráfica) estaría un proceso de media móvil de orden 1, es decir un MA(1) ó un ARMA(1,1). Las ecuaciones de los modelos estarían dados por: yt = c + at − θ1at −1 ≡ ARIMA(0,0,1) (1) yt = c + φ1 yt −1 + at − θ1at −1 ≡ ARIMA(1,0,1) (2) 2 Figura 1.- Diagrama de Flujo para la Identificación, Estimación, Validación y Predicción de un Modelo ARIMA 3 Figura 2. FAS (izquierda) y FAP (derecha) de la Serie 4 FAS FAP 1 1 0,6 0,6 0,2 0,2 -0,2 -0,2 -0,6 -0,6 -1 -1 0 5 10 15 20 25 0 5 10 15 20 25 Estimación de la Serie4: Una vez identificada la serie, es decir, cuando se conoce el modelo ARIMA (p,d,q) que puede seguir, es preciso estimar los parámetros. Esto lo hace el ordenador: SPECIAL -> TIME SERIES ANALYSIS -> FORECASTING Se ingresa la Serie4 en DATA y se pulsa el botón OK. Figura 3. Ventana Forecasting 4 Se pulsa el botón derecho del ratón y se selecciona Analysis Options: Se pincha en ARIMA Model y se introducen los valores de los parámetros ARIMA(p,d,q)=ARIMA(0,0,1), introduciendo el valor 1 como el número de parámetros en la parte MA. p d q 5 Obteniéndose la tabla de resultados: ARIMA Model Summary Parameter Estimate Stnd. Error t P-value ---------------------------------------------------------------------------MA(1) -0,909237 0,0292069 -31,131 0,000000 Mean 0,109094 0,0828568 1,31666 0,189476 Constant 0,109094 ---------------------------------------------------------------------------Backforecasting: yes Estimated white noise variance = 0,377024 with 198 degrees of freedom Estimated white noise standard deviation = 0,614023 Number of iterations: 6 El parámetro es significativo debido que el p-valor<0,05. Por tanto, el modelo queda expresado como: yt = 0,109 + at + 0,909at −1 Donde a t ≈ N (0, σ a ) . Para ver que at sea ruido blanco, graficaremos su FAS y su 2 FAP. Para esto pulsamos el botón azul Graphical options y activamos: Obteniéndose los siguientes gráficos: FAS FAP 1 1 0,6 0,6 0,2 0,2 0,2 -0,2 0,6 -0.6 -1 -1 0 5 10 15 20 25 0 5 10 15 20 25 6 En la FAS y en la FAP observamos que existe correlación entre at y at −1 , vemos por tanto at no es ruido blanco. Lo más recomendable será ajustar otro modelo para la Serie4. Repitiendo los mismos pasos (botón derecho del ratón modificamos al modelo ARMA(1,1) y pulsamos OK: -> Analysis Options), p q Los resultados se muestran a continuación: ARIMA Model Summary Parameter Estimate Stnd. Error t P-value ---------------------------------------------------------------------------AR(1) 0,356804 0,0738678 4,83031 0,000003 MA(1) -0,816592 0,0471655 -17,3133 0,000000 Mean 0,104872 0,116937 0,896826 0,370907 Constant 0,0674535 ---------------------------------------------------------------------------Backforecasting: yes Estimated white noise variance = 0,341282 with 197 degrees of freedom Estimated white noise standard deviation = 0,584194 Number of iterations: 4 Los parámetros son significativos debido que los p-valores<0,05. Por tanto, el modelo queda expresado: yt = 0,067 + 0,356 yt −1 + at + 0,816at −1 Donde at debe distribuirse como N (0, σ a2 ) . Para que at sea ruido blanco, graficaremos los residuos en el tiempo para comprobar que sea estacionario en media y varianza, su FAS y su FAP. Para esto pulsamos el botón azul Graphical options y activamos: 7 Obteniéndose los siguientes gráficos: Residual Plot for Serie4 ARIMA(1,0,1) with constant 3,1 Residual 2,1 1,1 0,1 -0,9 -1,9 0 40 ( 80 120 160 FAS ) 200 ( FAP , , ) 1 1 0,6 0,6 0,2 0,2 -0,2 -0,2 -0,6 -0,6 -1 -1 0 5 10 15 20 25 0 5 10 15 20 25 En el gráfico de residuos observamos que la serie es estacionaria en media y varianza. En la FAS y FAP observamos at es incorrelada. El test de Box Pierce proporciona información bajo la hipótesis nula que los primeros palos de la función de autocorrelación simple de los residuos son cero versus la hipótesis alternativa que son distinto de cero, es decir: H0: ρj = 0 vs. H1: ρj ≠ 0 8 Pulsando el botón amarillo Tabular options y activando Residual Test for Randomness, obtenemos: Box-Pierce Test --------------Test based on first 24 autocorrelations Large sample test statistic = 19,2565 P-value = 0,62944 Las autocorrelaciones no son significativas, debido que el p-valor>0,05. Lo último que nos queda para decir que at es ruido blanco, es comprobar que es aleatorio, de media constante y varianza constante. Si queremos comparar el actual modelo ARMA(1,1) con el modelo MA(1), repetimos los mismos pasos (botón derecho del -> Analysis Options), y seleccionamos B como segundo modelo, ratón modificando el modelo y pulsando el botón OK: Luego pulsando el botón amarillo Tabular options y activando Model Comparisson, obtenemos: Models -----(A) ARIMA(1,0,1) with constant (B) ARIMA(0,0,1) with constant 9 Model RMSE RUNS RUNM AUTO MEAN VAR ----------------------------------------------(A) 0,584181 OK OK OK OK ** (B) 0,613874 OK ** * OK ** Se observa que la raiz del error cuadrático medio (RSME) es más pequeño en el modelo ARMA(1,1). Las pruebas de rachas para ver aleatoriedad (RUNS y RUNM) dan buenos resultados para este ajuste de modelo, en la media se prueba que es constante (MEAN). Lo único que no se demuestra es lo relacionado a la varianza constante (p-valor<0,05 y >0,01). Para la predicción pulsamos el botón amarillo Tabular options y activamos Forecast Table Obteniéndose los siguientes resultados doce momentos después: Lower 95,0% Upper 95,0% Period Forecast Limit Limit -----------------------------------------------------------------------------201,0 -0,874235 -2,02631 0,277843 202,0 -0,244477 -2,02064 1,53169 203,0 -0,019777 -1,86027 1,82072 204,0 0,060397 -1,78813 1,90892 205,0 0,0890034 -1,76054 1,93855 206,0 0,0992103 -1,75046 1,94888 207,0 0,102852 -1,74684 1,95254 208,0 0,104152 -1,74554 1,95384 209,0 0,104615 -1,74508 1,95431 210,0 0,104781 -1,74491 1,95447 211,0 0,10484 -1,74485 1,95453 212,0 0,104861 -1,74483 1,95455 ------------------------------------------------------------------------------ Nota: Observen en la Figura 3, que en la celda Number of forecasting tiene por defecto doce momentos después. Cuestiones: Estima los parámetros del modelo para las Series 1 - 3, considerando el fichero Practica3Series.sf. (Nota: Los modelos se identificaron el la práctica 3). Escribe la ecuación del modelo ARIMA con sus valores. 10