BLOQUE 6: Introducción al análisis de series temporales
Clase 1. Características de las series temporales y la sorprendente “regresión espuria”
Los datos de series temporales consisten en una secuencia de \(T\) observaciones (datos, en general, relativos a comportamientos humanos agregados) ordenados cronológicamente (y, habitualmente, equiespaciados).
Una variable, \(y\) se denomina serie temporal añadiéndole un índice “temporal” \(t\): de tal forma que- si escribimos- \(y_t\) estamos hablando de una serie temporal. En general, diremos que \(t=0,1,...,T\), indicando \(t=0\) el momento “inicial” de la serie y \(t=T\) el final, como convención.
Un instrumento importante para analizar series temporales son los gráficos donde, en el eje de abscisas, se representa la variable “tiempo” y en el eje de ordenadas la magnitud que se está considerando. Además, conviene acostumbrarse a hacer una buena inspección gráfica para obtener las ideas más relevantes que compondrán la serie.
Por ejemplo, apoyémonos en ciertos gráficos de series temporales obtenidos del INE, Yahoo finanzas y Google para tener una primera idea de lo que buscamos en las series.
- Frecuencia
La frecuencia de una serie indica cada cuánto tiempo se representa la información disponible. En el INE abundan, por ejemplo, las series anuales y trimestrales (por el coste que supone recoger información con mayor frecuencia). Las series bursátiles son diarias y las de consumo eléctrico pueden ser horarias.
Taxis, con frecuencia anual, representa el número de taxis en circulación en España.
Precio Apertura TESLA, con frecuencia diaria, representa el precio de la acción de esta empresa.
Paro, con frecuencia trimestral, representa la tasa de paro de individuos menores de 25 años.
Consumo eléctrico, con frecuencia horaria, representa el consumo en MW hora.
- Estacionalidad
Es una característica que pueden tener las series recogidas con frecuencia superior al año. Está relacionada con el concepto “estación del año” y tiene que ver con que el comportamiento humano se adapta a las estaciones y, por tanto, se suele modificar. En el ejemplo anterior, la tasa de paro tiene cierto comportamiento estacional (subidas sistemáticas del paro al acabar verano y navidades), y la serie de consumo eléctrico. Sin embargo, la serie del precio de TESLA no parece tener estacionalidad (de hecho, si esto fuera así, sería más predecible el mercado de acciones, ¿no?).
Ejemplo
En esta serie de turistas mensuales se puede ver claramente la pauta estacional
que, obviamente, se ha modificado con claridad desde el mes de marzo de 2020. Hasta ese momento ¿no era una serie muy previsible? ¿Cómo predeciremos el comportamiento de la serie?
- Estacionariedad en media
una serie temporal es estacionaria en media cuando la media es un buen “resumen” de la serie, es decir, es representativa. Una forma de ver si una serie es estacionaria en media, mediante el gráfico, es ver si las observaciones cortan o no, de manera reiterada dicha media.
Ejemplo
Dos series temporales: el número de taxis y su variación. La serie de Taxis, como vemos, tiene una tendencia creciente, por lo que la media no puede ser representativa. Note que, sin embargo, su variación (calculada como \(y_{t}-y_{t-1})\) sí que parece estar razonablemente bien resumida por su media.
Importante Vemos que una transformación estacionaria de la media de una serie consiste en calcular su variación. A esto se le llama también “diferencia” y se suele denotar como \(\Delta y_t=y_{t}-y_{t-1}\)
Nota: una serie con estacionalidad no puede ser estacionaria en media: puesto que la media en cada estación es distinta. Piense en la venta de helados ¿tiene sentido decir que la venta media anual de helados anual es de 1000? ¿Si vende 2000 en verano y 0 en invierno? ¿Le sirve para algo esa media?¿Gestionaría bien su almacén?
- Estacionariedad en varianza
También nos interesará analizar si la varianza de la serie es razonablemente estable (estacionaria) o no. Para ello, debemos observar si la evolución de la serie está acotada, de manera aproximada, por un rango similar en todo su dominio temporal
Ejemplo
Por ejemplo, la serie de variación porcentual de stocks y de consumo eléctrico parecen tener una variabilidad constante, ya que se podría resumir con una sola “caja”. Sin embargo, la tasa de paro parece que va cambiando su fluctuación según aumentan los valores del nivel de la serie, por lo que esta no parece estacionaria en varianza.
Una manera de inducir estacionariedad en varianza en una serie temporal es mediante la aplicación del logaritmo neperiano. Es decir, si la serie \(y_t\) es no estacionaria en varianza, la serie \(\log y_t\) `podría serlo (esto funciona en un alto porcentaje de casos)
- Las dos transformaciones: \(\Delta \log y_t\) se denominan “primera diferencia del logaritmo de una serie y buscan estacionariedad en media y varianza
- Muestre que la serie de paro, al sufrir esta transformación es estacionaria en media y varianza
- ¿Cómo se interpreta \(\Delta \log y_t\) ? PAra ello, calcule la tasa de variación de la serie de paro y compare el resultado. ¿Qué obtiene?
Introducción a los Procesos Estocásticos
Los modelos teóricos o poblacionales que usaremos en este capítulo proceden de la teoría de los procesos estocásticos. Un proceso estocástico puede definirse, de forma poco rigurosa, como una secuencia de variables aleatorias ordenadas cronológicamente. Un proceso estocástico gobernado por la variable \(x\) se escribe así \(\left\{ x_{t}\right\} _{t\geq0}\). Como ocurre con cualquier variable aleatoria, podremos calcular sus medias, varianzas, covarianzas, etc… para poder caracterizarlo.
Sin embargo, en este curso pasaremos por encima de todo este armamento teórico. Simplemente, presentaremos dos procesos estocásticos muy famosos y sus características más importantes, las cuales iremos necesitando posteriormente.
En la FIG5, mostramos la idea subyacente del proceso estocástico. Debemos imaginarnos que en cada momento temporal (\(t=\{0,1,2,....\}\)) el proceso \(\left\{ x_{t}\right\} _{t\geq0}\) está conformado por una distribución de probabilidades. Diremos que un proceso es estacionario si está conformado por aquel cuyas distribuciones de probabilidades para la variable aleatoria \(x\) no cambian para ningún \(t\). Lo contrario para un proceso no estacionario, donde las distribuciones de probabilidad pueden tener distintas medias, varianzas, kurtosis, asimetrías, etc…
De hecho, podemos considerar una serie temporal (que es lo que observamos en la vida real) como una realización posible de la variable aleatoria: es decir, como si en cada momento \(t\), un ente desconocido hiciera un sorteo y decidiera el valor de la serie temporal (ver FIG6).
Entonces, un proceso estacionario necesitará que la distribución conjunta de este permanezca invariante en el tiempo (por ejemplo, que la distribución conjunta de \(x_{t_{1}},x_{t_{2}},x_{t_{3}},...,x_{t_{n}}\) sea la misma que la de \(x_{t_{1}+h},x_{t_{2}+h},x_{t_{3}+h},...,x_{t_{n}+h}\) para cualquier \(h\neq0\). Sin embargo, es muy complicado verificar esto en la práctica (cuando sólo se tiene una serie temporal como testigo de todo el proceso). Es por ello que, en general, definiremos el concepto de estacionariedad en sentido débil, que requerirá:
- Media y vairanza constantes
- Autocovarianza constante
Dos procesos estocásticos muy célebres
De nuevo, vamos a usar la simulación para entender conceptos relacionados con procesos estocásticos.
Proceso 1: ruido blanco
El concepto “ruido blanco” proviene de la ingeniería y consiste en una secuencia de valores imprevisibles, equivalentes a cuando se va la televisión a “negro” y vemos estas secuencias aleatorias de puntos blancos y negros.
Llevándolo a un concepto estadístico, diremos que un ruido blanco es un proceso estocástico definido como \[ x_{t}=a_{t} \]
donde \[ a_{t}\rightarrow i.i.d(\mu,\sigma^{2}) \]
y donde \(i.i.d\) significa “independiente e idénticamente distribuido como”. E indicamos, en este caso, una media y varianza de la distribución (trabajaremos, habitualmente, con distribuciones como la Normal, que queda definida correctamente con estos dos parámetros).
Ejercicio 1 Atendiendo a estas ideas, trate de dibujar cómo sería una serie temporal que se comporte como un ruido blanco.
Ejercicio 2 Simule en R cómo sería un ruido blanco.
Proceso 2: paseo aleatorio
El paseo aleatorio está ampliamente documentado en la literatura estadística.
Lo definiremos como \[ x_{t}=x_{t-1}+a_{t} \]
donde \[ a_{t}\rightarrow i.i.d(\mu,\sigma^{2}) \]
Como puede observar, es un proceso con “inercia” y “persistencia”: el valor en el momento \(t\) depende del valor en el momento \(t-1\) más un ruido blanco.
y, además, podemos analizar sus propiedades teóricas.
Sea el proceso \[ x_{t}=x_{t-1}+a_{t} \]
con \[ a_{t}\rightarrow i.i.d(\mu=0,\sigma^{2}=2) \]
Podemos iterar para tratar de analizar el valor que tomará el proceso pasados \(T\) periodos de tiempo. Supongamos, sin pérdida de generalidad, que \(x_0=0\).
Empezamos para \(t=1\):
\[ x_{1}=x_{0}+a_{1}\Rightarrow x_{1}=a_{1}, \]
entonces, para \(t=2\),
\[ x_{2}=x_{1}+a_{2}\Rightarrow x_{2}=a_{1}+a_{2} \]
y, sucesivamente,
\[ x_{3}=x_{2}+a_{3}\Rightarrow x_{3}=a_{1}+a_{2}+a_{3} \]
de manera general, \[ x_{T}=a_{1}+a_{2}+...+a_{T} \]
Tenemos, por tanto, que la media (o esperanza de este proceso) será: \[ E\left(x_{t}\right)=E(a_{1}+a_{2}+...+a_{t})=0 \] y la varianza:
\[ V\left(x_{t}\right)=V(a_{1}+a_{2}+...+a_{t})=V(a_{1})+V(a_{2})+...+V(a_{t}) \]
donde hemos usado que la varianza de una suma es la suma de las varianzas si las variables son \(i.i.d\) (y las \(a_{t}\) lo son)
\[ V\left(x_{t}\right)=t\sigma^{2}=2t \]
Como ve, es un proceso donde la varianza no está acotada. Irá creciendo con el valor de \(t\).
Ejericio Simule en R el siguiente paseo aleatorio:
\(y_t=2+y_{t-1}+u_{t}\)
donde \(u_t\) es un ruido blanco con media cero y varianza 1 y \(y_0=0\). ¿Qué características observa?
La regresión espuria
Lo primero que deberá hacer es buscar la palabra “espurio” en el diccionario, si no recuerda lo que significa. Ahora, acuda al INE y busque la siguiente información:
- Matrimonios nacionales (https://www.ine.es/jaxiT3/Tabla.htm?t=6540&L=0)
- Turistas entrados en nuestras fronteras (https://ine.es/jaxiT3/Tabla.htm?t=10821&L=0)
Preguntas:
¿Qué observa en el gráfico? ¿Cuál es la correlación entre ambas series?
Estime la siguiente regresión:
\[ Turistas_{t}=\alpha+\beta Matrimonios_{t}+u_{t} \]
Describa lo que encuentra en dicha regresión:
library(readxl)
install.packages("xts")
library(xts)
install.packages("fpp")
library(fpp)
datos <- read_excel("datos_INE.xlsx")
matrimonios.t=ts(datos[,2],frequency=12,start=c(2015,10))
turistas.t=ts(datos[,3],frequency=12,start=c(2015,10))
mod1<-lm(turistas.t~matrimonios.t)
Call:
lm(formula = turistas.t ~ matrimonios.t)
Residuals:
Min 1Q Median 3Q Max
-6204903 -1420016 227532 1303045 10500661
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3421072.6 894792.8 3.823 0.000275 ***
matrimonios.t 3009.6 526.1 5.721 2.18e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 3515000 on 73 degrees of freedom
Multiple R-squared: 0.3096, Adjusted R-squared: 0.3001
F-statistic: 32.73 on 1 and 73 DF, p-value: 2.184e-07
- Un \(\mathbb{R}^2\) no despreciable
- Una desviación típica estimada del coeficiente muy pequeña, comparada con el parámetro estimado y, por tanto, un t-estadistico alto y, por tanto, Un p- valor cercano a cero en el coeficiente
¿podríamos, entonces, mejorar el turismo si fomentamos los matrimonios? ¿Por cada matrimonio en España se reciben 3009 turistas? ¿Son los invitados a la boda?
En realidad, no. Acaba de encontrar una regresión que-pese a lo que dicen todos los indicadores que habitualmente se miran- no parece tener sentido. A esto se denomina: regresión espuria.