Capítulo 3 Correlación de los datos
Cuando se realizan medidas repetidas, se induce una estructura de correlación entre los datos medidos para un mismo individuo.
De tal manera que dos datos de individuos distintos se suponen independientes, mientras que dos datos de un mismo individuo serán en general dependientes. Y el grado de dependencia o correlacion será diferente según la proximidad de estas medidas en el tiempo.
3.1 Agrupación o clúster
Cuando los datos se agrupan en clústers, éstos tienden a tener una correlación positiva. O sea, que los datos observados dentro de un clúster son más similares que dos datos de distintos clústers.
En el contexto de medidas repetidas, las medidas de un mismo individuo están correlacionadas, mientras que dos medidas de distintos individuos se presumen independientes.
Las técnicas clásicas pensadas para datos en clústers o grupos suponen que la correlación entre pares de datos de un mismo clúster (en nuestro caso sería el individuo) es la misma. Este suposición no se ajusta a la realidad cuando los datos se han tomado a lo largo del tiempo ya que dos medidas tomadas de forma consecutiva serán más parecidas que dos medidas más distantes. Por lo tanto, es necesario usar técnicas que tengan en cuenta el distinto grado de dependiencia según la distancia entre medidas.
3.2 Series temporales
La correlación en el tiempo (o espacio) se pueden estudiar mediante técnicas estadísticas muy conocidas, como son las series temporales.
Los modelos más conocidos son los ARMA. Estos están constituidos por dos partes:
3.2.1 AR: autoregresiva
El modelo AR(p) o autoregresivo de orden \(p\)
\[Y_t = c + \alpha_1 Y_{t-1} + \alpha_2 Y_{t-2} + \cdots + \alpha_p Y_{t-p} + \epsilon_t \qquad -1 \leq \alpha_i \leq 1, \quad i=1,\ldots,p\] Donde los errores \(\epsilon_t\) se suponen independientes con la misma varianza e independientes de las observaciones \(Y_t\).
En el caso concreto del AR(1)
\[Y_t = c + \alpha Y_{t-1} + \epsilon_t\] Bajo este modelo, la correlación entre dos observaciones consecutivas es \(\alpha_1\), entre dos observaciones separadas por dos momentos es \(\alpha^2\), … Así pues, como \(\alpha\) se encuentra entre -1 y 1, la correlación va decreciendo a medida que las medidas son más lejanas.
Por ejemplo, para 4 medidas, la matriz de correlaciones entre pares de medidas:
\[R = \begin{pmatrix} 1 & \alpha & \alpha^2 & \alpha^3 \\ \alpha & 1 & \alpha & \alpha^2 \\ \alpha^2 & \alpha & 1 & \alpha \\ \alpha^3 & \alpha^2 & \alpha & 1 \end{pmatrix} \] Por ejemplo, si \(\alpha = 0.8\)
\[R = \begin{pmatrix} 1 & 0.8 & 0.8^2 & 0.8^3 \\ 0.8 & 1 & 0.8 & 0.8^2 \\ 0.8^2 & 0.8 & 1 & 0.8 \\ 0.8^3 & 0.8^2 & 0.8 & 1 \end{pmatrix} \]
donde \(\alpha^2 = 0.64\) y \(\alpha^3 = 0.512\).
3.2.2 MA: medias móviles
El modelo MA(q) o media móvil de orden \(q\)
\[Y_t = \mu + \epsilon_{t} + \theta_1 \epsilon_{t-1} + \theta_2 \epsilon_{t-2} + \cdots + \theta_q \epsilon_{t-q}\]
En el caso particular del modelo MA(1):
\[Y_t = \mu + \epsilon_{t} + \theta \epsilon_{t-1}\] En este caso, la correlación entre dos medidas consecutivas es \(\frac{\theta}{1+\theta^2}\), mientras que la correlación entre dos medidas con una distancia de 2 o más es cero.
Por ejemplo, para 4 medidas, la matriz de correlaciones entre pares de medidas:
\[R = \begin{pmatrix} 1 & \frac{\theta}{1+\theta^2} & 0 & 0 \\ \frac{\theta}{1+\theta^2} & 1 & \frac{\theta}{1+\theta^2} & 0 \\ 0 & \frac{\theta}{1+\theta^2} & 1 & \frac{\theta}{1+\theta^2} \\ 0 & 0 & \frac{\theta}{1+\theta^2} & 1 \end{pmatrix} \]
Observaciones
La correlación del modelo MA(1) \(\frac{\theta}{1+\theta^2}\) está acotada entre -0.5 y 0.5 sea cual sea el valor del coeficiente \(\theta\).
Conclusiones:
Los modelos ARMA pueden modelizar los casos en que la correlación entre dos medidas sea distinta y ésta dependa de lo alejadas que sean las medidas en el tiempo (o en el espacio).
3.3 Matrices de correlación
A parte de las matrices de correlación vistas en el anterior apartado correspondientes al MA(1) o AR(1) existen otras. Seguidamente vemos algunas de ellas.
- Diagonal
Supone que las observaciones o medidas son independientes. Es una matriz con ceros fuera de la diagonal ya que la correlación entre dos medidas es nula.
\[R = \begin{pmatrix} 1 & 0 & 0 & 0 \\ 0 & 1 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \end{pmatrix} \]
- Simetría compuesta
La estructura de simetría compuesta (compound symmetry) se da cuando se supone que la correlación entre dos pares de medidas es la misma. Es inusual para un diseño de medidas repetidas pero adecuado para datos con clústers.
\[R = \begin{pmatrix} 1 & \rho & \rho & \rho \\ \rho & 1 & \rho & \rho \\ \rho & \rho & 1 & \rho \\ \rho & \rho & \rho & 1 \end{pmatrix} \]
- Función del tiempo entre medidas
Si se tiene el tiempo entre medidas y éstas pueden ser diferentes, la correlación entre dos medidas se puede definir como una función entre el tiempo transcurrido entre ellas. Por ejemplo \(\rho^t\)
\[R = \begin{pmatrix} 1 & \rho^{t_{12}} & \rho^{t_{13}} & \rho^{t_{14}} \\ \rho^{t_{12}} & 1 & \rho^{t_{23}} & \rho^{t_{24}} \\ \rho^{t_{13}} & \rho^{t_{23}} & 1 & \rho^{t_{34}} \\ \rho^{t_{14}} & \rho^{t_{24}} & \rho^{t_{34}} & 1 \end{pmatrix} \]
Donde \(t_{ij}\) es el tiempo transcurrido entre el momento \(i\) y el momento \(j\). Por ejemplo, si las medidas se han tomado a las 1h, 3h, 10h y 20h
\[R = \begin{pmatrix} 1 & \rho^{2} & \rho^{9} & \rho^{19} \\ \rho^{2} & 1 & \rho^{7} & \rho^{17} \\ \rho^{9} & \rho^{7} & 1 & \rho^{10} \\ \rho^{19} & \rho^{17} & \rho^{10} & 1 \end{pmatrix} \] Al final, esta matriz depende de un solo parámetro, \(\rho\).
Se pueden definir funciones más complejas que dependan de más parámetros, como por ejemplo \(\rho^{\alpha\cdot t}\)
- Sin estructura
Cuando la correlación entre dos pares puede ser cualquiera. En este caso, el número de medidas tiene que ser la misma para todos los individuos, ya que si no, no tendríamos un conjunto finito o definido de parámetros.
Esta es la estructura de correlación más general y la que contiene más parámetros.
\[R = \begin{pmatrix} 1 & \rho_{12} & \rho_{13} & \rho_{14} \\ \rho_{12} & 1 & \rho_{23} & \rho_{24} \\ \rho_{13} & \rho_{23} & 1 & \rho_{34} \\ \rho_{14} & \rho_{24} & \rho_{34} & 1 \end{pmatrix} \]
Como la matriz tiene que ser simétrica, las correlaciones que hay por encima de la diagonal tienen que ser las misma que por debajo de la diagonal, o sea \(\rho_{ij}=\rho_{ji}\).
Medidas repetidas
En un diseño de medidas repetidas con \(n\) individuos, tendremos \(n\) series temporales, cada una formada por las distintas medidas de cada individuo.
3.4 Otros
Mezcla de clústers y medidas repetidas:
Se puede tener un estudio donde haya tanto clústers como medidas repetidas o series temporales. Por ejemplo, en un estudio en que participan 5 hospitales elegidos al azar. Para cada hospital se reclutan 20 pacientes de una determinada enfermedad. Y para cada paciente se miden los niveles de una variable a las 2, 4, 6 y 8 horas. En este ejemplo, los hospitales son los clústers. Y las medidas repetidas serían las observaciones dentro de cada paciente.
Modelos de transición
Los modelos de transición de orden \(n\) son una extensión de las series temporales, en que cada valor de la variable respuesta medida en el momento \(j\) depende de las \(n\) medidas anteriores. Además se consideran las covariables tomadas en estos momentos.
\[Y_j = \beta_0 + \sum_{k=1}^K \beta_k x_{jk} + \alpha_1 Y_{j-1} + \alpha_2 Y_{j-2} + \cdots + \alpha_n Y_{j-n} + \epsilon_j\]
Done \(Y_j\) es el valor de la variable respuesta en el momento \(j\), \(x_{jk}\) el valor de la covariable \(k\) en el momento \(j\), y \(\beta_k\) el coeficiente de la covariable \(k\)-ésima.
Los modelos de transición de orde \(n\) pues, equivalen a un modelo AR(n) con covariables. En el tema “Modelos con respuesta normal” veremos como los modelos de transición pueden ajustarse mediante modelos lineales mixtos definiendo la estructura de correlación de los residuos a AR(n).