Capítulo 3 Correlación de los datos

Cuando se realizan medidas repetidas, se induce una estructura de correlación entre los datos medidos para un mismo individuo.

De tal manera que dos datos de individuos distintos se suponen independientes, mientras que dos datos de un mismo individuo serán en general dependientes. Y el grado de dependencia o correlacion será diferente según la proximidad de estas medidas en el tiempo.

3.1 Agrupación o clúster

Cuando los datos se agrupan en clústers, éstos tienden a tener una correlación positiva. O sea, que los datos observados dentro de un clúster son más similares que dos datos de distintos clústers.

En el contexto de medidas repetidas, las medidas de un mismo individuo están correlacionadas, mientras que dos medidas de distintos individuos se presumen independientes.

Las técnicas clásicas pensadas para datos en clústers o grupos suponen que la correlación entre pares de datos de un mismo clúster (en nuestro caso sería el individuo) es la misma. Este suposición no se ajusta a la realidad cuando los datos se han tomado a lo largo del tiempo ya que dos medidas tomadas de forma consecutiva serán más parecidas que dos medidas más distantes. Por lo tanto, es necesario usar técnicas que tengan en cuenta el distinto grado de dependiencia según la distancia entre medidas.

3.2 Series temporales

La correlación en el tiempo (o espacio) se pueden estudiar mediante técnicas estadísticas muy conocidas, como son las series temporales.

Los modelos más conocidos son los ARMA. Estos están constituidos por dos partes:

3.2.1 AR: autoregresiva

El modelo AR(p) o autoregresivo de orden p

Yt=c+α1Yt1+α2Yt2++αpYtp+ϵt1αi1,i=1,,p Donde los errores ϵt se suponen independientes con la misma varianza e independientes de las observaciones Yt.

En el caso concreto del AR(1)

Yt=c+αYt1+ϵt Bajo este modelo, la correlación entre dos observaciones consecutivas es α1, entre dos observaciones separadas por dos momentos es α2, … Así pues, como α se encuentra entre -1 y 1, la correlación va decreciendo a medida que las medidas son más lejanas.

Por ejemplo, para 4 medidas, la matriz de correlaciones entre pares de medidas:

R=(1αα2α3α1αα2α2α1αα3α2α1) Por ejemplo, si α=0.8

R=(10.80.820.830.810.80.820.820.810.80.830.820.81)

donde α2=0.64 y α3=0.512.

3.2.2 MA: medias móviles

El modelo MA(q) o media móvil de orden q

Yt=μ+ϵt+θ1ϵt1+θ2ϵt2++θqϵtq

En el caso particular del modelo MA(1):

Yt=μ+ϵt+θϵt1 En este caso, la correlación entre dos medidas consecutivas es θ1+θ2, mientras que la correlación entre dos medidas con una distancia de 2 o más es cero.

Por ejemplo, para 4 medidas, la matriz de correlaciones entre pares de medidas:

R=(1θ1+θ200θ1+θ21θ1+θ200θ1+θ21θ1+θ200θ1+θ21)

Observaciones

La correlación del modelo MA(1) θ1+θ2 está acotada entre -0.5 y 0.5 sea cual sea el valor del coeficiente θ.

Conclusiones:

Los modelos ARMA pueden modelizar los casos en que la correlación entre dos medidas sea distinta y ésta dependa de lo alejadas que sean las medidas en el tiempo (o en el espacio).

3.3 Matrices de correlación

A parte de las matrices de correlación vistas en el anterior apartado correspondientes al MA(1) o AR(1) existen otras. Seguidamente vemos algunas de ellas.

  • Diagonal

Supone que las observaciones o medidas son independientes. Es una matriz con ceros fuera de la diagonal ya que la correlación entre dos medidas es nula.

R=(1000010000100001)

  • Simetría compuesta

La estructura de simetría compuesta (compound symmetry) se da cuando se supone que la correlación entre dos pares de medidas es la misma. Es inusual para un diseño de medidas repetidas pero adecuado para datos con clústers.

R=(1ρρρρ1ρρρρ1ρρρρ1)

  • Función del tiempo entre medidas

Si se tiene el tiempo entre medidas y éstas pueden ser diferentes, la correlación entre dos medidas se puede definir como una función entre el tiempo transcurrido entre ellas. Por ejemplo ρt

R=(1ρt12ρt13ρt14ρt121ρt23ρt24ρt13ρt231ρt34ρt14ρt24ρt341)

Donde tij es el tiempo transcurrido entre el momento i y el momento j. Por ejemplo, si las medidas se han tomado a las 1h, 3h, 10h y 20h

R=(1ρ2ρ9ρ19ρ21ρ7ρ17ρ9ρ71ρ10ρ19ρ17ρ101) Al final, esta matriz depende de un solo parámetro, ρ.

Se pueden definir funciones más complejas que dependan de más parámetros, como por ejemplo ραt

  • Sin estructura

Cuando la correlación entre dos pares puede ser cualquiera. En este caso, el número de medidas tiene que ser la misma para todos los individuos, ya que si no, no tendríamos un conjunto finito o definido de parámetros.

Esta es la estructura de correlación más general y la que contiene más parámetros.

R=(1ρ12ρ13ρ14ρ121ρ23ρ24ρ13ρ231ρ34ρ14ρ24ρ341)

Como la matriz tiene que ser simétrica, las correlaciones que hay por encima de la diagonal tienen que ser las misma que por debajo de la diagonal, o sea ρij=ρji.

Medidas repetidas

En un diseño de medidas repetidas con n individuos, tendremos n series temporales, cada una formada por las distintas medidas de cada individuo.

3.4 Otros

Mezcla de clústers y medidas repetidas:

Se puede tener un estudio donde haya tanto clústers como medidas repetidas o series temporales. Por ejemplo, en un estudio en que participan 5 hospitales elegidos al azar. Para cada hospital se reclutan 20 pacientes de una determinada enfermedad. Y para cada paciente se miden los niveles de una variable a las 2, 4, 6 y 8 horas. En este ejemplo, los hospitales son los clústers. Y las medidas repetidas serían las observaciones dentro de cada paciente.

Modelos de transición

Los modelos de transición de orden n son una extensión de las series temporales, en que cada valor de la variable respuesta medida en el momento j depende de las n medidas anteriores. Además se consideran las covariables tomadas en estos momentos.

Yj=β0+Kk=1βkxjk+α1Yj1+α2Yj2++αnYjn+ϵj

Done Yj es el valor de la variable respuesta en el momento j, xjk el valor de la covariable k en el momento j, y βk el coeficiente de la covariable k-ésima.

Los modelos de transición de orde n pues, equivalen a un modelo AR(n) con covariables. En el tema “Modelos con respuesta normal” veremos como los modelos de transición pueden ajustarse mediante modelos lineales mixtos definiendo la estructura de correlación de los residuos a AR(n).