Capítulo 5 Modelos con respuesta no normal

En este capítulo veremos los modelos estadísticos para analizar medidas repetidas cuando la variable respuesta no es normal. En concreto, nos centraremos sobretodo cuando la variable respuesta es binaria: sí/no, caso/control, evento/no evento, … No se estudiará el caso de tener eventos censurados de estudios de cohorte o de seguimiento.

En cuanto a los modelos de regresión que veremos serán:

  • Modelos lineales generalizados mixtos (GLMM)

  • Generalized Estimation Equations (GEE).

5.1 Distribución de la variable respuesta

Cuando se habla “generalizado”, se entienden toda una familia de distribuiones entre las cuales se incluyen la Binomial (o binaria), la Poison (propia de contajes) y también la distribución Normal, entre otras.

No incluye la distribución de Weibull (propia de análisis de supervivencia). Tampoco veremos extensiones como la censura, truncamiento o inflación en el cero.

5.1.1 Distribución Binomial

\[Y \sim B(n, p), \quad P(Y=k) = \begin{pmatrix} n \\ k \end{pmatrix} p^k (1-p)^{n-k}\]

Donde \(n\) es el número de ensayos y \(p\) es la probabilidad del éxito en cada ensayo.

Cuando \(n\)=1 tenemos la distribución de Bernoulli.

La regresión logística es el modelo que para predecir respuesta Bernoulli o Binomial, donde la relación entre las variables independientes y el valor esperado de la variable respuesta es la función logística (link canónico).

\[\text{logit}(p) = \log\left(\frac{p}{1-p}\right) = \beta_0 + \sum_{k=1}^K \beta_k x_k\] El término \(\frac{p}{1-p}\) se conoce como el odds del evento. De aquí se deriva que \(e^{\beta_k}\) sea el Odds Ratio de la variable \(x_k\).

5.1.2 Distribución Poisson

\[Y \sim \text{Pois}(\lambda), \quad P(Y=k) = \frac{\lambda^k e^{-\lambda}}{k!}\] Donde \(\lambda\) es la incidencia o riesgo y coincide con la esperanza.

La regresión log-lineal es el modelo asociado a la distribución de Poisson que asocia la \(\lambda\) con las variables independientes mediante el link logarítmico (link canónico).

\[\log(\lambda) = \beta_0 + \sum_{k=1}^K \beta_k x_k\] De aquí que \(e^{\beta_k}\) es el riesgo relativo de la variable \(x_k\).

5.2 Modelos lineales generalizados mixtos

5.2.1 Ecuación

Los modelos lineales generalizados mixtos, Generalized Linear Mixed Models (GLMM), son una generalización de los modelos lineales para respuesta dentro de la família exponencial.

Cuando la respuesta no es normal la ecuación del modelo es

\[\text{link}(E(y_{ij})) = \beta_{0i} + \sum_{k=1}^K \beta_{ki} x_{ijk}\] Fíjate que la ecuación es muy similar a lo de los modelos LMM. Sin embargo las diferencias son importantes:

  • A la izquierda de la igualdad no hay la variable respuesta, \(Y\), sino el link del valor esperado, \(\text{link}(E(y_{ij}))\).

  • A la derecha del igual no aparecen los errores. Por lo tanto no habrá matriz de correlaciones de los residuos.

La función \(\text{link}\) será la logística (\(\log\frac{p}{1-p}\)) para respuesta binaria, o la función logarítmica para Poisson.

Como en los LMM, \(\beta_{01}\) es la constante aleatoria y \(\beta_{ki}\) son las pendientes o coeficientes aleatorios. El vector formado por la constante y pendientes aleatorios son los efectos aleatorios y también siguen una distribución normal:

\[\vec{\beta}_i = (\beta_{0i},\beta_{1i},\ldots,\beta_{Ki})^t \sim N(\vec{\beta}, \Omega), \quad \forall i\]

5.2.2 Función glmer

Para analizar los datos mediante modelos GLMM para respuesta no normal usaremos la función glmer del paquete lme4.

Esta paquete tiene la función lmer para ajustar modelos LMM. Su sintaxis es similar a lme. No obstante no permite modelizar la matriz de correlaciones de los residuos.

Vamos a ver qué argumentos tiene la función glmer;

  • Cómo especificar los efectos fijos, y los efectos aleatorios.

  • Como especificar la distribución de la variable respuesta.

  • Cómo simplificar restringiendo a que la correlación entre los efectos aleatorios sea cero, es decir que la matriz \(\Omega\) sea diagonal.

library(lme4)
?glmer

La diferencia importante respecto a lme es que no hay un argumento separado para especificar los términos fijos y los aleatorios; los términos aleatorios se especifican dentro de la fórmula con

 + (1 | sujeto)

para la constante aleatoria

 + (var1 + var2 +...+ var3 | sujeto)

Par constante y pendientes aleatorios.

Otra diferencia es que no existe el argumento correlation, ya que no hay matriz de correlación de los residuos en estos modelos generalizados (respuesta no normal).

5.3 Generalized Estimation Equations

5.3.1 Ecuación

A completar …

5.3.2 Función gee

A completar …

5.4 Ejemplos

A completar …

5.5 Ejercicios

A completar …