이근백 (2022). 경시적 자료분석 - R 활용. 자유아카데미. - 5장 연속형 경시적 자료분석을 위한 선형혼합모형
13.1 일반화 선형 혼합 모형 이론
13.1.1 개요
이전 단원의 선형혼합모형(Linear mixed effect model, LMM)의 outcome을 binary(0/1), count형 등으로 확장하려 한다.
\(Y_{ij}\)가 연속형인 경우의 선형모형에서는 오차항 \(\epsilon_{ij}\)의 공분산구조(예를 들어 exchangeable, AR(1))를 통해 반복치들 간의 연관관계를 모형화할 수 있었다. 그러나 로지스틱 회귀모형을 비롯한 일반화 선형모형(GLM)의 모형식은 오차항을 포함하지 않는다. 개체별로 공유되는 효과는 random effect로 표현해야 하겠다.
13.1.2 모형식과 가정
각 개체의 반응값을 \({\bf y}_{i}=\left(y_{i 1}, \cdots, y_{i m_{i}}\right)\)라 하자. (\(i=1, \ldots, N\))
Recall: linear mixed effect model (LMM) \[
y_{ij}= {\bf x}_{ij}^T \boldsymbol{\beta} + {\bf z}_{ij}^T {\bf u}_{i} + \epsilon_{ij}, \quad j=1,\ldots, m_i, \quad i=1, \cdots, N
\]
여기서 고정효과 관련 공변량 \({\bf x}_{ij}\), 고정효과 계수 \(\boldsymbol{\beta}\), 랜덤효과 관련 공변량 \({\bf z}_{ij}\)은 non-random으로 가정된다. 랜덤효과 \({\bf u}_{i}\)는 확률변수로 가정된다. 만약 \(E(y_{ij}|{\bf u}_i) = \mu_{ij}\)로 쓰면, LMM은 다음과 같이 다시 쓸 수 있었다. \[
\mu_{ij}= {\bf x}_{ij}^T \boldsymbol{\beta} + {\bf z}_{ij}^T {\bf u}_{i}, \quad j=1,\ldots, m_i, \quad i=1, \cdots, N
\]
GLMM의 모형식: known link function \(g: \mathbb{R} \rightarrow \mathbb{R}\)에 대하여, \[
g(\mu_{ij}) = g(E(y_{ij}|{\bf u}_i)) = {\bf x}_{ij}^T \boldsymbol{\beta} + {\bf z}_{ij}^T {\bf u}_{i}, \quad j=1,\ldots, m_i, \quad i=1, \cdots, N,
\]
여기서 \(U_{i} \sim N\left(0, \sigma_{u}^{2}\right)\): 개인별 기저 효과를 나타내는 임의효과 항이다.
만약 \(X_{i j}\)을 구성하는 변수가 한개이고 실험군/대조군 여부\((1 / 0)\)를 알려 준다 하자 (즉, \(X_{i j}=1\)은 \(i\) 번째 개인이 \(j\) 번째 관측시점에서 비타민 결핍임을 의미). 그 때의 회귀계수 \(\beta_1\)은 다음과 같이 해석할 수 있다.
먼저 \(X_{i j}=0\)일 때를 보면, \[
\exp \left(\beta_{0}+U_{i}\right)=\frac{P\left(Y_{i j}=1 \mid X_{i j}=0, U_{i}\right)}{P\left(Y_{i j}=0 \mid X_{i j}=0, U_{i}\right)},
\]
즉 \(\exp \left(\beta_{0}+U_{i}\right)\)는 \(i\) 번째 어린이가 비타민 결핍이 아닐 때, 호흡기 질환의 비감염 확률에 대한 감염 확률의 비(오즈, odds)를 의미한다.
한편, \(X_{i j}=1\)일 때를 보면, \[
\exp \left(\beta_{0}+\beta_{1}+U_{i}\right)=\frac{P\left(Y_{i j}=1 \mid X_{i j}=1, U_{i}\right)}{P\left(Y_{i j}=0 \mid X_{i j}=1, U_{i}\right)},
\]
는 \(i\) 번째 어린이가 비타민 결핍일 때, 호흡기 질환의 비감염 확률에 대한 감염 확률의 비 (오즈)를 보여 준다.