第 63 章 縱向研究數據 longitudinal data 2

本章沒有代碼,學會如何用矩陣標記法寫下你的多元混合效應模型。

63.1 邊際結構 marginal structures

至此,我們接觸過的各種混合效應模型其實代表的是數據不同的邊際結構關系 (marginal relations)。

63.1.1 隨機截距模型

縱向數據中,數據可能是平衡或不平衡數據,簡單的隨機截距模型可以標記如下:

\[ Y_{ij} = (\beta_0 + u_{0j}) + \beta_1 t_{ij} + e_{ij} \]

這個模型隱含着如下的條件關系 (conditional relation):

\[ \begin{aligned} Y_{ij} | t_{ij}, u_{0j} & \sim N(\beta_0 + \beta_1t_{ij} + u_{0j}, \sigma^2_e)\\ u_{0j}|t_{ij} & \sim N(0, \sigma^2_u) \\ \text{Var}(Y_{ij} | t_{ij}, u_{0j}) & = \sigma^2_e \end{aligned} \]

也就是說,觀測值 \(Y_{ij}\) 以時間 \(t\),和隨機截距 \(u_0\) 爲條件的方差,只取決於 \(\sigma^2_e\)。所以,屬於同一層 (同一患者不同測量時間) 的測量值,以該層 (患者) 的截距爲條件 (conditional on \(u_j\)) 的協方差是 \(\text{Cov} (Y_{ij}, Y_{i*j}|t_{ij}, t_{i*j}, u_j) = 0\)

\(Y_{ij}\) 針對 \(u_j\) 的邊際期望 (marginal espectation with respect to \(u_j\)):

\[ E(Y_{ij}|t_{ij}) = \beta_0 + \beta_1 t_{ij} \]

其方差爲 \(\text{Var}(Y_{ij}|t_{ij}) = \sigma^2_u + \sigma^2_e\),同一層 (同一患者) 的兩個不同時刻測量值之間的邊際協方差就是 \(\text{Cov}(Y_{ij}, Y_{i*j}|t_{ij},t_{i*j}) = \sigma^2_u\)

63.1.2 隨機系數模型

模型的數學標記是

\[ Y_{ij} = (\beta_0 + u_{0j}) + (\beta_1 + u_{1j})t_{ij} + e_{ij} \]

等同於

\[ Y_{ij} = (\beta_0 + \beta_1t_{ij}) + (u_{0j} + u_{1j}t_{ij}) + e_{ij} \]

條件關系

\[ Y_{ij}|t_{ij},u_{0j},u_{1j} \sim N( \beta_0 + \beta_1t_{ij} + u_{0j} + u_{1j}t_{ij}, \sigma^2_e) \]

其中, \(\mathbf{u}_j|t_{ij} \sim N(0, \mathbf{\Sigma}_u)\),且

\[ \mathbf{\sum}_{\mathbf{u}} =\left( \begin{array}{cc} \sigma^2_{u_{00}} & \sigma_{u_{01}} \\ \sigma_{u_{01}} & \sigma^2_{u_{11}} \\ \end{array} \right) \\ \text{Cov} (Y_{ij}, Y_{i*j}|t_{ij}, t_{i*j}, u_{oj}, u_{1j}) = 0 \]

其所指的\(Y_{ij}\)的邊際分布:

\[ \begin{aligned} E(Y_{ij}|t_{ij}) & = \beta_0 + \beta_1t_{ij} \\ \text{Var}(Y_{ij}) & = \sigma^2_{u_{00}} +2\sigma_{u_{01}}t_{ij} + \sigma^2_{u_{11}}t_{ij}^2 + \sigma^2_e \\ \text{Cov}(Y_{ij}, Y_{i*j}) & = \text{Cov}(u_{0j} + u_{1j}t_{ij} + e_{ij}, u_{0j} + u_{1j}t_{i*j} + e_{i*j}) \\ & = \sigma^2_{u_{00}} + \sigma_{u_{01}}(t_{ij} + t_{i*j}) + \sigma^2_{u_{11}}t_{ij}t_{i*j} \text{ (for } i \neq i*) \\ \text{Cov}(Y_{ij}, Y_{i*j*}) & = \text{Cov}(u_{0j} + u_{1j}t_{ij} + e_{ij}, u_{0j*} + u_{1j*}t_{i*j*} + e_{i*j*}) \\ & = 0 \text{ (for } j \neq j*) \end{aligned} \]

也就是說同一層 (同一患者) 的不同測量值之間的協方差不爲零,是時間的函數

63.2 矩陣記法

如果數據本身是平衡數據,可以用如下的矩陣標記混合效應模型,

  • \(j\) 是每個患者 (第二層級),\(\mathbf{Y}_j, \mathbf{e}_j\) 向量被定義爲:

\[ \begin{aligned} \mathbf{Y}_j & = \left( \begin{array}{c} Y_{1j} \\ Y_{2j} \\ \cdots \\ \cdots \\ Y_{nj} \end{array} \right) \\ \mathbf{e}_j & = \left( \begin{array}{c} e_{1j} \\ e_{2j} \\ \cdots \\ \cdots \\ e_{nj} \end{array} \right) \\ \end{aligned} \]

用三次測量時間 \(t_1, t_2, t_3\) (以簡便標記) 來繼續接下來的推導,定義矩陣 \(\mathbf{T}, \mathbf{\beta}, \mathbf{u}_j\):

\[ \mathbf{T} = \left(\begin{array}{c} 1 & t_1 \\ 1 & t_2 \\ 1 & t_3 \end{array} \right) \\ \mathbf{\beta} = \left( \begin{array}{c} \beta_0 \\ \beta_1 \end{array} \right) \\ \mathbf{u}_j = \left(\begin{array}{c} u_{0j} \\ u_{1j} \end{array} \right) \]

如此經過利用定義好的向量,我們就可以把模型用矩陣標記來記錄,從無窮無盡的下標中解放出來:

\[ \mathbf{Y = T\beta + Tu + e} \\ \text{Where } \mathbf{u} \sim N(0, \mathbf{\Sigma}_u) \\ \mathbf{e} \sim N(0, \sigma^2_e\mathbf{I}) \]

那麼

\[ \text{Var}(\mathbf{Y}) = \mathbf{T\Sigma}_u\mathbf{T}^T + \sigma^2_e \mathbf{I} \]

63.3 混合效應模型的一般化公式

前面的例子用的雖然是時間做解釋變量 (縱向數據),但是也可以推廣到一般的混合效應模型:

\[ \mathbf{Y = T\beta + Zu + e} \]

其中 \(\mathbf{Z}\) 是類似 \(\mathbf{T}\) 的共變量矩陣。類似地,\(\mathbf{Y}\) 的方差是:

\[ \text{Var}(\mathbf{Y}) = \mathbf{Z\Sigma}_u\mathbf{Z}^T + \mathbf{\Sigma}_e \\ \mathbf{Y} \sim N(\mathbf{T\beta}, \mathbf{Z\Sigma}_u\mathbf{Z}^T + \mathbf{\Sigma}_e ) \]

這就是一個多元線性混合效應回歸模型,大多數情況下,\(\mathbf{\Sigma}_e = \sigma^2_e\mathbf{I}\)

63.4 其他可選擇的方差協方差矩陣特徵

學會了上面的矩陣標記以後,就應該了解在這樣的多元混合效應模型中,對於層內方差,協方差矩陣的 \(\mathbf{\Sigma_u}\) 結構初步假設是相當重要的。目前爲止我們接觸過的模型的方差協方差矩陣結構列舉如下 (爲了簡便標記都用\(3\times3\) 的矩陣來表示):

  • 復合對稱結構 (compound symmetry structure - compound symmetry model) 又名爲可交換結構 (exchangeable structure)

\[ \mathbf{\sum}_{\mathbf{u}} =\left( \begin{array}{cc} \sigma^2_{u} + \sigma^2_e & \sigma^2_{u} & \sigma^2_{u} \\ \sigma^2_{u} & \sigma^2_{u} + \sigma^2_e& \sigma^2_{u} \\ \sigma^2_{u} & \sigma^2_{u} & \sigma^2_{u} + \sigma^2_e \\ \end{array} \right) \]

  • 隨機系數結構 random coefficient (RC) structure

\[ \mathbf{\sum}_{\mathbf{u}} =\left( \begin{array}{cc} \sigma^2_{u_{00}} + \sigma^2_e & \sigma^2_{u_{00}} + \sigma_{u_{01}} & \sigma^2_{u_{00}} + 2\sigma_{u_{01}} \\ \sigma^2_{u_{00}} + \sigma_{u_{01}} & \sigma^2_{u_{00}} + 2\sigma_{u_{01}} + \sigma^2_{u_{11}} + \sigma^2_e& \sigma^2_{u_{00}} + 3\sigma_{u_{01}} + 2\sigma^2_{u_{11}} \\ \sigma^2_{u_{00}} + 2\sigma_{u_{01}} & \sigma^2_{u_{00}} + 3\sigma_{u_{01}} + 2\sigma^2_{u_{11}} & \sigma^2_{u_{00}} + 4\sigma_{u_{01}} + 4\sigma^2_{u_{11}}+\sigma^2_e \\ \end{array} \right) \]

除了這兩個結構以外其他常見方差寫方差結構還有:

  • 自回歸結構 (autoregressive structure):

\[ \frac{\phi}{1-\alpha^2} \left(\begin{array}{ccc} 1 & \alpha & \alpha^2 \\ \alpha & 1 & \alpha \\ \alpha^2 & \alpha & 1 \end{array} \right) \]

  • 無固定結構 (unstructure):

\[ \left(\begin{array}{ccc} \sigma_{11} & \sigma_{12} &\sigma_{13} \\ \sigma_{21} & \sigma_{22} &\sigma_{23} \\ \sigma_{31} & \sigma_{32} &\sigma_{33} \end{array} \right) \]

最後不要忘記了還有完全獨立結構 (不需要任何復雜模型或校正其數據間的依賴性):

\[ \sigma^2\left(\begin{array}{ccc} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{array} \right) \]

63.5 其他要點評論

  • 各種結構模型之間的相互比較

    • 似然比檢驗法 the likelihood ratio test (LRT)
      前提是模型的固定結構不發生改變,兩個嵌套式模型之間的比較是可以使用死然比檢驗的。缺點是統計學效能可能不太理想 (low power)
    • 模型的比較指標 information criteria
      就算是同一個數據,如果不同的協方差結構矩陣模型的固定效應部分也不同,似然比檢驗也不使用,這時候應該求助於赤池信息量 (Akaike’s Information Criterion, AIC),或者貝葉斯信息量 (Bayesian Criterion, BIC) 的比較。這兩個信息量都是使用的模型的似然減去相應模型的參數數量作爲評判標準。差別是 BIC 對參數的調整更加大些。但是,沒人可以保證這些信息會永遠相互認證,他們可能出現互相矛盾,也沒人可以保證使用這些信息的比較可以證明你的模型是“最佳”模型。

63.6 不平衡數據

  • 有缺失值的數據,我們無法使用已知的協方差結構矩陣;
  • 隨機效應模型,隨機系數模型可以用於不平衡數據,所以即使有缺失值,我們可以從混合效應模型的結果來推測數據暗示我們數據中存在着怎樣的協方差結構;

63.7 Practical 06-Hier