第 54 章 配對實驗數據的分析法
配對實驗是指觀察對象中的一個以上 (通常是2-3個) 以事先確定的條件進行配對 (matched under conditions)。配對實驗中根據條件配對後的觀察對象常常被稱爲一個個區塊 (block)。
例1: 配對交叉設計實驗,結果變量爲連續型。
給予五十名實驗對象抗高血壓藥物用於降低其舒張期血壓 (diastolic blood pressure)。舒張期血壓在實驗前 \((y_{i1})\) 和實驗後 \((y_{i2})\) 分別測量。此時的實驗區塊是每個患者的自身前後對照數據。
例2: 干預實驗,結果變量爲二分類型。
77名已經有眼底病變的糖尿病患者被選爲實驗對象,每人隨機選取一隻眼睛接受最新的雷射激光治療,另一隻眼睛使用標準治療法。經過五年的隨訪,觀察患者的兩隻眼睛是病變爲全盲 (是/否)。此時的實驗區塊是每個患者自己,左右眼互爲對照。
例3: 隊列研究中的配對設計,結果變量爲二分類型。
100 名觀察對像根據性別年齡和 100 名服他汀類藥物 (statin) 的患者,以高膽固醇血癥的有無作爲對照變量 (病例對照同時患病,或同時無病) 一一對應。這 200 名對象被追蹤隨訪 3 年,記錄他們是否罹患心血管疾病。此時的實驗區塊,是 100 個成對的實驗對象。
例4: 配對病例對照實驗。
20 名肺癌患者,和另外 20 名沒有肺癌的對照以同年齡,同性別爲條件配對。研究人員詢問每個實驗參與者過去的吸菸史。本實驗的結果變量爲對象是否吸過香菸。此時的實驗區塊是一名肺癌患者和一名同年齡,同性別的對照。
配對實驗中,我們通常認爲在每個區塊裏的個人,或者他們的測量值應該比不同一區塊裏的觀察對象的測量值更加相似。
- 例1 中,每個個體實驗前後的血壓值,理論上會比另外一個個體的血壓值相比更加接近,無論他是否接受抗高血壓治療,故每個個體本身,構成了“完美”的病例 (實驗前) 和對照 (實驗後)。
- 例3 中,無論一個人是否服用他汀類藥物,兩個同時都是高膽固醇血癥的人理論上會比無此症狀的人更加有可能罹患心血管疾病。
- 例4 中,年齡和性別可能既和一個人是否患有肺癌有關係,也和一個人是否吸菸有關。所以,在考察吸菸和肺癌關係的時候,需要在相同年齡,性別的條件下才是公平的。
54.1 配對的原理
不同的實驗,配對的設計可能有不同的理由:
- 在 RCT 設計中,配對實驗是爲了提升實驗數據對治療的真實效果的估計 (to improve the precision of the estimated effect of the treatment on the outcome);
- 隊列研究和病例對照研究中,使用配對實驗設計 主要是爲了在實驗設計階段就控制已知的混雜因素。當然有時也有人使用配對設計去提升差異估計的精確度。
54.1.1 爲了提升估計的精確度
使用配對實驗設計,獲得數據以後就應使用相應的統計手法,從而達到提高差異估計的精確度的目的。因爲配對實驗設計允許我們在分析階段去除掉 “區塊差異 block variability”:
\[ \begin{aligned} Y_{ij} & = C_j + P_i + O_{ij} \\ \text{Where } Y_{ij} & = \text{outcome for block } i \text{ under treatment } j\\ C_j & = \text{component of outcome due to treatment } j \\ P_i & = \text{component of outcome due to characteristics of block } i\\ O_{ij} & = \text{residual component of outcome} \end{aligned} \]
在上述式子描述的配對實驗設計下,如果成對的觀察值是 \(Y_{i1}, Y_{i2} (i = 1,\cdots, n)\),那麼可以把二者的差用於估計治療效果:
\[ \begin{equation} Y_{i2} - Y_{i1} = C_2 - C_1 + O_{i2} - O_{i1} \end{equation} \tag{54.1} \]
所以,配對實驗中,由於區塊 \((P_i)\) 造成的估計的方差被從隨機變異 (random variation) 中去除掉,\(C_j\) 之間的差異的估計精確度得到提高。這一結論在結果變量是連續型或是二分類型中同樣適用。
54.1.2 控制混雜因素
在病例對照實驗中,常常用配對設計來控制已知的混雜。但是必須強調的是,如果實驗設計中用了配對,那麼統計分析時,也必須用配對實驗的分析方法。
隊列研究中: 暴露組對象和非暴露組對象之間的配對根據一些已知的混雜變量,常見的如年齡和性別配對。
病例對照研究中:病例和對照之間通過某些特徵配對,從而控制這些特徵的混雜,常見的也是年齡和性別。另外還有的病例會從他/她居住的區域附近中尋找相似的對照,或者從他/她的家庭醫生的患者中尋找相似的對象,這時配對設計爲的是控制那些可能無法精確測量的如社會經濟條件,或環境因子。有些研究會尋找病例同一家族中的非患病者作爲對照,從而達到控制 “遺傳因素” 這一混雜因子的效果。
54.2 結果變量爲連續型變量的配對實驗
用 \(Y_{i1}, Y_{i2}, (i = 1,\cdots, n)\) 標記 \(n\) 組配對實驗對象的結果變量的測量值。所以每對實驗對象中的兩個成員,分別被給予不同的實驗條件 (治療或安慰劑,暴露或非暴露),用數字 \(1,2\) 表示。所以,分析此種數據的策略是,計算每個實驗區塊的結果變量之差:
\[ \begin{equation} Y_{i2} - Y_{i1}, (i = 1, \cdots, n) \end{equation} \tag{54.2} \]
那麼,配對實驗的結果變量是連續型變量時,等同於單樣本的假設檢驗,零假設是結果變量在不同實驗條件下的差等於零。
54.2.1 一般檢驗方法
常用的有:
- 均值的配對 \(t\) 檢驗。其實就是和 \(0\) 作比較的單樣本 \(t\) 檢驗 (Section 22.6);
- Wilcoxon 配對檢驗 (Wilcoxon matched pairs test)。此法其實是 Wilcoxon 符號秩和檢驗 (Wilcoxon signed rank test),在零假設是兩組數據中位數之差等於零的條件下的假設檢驗 (Section 36.2)。
- 符號檢驗 (Sign test) (Section 36.1)。
例:17名實驗對象同時給予抗高血壓治療,數據記錄了實驗前後收縮壓的測量值:
library(haven)
sbp <- read_dta("backupfiles/sbp.dta")
sbp
## # A tibble: 17 x 4
## ptid sbp_A sbp_B diff_AB
## <dbl> <dbl> <dbl> <dbl>
## 1 1 148 132 16
## 2 2 128 120 8
## 3 3 152 148 4
## 4 4 135 134 1
## 5 5 150 128 22
## 6 6 165 140 25
## 7 7 155 138 17
## 8 8 132 136 -4
## 9 9 140 135 5
## 10 10 165 144 21
## 11 11 145 115 30
## 12 12 140 126 14
## 13 13 135 140 -5
## 14 14 135 130 5
## 15 15 122 132 -10
## 16 16 144 118 26
## 17 17 158 115 43
## Wilcoxon signed-rank test
wilcox.test(sbp$sbp_A, sbp$sbp_B, paired = TRUE, correct = FALSE)
##
## Wilcoxon signed rank test
##
## data: sbp$sbp_A and sbp$sbp_B
## V = 137.5, p-value = 0.0038567
## alternative hypothesis: true location shift is not equal to 0
## 秩和檢驗結果提示,數據提供了顯著性水平低於 1% (0.0038567) 的證據
## 證明實驗前後收縮期血壓值的變化的中位數不等於零。
## 由此可以下結論,數據能夠提供足夠的證據證明實驗前後的收縮期血壓的
## 分佈,是不同的。
## 注意,這不是一個 RCT,所以,這樣的不同不一定是由於抗高血壓治療。
## 3 different methods to conduct sign test
Positive_n <- sum(sbp$diff_AB >0)
total_n <- length(sbp$diff_AB)
2*pbinom(total_n-Positive_n, total_n, 0.5) ## sign test -- just p-value
## [1] 0.01272583
binom.test(Positive_n, total_n,0.5) ## sign test through binomial test
##
## Exact binomial test
##
## data: Positive_n and total_n
## number of successes = 14, number of trials = 17, p-value = 0.012726
## alternative hypothesis: true probability of success is not equal to 0.5
## 95 percent confidence interval:
## 0.56568213 0.96201493
## sample estimates:
## probability of success
## 0.82352941
BSDA::SIGN.test(sbp$sbp_A, sbp$sbp_B) ## sign-test from BSDA package
##
## Dependent-samples Sign-Test
##
## data: sbp$sbp_A and sbp$sbp_B
## S = 14, p-value = 0.012726
## alternative hypothesis: true median difference is not equal to 0
## 95 percent confidence interval:
## 4.0101487 21.9898513
## sample estimates:
## median of x-y
## 14
##
## Achieved and Interpolated Confidence Intervals:
##
## Conf.Level L.E.pt U.E.pt
## Lower Achieved CI 0.8565 5.0000 21.0000
## Interpolated CI 0.9500 4.0101 21.9899
## Upper Achieved CI 0.9510 4.0000 22.0000
符號檢驗的結果,相比 Wilcoxon 秩和檢驗的結果來說, P 值稍大,由於符號檢驗需要的假設前提比 Wilcoxon 秩和檢驗更少,更穩健 (檢驗效能更低, lacks power)。即便如此,數據依然提供足夠的證據 (p = 0.01273) 證明,實驗前後的收縮期血壓的中位數之差不等於零。
下面是 STATA 中同一數據的 Wilcoxon 秩和檢驗和符號檢驗的結果,和上面的 R 輸出結果作比較:
. signrank sbp_A = sbp_B
Wilcoxon signed-rank test
sign | obs sum ranks expected
-------------+---------------------------------
positive | 14 137.5 76.5
negative | 3 15.5 76.5
zero | 0 0 0
-------------+---------------------------------
all | 17 153 153
unadjusted variance 446.25
adjustment for ties -0.63
adjustment for zeros 0.00
----------
adjusted variance 445.63
Ho: sbp_A = sbp_B
z = 2.890
Prob > |z| = 0.0039
. signtest sbp_A = sbp_B
Sign test
sign | observed expected
-------------+------------------------
positive | 14 8.5
negative | 3 8.5
zero | 0 0
-------------+------------------------
all | 17 17
One-sided tests:
Ho: median of sbp_A - sbp_B = 0 vs.
Ha: median of sbp_A - sbp_B > 0
Pr(#positive >= 14) =
Binomial(n = 17, x >= 14, p = 0.5) = 0.0064
Ho: median of sbp_A - sbp_B = 0 vs.
Ha: median of sbp_A - sbp_B < 0
Pr(#negative >= 3) =
Binomial(n = 17, x >= 3, p = 0.5) = 0.9988
Two-sided test:
Ho: median of sbp_A - sbp_B = 0 vs.
Ha: median of sbp_A - sbp_B != 0
Pr(#positive >= 14 or #negative >= 14) =
min(1, 2*Binomial(n = 17, x >= 14, p = 0.5)) = 0.0127
54.2.2 用迴歸法分析
配對實驗數據還可以使用迴歸手段分析。使用迴歸分析時,需要考慮兩種不同的情形:
- 配對使用的特徵具有唯一性,即有且只有一個對照。
- 自己作自己的對照,如實驗前實驗後的觀測值變化;
- 同一個實驗對象,左右兩眼隨機抽取一隻作病例,一隻作對照;
- 病例和自己的配偶配對。
- 配對使用的特徵不具有唯一性,病例可以有多個潛在對照。
- 病例和性別相同,年齡相近的對照;
第 1 種情況:配對使用的特徵具有唯一性
用 \(Y_{ij}\) 標記第 \(j\) 個配對實驗區塊中第 \(i\) 個對象的觀測結果。我們可以使用下面的迴歸模型:
\[ \begin{equation} Y_{ij} = \beta_0 + \beta_1 X_{ij} + \gamma_j + \varepsilon_{ij} \end{equation} \tag{54.3} \]
其中, \(\gamma_j\) 是第 \(j\) 個配對實驗區塊的固定效應 (fixed effect);\(\varepsilon_{ij}\) 是殘差。這個模型可以在簡單線性迴歸中直接加入一個代表不同配對實驗區塊的變量 (分類型) 進行調整即可。用簡單線性迴歸擬合 (54.3) 是一個等同於配對 \(t\) 檢驗的迴歸方程。
注意:在迴歸模型中加入代表實驗區塊的分類型變量調整僅適用與簡單線性迴歸。非線性迴歸例如邏輯迴歸,方程中試圖加入區塊變量作爲固定效應是不合適的。
在模型中加入隨機效應 (random effect),作爲另一種迴歸手段,則可以同時應用於線性迴歸和非線性迴歸。這種模型被叫做分層迴歸模型 (hierarchical models),或混合效應模型 (mixed effect model),或隨機效應模型 (random effect model)。這將會在等級線性回歸 (Section 58) 這一章節中詳細討論,此處且先按下不表。
第 2 種情況:配對使用的特徵不具有唯一性
用 \(Y_i\) 標記第 \(i\) 個個體的觀測結果, \(X_i\) 標記主要關心的暴露變量,\(W_i\) 標記用於配對的一系列變量的向量。那麼我們可以擬合兩種迴歸模型,差別在於是否調整配對變量向量:
\[ \begin{equation} Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i \end{equation} \tag{54.4} \]
\[ \begin{equation} Y_i = \beta_0 + \beta_1 X_i + \beta_2^TW_i + \delta_i \end{equation} \tag{54.5} \]
需要指出的是,這兩個模型,都是合理有效的迴歸模型,理論上會給出相同或者十分近似的 \(\beta_1\) 估計。因爲配對,意味着在該樣本中,\(X_i\) 和 \(W_i\) 是無關的,所以加入 \(W_i\) 不會影響 \(\beta_1\) 的估計值。即使,實驗樣本所來自的潛在人羣 (the unerlying population) 中,\(X_i, W_i\) 是相關的 (也是最主要的要拿 \(W_i\) 進行配對的動機所在),兩個模型給出的 \(\beta_1\) 估計理論上也不會有太大差距。但是,如果說配對是爲了控制混雜 (即人羣中 \(X_i, W_i\) 是相關的),建議應該使用模型 (54.5)。因爲模型 (54.5) 給出的 \(\beta_1\) 的標準誤估計會比較小 (更小的信賴區間,更精確)。
前一節提到的一般檢驗法,是直接把“配對”這個條件放在檢驗過程中,它們只關心差異大小是否有意義。本小節討論的迴歸方法,則需要一些前提假設 (參考簡單線性迴歸的前提和邏輯迴歸的前提)。當前提條件可以滿足時,我們會更推薦使用迴歸方法對配對數據進行檢驗。因爲通常除了拿來配對的變量,我們對觀察對象還收集了其他的潛在混雜因子數據,使用迴歸方法可以進一步對其餘未用於配對的變量進行調整。
54.3 結果變量是二分類變量的配對實驗
用 \(Y_{i1}, Y_{i2} (i = 1,\cdots,n)\) 標記 \(n\) 個配對的二分類型的結果變量,其對應的暴露變量是 \(X_{i1}, X_{i2}\)。
這樣的數據,有兩種方法來分析暴露和結果之間是否相關:
- McNemar’s test;
- Odds ratio.
用前文中糖尿病患者眼底病變和是否變盲的例子來說明就是:第 \(i\) 個實驗對象,他/她接受標準治療的眼睛是否變盲,決定了 \(Y_{i1} = 1 \text{ or } 0\);他/她接受新的治療的那隻眼睛是否變盲決定了 \(Y_{i2} = 1 \text{ or } 0\)。
但是,用病例對照實驗 (肺癌例) 來解釋時,20 名肺癌患者被一一和同性別,年齡相近的 20 名非肺癌對象配對,每個實驗對象都被詢問其吸菸史。這樣的配對病例對照實驗的設計,決定了其實際上是把我們關心的問題 (吸菸是否導致肺癌) 逆轉了的 (肺癌患者中吸菸的比例是否大於沒有患肺癌的人)。此時應當使用 比值比 Odds ratio 來評價吸菸和肺癌之間的關係。
54.3.1 第一步 對數據作表格
有兩種方式對結果變量是二分類變量的實驗數據作表格歸納。其一,配對與否的信息被忽略掉 (表格 54.1);其二,包含配對信息 (表格 54.2)。
New treatment | Standard treatment | |
---|---|---|
Blind | 10 | 34 |
Not blind | 67 | 43 |
Total | 77 | 77 |
Not blind | Blind | |||
---|---|---|---|---|
Standard treatment | Not blind | 39 | 4 | 43 |
Blind | 28 | 6 | 34 | |
67 | 10 | 77 |
54.3.2 McNemar’s test
下面的表格,是前面表格 54.2 的一般化形式。可以用於 McNemar 檢驗。在暴露對象中,結果變量等於 \(Y_{i1} = 1\) 的配對數量的比例是 \(p_1 = (n_{10} + n_{11})/n\);在非暴露對象中,結果變量等於 \(Y_{i2} = 2\) 的配對數量的比例是 \(p_2 = (n_{01} + n_{11})/n\)。
Failure \((Y_{i1} = 0)\) |
Success \((Y_{i1} = 1)\) |
|||
---|---|---|---|---|
Unexposed \((j = 2)\) |
Failure \((Y_{i2} = 0)\) |
\(n_{00}\) | \(n_{10}\) | \(n_{00}+n_{10}\) |
Success \((Y_{i2} = 1)\) |
\(n_{01}\) | \(n_{11}\) | \(n_{01}+n_{11}\) | |
\(n_{00}+n_{01}\) | \(n_{10}+n_{11}\) | \(n\) |
McNemar 檢驗的零假設是,\(p_2 - p_1 = 0\),其實這等價於比較表格中 \(n_{10}, n_{01}\) 是否相等。所以,在零假設條件下:
\[ n_{10} \sim \text{Binomial}(n_{10} + n_{01}, 0.5) \]
此時既可以選用精確的二項分佈檢驗,也可以用正態分佈近似法進行假設檢驗。用表格 54.2 的數據進行的檢驗結果如下:
binom.test(28, 32, 0.5)
##
## Exact binomial test
##
## data: 28 and 32
## number of successes = 28, number of trials = 32, p-value = 0.000019301
## alternative hypothesis: true probability of success is not equal to 0.5
## 95 percent confidence interval:
## 0.71005158 0.96486935
## sample estimates:
## probability of success
## 0.875
54.3.3 二分類型結果變量配對實驗的比值比
McNemar 檢驗只能用於判斷暴露和結果之間是否有關係。衡量這個關係的大小,還需要用比值比 (odds ratio)。我們已知可以用 Mantel Haenszel 方法來總結以某個分類變量爲條件的分層/合併比值比。同樣的方法也可以用於配對實驗數據的分析。此時的分層變量使用的是配對的實驗區塊 (blocks)。每個實驗區塊的數據可以歸納成下面的表格:
Unexposed (0) | Exposed (1) | |
---|---|---|
Outcome 0 | \(a_i\) | \(b_i\) |
Outcome 1 | \(c_i\) | \(d_i\) |
實驗區塊 \(i\) 的比值比 OR 是:
\[ \text{OR} = \frac{a_id_i}{b_ic_i} \]
Mantel Haenszel 合併 OR 是:
\[ \Psi = \frac{\sum_i(a_id_i/n_i)}{\sum_i(b_ic_i/n_i)} \\ \text{where } n_i = 2 \]
可以繼續推導:
\[ \begin{aligned} \Psi & = \frac{\sum_i(a_id_i/n_i)}{\sum_i(b_ic_i/n_i)} \\ & = \frac{\text{number of blocks with } Y_{i1} = 1 \;\&\; Y_{i2} = 0}{\text{number of blocks with } Y_{i1} = 0 \;\&\; Y_{i2} = 1} \\ & = \frac{n_{10}}{n_{01}} \end{aligned} \]
所以,從上述推導可知,在配對實驗中,比值比只取決於那些配對中出現了不同結果的數據。這些結果不一致的配對被命名爲不一致配對 (discordant pairs)。那些結果變量相同的配對對最終的比值比估計毫無用處。
54.3.4 配對實驗比值比的信賴區間
配對實驗比值比信賴區間的精確計算步驟如下:
- \(\pi\) 標記暴露對象中,結果變量等於 \(Y_{i1} = 1\),且非暴露對象中,結果變量等於 \(Y_{i2} = 0\) 的配對數在全部不一致配對數中所佔的比例:\[\hat\pi = \frac{n_{10}}{n_{10} + n_{01}}\]
- \(\Psi\) 爲不一致配對的比值比:\[\hat\Psi = \frac{n_{10}}{n_{01}}\]
- \(\pi, \Psi\) 之間的關係是:\[\Psi = \frac{\pi}{1-\pi}\]
- \(n_{10}\) 服從二項分佈:\[n_{10}\sim \text{Binomial}(n_{10} + n_{01}, \pi)\]
- 根據二項分佈的性質計算 \(\pi\) 的信賴區間: \[\pi_L, \pi_U\]
- 所以 \(\Psi\) 的信賴區間就可以計算爲:\[(\frac{\pi_L}{1-\pi_L},\frac{\pi_U}{1-\pi_U})\]
用表格54.2 的數據計算其比值比估計:
\[\hat{\text{OR}} = \frac{n_{10}}{n_{01}} = \frac{4}{28} = 0.14\]
\(n_{10} = 4 \sim \text{Binomial}(32, \pi = 4/32 = 0.125)\)
所以 \(\pi\) 的 95% 信賴區間爲:
FSA::binCI(4, 32)
## 95% LCI 95% UCI
## Exact 0.035130653 0.28994842
## Wilson 0.049701344 0.28068305
## Asymptotic 0.010413848 0.23958615
那麼該比值比的精確 95% 信賴區間爲:
\[ \begin{aligned} & (\frac{0.03513065}{1-0.03513065},\frac{0.2899484}{1-0.2899484}) \\ =& (0.036, 0.408) \end{aligned} \]
精確計算的結果和 R 裏獲得的結果一致:
library(exact2x2)
mcnemar.exact(matrix(c(39, 28, 4, 6),2,2))
##
## Exact McNemar test (with central confidence intervals)
##
## data: matrix(c(39, 28, 4, 6), 2, 2)
## b = 4, c = 28, p-value = 0.000019301
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
## 0.036409751 0.408348391
## sample estimates:
## odds ratio
## 0.14285714
54.4 條件 (conditional) 比值比和邊際 (marginal) 比值比
從配對實驗獲得的比值比是條件比值比 (conditional odds ratio),所謂條件比值比,意思就是從配對實驗獲得的比值比是以配對的試驗區塊爲條件的。
用表格 54.2 的糖尿病患者眼底病變的數據來進一步解釋:該實驗獲得的條件比值比爲 0.143,實驗區塊是每位眼底發生病變的糖尿病患者本身。這個條件比值比應被正確解讀爲:每位眼底發生病變的患者中的兩隻眼睛中接受新療法的眼睛最終失明的機率 (odds),和另一隻接受標準療法的眼睛最終失明的機率的比值是 0.143。數學表達式標記爲:
\[ \text{Conditional OR} = \frac{\frac{\text{Pr(Blind|new, individual) } i}{\text{Pr(Not Blind|new, individual) } i}}{\frac{\text{Pr(Blind|standard, individual) } i}{\text{Pr(Not blind|standard, individual) } i}} \]
此條件比值比被認爲在不同的發生眼底病變的糖尿病患者\((i)\)中保持不變。需要指出的是這個條件比值比不等同於認爲在糖尿病人羣中接受新療法治療的眼睛失明機率和接受標準療法的眼睛失明機率之比爲 0.134 (邊際比值比 marginal odds ratio)。邊際比值比的數學表達式爲:
\[ \text{Marginal OR} = \frac{\text{Pr(Blind | new)/Pr(Not blind | new)}}{\text{Pr(Blind | standard)/Pr(Not blind | standard)}} \]
如果要估計上式的邊際比值比,我們需要有糖尿病人羣中失明的危險度 (the risk of blindness in the population),以及失明高危人羣,低危人羣各自接受標準療法的失明概率。假如已知如下的信息:
- 糖尿病人羣中有 50% 的人可以被歸類爲失明高危人羣 (high risk, HR),另 50% 可以被歸類會失明低危人羣 (low risk, LR);
- 接受標準療法時,高危人羣失明的概率是 90%,低危人羣失明的概率是 10%。
上述信息告訴我們,總體糖尿病人羣中接受標準療法失明的概率 \(\text{Pr(Blind|standard)}\) 是:
\[ \begin{aligned} \text{Pr(Blind|standard)} & = \text{Pr(Blind|standard,HR)Pr(HR)} \\ & \;\;\;+ \text{Pr(Blind|standard, LR)Pr(LR)} \\ & = 0.9\times0.5 + 0.1\times0.5 = 0.5 \end{aligned} \]
再利用條件比值比 \(0.143\) 我們可以計算糖尿病人羣中接受新療法失明的概率 \(\text{Pr(Blind | new)}\) 是:
\[ \begin{aligned} \frac{\text{Pr(Blind|new, HR)}}{\text{PR(Not blind | new, HR)}} & = 0.143 \times \frac{\text{Pr(Blind|standard, HR)}}{\text{Pr(Not blind|standard, HR)}} \\ & = 0.143 \times \frac{0.9}{0.1} = 1.287 \\ \frac{\text{Pr(Blind|new, LR)}}{\text{PR(Not blind | new, LR)}} & = 0.143 \times \frac{\text{Pr(Blind|standard, LR)}}{\text{Pr(Not blind|standard, LR)}} \\ & = 0.143 \times \frac{0.1}{0.9} = 0.016 \\ \Rightarrow \text{Pr(Blind|new, HR)} & = 1.287/(1+1.287) = 0.563 \\ \text{Pr(Blind|new, LR)} & = 0/016/(1+0.016) = 0.016 \\ \Rightarrow\;\;\; \text{Pr(Blind | new)} & = \text{Pr(Blind|new, HR)Pr(HR)} + \text{Pr(Blind|new, LR)PR(LR)} \\ & = 0.563\times0.5 + 0.016\times0.5 = 0.290 \end{aligned} \]
獲得了 \(\text{Pr(Blind|standard), Pr(Blind | new)}\) 之後,邊際比值比 (糖尿病人羣中接受新療法治療的眼睛失明機率和接受標準療法的眼睛失明機率之比):
\[ \begin{aligned} \text{Marginal OR} & = \frac{\text{Pr(Blind | new)/Pr(Not blind | new)}}{\text{Pr(Blind | standard)/Pr(Not blind | standard)}} \\ & = \frac{0.5/(1-0.5)}{0.290/(1-0.290)} = 0.408 \end{aligned} \]
比起條件比值比 (0.143),邊際比值比 (0.408) 要大出許多來。