第 19 章 多個參數時的統計推斷 – 子集似然函數 profile log-likelihoods
本章介紹的子集似然法是處理多個參數模型的主要方法。前章介紹的條件似然法也是相當出色的方法,但是許多情況下我們無法找到合適的“條件”來輔助我們擺脫那些模型中不需要的,障礙 (或者叫噪音) 參數 nuisance parameters。
我們還是沿用上一節的例子。
兩個獨立的人羣追蹤樣本,在 \(p_0, p_1\) 人年的隨訪中發生事件 A 的次數分別是 \(k_0, k_1\)。我們只關心兩組的事件 A 發生率的比 \(\text{Rate ratio:} \theta=\frac{\lambda_1}{\lambda_0}\)。兩個人羣的聯合對數似然函數如下:
\[ \ell(\lambda_0, \lambda_1) = k_0\text{log}\lambda_0 - \lambda_0p0 + k_1\text{log}\lambda_1 - \lambda_1p1 \]
- Step 1. 先用 \(\lambda_1 = \lambda_0\theta\) 取代掉上面式子中的 \(\lambda_1\)。
\[ \begin{aligned} \Rightarrow \ell(\lambda_0, \theta) & = k\text{log}\lambda_0 + k_1\text{log}\theta - \lambda_0(P_0 + \theta p_1) \\ \text{Where } k & = k_0 + k_1 \end{aligned} \tag{19.1} \]
這一步先是消滅了一個障礙參數 \(\lambda_1\),獲得了一個我們關心的參數 \(\theta\),和 \(\lambda_0\) 的對數似然方程。接下來,我們尋找用 \(\theta\) 表示 \(\lambda_0\) (用 \(\hat\lambda_0(\theta)\) 標記) 的似然方程,使得只包含一個參數 \(\theta\) 的對數似然方程可以在每個 \(\lambda_0\) 時取得極大值。此時我們定義 \(\theta\) 的子集對數似然方程 profile log-likelihood是:
\[ \ell_p(\theta) = \ell(\hat\lambda_0(\theta),\theta) \]
- Step 2. 爲了求 \(\hat\lambda_0(\theta)\),先視 \(\theta\) 爲不變的,對上式 (19.1) 求 \(\lambda_0\) 的微分:
\[ \frac{\partial\ell(\lambda_0,\theta)}{\partial\lambda_0}=\frac{k}{\lambda_0} - (p_0+\theta p_1) \]
把該微分方程等於0,推導出 \(\hat\lambda_0=\frac{k}{p_0+\theta p_1}\) 就是 \(\theta\) 在取值範圍內所有能使對數似然方程 (19.1) 取極大值的對應 \(\lambda_0\)。
- Step 3. 將這個 \(\theta\) 表示的 \(\lambda_0\text{ MLE}\) 代替 \(\lambda_0\) 代入對數似然方程 (19.1) 中去:
\[ \begin{aligned} \ell_p(\theta) &= k\text{log}\frac{k}{p_0 + \theta p_1} + k_1 \text{log}\theta - k \\ \text{Ignoring} &\text{ items not involving } \theta\\ \Rightarrow &= k_1\text{log}\theta - k\text{log}(p_0+\theta p_1) \end{aligned} \]
這個用子集似然法推導的關於參數 \(\theta\) 的似然方程和前一章用條件似然法 (Section 18.4) 推導的結果是完全一致的 (18.3)。
19.1 子集似然法推導的過程總結
- 多個參數中區分出我們感興趣的參數 \(\psi\) 和其餘的障礙(噪音)參數 \(\lambda\);
- 爲了從對數似然方程中消除噪音參數,把它們一一通過微分求極值的辦法表達成用 \(\psi\) 標記的表達式,用這些包含了 \(\psi\) 的 \(\text{MLE}\) 代替所有的噪音參數;
- 整理最終獲得的只有感興趣的參數的對數似然方程,記得把不包含參數的部分忽略掉。
19.1.1 子集對數似然方程的分佈
\[ -2pllr(\psi) = -2\{ \ell_p(\psi) - \ell(\hat\psi)\} \stackrel{\cdot}{\sim} \chi^2_r \]
其中自由度 \(r\) 是想要檢驗的零假設中受限制的參數的個數。Degree of freedom \(r\) is the number of parameters restricted under the null hypothesis. 所以,如果 \(\psi\) 是一個維度 (dimension) 爲 \(p\) 的向量,如果零假設是 \(\text{H}_0: \psi = \psi_0\),那麼自由度就是 \(p\)。
19.1.2 假設檢驗過程舉例
兩個獨立的二項分佈樣本:\(K_0 \sim \text{Bin}(n_0, \pi_0), K_1 \sim \text{Bin}(n_1, \pi_1)\)。它們的聯合對數似然爲:
\[ \ell(\pi_0, \pi_1) = \ell(\pi_0) + \ell(\pi_1) \]
如果要檢驗的零假設和替代假設分別是 \(\text{H}_0: \pi_0 = \pi_1 \text{ v.s. H}_1: \pi_0 \neq \pi_1\)。
如果令 \(\theta=\frac{\pi_1}{\pi_0}\),那麼要檢驗的零假設和替代假設就變成了:
\[ \text{H}_0: \theta = 1 \text{ v.s. H}_1: \theta \neq 1 \\ \Rightarrow -2 pllr \stackrel{\cdot}{\sim} \chi^2_1 \]
而且在零假設條件下,\(\text{H}_0: K_0+K_1 \sim \text{Bin}(n_0+n_1, \pi)\),那麼自己對數似然比檢驗的統計量是:
\[ \begin{aligned} -2 pllr & = -2\{ \text{max}[\underset{\text{H}_0}{\ell(\pi_0,\theta\pi_0)}] -\text{max}[\underset{\text{H}_1}{\ell(\pi_0,\theta\pi_0)}] \} \\ \Rightarrow -2 pllr & = -2\{ \text{max}[\underset{\text{H}_0}{\ell(\pi,\theta\pi)}] -\text{max}[\underset{\text{H}_1}{\ell(\pi_0,\pi_1)}] \} \\ \Rightarrow -2 pllr & = -2\{ \ell{(\hat\pi)} - \ell{(\hat\pi_0, \hat\pi_1)} \} \end{aligned} \]
19.2 子集對數似然比的近似
假如有兩個獨立樣本數據,參數分別只有一個 \(\beta_0, \beta_1\),我們關心他們二者之間的差是否有意義 \(\gamma = \beta_1-\beta_0\)。如果 \(\beta_0\) 的對數似然比檢驗統計量的相應的 Wald 檢驗統計量 (二次方程近似法 Section 16.4) 可以用 \(\hat\beta_0, S_0\) 定義,其中 \(\beta_0\) 是 \(\text{MLE}\),\(S_0\) 是標準誤差。類似的,\(\beta_1\) 的 Wald 檢驗統計量可以用 \(\hat\beta_1, S_1\) 定義。那麼,我們關心的參數,\(\gamma = \beta_1 - \beta_0\) 的 Wald 檢驗統計量可以用 \(\hat\gamma = \hat\beta_1 - \hat\beta_1, S=\sqrt{S^2_1 + S^2_0}\) 定義:
\[ \begin{aligned} pllr(\gamma) & = -\frac{1}{2}(\frac{\gamma-\hat\gamma}{\sqrt{S^2_1+S^2_0}})^2 \\ & = -\frac{1}{2}(\frac{(\beta_1-\beta_0)-(\hat\beta_1-\hat\beta_0)}{\sqrt{S^2_1+S^2_0}})^2 \end{aligned} \]
19.2.1 子集對數似然比近似的一般化
如果我們關心的參數,和模型參數的關係可以用下面的表達式來表示:
\[ \gamma = W_0\beta_0 + W_1\beta_1 + \cdots \\ \text{ Where } W_i \text{ are arbitrary cosntants} \]
如果,模型中的每個參數 \(\beta_0, \beta_1, \cdots\) 的 \(\text{MLE}\) 是 \(\hat\beta_0, \hat\beta_1, \cdots\),標準誤是 \(S=\sqrt{(W_0S_0)^2+(W_1S_2)^2+\cdots}\)
19.2.2 事件發生率之比的 Wald 檢驗統計量
事件發生率 (Possion rate ratio) \(\theta = \frac{\lambda_1}{\lambda_0}\)
令 \(\beta_1 = \text{log}\lambda_1, \beta_0 = \text{log}\lambda_0, \gamma = \text{log}\theta\)。
所以有 \(\gamma=\beta_1-\beta_0\)。
由於
\[ \begin{aligned} \hat\beta_0 & = \text{log}(\frac{k_0}{p_0}), \\ \hat\beta_1 & = \text{log}(\frac{k_1}{p_1}) \\ \end{aligned} \]
因而
\[ \begin{aligned} \hat\gamma & = \text{log}\frac{k_1}{p_1} - \text{log}\frac{k_0}{p_0} \\ & = \text{log}\frac{k_1/p_1}{k_0/p_0} \end{aligned} \]
又由於 \(S_0 = \frac{1}{\sqrt{k_0}}, S_1 = \frac{1}{\sqrt{k_1}}\) (Section 14.2.1)。
所以 \(S=\sqrt{\frac{1}{k_0}+\frac{1}{k_1}}\)。
綜上,事件發生率之比的 Wald 檢驗統計量爲
\[ \begin{aligned} pllr(\gamma) & = -\frac{1}{2}(\frac{\gamma - \hat\gamma}{\sqrt{\frac{1}{k_0}+\frac{1}{k_1}}})^2 \\ & = -\frac{1}{2}(\frac{\text{log}\theta - \text{log}\frac{k_1/p_1}{k_0/p_0}}{\sqrt{\frac{1}{k_0}+\frac{1}{k_1}}})^2 \end{aligned} \]
19.3 練習 Practical
\(n\) 名肺癌 I 期患者的倖存時間 \(X_1, X_2, \cdots, X_n\) 被認爲服從指數分佈 (參數 \(\lambda_x\)),概率方程爲 \(\lambda_x e^{-x\lambda_x},\text{ where } x > 0\)。
- 證明 \(\lambda_x\) 的 \(\text{MLE}\) 是 \(\hat\lambda_x = \frac{1}{\bar{x}}\), 對數似然方程是 \[\ell(\lambda_x | \underline{x}) = n\text{log}\lambda_x - \lambda_x n \bar{x}\]
解
\[ \begin{aligned} f(\underline{x}|\lambda_x) & = \lambda_x\cdot e^{-x\lambda_x} \\ F(\underline{x}|\lambda_x) & = \prod_{i=1}^n\lambda_{x}\cdot e^{-x_i\lambda_{x}} \\ \Rightarrow L(\lambda_x | \underline{x}) & = \prod_{i=1}^n\lambda_xe^{-x_i\lambda_{x}} \\ \Rightarrow \ell(\lambda_x|\underline{x}) & = \sum_{i=1}^n(\text{log}\lambda_x + \text{log}e^{-x_i\lambda_{x}}) \\ & = n\text{log}\lambda_x + \sum_{i=1}^n(-x_i\lambda_{x}) \\ & = n\text{log}\lambda_x - n\bar{x}\lambda_x \\ \Rightarrow \ell^\prime(\lambda_x) & = \frac{n}{\lambda_x} - n\bar{x}\lambda_x \\ \text{Let } \ell^\prime(\lambda_x) & = 0 \Rightarrow \text{ MLE of } \lambda_x \text{ is } \hat\lambda_x = \frac{1}{\bar{x}} \\ \because \ell^{\prime\prime} = -\frac{n}{\lambda^2_x} & < 0 \therefore \frac{1}{\bar{x}} \text{ is the MLE} \end{aligned} \]
- 另一組獨立數據是樣本量爲 \(n\) ,但是肺癌診斷爲 II 期的患者的倖存時間 \(Y_1, \cdots, Y_n\)。這組數據也被認爲服從參數爲 \(\lambda_y\) 的指數分佈。用 \(\theta=\frac{\lambda_x}{\lambda_y}\) 標記兩組患者倖存時間之比,用 \(r=\frac{\bar{x}}{\bar{y}}\) 標記樣本的倖存時間均值之比。證明使兩個樣本數據的聯合對數似然取極大值的 \(\hat\lambda_y(\theta) = \frac{2}{\bar{y}(\theta r+1)}\)。
解
\[ \begin{aligned} \ell(\lambda_x|\underline{x}) & = n\text{log}\lambda_x - n \bar{x} \lambda_x \\ \ell(\lambda_y|\underline{y}) & = n\text{log}\lambda_y - n \bar{y} \lambda_y \\ \Rightarrow \text{ Joint log-likelihood: } & \ell(\lambda_x, \lambda_y | \underline{x}, \underline{y}) = n\text{log}\lambda_x - n\bar{x}\lambda_x \\ & \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;+ n\text{log} \lambda_y - n\bar{y}\lambda_y \\ \text{Subsitute } \lambda_x & =\theta\cdot\lambda_y \\ \Rightarrow \ell(\theta, \lambda_y) &= n\text{log}\theta\lambda_y - n\bar{x}\theta\lambda_y + n\text{log} \lambda_y - n\bar{y}\lambda_y \\ \ell(\theta, \lambda_y) & = n(\text{log}\theta + \text{log}\lambda_y - \bar{x}\theta\lambda_y + \text{log}\lambda_y - \bar{y}\lambda_y) \\ & = n[\text{log}\theta + 2\text{log}\lambda_y - \lambda_y(\bar{x}\theta + \bar{y})] \\ \Rightarrow \frac{\partial\ell(\theta, \lambda_y)}{\partial \lambda_y} & = n[\frac{2}{\lambda_y} - (\bar{x}\theta + \bar{y})] \\ \text{Let } \frac{\partial\ell(\theta, \lambda_y)}{\partial \lambda_y} & = 0 \text{ and because } r = \frac{\bar{x}}{\bar{y}} \\ \hat\lambda_y(\theta) & = \frac{2}{\bar{x}\theta + \bar{y}} = \frac{2}{\bar{y}(r\cdot\theta +1)} \end{aligned} \]
- 證明參數 \(\theta\) 的子集對數似然是 \(\ell_p(\theta|r) = n\text{log}\theta - 2n \text{log}(\theta\cdot r + 1)\),且 \(\text{MLE}\) 是 \(\hat\theta = \frac{1}{r}\)
解
\[ \begin{aligned} \ell_p (\theta) & = n[\text{log}\theta + 2\cdot\text{log}\frac{2}{\bar{y}(r\cdot\theta +1)} - \text{log}\frac{2}{\bar{y}(r\cdot\theta +1)}(\bar{x}\theta+\bar{y})] \\ & = n\{\text{log}\theta + 2\cdot\text{log}2 - 2\cdot\text{log}[\bar{y}(r\theta+1)] -2 \} \\ \text{Ignoring } & \text{ items not involving } \theta\\ & = n[\text{log}\theta - 2\text{log}(r\theta+1)] \\ \Rightarrow \ell_p^{\prime}(\theta) & = n(\frac{1}{\theta} - \frac{2r}{r\theta+1}) \\ \text{Let } \ell_p^{\prime}(\theta) & = 0 \Rightarrow n(\frac{1}{\theta} - \frac{2r}{r\theta+1}) = 0 , \hat\theta=\frac{1}{r}\\ \because \ell_p^{\prime\prime}(\theta) & = -\frac{1}{\theta^2} - \frac{2r^2}{(r\theta^2+1)^2} < 0 \\ \therefore \hat\theta & =\frac{1}{r} \text{ is the MLE} \end{aligned} \]
- 根據 \(\text{MLE}\) 的恆定性,可以直接推導出 \(\theta\) 的 \(\text{MLE}\) 嗎?
解
\[ \because \hat\lambda_x = \frac{1}{x} , \hat\lambda_y = \frac{1}{y} \\ \therefore \theta = \frac{\lambda_x}{\lambda_y} \Rightarrow \hat\theta = \frac{\hat\lambda_x}{\hat\lambda_y} = \frac{1}{r} \]
- 證明檢驗下列假設 \(\text{H}_0: \theta_0 = 1 \text{ v.s. H}_1: \theta_0 \neq 1\) 的子集對數似然比檢驗統計量是 \(2n\text{log}\frac{(r+1)^2}{4r}\),並進行 \(n=16, r=2\) 的假設檢驗。
解
\[ \begin{aligned} \text{Under H}_0 & \Rightarrow \text{ test statistic is } \\ -2llr(\theta_0) & = -2[\ell(\theta_0) - \ell(\hat\theta)] \stackrel{\cdot}{\sim} \chi^2_1 \\ \Rightarrow \ell_p(\theta_0) & = n\text{log}1 - 2n \text{log}(r+1) = -2n\text{log}(r+1) \\ \ell_p(\hat\theta) & = n\text{log}\frac{1}{r} - 2n\text{log}(2) \\ & = -n\text{log}r-2n\text{log}2 = -n\text{log}4r\\ \Rightarrow \ell_p(\theta_0) - \ell_p(\hat\theta) & = -2n\text{log}(r+1) + n\text{log}4r = n\text{log}\frac{4r}{(r+1)^2} \\ \Rightarrow -2llr(\theta_0) & = -2n\text{log}\frac{4r}{(r+1)^2} = 2n\text{log}\frac{(r+1)^2}{4r} \\ \text{ When } n=16, r=2 -2llr(\theta_0) & = 2\times16\times\text{log}(\frac{2+1}{4\times2})^2 = 3.769 < \chi^2_{1,0.95} = 3.84\\ \text{ We do not reject }&\text{ the null hypothesis at the } 5% \text{ level.} \end{aligned} \]
此時如果精確計算可以獲得 \(p=0.052\),從檢驗統計量的計算值我們也能看出距離拒絕零假設的拒絕域十分接近。此時可以認爲是一個臨界的 \(p\) 值。所以數據提供了臨界 \(p=0.052\) 的證據證明肺癌 II 期患者的倖存時間平均要少於 I 期患者。
19.4 總結
推斷是十分具有挑戰性的一個章節,我們在此做個簡單的複習和總結,用一些常見的問題來結束本章。
19.4.1 快速複習
對於收集到的樣本數據 data,我們需要提出一個所謂的“科學問題 scientific question”。
爲了回答這個“科學問題”,我們會設想,並提出一個合適的 統計學模型 statistical model,確認提出的統計學模型中的參數 parameters。通過樣本數據的信息對參數進行估計 estimation,或者進行假設檢驗 hypothesis tests。
統計學模型具有自己的概率分佈,通過相應的參數,和模型的分佈可以解釋觀察數據的分佈,並且利用這些信息進行我們需要的推斷。同時,我們還需要利用觀察數據對我們提出的模型是否擬合數據做出合適的診斷。
估計和假設檢驗,是以似然方程爲基礎的。通常我們會利用便於計算的對數似然(比),進行假設檢驗。
獲得似然方程以後,我們可以用對數似然比,進一步進行推斷:
- 確認最佳估計 \(MLE\),和它的方差 (標準誤);
- 計算參數的點估計量,和信賴區間;
- 爲感興趣的參數實施假設檢驗。
19.4.2 試爲下面的醫學研究問題提出合適的統計學模型
- 在一所醫院收集了 80 名患者的血壓和體重的數據,醫生想要分析血壓 (bp) 跟體重 (weight) 之間是否有相關性。
答: 用簡單線性迴歸模型。(r.v. = random variable)
\[ Y \text{ r.v. for bp } Y_j | \text{weight}_j \stackrel{i}{\sim} N(\alpha + \beta \text{weight}, \sigma^2), j = 1,2,\cdots,80; \text{H}_0: \beta=0 \]
- 爲了調查某市青光眼的患病率 (prevalence),從一般人羣中隨機抽取了 100 人進行眼部檢查。
答:用二項分佈模型。
\[ K \text{ r.v. for number of people found with glaucoma } \\ K \sim \text{Bin}(100, \pi); \text{ Estimate } \pi \text{ with CI.} \]
- 另一個醫生拿到了 2. 的數據,打算分析這100人中青光眼的患病與否是否和血壓相關。
答:用邏輯迴歸模型。 \(\text{logit}\pi = \text{log}\frac{\pi}{1-\pi}\)
\[ K_i | bp_i \sim \text{Bin}(100, \pi_i), \text{logit}(\pi_i) = \alpha + \beta bp_i; \text{H}_0: \beta = 0 \]
- 有好事者打算調查 25 名研究對象的血清膽固醇水平是否在實驗前後 (實驗時間3個月) 發生有意義的改變。
答:正態分佈模型,單樣本 \(t\) 檢驗。
\[ D \text{ r.v. for cholesterol change; } D_j \stackrel{i.i.d}{\sim} N(\delta, \sigma^2), j= 1,\cdots,25; \text{H}_0: \delta = 0\\ \text{Where } D_j = \text{chol}_{j,3m} - \text{chol}_{j,entry} \]
- 前一題的好事者,打算進一步分析膽固醇水平的變化在某些進行特殊飲食的觀察對象中是否更加顯著。
答:簡單線性迴歸模型。
\[ D_j | \text{diet}_j \stackrel{i}{\sim} N(\alpha + \beta \text{diet}_j, \sigma^2), j=1,\cdots,25; \text{H}_0: \beta = 0 \]
- 某降壓藥物已知能有效地降低高血壓患者的血壓。某項實驗將收集來的高血壓患者分成 6 個小組,每組給予的藥物劑量不同,最低 1 毫克每次,最高 6 毫克每次,每組相差 1 毫克劑量。研究者希望通過實驗確定該藥物的降壓效果是否在某個劑量時達到最大,如果沒有,是否降壓藥物的效果隨着劑量增加而增加。
\[ \begin{aligned} & bp_j | \text{dose}_j \stackrel{\cdot}{\sim} N(\alpha + \beta\text{dose}_j + \gamma\text{dose}^2_j, \sigma^2), j=1,\cdots,n;\\ \text{1) test } & \text{ H}_0: \gamma=0; \text{ if do not reject, then do next test } \\ & bp_j | \text{dose}_j \stackrel{\cdot}{\sim} N(\alpha + \beta\text{dose}_j, \sigma^2) \text{2) test } & \text{ H}_0: \beta=0 \end{aligned} \]
19.4.3 醫生來找統計學家問問題
- 一個“臨牀醫生”來找你問了這樣的一個常見的問題:當我們使用 \(t\) 檢驗的時候,爲什麼前提假設是數據服從 正態分佈? 而不使用服從 \(t\) 分佈 這樣的前提條件,因爲我們實施該檢驗的時候明明就在用 \(t\) 分佈?
答:我們從未假定觀察數據服從 \(t\) 分佈,我們假定的前提是檢驗統計量,也就是樣本均值和標準誤服從 \(t\) 分佈。因爲我們不知道收集獲得的數據來自的人羣的方差是多少,需要使用樣本數據對方差也進行估計的時候,不得已而必須使用 \(t\) 分佈來獲得估計的樣本均值的標準誤差,用於計算信賴區間和實施假設檢驗。
- 還是那個有好奇心的“臨牀醫生”又來問一個弱智問題:當我們使用正態分佈近似法對一個服從二項分佈的比例的單樣本檢驗的時候,我們把計算的檢驗統計量拿去跟正態分佈的特徵值作比較。然而,不用正態分佈近似,直接對連續型變量實施單樣本 \(t\) 檢驗的時候卻把計算的檢驗統計量拿去和 \(t\) 分佈的特徵值作比較,這是爲什麼?
答:對連續型變量實施單樣本 \(t\) 檢驗的時候,我們需要用樣本數據同時估計均值和標準誤。但是對於二項分佈的數據來說,它的樣本比例的標準誤是總體比例的一個方程,所以只要用樣本比例估計總體比例以後,總體的標準誤就已經可以知道,不必再作估計。所以,二項分佈的正態近似法就真的使用標準正態分佈的特徵值,但是連續型變量的總體標準誤同時被估計,它的不確定性也要考慮進來,只能使用 \(t\) 分佈。
- 某“臨牀醫生”假裝很熱心想學習統計跑來問問題:該醫生實施的臨牀試驗,比較病例和對照之間某指標是否不同。但是,病例組看上去的年齡似乎比對照組要高一些,該醫生記得自己統計課上聽老師說過混雜因素的知識。所以他跑回家自己實施了一下病例組和對照組之間年齡是否有差別的 \(t\) 檢驗,結果顯示病例組對照組的年齡沒有顯著性差異。所以他認爲可以從線性模型中去掉年齡這一變量。但是身爲統計學家的你堅持必須要保留年齡在模型裏。所以醫生問你是否關心年齡有差別所以才堅持要調整年齡。你的回答是“對不起大哥,我對病例對照之間的年齡差是否有統計學意義完全沒有興趣。”醫生更加困惑了。\(\text{variable}_i = \alpha + \beta\text{patient}_i + \gamma\text{age}_i + \varepsilon_i\)
答:年齡是否會混雜了病人分組和指標之間的關係,不是通過比較兩組來自的人羣的年齡是否有差別來判斷的。如果樣本的年齡有差別,就很有可能會對你想要分析的關係造成混淆。因爲你進行的年齡均值是否有差異的 \(t\) 檢驗,比較的並不是樣本年齡的差別,而是用樣本估計來自的人羣的年齡之間的比較。