第 1 章 OLS
- “受教育年限越高,是否年薪會越高?”
這裡的解釋變數(\(X\))與被解釋變數(\(Y\))分別是什麼?而\(\varepsilon\)又可能代表那些東西?
1.1 因果關連
- 小明高中畢業,目前年薪30萬元。要驗證「若小明有上大學,他可獲得較高的年薪」,請問要做什麼樣的情境比較?
\(i\)代表小明:
被解釋變數 | 情境 |
---|---|
\(Y_{0i}\) | 只有高中畢業的小明 |
\(Y_{1i}\) | 有大學畢業的小明 |
考慮以下的比較: \[Y_{0i}-Y_{1i}\] 由於都是小明(i),所以上述比較具備有大學文憑帶給小明的薪資效果(具有因果詮釋力)。
- 小娟大學畢業,目前年薪60萬元。要驗證「若小娟沒有上大學,她可獲得的年薪會變低」,請問要做什麼樣的情境比較?
\(j\)代表小娟:
被解釋變數 | 情境 |
---|---|
\(Y_{0j}\) | 只有高中畢業的小娟 |
\(Y_{1j}\) | 有大學畢業的小娟 |
在上面的兩個例子,都有一個情境的薪資是觀察不到的。令Y代表觀察到的薪資(可能是大學薪資\(Y_1\),也可能是高中薪資\(Y_0\),視對象實際有無上大學而定);則
\[Y_k=Y_{0k}+(Y_{1k}-Y_{0k}) T_{k}\] 這裡\(k\)泛指任何人。上式表示:
每一個有大學文憑的人(即T=1),他的實際薪資是他的「高中文憑薪資」再加上「大學學歷效果」所造成。
令\(\delta_k\equiv Y_{1k}-Y_{0k}\)代表每個人的大學文憑效果。
假設每個人的文憑效果相同\(\delta_k=\delta\), 則: \[Y_k=Y_{0k}+\delta T_{k}\] 這裡的\(\delta\)即為我們所要估計的效應值。
效應值是邏輯論述下的描述,並不是所謂的迴歸模型,也還不涉及任何統計操作。
1.2 效應評估
給定效應模型: \[\begin{equation} Y_k=Y_{0k}+\delta T_{k} \tag{1.1} \end{equation}\]
我們想進一步評估效應參數\(\delta\)。
- 考慮用\(Y_{1j}-Y_{0i}\)代表上大學(對上只有高中畢業)給小明和小娟帶來的薪資效果,你需要什麼假設?
- 小娟若沒有上大學,她現在的薪資和小明一樣。(\(Y_{0i}=Y_{0j}\))
任選兩個人他們的高中文憑薪資要相同的可能性很低,你會怎麼做呢?
隨機抽不同學歷的兩「群」人(最好大樣本),比較他們的薪資差異。
考慮以下平均薪資差異: \[\bar{Y}_{college}-\bar{Y}_{highschool}\]
針對(1.1)式,上式是在估計什麼?
\(\mathbb{E}(Y|T=1)-\mathbb{E}(Y|T=0)\)
1.3 選擇偏誤
\(\mathbb{E}(Y|T=1)-\mathbb{E}(Y|T=0)\)會等於\(\delta\)嗎?
\(\mathbb{E}(Y_{0}|T=1)-\mathbb{E}(Y_{0}|T=0)+\delta\)
隨機抽樣下,大學畢業生的平均「高中文憑薪資」與高中畢業生的平均「高中文憑薪資」有很大的機會是不同的。
你可以想到造成不同的理由嗎?
立足點高的人(即「高中文憑薪資」高的)比較傾向上大學(即選擇接受T=1的試驗), 所以單純比較實際大學平均薪資與實際高中平均薪資,其中的差異除了反應大學文憑效果外,也反應了立足點差異程度。
若個體立足點高低會影響其選擇接受試驗與否,此時造成的效應評估偏誤稱之為「選擇偏誤(selection bias)」。
要能對因果關係進行合理評估,除了邏輯上兩者要存在可能因果外,還需要:
- 個體會不會被treated(即最後有沒有上大學,T),必需與個體還沒決定(或被決定)接受treated「前」的狀態(即只拿高中文憑的薪資成就,\(Y_0\))無關。
另外,
- 隨機抽樣(random sampling)並不一定產生隨機試驗(random assignment of treatments)的效果。
1.4 條件式獨立
有些時候「立足點」與「受試選擇」會有關連(以至於產生選擇偏誤),主要是透過某些影響立足點的變數造成。
考慮如下情境:「高中文憑薪資」與「上大學」的關連主要是透過「家庭所得」:
*「家庭所得」越高的家庭,小孩就算只有高中文憑,家庭資源也會使得他們的薪資表現不錯。
*「家庭所得」越高,個人越可能選擇「上大學」。
- 其他有可能影響「高中文憑薪資」的因素,假設都不會影響個人「上大學」決策。
比較來自相同「家庭所得」的一大群人,若當中有大學文憑的平均薪資與只有高中文憑的平均薪資有差異,這差異會是「高中文憑薪資」立足點差異造成的嗎?
在固定「家庭所得(HIncome)」條件下,「高中文憑薪資」(立足點)與「上大學」彼此無關連,此稱為條件獨立(conditional independence),數學表示為: \[\begin{equation} Y_{0i}\perp T_i | HIncome_i \tag{1.2} \end{equation}\] 它也意含 \[\mathbb{E}(Y_{0i}|HIncome_i,T_i)=\mathbb{E}(Y_{0i}|HIncome_i)。\]
1.5 複迴歸模型
比較母體中同家庭所得層次樣本,此時有無「上大學」兩群人的平均薪資差異: \[\mathbb{E}(Y|T=1,HIncome)-\mathbb{E}(Y|T=0,HIncome),\] 會得到大學文憑效應值嗎?
\[\begin{align} \begin{split} \mathbb{E}(Y|T&=1,HIncome)-\mathbb{E}(Y|T=0,HIncome)\\&=\mathbb{E}(Y_{0}|T=1,HIncome)-\mathbb{E}(Y_{0}|T=0,HIncome)+\delta\\&=\mathbb{E}(Y_{0}|HIncome)-\mathbb{E}(Y_{0}|HIncome)+\delta\\&=\delta \end{split} \tag{1.3} \end{align}\]
隨機變數訊息拆解
任何隨機變數一定可以被拆解成「可被解釋變數捕捉」的部份和「無法由被解釋變數捕捉」的部份,例如: \[Y=\mathbb{E}(Y|T,HIncome)+(Y-\mathbb{E}(Y|T,HIncome))\] 令\(\varepsilon=Y-\mathbb{E}(Y|T,HIncome)\),則: \[Y=\mathbb{E}(Y|T,HIncome)+\varepsilon.\] 其中 \[\begin{align} \mathbb{E}(Y|T,HIncome) =\mathbb{E}(Y_{0}|T,HIncome)+\delta T =\mathbb{E}(Y_{0}|HIncome)+\delta T \end{align}\] 若\(\mathbb{E}(Y_{0}|HIncome)=\beta_0+\beta_1HIncome\)為線性關連,則 \[\begin{equation} Y=\beta_0+\beta_1HIncome+\delta T+\varepsilon \tag{1.4} \end{equation}\] 表示用迴歸模型(1.4)所得到的母體迴歸線可以用來代表\(\mathbb{E}(Y|T,HIncome)\)。
幾個重要觀念
- 迴歸模型可以幫我們得到\(\mathbb{E}(Y|T,HIncome)\)值。
- 但\(\mathbb{E}(Y|T,HIncome)\)是否有助於提煉出所要的效應值得回到效應模型來看。
若「高中文憑薪資高低」(立足點)與「上大學與否」在相同「家庭所得」條件下會獨立,即(1.2)條件獨立成立,則上述複迴歸式的OLS估計式可以得到大學文憑效應的合理估計。
當迴歸分析的目的在衡量「因果效應」時,我們使用複迴歸的目的在於:
- 確保「試驗變數」與「立足點」在相同「控制背景」下,具有《條件性獨立》的特質。