第 1 章 OLS
- “受教育年限越高,是否年薪會越高?”
這裡的解釋變數(X)與被解釋變數(Y)分別是什麼?而ε又可能代表那些東西?
1.1 因果關連
- 小明高中畢業,目前年薪30萬元。要驗證「若小明有上大學,他可獲得較高的年薪」,請問要做什麼樣的情境比較?
i代表小明:
被解釋變數 | 情境 |
---|---|
Y0i | 只有高中畢業的小明 |
Y1i | 有大學畢業的小明 |
考慮以下的比較: Y0i−Y1i 由於都是小明(i),所以上述比較具備有大學文憑帶給小明的薪資效果(具有因果詮釋力)。
- 小娟大學畢業,目前年薪60萬元。要驗證「若小娟沒有上大學,她可獲得的年薪會變低」,請問要做什麼樣的情境比較?
j代表小娟:
被解釋變數 | 情境 |
---|---|
Y0j | 只有高中畢業的小娟 |
Y1j | 有大學畢業的小娟 |
在上面的兩個例子,都有一個情境的薪資是觀察不到的。令Y代表觀察到的薪資(可能是大學薪資Y1,也可能是高中薪資Y0,視對象實際有無上大學而定);則
Yk=Y0k+(Y1k−Y0k)Tk 這裡k泛指任何人。上式表示:
每一個有大學文憑的人(即T=1),他的實際薪資是他的「高中文憑薪資」再加上「大學學歷效果」所造成。
令δk≡Y1k−Y0k代表每個人的大學文憑效果。
假設每個人的文憑效果相同δk=δ, 則: Yk=Y0k+δTk 這裡的δ即為我們所要估計的效應值。
效應值是邏輯論述下的描述,並不是所謂的迴歸模型,也還不涉及任何統計操作。
1.2 效應評估
給定效應模型: Yk=Y0k+δTk
我們想進一步評估效應參數δ。
- 考慮用Y1j−Y0i代表上大學(對上只有高中畢業)給小明和小娟帶來的薪資效果,你需要什麼假設?
- 小娟若沒有上大學,她現在的薪資和小明一樣。(Y0i=Y0j)
任選兩個人他們的高中文憑薪資要相同的可能性很低,你會怎麼做呢?
隨機抽不同學歷的兩「群」人(最好大樣本),比較他們的薪資差異。
考慮以下平均薪資差異: ˉYcollege−ˉYhighschool
針對(1.1)式,上式是在估計什麼?
E(Y|T=1)−E(Y|T=0)
1.3 選擇偏誤
E(Y|T=1)−E(Y|T=0)會等於δ嗎?
E(Y0|T=1)−E(Y0|T=0)+δ
隨機抽樣下,大學畢業生的平均「高中文憑薪資」與高中畢業生的平均「高中文憑薪資」有很大的機會是不同的。
你可以想到造成不同的理由嗎?
立足點高的人(即「高中文憑薪資」高的)比較傾向上大學(即選擇接受T=1的試驗), 所以單純比較實際大學平均薪資與實際高中平均薪資,其中的差異除了反應大學文憑效果外,也反應了立足點差異程度。
若個體立足點高低會影響其選擇接受試驗與否,此時造成的效應評估偏誤稱之為「選擇偏誤(selection bias)」。
要能對因果關係進行合理評估,除了邏輯上兩者要存在可能因果外,還需要:
- 個體會不會被treated(即最後有沒有上大學,T),必需與個體還沒決定(或被決定)接受treated「前」的狀態(即只拿高中文憑的薪資成就,Y0)無關。
另外,
- 隨機抽樣(random sampling)並不一定產生隨機試驗(random assignment of treatments)的效果。
1.4 條件式獨立
有些時候「立足點」與「受試選擇」會有關連(以至於產生選擇偏誤),主要是透過某些影響立足點的變數造成。
考慮如下情境:「高中文憑薪資」與「上大學」的關連主要是透過「家庭所得」:
*「家庭所得」越高的家庭,小孩就算只有高中文憑,家庭資源也會使得他們的薪資表現不錯。
*「家庭所得」越高,個人越可能選擇「上大學」。
- 其他有可能影響「高中文憑薪資」的因素,假設都不會影響個人「上大學」決策。
比較來自相同「家庭所得」的一大群人,若當中有大學文憑的平均薪資與只有高中文憑的平均薪資有差異,這差異會是「高中文憑薪資」立足點差異造成的嗎?
在固定「家庭所得(HIncome)」條件下,「高中文憑薪資」(立足點)與「上大學」彼此無關連,此稱為條件獨立(conditional independence),數學表示為: Y0i⊥Ti|HIncomei 它也意含 E(Y0i|HIncomei,Ti)=E(Y0i|HIncomei)。
1.5 複迴歸模型
比較母體中同家庭所得層次樣本,此時有無「上大學」兩群人的平均薪資差異: E(Y|T=1,HIncome)−E(Y|T=0,HIncome), 會得到大學文憑效應值嗎?
E(Y|T=1,HIncome)−E(Y|T=0,HIncome)=E(Y0|T=1,HIncome)−E(Y0|T=0,HIncome)+δ=E(Y0|HIncome)−E(Y0|HIncome)+δ=δ
隨機變數訊息拆解
任何隨機變數一定可以被拆解成「可被解釋變數捕捉」的部份和「無法由被解釋變數捕捉」的部份,例如: Y=E(Y|T,HIncome)+(Y−E(Y|T,HIncome)) 令ε=Y−E(Y|T,HIncome),則: Y=E(Y|T,HIncome)+ε. 其中 E(Y|T,HIncome)=E(Y0|T,HIncome)+δT=E(Y0|HIncome)+δT 若E(Y0|HIncome)=β0+β1HIncome為線性關連,則 Y=β0+β1HIncome+δT+ε 表示用迴歸模型(1.4)所得到的母體迴歸線可以用來代表E(Y|T,HIncome)。
幾個重要觀念
- 迴歸模型可以幫我們得到E(Y|T,HIncome)值。
- 但E(Y|T,HIncome)是否有助於提煉出所要的效應值得回到效應模型來看。
若「高中文憑薪資高低」(立足點)與「上大學與否」在相同「家庭所得」條件下會獨立,即(1.2)條件獨立成立,則上述複迴歸式的OLS估計式可以得到大學文憑效應的合理估計。
當迴歸分析的目的在衡量「因果效應」時,我們使用複迴歸的目的在於:
- 確保「試驗變數」與「立足點」在相同「控制背景」下,具有《條件性獨立》的特質。