第 1 章 OLS

  1. “受教育年限越高,是否年薪會越高?”
    這裡的解釋變數(X)與被解釋變數(Y)分別是什麼?而ε又可能代表那些東西?

1.1 因果關連

  1. 小明高中畢業,目前年薪30萬元。要驗證「若小明有上大學,他可獲得較高的年薪」,請問要做什麼樣的情境比較?

i代表小明:

被解釋變數 情境
Y0i 只有高中畢業的小明
Y1i 有大學畢業的小明

考慮以下的比較: Y0iY1i 由於都是小明(i),所以上述比較具備有大學文憑帶給小明的薪資效果(具有因果詮釋力)。

  1. 小娟大學畢業,目前年薪60萬元。要驗證「若小娟沒有上大學,她可獲得的年薪會變低」,請問要做什麼樣的情境比較?

j代表小娟:

被解釋變數 情境
Y0j 只有高中畢業的小娟
Y1j 有大學畢業的小娟

在上面的兩個例子,都有一個情境的薪資是觀察不到的。令Y代表觀察到的薪資(可能是大學薪資Y1,也可能是高中薪資Y0,視對象實際有無上大學而定);則
Yk=Y0k+(Y1kY0k)Tk 這裡k泛指任何人。上式表示:

每一個有大學文憑的人(即T=1),他的實際薪資是他的「高中文憑薪資」再加上「大學學歷效果」所造成。

δkY1kY0k代表每個人的大學文憑效果。

假設每個人的文憑效果相同δk=δ, 則: Yk=Y0k+δTk 這裡的δ即為我們所要估計的效應值。

效應值是邏輯論述下的描述,並不是所謂的迴歸模型,也還不涉及任何統計操作。

1.2 效應評估

給定效應模型: Yk=Y0k+δTk

我們想進一步評估效應參數δ

  1. 考慮用Y1jY0i代表上大學(對上只有高中畢業)給小明和小娟帶來的薪資效果,你需要什麼假設?
  • 小娟若沒有上大學,她現在的薪資和小明一樣。(Y0i=Y0j)

任選兩個人他們的高中文憑薪資要相同的可能性很低,你會怎麼做呢?

隨機抽不同學歷的兩「群」人(最好大樣本),比較他們的薪資差異。

考慮以下平均薪資差異: ˉYcollegeˉYhighschool

針對(1.1)式,上式是在估計什麼?

E(Y|T=1)E(Y|T=0)

1.3 選擇偏誤

E(Y|T=1)E(Y|T=0)會等於δ嗎?

E(Y0|T=1)E(Y0|T=0)+δ

隨機抽樣下,大學畢業生的平均「高中文憑薪資」與高中畢業生的平均「高中文憑薪資」有很大的機會是不同的。

你可以想到造成不同的理由嗎?

經濟直覺:

立足點高的人(即「高中文憑薪資」高的)比較傾向上大學(即選擇接受T=1的試驗), 所以單純比較實際大學平均薪資與實際高中平均薪資,其中的差異除了反應大學文憑效果外,也反應了立足點差異程度。

若個體立足點高低會影響其選擇接受試驗與否,此時造成的效應評估偏誤稱之為「選擇偏誤(selection bias)」。

要能對因果關係進行合理評估,除了邏輯上兩者要存在可能因果外,還需要:

  • 個體會不會被treated(即最後有沒有上大學,T),必需與個體還沒決定(或被決定)接受treated「前」的狀態(即只拿高中文憑的薪資成就,Y0)無關。

另外,

  • 隨機抽樣(random sampling)並不一定產生隨機試驗(random assignment of treatments)的效果。

1.4 條件式獨立

有些時候「立足點」與「受試選擇」會有關連(以至於產生選擇偏誤),主要是透過某些影響立足點的變數造成。

考慮如下情境:
  1. 「高中文憑薪資」與「上大學」的關連主要是透過「家庭所得」:

    *「家庭所得」越高的家庭,小孩就算只有高中文憑,家庭資源也會使得他們的薪資表現不錯。

    *「家庭所得」越高,個人越可能選擇「上大學」。

  2. 其他有可能影響「高中文憑薪資」的因素,假設都不會影響個人「上大學」決策。

比較來自相同「家庭所得」的一大群人,若當中有大學文憑的平均薪資與只有高中文憑的平均薪資有差異,這差異會是「高中文憑薪資」立足點差異造成的嗎?


在固定「家庭所得(HIncome)」條件下,「高中文憑薪資」(立足點)與「上大學」彼此無關連,此稱為條件獨立(conditional independence),數學表示為: Y0iTi|HIncomei 它也意含 E(Y0i|HIncomei,Ti)=E(Y0i|HIncomei)

1.5 複迴歸模型

比較母體中同家庭所得層次樣本,此時有無「上大學」兩群人的平均薪資差異: E(Y|T=1,HIncome)E(Y|T=0,HIncome) 會得到大學文憑效應值嗎?

E(Y|T=1,HIncome)E(Y|T=0,HIncome)=E(Y0|T=1,HIncome)E(Y0|T=0,HIncome)+δ=E(Y0|HIncome)E(Y0|HIncome)+δ=δ

隨機變數訊息拆解

任何隨機變數一定可以被拆解成「可被解釋變數捕捉」的部份和「無法由被解釋變數捕捉」的部份,例如: Y=E(Y|T,HIncome)+(YE(Y|T,HIncome))ε=YE(Y|T,HIncome),則: Y=E(Y|T,HIncome)+ε. 其中 E(Y|T,HIncome)=E(Y0|T,HIncome)+δT=E(Y0|HIncome)+δTE(Y0|HIncome)=β0+β1HIncome為線性關連,則 Y=β0+β1HIncome+δT+ε 表示用迴歸模型(1.4)所得到的母體迴歸線可以用來代表E(Y|T,HIncome)

幾個重要觀念

  1. 迴歸模型可以幫我們得到E(Y|T,HIncome)值。
  2. E(Y|T,HIncome)是否有助於提煉出所要的效應值得回到效應模型來看。
由本節的問題討論,我們得知:

若「高中文憑薪資高低」(立足點)與「上大學與否」在相同「家庭所得」條件下會獨立,即(1.2)條件獨立成立,則上述複迴歸式的OLS估計式可以得到大學文憑效應的合理估計。

當迴歸分析的目的在衡量「因果效應」時,我們使用複迴歸的目的在於:

  • 確保「試驗變數」與「立足點」在相同「控制背景」下,具有《條件性獨立》的特質。