考慮如下矩陣表示的迴歸模型:
\[Y=X\beta+\epsilon\] 其中\(X\not\perp\epsilon\)(即X與\(\epsilon\)有關連)。假設我們找到工具變數群Z,其中: \[
Z\perp \epsilon.\\
Z\not\perp X.
\]
在兩階段最小平方法中,第一階段迴歸模型如下: \[ X=Z\gamma +u. \] 第二階段則是以第一階段X的配適值\(\hat{X}\)進行\(\beta\)OLS估計,得到\(\hat{\beta}=(\hat{X}'\hat{X})^{-1}(\hat{X}'Y)\),請進一步說明它可以寫成如下表示: \[ \hat{\beta}=(X'Z(Z'Z)^{-1}Z'X)^{-1}(X'Z(Z'Z)^{-1}Z'Y)\\ \]
第一階段得到 \[ \begin{array}{lcl} \hat{X} &=& Z\hat{\gamma} \\ &=& Z(Z'Z)^{-1}Z'X\\ &=& P_zX,\mbox{ where }P_z=Z(Z'Z)^{-1}Z'. \end{array} \] 第二階段: \[ \begin{array}{lcl} \hat{\beta} &=& (\hat{X}'\hat{X})^{-1}\hat{X}'Y\\ &=& (X'P_z'P_zX)^{-1}(X'P_z'Y) \end{array} \] 其中\(P_z\)為對稱矩陣,故\(P_z'=P_z\)。另外, 可驗證\(P_zP_z=Pz\)。故 \[ \begin{array}{lcl} \hat{\beta} &=& (X'P_zX)^{-1}(X'P_zY)\\ &=& (X'Z(Z'Z)^{-1}Z'X)^{-1}(X'Z(Z'Z)^{-1}Z'Y) \end{array} \]
有時資料並沒有所要的變數,但有其他具有代表性的替代變數(proxies)。如所要變數為「智商」,但智商沒有一定的衡量指標,我們常使用「IQ測驗成績」來代表智商,原因是我們認為它與「智商」有高度相關,也就是說: \[IQ測驗成績_i=智商_i+ \epsilon_i,\] 且兩者的correlation應該很高。要注意「智商」寫在式子右邊是因為邏輯上是智商影響IQ成績。
考慮一個效應結構模型: \[y_i=\beta^* x_i+\gamma w_i+y_{-x,-w,i}\] 其中\(x_i\)為效應解釋變數,\(w_i\)為控制變數,故\(y_{-x,-w,i}\)為去除x與w影響的立足點。假設\(y_{-x,-w,i}\)已達成條件式獨立,故它與\(x_i\)不相關(注:\(y_{-x,-w,i}\)是立足點拆出控制變數訊息影響部份,所以它也與\(w_i\)無關);因此,\(E(y_i|x_i,w_i)\)中\(x_i\)的係數會是\(\beta^*\),可直接用複迴歸得到\(\beta^*\)的一致性估計。
若我們沒有真正的\(x_i\)資料而改成使用它的替代變數\(\tilde{x}_i\)進行複迴歸,且令 \[\tilde{x}_i=x_i+\epsilon_i.\] 請問效應解釋變數使用替代變數下,\(\tilde{x}_i\)的OLS估計式還有一致性嗎?(驗證\(E(y_i|\tilde{x}_i,w_i)\)中\(\tilde{x_i}\)的係數是否為\(\beta^*\))要有一致性會需要什麼額外條件嗎?
參見作業2解答。
承接一開始的題目說明例子。若我們相信某個數學測驗成績(用\(z\)隨機變數表示)也受智商\(x\)影響,即: \[ z_i=\delta_0+\delta_1 x_i+v_i \] 而替代變數IQ測驗成績\(\tilde{x}_i\)與數學測驗成績\(z_i\)的關連性全來自智商\(x_i\),其餘的部份\(\epsilon_i\)及\(v_i\)只是反應兩個不同日期考試下此考生的當天考試考運狀況,因而\(\epsilon_i\)與\(v_i\)無關,而考運也與立足點\(y_{-x,-w,i}\)無關。請說明此時可以使用\(z\)當\(\tilde{x}\)的工具變數,取得\(\beta^*\)的一致性估計。
使用替代變數下的效應結構式為: \[ y_i=\beta^*\tilde{x}_i+\gamma w_i+(y_{-x,-w,i}-\beta^*\epsilon_i) \] z要做\(\tilde{x}\)的工具變數必須:
z與\((y_{-x,-w,i}-\beta^*\epsilon_i)\)無關。
z與\(\tilde{x}\)相關。
由於z與\(\tilde{x}\)均受\(x\)影響,故2成立。關於第1點,在\(z=\delta_0+\delta_1 x+v\)式中,我們已知\(x\)與\(y_{-x,-w,i}\)及\(\epsilon_i\)無關,所以關鍵在\(v\)。\(v\)是數學測驗當天考試考運狀況,為完全外生,故與\(y_{-x,-w,i}\)及\(\epsilon_i\)無關,所以第1點也成立。因此\(z\)為合理工具變數。
以下問題以,李浩仲等(2019)“哪類孩子最受教?從政大校務研究看學生表現”的研究文章為出發。文章中提到3類入學管道:考試分發、個人申請、推薦甄選。為了方便下面的討論,我們想像只有考試分發及個人申請兩個管道,且令: \[ \begin{array}{rl} PR: & \mbox{代表學生在政大的成績PR排名(PR越高越好)}\\ Chn: & \mbox{=1表示由個人申請入學,反之為考試分發} \end{array} \]
文章提到:
“如果要探討不同入學管道的效率,我們其實也應當考慮不同管道入學的學 生本身在學業準備的差異。” 接著作者加入學生入學前的學測成績(entryExam)作為控制變數。
由此段文字推論,一個有效率的入學管道是要讓什麼樣的學生容易被選進來。(注意,他的衡量指標是PR,所以你的說明也要繞著PR表現走。)
一旦放了學測成績為控制變數,立足點比較即變成在相同學測成績下比較不同管道入學後的表現,也就是說即使AB兩個學生都有相同的入學前學業準備(相同學測成績),但A在政大成績比B好,表示一定有其他個人特質面向使得A比B更適合唸政大,比較有效率的入學管道要能放大這些面向的合適性,讓A有較高的可能性被選進來。
加了entryExam後,作者比較的是相同入學前準備程度相同下,個人申請入學那群人的平均PR對上考試分發那群人的平均PR,也就是: \[ E(PR|Chn=1,entryExam)-E(PR|Chn=0,entryExam) \] 結果申請入學的估計條件期望值比較高。現行制度申請入學先於學測舉行,若反過來先學測再來才是申請入學,你覺得結果會如何?為什麼?反應出作者研究方法的什麼問題?
不管學測成績如何,學生通常會嘗試第一個時點的入學管道,若結果不盡理想,才去試第二個時點的入學管道。若兩種入學管理的選材效率相同,第一個時點自然會先篩入在政大成績會好的人,而造成第一時點的入學管道入學學生在政大的成績表現較佳的現象。
請執行以下程式載入本題所需資料labor.market:
rm(list=ls())
library(readr); library(AER); library(lmtest); library(sandwich); library(stargazer);
labor.market <- read_csv("https://raw.githubusercontent.com/tpemartin/github-data/master/Cornwell%20and%20Rupert%20panel.csv")
我們想要估計勞動市場供給線,使用如下的迴歸模型: \[ \begin{array}{lcl} wks &=& \beta_0+\beta^*lwage+\\ && +\beta_2 ed+\beta_3 union+\beta_4 fem+\epsilon. \end{array} \] 其中\(lwage\)為取對數之實質單位薪資,即\(\log(wage)\), 是我們關心的效應解釋變數,而其他解釋變數則為控制變數。ed為勞動者教育年限,虛擬變數union為1代表有加入工會,虛擬變數fem為1代表為女性。
請使用OLS估計\(\beta^*\)係數,並計算其異質變異穩健標準誤。
lm(wks~lwage+ed+union+fem,data=labor.market) -> ols41
coeftest(ols41,vcov.=vcovHC,type="HC1")
\(\hat{\beta}^*=0.7326\)其標準誤為0.2248。
根據上小題估計結果,實質薪資上升百分之一,預期勞動工時會上升多少單位? (註:\(d \log(wage)= d wage/wage\))
實質薪資上升百分之一(即\(\log(wage)\)增加0.01),預期勞動工時會上升0.007326。
有同學寫:預期勞動工時會上升0.7326%。這種寫法只有在wks也有取log時才可這樣詮釋。
請選一個控制變數,說一個要控制它的生活故事理由(非單純列出數學條件)。
實質薪資高的人,通常教育水準(ed)也高,然而由於高教育水準所從事的工作多為高腦力密集但(相對)低工時的工作,因此忽略教育水準的影響會低估薪資提高的工時效果。
由於供給線估計會有內生性偏誤問題,我們找了ind及smsa當工具變數。請使用兩階段最小平方法估計\(\beta^*\)係數,並呈現穩健標準誤。
ivreg(wks~lwage+ed+union+fem | ind+smsa+ed+union+fem,data=labor.market) -> tsls44
coeftest(tsls44,vcov.=sandwich::vcovHC,type="HC1",df=Inf)
\(\hat{\beta}^*=3.1518\)其標準誤為0.8774。
請進行三個工具變數合理性檢定。請明列虛無及對立假設,及5%顯著度或rule of thumb下的檢定結果。
summary(tsls44,vcov. = sandwich::vcovHC,type="HC1",
df=Inf,diagnostics = T)
弱工具變數檢定 \[ \begin{array}{ll} H0: & 弱工具變數\\ H1:& 強工具變數 \end{array} \] 檢定統計值121.780>10。接受H1:強工具變數。
Wu-Hausman(條件式)獨立檢定 \[ \begin{array}{ll} H0: & lwage已和殘差獨立(OLS及TSLS均可使用)\\ H1:& lwage不與殘差獨立(只能用TSLS) \end{array} \] 檢定統計值p-value為0.00339<0.05。接受H1:lwage不與殘差獨立(只能用TSLS)。
Sargan 1 NA 1.052 0.30495
Sargan工具變數排他性檢定 \[
\begin{array}{ll}
H0: & 工具變數與殘差獨立\\
H1:& 工具變數不與殘差獨立
\end{array}
\] 檢定統計值p-value為0.30495>0.05。不拒絕H0:工具變數與殘差獨立。