第 7 章 Difference-in-Differences (DiD) Estimation
- What’s new in Econometrics? Difference-in-Differences Estimation, Imbens and Wooldridge, NBER, 2007.
7.1 效應評估模型
效應問句:
“提高最低工資是否會減少就業?”
“最低工資提高是否餐廳的全職員工數會減少?”
假設\(MinWage\)為「最低工資有提高」的虛擬變數,\(FEmp\)為餐廳全職員工數。
效應模型長怎麼樣?
\[FEmp=FEmp_{\ MinWage=0}+\beta^*MinWage\]
要有什麼條件,迴歸模型的OLS估計才會有效應係數的一致性估計?
這些餐廳在「沒有受到最低工資提高影響下的員工數」(\(FEmp_{0,i}\))不與「有無受到最低工資提高影響」(\(MinWage_i\))有關。
因為迴歸模型的\(\epsilon=FEmp_{0}-\mathbb{E}(FEmp_0)\),所以代表數學上\(MinWage\)與\(\epsilon\)無關。
7.2 個體資料對上總體變數
通常最低工資政策是對整個國家或整個州適用,以美國為例,在1992年4月,新澤西州(NJ)的最低工資由$4.25調高到了$4.50,但鄰近的賓州(PA),則維持在$4.25。
若資料均來自1992年4月以後的時間,則\(MinWage=1\)與\(MinWage=0\)會分別代表NJ與PA的餐廳。
令\(s\)表示餐廳所屬的州,則原本的效應模型可以寫成: \[\begin{eqnarray} FEmp_{is}=FEmp_{0,is}+\beta^*MinWage_{s} \tag{7.1} \end{eqnarray}\]
這裡\(MinWage\)只有下標\(s\),因為同一州內的餐廳適用相同的政策。1992年4月以後的資料,\(MinWage\)將資料區分成兩群:
- 實驗組(treatment group,\(MinWage=1\)):NJ
- 控制組(control group,\(MinWage=0\)):PA
若效應模型(7.1)已滿足獨立性條件(即無忽略變數估計偏誤可能):
- 請設定迴歸模型。
- 說明迴歸模型中\(MinWage\)係數代表實驗組與控制組\(FEmp\)的母體平均相減。
7.3 訊息拆解
餐廳的型態(大型連鎖、咖啡店、小吃店等等)會影響員工僱用量。
先考慮個體層級的效應關係: \[FEmp_{is}=FEmp_{0,is}+\beta^*MinWage_{s}\]請對\(FEmp_{0}\)進行訊息拆解。
\[FEmp_{0,is}=FEmp_{0,is}-\mathbb{E}(FEmp_{0,is}|type_{is})+\mathbb{E}(FEmp_{0,is}|type_{is})\]
7.4 複迴歸模型
考慮控制\(type\)的效應模型: \[\begin{eqnarray} FEmp_{is} =FEmp_{0,-type,is}+\beta^*MinWage_s+\gamma'type_{is} \tag{7.2} \end{eqnarray}\] 其中 \[FEmp_{0,-type,is}=FEmp_{0,is}-\mathbb{E}(FEmp_{0,is}|type_{is})\]
考慮如下的迴歸模型:
\[FEmp_{is} =\beta_0+\beta_1 MinWage_s+\epsilon_{is}\]
1. 請問母體迴歸係數代表什麼?
2. 假設效應模型(7.2)中\(FEmp_{0,-type,is}\)與\(MinWage_s\)無關連。母體迴歸係數要等於\(\beta^*\)的條件是什麼?
在思考怱略變數偏誤(omitted variable bias)時,可能的confounder都必需放在(依實驗組/控制組分的)加總層級來思考。
範例中,可能的confounder是\(type_{is}\)(即懷疑它會影響\(FEmp_{is}\)),我們必需思考
- 是否實驗組(即\(MinWage=1\))裡的 \(type\)母體平均與控制組(即\(MinWage=0\))裡的\(type\)母體平均不同——也就是「是否\(\mathbb{E}(type_{is}|MinWage_s)\neq\mathbb{E}(type_{is})\)?」。
Confounder思考,以type為例:
- \(type_{is}\)會影響\(FEmp_{0,is}\)嗎?
- \(\mathbb{E}(type_{is}|MinWage_s)\neq\mathbb{E}(type_{is})\)嗎?
7.5 固定效果
組固定效果
效應模型: \[FEmp_{is}=FEmp_{0,is}+\beta^*MinWage_{s}\]
多數時候實驗組/控制組在政策還沒施行前,他們就存在組間的特質差異,也就是 \[FEmp_{0,is}=FEmp_{0,-\alpha_s,is}+\alpha_s\] 其中\(\alpha_s\)代表因組而異的confounder效果。
提出一個組層級且不隨時間改變的confounder。
若組層級的confounder不隨時間改變,你會如何去除此confounder的影響?
考慮不同期的資料並用時間下標\(t\)區分,則效應模型可以寫成: \[FEmp_{ist}=FEmp_{0,-\alpha_s,ist}+\alpha_s+\beta^*MinWage_{st}\]
若沒有其他confounder,我們可以估計以下迴歸模型:
\[FEmp_{ist}=\alpha_s+\beta^* MinWage_{st}+\epsilon_{ist}\]
在1992年4月NJ才調高最低工資,PA維持不變。若資料均來自1992年4月以後,上述迴歸模型會有什麼估計問題?
時間固定效果
一旦引入時間,我們可以考慮「因時而異」但「不因組而異」的confounder。
針對我們的範例,提出一個「因時而異」但「不因組而異」的confounder。
上述的變數表示應進一步分離出時間固定效果,故效應模型可寫為: \[FEmp_{ist}=FEmp_{0,-(\alpha_s,\delta_t),ist}+\alpha_s+\delta_t+\beta^*MinWage_{st}\]
所對應的迴歸模型為:
\[FEmp_{ist}=\alpha_s+\delta_t+\beta^* MinWage_{st}+\epsilon_{ist}\]
資料追踪/不追踪
雖然\(FEmp_{ist}\)有到個別餐廳(即有下標\(i\)),然而固定效果只到組層級(即下標\(s\)),因此在估計上我們並不需要追踪同一家餐廳——各期抽樣的餐廳可以不同。
如果資料是追踪資料可以嗎?
7.6 時間效果固定/不固定
起始效應模型: \[FEmp_{ist}=FEmp_{0,ist}+\beta^*MinWage_{st}\] 接著對\(FEmp_{0,ist}\)進行「組」及「時間」面向的訊息拆解: \[FEmp_{0,ist}=FEmp_{0,-(\alpha_s,\delta_t),ist}+\alpha_s+\delta_t\] 其中 \[\begin{align} \alpha_s+\delta_t & \equiv \mathbb{E}(FEmp_{0,ist}|s,t)\\ FEmp_{0,-(\alpha_s,\delta_t),ist} & = FEmp_{0,ist}-\mathbb{E}(FEmp_{0,ist}|s,t) \end{align}\] 而得到效應模型: \[FEmp_{ist}=FEmp_{0,-(\alpha_s,\delta_t),ist}+\alpha_s+\delta_t+\beta^*MinWage_{st}\]
注意: \[\mathbb{E}(FEmp_{0,ist}|s,t) \equiv \alpha_s+\delta_t\] 是假設的結果。
此線性關係對NJ和PA有什麼隱含假設?
7.7 差中差(Difference-in-differences, DD)估計法
效應模型: \[FEmp_{ist}=FEmp_{0,-(\alpha_s,\delta_t),ist}+\alpha_s+\delta_t+\beta^*MinWage_{st}\]
迴歸模型: \[\begin{eqnarray} FEmp_{ist}=\alpha_s+\delta_t+\beta^*MinWage_{st}+\epsilon_{ist} \tag{7.3} \end{eqnarray}\]
由於MinWage=1與0的州必需要在「無提高最低工資下」,其預期(平均)餐廳全職顧用人數要有相似的時間趨勢,要找到這樣的比較對象不容易。一般:
組內的成員類型不會太多,比如:MinWage=0的組只有PA,但沒有其他州。
- 令\(D1=1\)代表來自第1個州(NJ)的虛擬變數。
另外,我們通常只比較一個政策前後的影響,所以:
只有政策施行前\(t=0\)與施行後\(t=1\)兩期。
- 令\(B1=1\)代表政策施行「後」的虛擬變數。
考慮迴歸模型: \[FEmp_{ist}=\alpha_s+\delta_t+\beta_1MinWage_{st}+\epsilon_{ist}\]
若使用虛擬變數估計,則對應的虛擬變數迴歸模型要怎麼寫?
\[FEmp_{ist}=\beta_0+\alpha_1D1_s+\delta_1B1_t+\beta_1MinWage_{st}+\epsilon_{ist}\] 其中,\(MinWage_{st}=1\)只有當資料來自NJ(即\(D1_s=1\))且在政策施行「後」(即\(B1_t=1\)),故 \[MinWage_{st}=D1_s\times B1_t\] 上述迴歸式也可以寫成: \[FEmp_{ist}=\beta_0+\alpha_1D1_s+\delta_1B1_t+\beta_1D1_s\times B1_t+\epsilon_{ist}\]
State | t=0 | t=1 |
---|---|---|
NJ | ||
PA |
在這個設計裡:
NJ為實驗組(experimental group);PA為控制組(control group)
使用政策前的資料是為了找出兩組的立足點差別。
使用控制組前後期的差異是為了找出時間效果加以從實驗組剔除。
7.8 DD迴歸模型設計
2015年8月:北市3項老人福利政策施予對象以年滿65歲以上老人為主,只要持有敬老悠遊卡就可享有乘車優惠。
效應問句:“新政策是否增加老人行動力?”
你的「被解釋變數」會選什麼?
你的實驗組與控制組會選誰?
這兩組會有什麼立足點的問題?針對個別問題你會如何解決?
7.9 誤差項自我相關與異質變質
回顧
假設資料\(Y_i\)由平均為\(\mu\)、變異數為\(\sigma^2\)的母體分配抽出。針對樣本平均\(\bar{Y}=\sum_{i=1}^N Y_i/N\),我們知道\(\mathbb{E}(\bar{Y})=\mu\),但這個\(\mu\)的點估計式有多不準要用\(var(\bar{Y})\)來衡量。說明 \[var(\bar{Y})=\frac{\sigma^{2}}{N}+\frac{\sum_{i\neq j} cov(Y_i,Y_j)}{N^2}\]
上式包含了兩個資料上的訊息:
1. 單筆資料自己的變異。
2. 兩筆資料間的關聯。
當我們有進一步的訊息時(令\(\mathcal{I}\)表示所有的訊息),除了估計式可能改變外,我們對估計式不準確性的認知也應該會隨之改變。若假設訊息沒改變\(\mu\)的點估計式,則我們所需要理解的不準確度必需寫成 \[var(\bar{Y})=\frac{\sigma_{\mathcal{I}}^{2}}{N}+\frac{\sum_{i\neq j} cov(Y_i,Y_j|\mathcal{I})}{N^2}\] 其中\(\sigma_{\mathcal{I}}^2=var(Y_i|\mathcal{I})\)。
迴歸模型誤差
迴歸模型: \[FEmp_{ist}=\alpha_s+\delta_t+\beta_1MinWage_{st}+\epsilon_{ist}\] 裡頭的訊息包含:
- 資料來自的州(s)與時間(t)
- 每筆資的解釋變數MinWage值
嚴格上來說,我們也知道資料來自那個餐廳,即i的值,但在多數DD應用上我們不是使用追踪資料,所以它並不會產生額外的訊息價值,我們在此可忽略。
對應這個模型,估計式的不準確度衡量牽涉到:
在樣本訊息\(\mathcal{I}\)裡,關係到估計式不準確度的統計量即為:
每筆誤差項的\(var(\epsilon_{ist}|\mathcal{I})\)
任兩筆誤差項的\(cov(\epsilon_{ist},\epsilon_{i's't'}|\mathcal{I})\)
這也是迴歸式誤差項共變異矩陣(\(\Omega\))所要描述的訊息: \[\Omega=\mathbb{E}(ee'|\mathcal{I})\] 其中\(e=[\epsilon_{1,NJ,0},\epsilon_{2,NJ,0},\dots,\epsilon_{N,PA,1}]'\)。
針對\(var(\epsilon_{ist}|\mathcal{I})\)及以下三類誤差項之共變異數(covariance)說明你認為它需要捕捉或表達什麼樣的結構:
NJ在政策前後所抽出的(非追踪)第1家餐廳: \[\epsilon_{1,NJ,0},\epsilon_{1,NJ,1}\]
NJ在政策前所抽出的第1、2家餐廳: \[\epsilon_{1,NJ,0},\epsilon_{2,NJ,0}\] NJ在政策後所抽出的第1、2家餐廳: \[\epsilon_{1,NJ,1},\epsilon_{2,NJ,1}\]
- 在政策前,NJ與PA所抽出的第1
家餐廳:
\[\epsilon_{1,NJ,0},\epsilon_{1,PA,0}\]
在政策後,NJ與PA所抽出的第1家餐廳: \[\epsilon_{1,NJ,1},\epsilon_{1,PA,1}\]
7.10 聚類標準誤(cluster standard error)
假設我們可以將誤差項訊息拆解成:
\[\epsilon_{ist}=\eta_{st}+v_{ist}\]
其中\(\eta_{st}\)在訊息拆解下自然與\(v_{ist}\)無關。為方便表示,以下書寫先暫時不寫訊息符號(\(\mathcal{I}\)),但其實是有的。此時,
\[\begin{align}
var(\epsilon_{ist}) & = var(\eta_{st})+var(v_{ist})\\
cov(\epsilon_{ist},\epsilon_{is't'}) & =cov(\eta_{st},\eta_{s't'})
\end{align}\]
在我們的範例裡\(s=NJ,PA\),\(t=0,1\),若我們將資料依\(s\)與\(t\)的不同分群
State | t=0 | t=1 |
---|---|---|
NJ | G1 | G2 |
PA | G3 | G4 |
則我們有G1-G4共四群誤差項的變異數及跨群間的共變異數需要去留意,當誤差項有聚類(clustering)可能時,必需要適當的調整估計式標準誤。