第 7 章 Difference-in-Differences (DiD) Estimation
- What’s new in Econometrics? Difference-in-Differences Estimation, Imbens and Wooldridge, NBER, 2007.
7.1 效應評估模型
效應問句:
“提高最低工資是否會減少就業?”
“最低工資提高是否餐廳的全職員工數會減少?”
假設MinWage為「最低工資有提高」的虛擬變數,FEmp為餐廳全職員工數。
效應模型長怎麼樣?
FEmp=FEmp MinWage=0+β∗MinWage
要有什麼條件,迴歸模型的OLS估計才會有效應係數的一致性估計?
這些餐廳在「沒有受到最低工資提高影響下的員工數」(FEmp0,i)不與「有無受到最低工資提高影響」(MinWagei)有關。
因為迴歸模型的ϵ=FEmp0−E(FEmp0),所以代表數學上MinWage與ϵ無關。
7.2 個體資料對上總體變數
通常最低工資政策是對整個國家或整個州適用,以美國為例,在1992年4月,新澤西州(NJ)的最低工資由$4.25調高到了$4.50,但鄰近的賓州(PA),則維持在$4.25。
若資料均來自1992年4月以後的時間,則MinWage=1與MinWage=0會分別代表NJ與PA的餐廳。
令s表示餐廳所屬的州,則原本的效應模型可以寫成: FEmpis=FEmp0,is+β∗MinWages
這裡MinWage只有下標s,因為同一州內的餐廳適用相同的政策。1992年4月以後的資料,MinWage將資料區分成兩群:
- 實驗組(treatment group,MinWage=1):NJ
- 控制組(control group,MinWage=0):PA
若效應模型(7.1)已滿足獨立性條件(即無忽略變數估計偏誤可能):
- 請設定迴歸模型。
- 說明迴歸模型中MinWage係數代表實驗組與控制組FEmp的母體平均相減。
7.3 訊息拆解
餐廳的型態(大型連鎖、咖啡店、小吃店等等)會影響員工僱用量。
先考慮個體層級的效應關係: FEmpis=FEmp0,is+β∗MinWages請對FEmp0進行訊息拆解。
FEmp0,is=FEmp0,is−E(FEmp0,is|typeis)+E(FEmp0,is|typeis)
7.4 複迴歸模型
考慮控制type的效應模型: FEmpis=FEmp0,−type,is+β∗MinWages+γ′typeis 其中 FEmp0,−type,is=FEmp0,is−E(FEmp0,is|typeis)
考慮如下的迴歸模型:
FEmpis=β0+β1MinWages+ϵis
1. 請問母體迴歸係數代表什麼?
2. 假設效應模型(7.2)中FEmp0,−type,is與MinWages無關連。母體迴歸係數要等於β∗的條件是什麼?
在思考怱略變數偏誤(omitted variable bias)時,可能的confounder都必需放在(依實驗組/控制組分的)加總層級來思考。
範例中,可能的confounder是typeis(即懷疑它會影響FEmpis),我們必需思考
- 是否實驗組(即MinWage=1)裡的 type母體平均與控制組(即MinWage=0)裡的type母體平均不同——也就是「是否E(typeis|MinWages)≠E(typeis)?」。
Confounder思考,以type為例:
- typeis會影響FEmp0,is嗎?
- E(typeis|MinWages)≠E(typeis)嗎?
7.5 固定效果
組固定效果
效應模型: FEmpis=FEmp0,is+β∗MinWages
多數時候實驗組/控制組在政策還沒施行前,他們就存在組間的特質差異,也就是 FEmp0,is=FEmp0,−αs,is+αs 其中αs代表因組而異的confounder效果。
提出一個組層級且不隨時間改變的confounder。
若組層級的confounder不隨時間改變,你會如何去除此confounder的影響?
考慮不同期的資料並用時間下標t區分,則效應模型可以寫成: FEmpist=FEmp0,−αs,ist+αs+β∗MinWagest
若沒有其他confounder,我們可以估計以下迴歸模型:
FEmpist=αs+β∗MinWagest+ϵist
在1992年4月NJ才調高最低工資,PA維持不變。若資料均來自1992年4月以後,上述迴歸模型會有什麼估計問題?
時間固定效果
一旦引入時間,我們可以考慮「因時而異」但「不因組而異」的confounder。
針對我們的範例,提出一個「因時而異」但「不因組而異」的confounder。
上述的變數表示應進一步分離出時間固定效果,故效應模型可寫為: FEmpist=FEmp0,−(αs,δt),ist+αs+δt+β∗MinWagest
所對應的迴歸模型為:
FEmpist=αs+δt+β∗MinWagest+ϵist
資料追踪/不追踪
雖然FEmpist有到個別餐廳(即有下標i),然而固定效果只到組層級(即下標s),因此在估計上我們並不需要追踪同一家餐廳——各期抽樣的餐廳可以不同。
如果資料是追踪資料可以嗎?
7.6 時間效果固定/不固定
起始效應模型: FEmpist=FEmp0,ist+β∗MinWagest 接著對FEmp0,ist進行「組」及「時間」面向的訊息拆解: FEmp0,ist=FEmp0,−(αs,δt),ist+αs+δt 其中 αs+δt≡E(FEmp0,ist|s,t)FEmp0,−(αs,δt),ist=FEmp0,ist−E(FEmp0,ist|s,t) 而得到效應模型: FEmpist=FEmp0,−(αs,δt),ist+αs+δt+β∗MinWagest
注意: E(FEmp0,ist|s,t)≡αs+δt 是假設的結果。
此線性關係對NJ和PA有什麼隱含假設?
7.7 差中差(Difference-in-differences, DD)估計法
效應模型: FEmpist=FEmp0,−(αs,δt),ist+αs+δt+β∗MinWagest
迴歸模型: FEmpist=αs+δt+β∗MinWagest+ϵist
由於MinWage=1與0的州必需要在「無提高最低工資下」,其預期(平均)餐廳全職顧用人數要有相似的時間趨勢,要找到這樣的比較對象不容易。一般:
組內的成員類型不會太多,比如:MinWage=0的組只有PA,但沒有其他州。
- 令D1=1代表來自第1個州(NJ)的虛擬變數。
另外,我們通常只比較一個政策前後的影響,所以:
只有政策施行前t=0與施行後t=1兩期。
- 令B1=1代表政策施行「後」的虛擬變數。
考慮迴歸模型: FEmpist=αs+δt+β1MinWagest+ϵist
若使用虛擬變數估計,則對應的虛擬變數迴歸模型要怎麼寫?
FEmpist=β0+α1D1s+δ1B1t+β1MinWagest+ϵist 其中,MinWagest=1只有當資料來自NJ(即D1s=1)且在政策施行「後」(即B1t=1),故 MinWagest=D1s×B1t 上述迴歸式也可以寫成: FEmpist=β0+α1D1s+δ1B1t+β1D1s×B1t+ϵist
State | t=0 | t=1 |
---|---|---|
NJ | ||
PA |
在這個設計裡:
NJ為實驗組(experimental group);PA為控制組(control group)
使用政策前的資料是為了找出兩組的立足點差別。
使用控制組前後期的差異是為了找出時間效果加以從實驗組剔除。
7.8 DD迴歸模型設計
2015年8月:北市3項老人福利政策施予對象以年滿65歲以上老人為主,只要持有敬老悠遊卡就可享有乘車優惠。
效應問句:“新政策是否增加老人行動力?”
你的「被解釋變數」會選什麼?
你的實驗組與控制組會選誰?
這兩組會有什麼立足點的問題?針對個別問題你會如何解決?
7.9 誤差項自我相關與異質變質
回顧
假設資料Yi由平均為μ、變異數為σ2的母體分配抽出。針對樣本平均ˉY=∑Ni=1Yi/N,我們知道E(ˉY)=μ,但這個μ的點估計式有多不準要用var(ˉY)來衡量。說明 var(ˉY)=σ2N+∑i≠jcov(Yi,Yj)N2
上式包含了兩個資料上的訊息:
1. 單筆資料自己的變異。
2. 兩筆資料間的關聯。
當我們有進一步的訊息時(令I表示所有的訊息),除了估計式可能改變外,我們對估計式不準確性的認知也應該會隨之改變。若假設訊息沒改變μ的點估計式,則我們所需要理解的不準確度必需寫成 var(ˉY)=σ2IN+∑i≠jcov(Yi,Yj|I)N2 其中σ2I=var(Yi|I)。
迴歸模型誤差
迴歸模型: FEmpist=αs+δt+β1MinWagest+ϵist 裡頭的訊息包含:
- 資料來自的州(s)與時間(t)
- 每筆資的解釋變數MinWage值
嚴格上來說,我們也知道資料來自那個餐廳,即i的值,但在多數DD應用上我們不是使用追踪資料,所以它並不會產生額外的訊息價值,我們在此可忽略。
對應這個模型,估計式的不準確度衡量牽涉到:
在樣本訊息I裡,關係到估計式不準確度的統計量即為:
每筆誤差項的var(ϵist|I)
任兩筆誤差項的cov(ϵist,ϵi′s′t′|I)
這也是迴歸式誤差項共變異矩陣(Ω)所要描述的訊息: Ω=E(ee′|I) 其中e=[ϵ1,NJ,0,ϵ2,NJ,0,…,ϵN,PA,1]′。
針對var(ϵist|I)及以下三類誤差項之共變異數(covariance)說明你認為它需要捕捉或表達什麼樣的結構:
NJ在政策前後所抽出的(非追踪)第1家餐廳: ϵ1,NJ,0,ϵ1,NJ,1
NJ在政策前所抽出的第1、2家餐廳: ϵ1,NJ,0,ϵ2,NJ,0 NJ在政策後所抽出的第1、2家餐廳: ϵ1,NJ,1,ϵ2,NJ,1
- 在政策前,NJ與PA所抽出的第1
家餐廳:
ϵ1,NJ,0,ϵ1,PA,0
在政策後,NJ與PA所抽出的第1家餐廳: ϵ1,NJ,1,ϵ1,PA,1
7.10 聚類標準誤(cluster standard error)
假設我們可以將誤差項訊息拆解成:
ϵist=ηst+vist
其中ηst在訊息拆解下自然與vist無關。為方便表示,以下書寫先暫時不寫訊息符號(I),但其實是有的。此時,
var(ϵist)=var(ηst)+var(vist)cov(ϵist,ϵis′t′)=cov(ηst,ηs′t′)
在我們的範例裡s=NJ,PA,t=0,1,若我們將資料依s與t的不同分群
State | t=0 | t=1 |
---|---|---|
NJ | G1 | G2 |
PA | G3 | G4 |
則我們有G1-G4共四群誤差項的變異數及跨群間的共變異數需要去留意,當誤差項有聚類(clustering)可能時,必需要適當的調整估計式標準誤。