第 7 章 Difference-in-Differences (DiD) Estimation

7.1 效應評估模型

效應問句:

“提高最低工資是否會減少就業?”

“最低工資提高是否餐廳的全職員工數會減少?”

假設MinWage為「最低工資有提高」的虛擬變數,FEmp為餐廳全職員工數。

效應模型長怎麼樣?

FEmp=FEmp MinWage=0+βMinWage


i代表第i家餐廳,則效應模型可以寫成: FEmpi=FEmp0,i+βMinWagei 考慮如下的迴歸模型: FEmpi=β0+β1MinWagei+ϵi

要有什麼條件,迴歸模型的OLS估計才會有效應係數的一致性估計?

這些餐廳在「沒有受到最低工資提高影響下的員工數」(FEmp0,i)不與「有無受到最低工資提高影響」(MinWagei)有關。

因為迴歸模型的ϵ=FEmp0E(FEmp0),所以代表數學上MinWageϵ無關。

7.2 個體資料對上總體變數

通常最低工資政策是對整個國家或整個州適用,以美國為例,在1992年4月,新澤西州(NJ)的最低工資由$4.25調高到了$4.50,但鄰近的賓州(PA),則維持在$4.25。

若資料均來自1992年4月以後的時間,則MinWage=1MinWage=0會分別代表NJ與PA的餐廳。

s表示餐廳所屬的州,則原本的效應模型可以寫成: FEmpis=FEmp0,is+βMinWages

這裡MinWage只有下標s,因為同一州內的餐廳適用相同的政策。1992年4月以後的資料,MinWage將資料區分成兩群:

  • 實驗組(treatment group,MinWage=1):NJ
  • 控制組(control group,MinWage=0):PA

若效應模型(7.1)已滿足獨立性條件(即無忽略變數估計偏誤可能):

  1. 請設定迴歸模型。
  2. 說明迴歸模型中MinWage係數代表實驗組與控制組FEmp的母體平均相減。

7.3 訊息拆解

餐廳的型態(大型連鎖、咖啡店、小吃店等等)會影響員工僱用量。

先考慮個體層級的效應關係: FEmpis=FEmp0,is+βMinWages

請對FEmp0進行訊息拆解。

FEmp0,is=FEmp0,isE(FEmp0,is|typeis)+E(FEmp0,is|typeis)

7.4 複迴歸模型

考慮控制type的效應模型: FEmpis=FEmp0,type,is+βMinWages+γtypeis 其中 FEmp0,type,is=FEmp0,isE(FEmp0,is|typeis)

考慮如下的迴歸模型:
FEmpis=β0+β1MinWages+ϵis 1. 請問母體迴歸係數代表什麼?
2. 假設效應模型(7.2)FEmp0,type,isMinWages無關連。母體迴歸係數要等於β的條件是什麼?


在思考怱略變數偏誤(omitted variable bias)時,可能的confounder都必需放在(依實驗組/控制組分的)加總層級來思考。

範例中,可能的confounder是typeis(即懷疑它會影響FEmpis),我們必需思考

  • 是否實驗組(即MinWage=1)裡的 type母體平均與控制組(即MinWage=0)裡的type母體平均不同——也就是「是否E(typeis|MinWages)E(typeis)?」。

Confounder思考,以type為例:

  1. typeis會影響FEmp0,is嗎?
  2. E(typeis|MinWages)E(typeis)嗎?

7.5 固定效果

組固定效果

效應模型: FEmpis=FEmp0,is+βMinWages

多數時候實驗組/控制組在政策還沒施行前,他們就存在組間的特質差異,也就是 FEmp0,is=FEmp0,αs,is+αs 其中αs代表因組而異的confounder效果。

提出一個組層級且不隨時間改變的confounder。


若組層級的confounder不隨時間改變,你會如何去除此confounder的影響?

考慮不同期的資料並用時間下標t區分,則效應模型可以寫成: FEmpist=FEmp0,αs,ist+αs+βMinWagest

若沒有其他confounder,我們可以估計以下迴歸模型:
FEmpist=αs+βMinWagest+ϵist

在1992年4月NJ才調高最低工資,PA維持不變。若資料均來自1992年4月以後,上述迴歸模型會有什麼估計問題?


時間固定效果

一旦引入時間,我們可以考慮「因時而異」但「不因組而異」的confounder。

針對我們的範例,提出一個「因時而異」但「不因組而異」的confounder。

上述的變數表示應進一步分離出時間固定效果,故效應模型可寫為: FEmpist=FEmp0,(αs,δt),ist+αs+δt+βMinWagest

所對應的迴歸模型為:
FEmpist=αs+δt+βMinWagest+ϵist

資料追踪/不追踪

雖然FEmpist有到個別餐廳(即有下標i),然而固定效果只到組層級(即下標s),因此在估計上我們並不需要追踪同一家餐廳——各期抽樣的餐廳可以不同。

如果資料是追踪資料可以嗎?

7.6 時間效果固定/不固定

起始效應模型: FEmpist=FEmp0,ist+βMinWagest 接著對FEmp0,ist進行「組」及「時間」面向的訊息拆解: FEmp0,ist=FEmp0,(αs,δt),ist+αs+δt 其中 αs+δtE(FEmp0,ist|s,t)FEmp0,(αs,δt),ist=FEmp0,istE(FEmp0,ist|s,t) 而得到效應模型: FEmpist=FEmp0,(αs,δt),ist+αs+δt+βMinWagest

注意: E(FEmp0,ist|s,t)αs+δt 是假設的結果。

此線性關係對NJ和PA有什麼隱含假設?

7.7 差中差(Difference-in-differences, DD)估計法

效應模型: FEmpist=FEmp0,(αs,δt),ist+αs+δt+βMinWagest

迴歸模型: FEmpist=αs+δt+βMinWagest+ϵist

由於MinWage=1與0的州必需要在「無提高最低工資下」,其預期(平均)餐廳全職顧用人數要有相似的時間趨勢,要找到這樣的比較對象不容易。一般:

  • 組內的成員類型不會太多,比如:MinWage=0的組只有PA,但沒有其他州。

    • D1=1代表來自第1個州(NJ)的虛擬變數。

另外,我們通常只比較一個政策前後的影響,所以:

  • 只有政策施行前t=0與施行後t=1兩期。

    • B1=1代表政策施行「後」的虛擬變數。

考慮迴歸模型: FEmpist=αs+δt+β1MinWagest+ϵist

若使用虛擬變數估計,則對應的虛擬變數迴歸模型要怎麼寫?

FEmpist=β0+α1D1s+δ1B1t+β1MinWagest+ϵist 其中,MinWagest=1只有當資料來自NJ(即D1s=1)且在政策施行「後」(即B1t=1),故 MinWagest=D1s×B1t 上述迴歸式也可以寫成: FEmpist=β0+α1D1s+δ1B1t+β1D1s×B1t+ϵist


依據上題的迴歸模型,請填入下面四種情境的被解釋變數期望值及對應的參數:
State t=0 t=1
NJ
PA

在這個設計裡:

  • NJ為實驗組(experimental group);PA為控制組(control group)

  • 使用政策前的資料是為了找出兩組的立足點差別。

  • 使用控制組前後期的差異是為了找出時間效果加以從實驗組剔除。

7.8 DD迴歸模型設計

2015年8月:北市3項老人福利政策施予對象以年滿65歲以上老人為主,只要持有敬老悠遊卡就可享有乘車優惠。

效應問句:“新政策是否增加老人行動力?”

你的「被解釋變數」會選什麼?


你的實驗組與控制組會選誰?


這兩組會有什麼立足點的問題?針對個別問題你會如何解決?

7.9 誤差項自我相關與異質變質

回顧

假設資料Yi由平均為μ、變異數為σ2的母體分配抽出。針對樣本平均ˉY=Ni=1Yi/N,我們知道E(ˉY)=μ,但這個μ的點估計式有多不準要用var(ˉY)來衡量。

說明 var(ˉY)=σ2N+ijcov(Yi,Yj)N2

上式包含了兩個資料上的訊息:
1. 單筆資料自己的變異。
2. 兩筆資料間的關聯。

當我們有進一步的訊息時(令I表示所有的訊息),除了估計式可能改變外,我們對估計式不準確性的認知也應該會隨之改變。若假設訊息沒改變μ的點估計式,則我們所需要理解的不準確度必需寫成 var(ˉY)=σ2IN+ijcov(Yi,Yj|I)N2 其中σ2I=var(Yi|I)

迴歸模型誤差

迴歸模型: FEmpist=αs+δt+β1MinWagest+ϵist 裡頭的訊息包含:

  1. 資料來自的州(s)與時間(t)
  2. 每筆資的解釋變數MinWage值

嚴格上來說,我們也知道資料來自那個餐廳,即i的值,但在多數DD應用上我們不是使用追踪資料,所以它並不會產生額外的訊息價值,我們在此可忽略。

對應這個模型,估計式的不準確度衡量牽涉到:

在樣本訊息I裡,關係到估計式不準確度的統計量即為:

  1. 每筆誤差項的var(ϵist|I)

  2. 任兩筆誤差項的cov(ϵist,ϵist|I)

這也是迴歸式誤差項共變異矩陣(Ω)所要描述的訊息: Ω=E(ee|I) 其中e=[ϵ1,NJ,0,ϵ2,NJ,0,,ϵN,PA,1]

針對var(ϵist|I)及以下三類誤差項之共變異數(covariance)說明你認為它需要捕捉或表達什麼樣的結構:

  1. NJ在政策前後所抽出的(非追踪)第1家餐廳: ϵ1,NJ,0,ϵ1,NJ,1

  2. NJ在政策前所抽出的第1、2家餐廳: ϵ1,NJ,0,ϵ2,NJ,0 NJ在政策後所抽出的第1、2家餐廳: ϵ1,NJ,1,ϵ2,NJ,1

  3. 在政策前,NJ與PA所抽出的第1 家餐廳: ϵ1,NJ,0,ϵ1,PA,0
    在政策後,NJ與PA所抽出的第1家餐廳: ϵ1,NJ,1,ϵ1,PA,1

7.10 聚類標準誤(cluster standard error)

假設我們可以將誤差項訊息拆解成:
ϵist=ηst+vist 其中ηst在訊息拆解下自然與vist無關。為方便表示,以下書寫先暫時不寫訊息符號(I),但其實是有的。此時, var(ϵist)=var(ηst)+var(vist)cov(ϵist,ϵist)=cov(ηst,ηst)

在我們的範例裡s=NJ,PAt=0,1,若我們將資料依st的不同分群

State t=0 t=1
NJ G1 G2
PA G3 G4

則我們有G1-G4共四群誤差項的變異數及跨群間的共變異數需要去留意,當誤差項有聚類(clustering)可能時,必需要適當的調整估計式標準誤。