第 7 章 Difference-in-Differences (DiD) Estimation

7.1 效應評估模型

效應問句:

“提高最低工資是否會減少就業?”

“最低工資提高是否餐廳的全職員工數會減少?”

假設\(MinWage\)為「最低工資有提高」的虛擬變數,\(FEmp\)為餐廳全職員工數。

效應模型長怎麼樣?

\[FEmp=FEmp_{\ MinWage=0}+\beta^*MinWage\]


\(i\)代表第\(i\)家餐廳,則效應模型可以寫成: \[FEmp_i=FEmp_{0,i}+\beta^*MinWage_i\] 考慮如下的迴歸模型: \[FEmp_i=\beta_0+\beta_1 MinWage_i+\epsilon_i\]

要有什麼條件,迴歸模型的OLS估計才會有效應係數的一致性估計?

這些餐廳在「沒有受到最低工資提高影響下的員工數」(\(FEmp_{0,i}\))不與「有無受到最低工資提高影響」(\(MinWage_i\))有關。

因為迴歸模型的\(\epsilon=FEmp_{0}-\mathbb{E}(FEmp_0)\),所以代表數學上\(MinWage\)\(\epsilon\)無關。

7.2 個體資料對上總體變數

通常最低工資政策是對整個國家或整個州適用,以美國為例,在1992年4月,新澤西州(NJ)的最低工資由$4.25調高到了$4.50,但鄰近的賓州(PA),則維持在$4.25。

若資料均來自1992年4月以後的時間,則\(MinWage=1\)\(MinWage=0\)會分別代表NJ與PA的餐廳。

\(s\)表示餐廳所屬的州,則原本的效應模型可以寫成: \[\begin{eqnarray} FEmp_{is}=FEmp_{0,is}+\beta^*MinWage_{s} \tag{7.1} \end{eqnarray}\]

這裡\(MinWage\)只有下標\(s\),因為同一州內的餐廳適用相同的政策。1992年4月以後的資料,\(MinWage\)將資料區分成兩群:

  • 實驗組(treatment group,\(MinWage=1\)):NJ
  • 控制組(control group,\(MinWage=0\)):PA

若效應模型(7.1)已滿足獨立性條件(即無忽略變數估計偏誤可能):

  1. 請設定迴歸模型。
  2. 說明迴歸模型中\(MinWage\)係數代表實驗組與控制組\(FEmp\)的母體平均相減。

7.3 訊息拆解

餐廳的型態(大型連鎖、咖啡店、小吃店等等)會影響員工僱用量。

先考慮個體層級的效應關係: \[FEmp_{is}=FEmp_{0,is}+\beta^*MinWage_{s}\]

請對\(FEmp_{0}\)進行訊息拆解。

\[FEmp_{0,is}=FEmp_{0,is}-\mathbb{E}(FEmp_{0,is}|type_{is})+\mathbb{E}(FEmp_{0,is}|type_{is})\]

7.4 複迴歸模型

考慮控制\(type\)的效應模型: \[\begin{eqnarray} FEmp_{is} =FEmp_{0,-type,is}+\beta^*MinWage_s+\gamma'type_{is} \tag{7.2} \end{eqnarray}\] 其中 \[FEmp_{0,-type,is}=FEmp_{0,is}-\mathbb{E}(FEmp_{0,is}|type_{is})\]

考慮如下的迴歸模型:
\[FEmp_{is} =\beta_0+\beta_1 MinWage_s+\epsilon_{is}\] 1. 請問母體迴歸係數代表什麼?
2. 假設效應模型(7.2)\(FEmp_{0,-type,is}\)\(MinWage_s\)無關連。母體迴歸係數要等於\(\beta^*\)的條件是什麼?


在思考怱略變數偏誤(omitted variable bias)時,可能的confounder都必需放在(依實驗組/控制組分的)加總層級來思考。

範例中,可能的confounder是\(type_{is}\)(即懷疑它會影響\(FEmp_{is}\)),我們必需思考

  • 是否實驗組(即\(MinWage=1\))裡的 \(type\)母體平均與控制組(即\(MinWage=0\))裡的\(type\)母體平均不同——也就是「是否\(\mathbb{E}(type_{is}|MinWage_s)\neq\mathbb{E}(type_{is})\)?」。

Confounder思考,以type為例:

  1. \(type_{is}\)會影響\(FEmp_{0,is}\)嗎?
  2. \(\mathbb{E}(type_{is}|MinWage_s)\neq\mathbb{E}(type_{is})\)嗎?

7.5 固定效果

組固定效果

效應模型: \[FEmp_{is}=FEmp_{0,is}+\beta^*MinWage_{s}\]

多數時候實驗組/控制組在政策還沒施行前,他們就存在組間的特質差異,也就是 \[FEmp_{0,is}=FEmp_{0,-\alpha_s,is}+\alpha_s\] 其中\(\alpha_s\)代表因組而異的confounder效果。

提出一個組層級且不隨時間改變的confounder。


若組層級的confounder不隨時間改變,你會如何去除此confounder的影響?

考慮不同期的資料並用時間下標\(t\)區分,則效應模型可以寫成: \[FEmp_{ist}=FEmp_{0,-\alpha_s,ist}+\alpha_s+\beta^*MinWage_{st}\]

若沒有其他confounder,我們可以估計以下迴歸模型:
\[FEmp_{ist}=\alpha_s+\beta^* MinWage_{st}+\epsilon_{ist}\]

在1992年4月NJ才調高最低工資,PA維持不變。若資料均來自1992年4月以後,上述迴歸模型會有什麼估計問題?


時間固定效果

一旦引入時間,我們可以考慮「因時而異」但「不因組而異」的confounder。

針對我們的範例,提出一個「因時而異」但「不因組而異」的confounder。

上述的變數表示應進一步分離出時間固定效果,故效應模型可寫為: \[FEmp_{ist}=FEmp_{0,-(\alpha_s,\delta_t),ist}+\alpha_s+\delta_t+\beta^*MinWage_{st}\]

所對應的迴歸模型為:
\[FEmp_{ist}=\alpha_s+\delta_t+\beta^* MinWage_{st}+\epsilon_{ist}\]

資料追踪/不追踪

雖然\(FEmp_{ist}\)有到個別餐廳(即有下標\(i\)),然而固定效果只到組層級(即下標\(s\)),因此在估計上我們並不需要追踪同一家餐廳——各期抽樣的餐廳可以不同。

如果資料是追踪資料可以嗎?

7.6 時間效果固定/不固定

起始效應模型: \[FEmp_{ist}=FEmp_{0,ist}+\beta^*MinWage_{st}\] 接著對\(FEmp_{0,ist}\)進行「組」及「時間」面向的訊息拆解: \[FEmp_{0,ist}=FEmp_{0,-(\alpha_s,\delta_t),ist}+\alpha_s+\delta_t\] 其中 \[\begin{align} \alpha_s+\delta_t & \equiv \mathbb{E}(FEmp_{0,ist}|s,t)\\ FEmp_{0,-(\alpha_s,\delta_t),ist} & = FEmp_{0,ist}-\mathbb{E}(FEmp_{0,ist}|s,t) \end{align}\] 而得到效應模型: \[FEmp_{ist}=FEmp_{0,-(\alpha_s,\delta_t),ist}+\alpha_s+\delta_t+\beta^*MinWage_{st}\]

注意: \[\mathbb{E}(FEmp_{0,ist}|s,t) \equiv \alpha_s+\delta_t\] 是假設的結果。

此線性關係對NJ和PA有什麼隱含假設?

7.7 差中差(Difference-in-differences, DD)估計法

效應模型: \[FEmp_{ist}=FEmp_{0,-(\alpha_s,\delta_t),ist}+\alpha_s+\delta_t+\beta^*MinWage_{st}\]

迴歸模型: \[\begin{eqnarray} FEmp_{ist}=\alpha_s+\delta_t+\beta^*MinWage_{st}+\epsilon_{ist} \tag{7.3} \end{eqnarray}\]

由於MinWage=1與0的州必需要在「無提高最低工資下」,其預期(平均)餐廳全職顧用人數要有相似的時間趨勢,要找到這樣的比較對象不容易。一般:

  • 組內的成員類型不會太多,比如:MinWage=0的組只有PA,但沒有其他州。

    • \(D1=1\)代表來自第1個州(NJ)的虛擬變數。

另外,我們通常只比較一個政策前後的影響,所以:

  • 只有政策施行前\(t=0\)與施行後\(t=1\)兩期。

    • \(B1=1\)代表政策施行「後」的虛擬變數。

考慮迴歸模型: \[FEmp_{ist}=\alpha_s+\delta_t+\beta_1MinWage_{st}+\epsilon_{ist}\]

若使用虛擬變數估計,則對應的虛擬變數迴歸模型要怎麼寫?

\[FEmp_{ist}=\beta_0+\alpha_1D1_s+\delta_1B1_t+\beta_1MinWage_{st}+\epsilon_{ist}\] 其中,\(MinWage_{st}=1\)只有當資料來自NJ(即\(D1_s=1\))且在政策施行「後」(即\(B1_t=1\)),故 \[MinWage_{st}=D1_s\times B1_t\] 上述迴歸式也可以寫成: \[FEmp_{ist}=\beta_0+\alpha_1D1_s+\delta_1B1_t+\beta_1D1_s\times B1_t+\epsilon_{ist}\]


依據上題的迴歸模型,請填入下面四種情境的被解釋變數期望值及對應的參數:
State t=0 t=1
NJ
PA

在這個設計裡:

  • NJ為實驗組(experimental group);PA為控制組(control group)

  • 使用政策前的資料是為了找出兩組的立足點差別。

  • 使用控制組前後期的差異是為了找出時間效果加以從實驗組剔除。

7.8 DD迴歸模型設計

2015年8月:北市3項老人福利政策施予對象以年滿65歲以上老人為主,只要持有敬老悠遊卡就可享有乘車優惠。

效應問句:“新政策是否增加老人行動力?”

你的「被解釋變數」會選什麼?


你的實驗組與控制組會選誰?


這兩組會有什麼立足點的問題?針對個別問題你會如何解決?

7.9 誤差項自我相關與異質變質

回顧

假設資料\(Y_i\)由平均為\(\mu\)、變異數為\(\sigma^2\)的母體分配抽出。針對樣本平均\(\bar{Y}=\sum_{i=1}^N Y_i/N\),我們知道\(\mathbb{E}(\bar{Y})=\mu\),但這個\(\mu\)的點估計式有多不準要用\(var(\bar{Y})\)來衡量。

說明 \[var(\bar{Y})=\frac{\sigma^{2}}{N}+\frac{\sum_{i\neq j} cov(Y_i,Y_j)}{N^2}\]

上式包含了兩個資料上的訊息:
1. 單筆資料自己的變異。
2. 兩筆資料間的關聯。

當我們有進一步的訊息時(令\(\mathcal{I}\)表示所有的訊息),除了估計式可能改變外,我們對估計式不準確性的認知也應該會隨之改變。若假設訊息沒改變\(\mu\)的點估計式,則我們所需要理解的不準確度必需寫成 \[var(\bar{Y})=\frac{\sigma_{\mathcal{I}}^{2}}{N}+\frac{\sum_{i\neq j} cov(Y_i,Y_j|\mathcal{I})}{N^2}\] 其中\(\sigma_{\mathcal{I}}^2=var(Y_i|\mathcal{I})\)

迴歸模型誤差

迴歸模型: \[FEmp_{ist}=\alpha_s+\delta_t+\beta_1MinWage_{st}+\epsilon_{ist}\] 裡頭的訊息包含:

  1. 資料來自的州(s)與時間(t)
  2. 每筆資的解釋變數MinWage值

嚴格上來說,我們也知道資料來自那個餐廳,即i的值,但在多數DD應用上我們不是使用追踪資料,所以它並不會產生額外的訊息價值,我們在此可忽略。

對應這個模型,估計式的不準確度衡量牽涉到:

在樣本訊息\(\mathcal{I}\)裡,關係到估計式不準確度的統計量即為:

  1. 每筆誤差項的\(var(\epsilon_{ist}|\mathcal{I})\)

  2. 任兩筆誤差項的\(cov(\epsilon_{ist},\epsilon_{i's't'}|\mathcal{I})\)

這也是迴歸式誤差項共變異矩陣(\(\Omega\))所要描述的訊息: \[\Omega=\mathbb{E}(ee'|\mathcal{I})\] 其中\(e=[\epsilon_{1,NJ,0},\epsilon_{2,NJ,0},\dots,\epsilon_{N,PA,1}]'\)

針對\(var(\epsilon_{ist}|\mathcal{I})\)及以下三類誤差項之共變異數(covariance)說明你認為它需要捕捉或表達什麼樣的結構:

  1. NJ在政策前後所抽出的(非追踪)第1家餐廳: \[\epsilon_{1,NJ,0},\epsilon_{1,NJ,1}\]

  2. NJ在政策前所抽出的第1、2家餐廳: \[\epsilon_{1,NJ,0},\epsilon_{2,NJ,0}\] NJ在政策後所抽出的第1、2家餐廳: \[\epsilon_{1,NJ,1},\epsilon_{2,NJ,1}\]

  3. 在政策前,NJ與PA所抽出的第1 家餐廳: \[\epsilon_{1,NJ,0},\epsilon_{1,PA,0}\]
    在政策後,NJ與PA所抽出的第1家餐廳: \[\epsilon_{1,NJ,1},\epsilon_{1,PA,1}\]

7.10 聚類標準誤(cluster standard error)

假設我們可以將誤差項訊息拆解成:
\[\epsilon_{ist}=\eta_{st}+v_{ist}\] 其中\(\eta_{st}\)在訊息拆解下自然與\(v_{ist}\)無關。為方便表示,以下書寫先暫時不寫訊息符號(\(\mathcal{I}\)),但其實是有的。此時, \[\begin{align} var(\epsilon_{ist}) & = var(\eta_{st})+var(v_{ist})\\ cov(\epsilon_{ist},\epsilon_{is't'}) & =cov(\eta_{st},\eta_{s't'}) \end{align}\]

在我們的範例裡\(s=NJ,PA\)\(t=0,1\),若我們將資料依\(s\)\(t\)的不同分群

State t=0 t=1
NJ G1 G2
PA G3 G4

則我們有G1-G4共四群誤差項的變異數及跨群間的共變異數需要去留意,當誤差項有聚類(clustering)可能時,必需要適當的調整估計式標準誤。