12 Porter and Velez (2021)
摘要自 Porter and Velez (2021)。
12.1 文獻回顧與論點
安慰劑常用於實地實驗。實驗最重要的是要識別處置效果 \(E[Y_1-Y_0]\),這樣其實有控制組(control group)和實驗組(treatment group)就夠。加入安慰劑組(placebo group)的目的其中之一想要解決 treatment compliance 的問題。作者發現在政治學界中,各個學者執行調查實驗時所選用安慰劑的方法和目的並不一致。作者從 American Journal of Political Science、American Political Science Review、Journal of Politics、Political Psychology、Political Behavior、Public Opinion Quarterly、International Organization 與 Comparative Political Studies 在 2009 年至 2020 年間所刊登的文章中,挑出有提到「安慰劑」的調查實驗樣本,共有 22 篇文章。樣本中,學者對安慰劑的用法有些分歧,但安慰劑的選擇會對處置效果的估計有很大的影響。即使是同一個實驗,選用不同的安慰劑都會估計出不同的處置效果。
如何選用調查實驗中的安慰劑?作者以 Neyman–Rubin 的 potential outcome framework 解釋為何使用多種安慰劑比使用單一種安慰劑更好。假設有單一安慰劑的實驗分為三組,其中 \(T_i = 0\) 表示控制組,\(T_i = 1\) 表示實驗組,\(T_i = 2\) 表示安慰劑組。如此,三組的 potential outcome 即:
控制組:\(Y_i(0)\), \(i = 1,\dots{},N\)。
實驗組:\(Y_i(1) + \tau_i + \gamma_{1i}\), \(i = 1,\dots{},N\)。
安慰劑組:\(Y_i(1) + \gamma_{2i}\), \(i = 1,\dots{},N\)。
想要識別個體的處置效果 \(\tau_i\),必須立基在實驗組與安慰劑組的 NSE 相等,即 \(\gamma_{1i} = \gamma_{2i}\);同理,群體的處置效果 placebo-controlled average treatment effect (PCATE) \(E[Y_i(1)]-E[Y_i(2)]\) 也是。另一方面,如果使用 \(K\) 種安慰劑,則 placebo sampling-controlled average treatment effect (PSCATE) 則為 \(E[Y_i(1)] - E[Y_i(T_i)|T_i \geq 2]\)。可以想見,既然實驗者不會知道究竟實驗組與安慰劑組的 NSE 是否相等,那多種安慰劑取樣的方式相比單一安慰劑的設計更能滿足 \(E[\tau_{1i}-\tau_{2i}]=0\),即能提供 PSCATE 的不偏估計式。
12.2 如何回答研究問題
作者提出調查實驗中抽樣安慰劑的方法:使用 GPT-2 生成安慰劑文本。並且從事了兩個調查實驗,其中使用 GTP-2 生成各異的安慰劑。作者發現,平均安慰劑效果(APE)相當地小。並且,實驗數據也顯示,不同的安慰劑種類(如政治的或非政治的安慰劑)會使所估計的處置效果不同,而政治相關的安慰劑更可能讓估計變成 null effect,這也顯示安慰劑消除 NSE 的效果。
12.3 評價
12.3.1 研究貢獻
說明為何使用多組安慰劑,可以提供 PSCATE 的不偏估計式,並提出在調查實驗中,利用深度學習技術 GPT-2 選擇(或稱抽樣)安慰劑的新方法。作者並設計了一個可以用於 Qualtrics 的 API,可以電腦生成安慰劑文本。
12.3.2 疑問
其實我並沒有很清楚以深度學習模型生成文本為 \(K\) 個 placebo,相比起單純從大量的文本中取樣 \(K\) 個文本作為 multiple condition 還要優越在哪?