第 9 章 Binary choice model

9.1 隨機效用模型（Random Utility Model）

一個人投票給候選人A受什麼因素影響？

隨機抽出第i位選民，若他投給A，則\(Y_{i}=1\)；反之為0。令

\(U_{i(1)}\)：他投給A的效用。
\(U_{i(0)}\)：他「不」投給A的效用。

根據效用理論，\(Y_{i}\)的觀察值反應了以下的事實：

\[ \begin{cases} U_{i(1)}\geq U_{i(0)} & \Rightarrow Y_{i}=1\\ U_{i(1)}<U_{i(0)} & \Rightarrow Y_{i}=0 \end{cases} \] 令\(X_{i}\)為可解釋效用的變數，並假設

\[\begin{align} U_{i(1)} & =X_{i}'\beta_{(1)}+\epsilon_{i(1)}\\ U_{i(0)} & =X_{i}'\beta_{(0)}+\epsilon_{i(0)} \end{align}\]

則 \[\underset{Y_{i}^{*}}{\underbrace{U_{i(1)}-U_{i(0)}}}=X_{i}'\underset{\beta}{\underbrace{(\beta_{(1)}-\beta_{(0)})}}+\underset{\epsilon_{i}}{\underbrace{(\epsilon_{i(1)}-\epsilon_{i(0)})}}\] 因此 \[Y_{i}^{*}\underset{(<)}{\geq}0\Leftrightarrow Y_{i}=\underset{(0)}{1}\]

\(Y_i^*\)稱為\(Y_i\)的潛在變數(latent variable)。

我們有可能估計出個別\(\beta_{(1)}\),\(\beta_{(0)}\)值嗎？還是只能估\(\beta_{(1)}-\beta_{(0)}\)（即相差值）？

給定資料\(Y_i,X_i\)及以下的迴歸模型： \[Y_i^*=X_i'\beta+\epsilon_i\] 我們要如何估算\(\beta\)。

隨機效用模型的隨機是指資料無法完全觀察，總是有殘餘效果(\(\epsilon\))產生推論的不確定性，而非個體效用帶有隨機的不理性。

9.2 最大概似估計法(Maximum Likelihood Estimation, MLE)

迴歸模型： \[\begin{align} Y^*_i &=X_i'\beta+\epsilon_i \tag{9.1} \\ Y_i &=\mathbb{I}(Y_i^*>0) \end{align}\] 其中\(\mathbb{I}(A)\)為事件判斷函數(indicator function)，當事件\(A\)發生時，其值為1，反之為0。在這裡我們的觀察資料只會包含\((Y_i,X_i)\)但不會有潛在變數\(Y^*_i\)，因此最小平方估計法無法用在(9.1)。

事件發生機率與參數

隨機抽出的一組樣本是一個實現的事件（event），每個event有其發生的機率（密度）。

某台機器只有會A,B,C三個出象(outcome)，每按一次鈕會出現其中一個結果。假設只有以下兩種機器，它們的差異只有在每個出象出現機率如下：

type	Pr_A	Pr_B	Pr_C
機器一	0.1	0.5	0.4
機器二	0.3	0.4	0.3

若按一次鈕得到A，請問樣本事件為什麼？此事件發生機率為多少？
你如果要猜機器型號，你會猜是什麼？
若按二次鈕得到AC，請問樣本事件為什麼？此事件發生機率為多少？
你如果要猜機器型號，你會猜是什麼？

參數 (使用符號\(\Theta\))廣義來說是機率（密度）函數的區別標示。

上題的\(\Theta\)是什麼？

若得到AC，則此樣本事件發生機率與參數的關係為何？

概似函數

概似函數（likelihood function）是某個樣本事件下的機率（密度）值與參數間的關係： \[L(\Theta)=\Pr(\text{"a given" sample event}|\Theta)\]

由於是給定一組樣本下的樣本事件（“a given” sample event）,有時我們會寫成 \[L(\Theta | \text{some sample event})\]

最大概似估計法

若對參數的猜測是以極大化\(L(\Theta)\)為目標，則我們在進行最大概似估計（maximum likelihood estimation）。

給定一組樣本\(\{y_i,x_i\}_{i=1,\dots,N}\)，(9.1)式的概似函數如何表示？

很多時候我們會極大化取對數後的\(L(\Theta)\)，即\(\ln L(\Theta)\)。

9.3 Probit and Logit

迴歸模型： \[\begin{align} Y^*_i &=X_i'\beta+\epsilon_i \tag{9.1} \\ Y_i &=\mathbb{I}(Y_i^*>0) \end{align}\]

為了定義概似函數，我們必假設\(\epsilon_i\)的分配，常見有以下兩種假設，都是以0為中心對稱的分配。

Probit model

假設 \[\epsilon_i\sim N(0,1)\] 我們習慣用\(\phi(.)\)及\(\Phi(.)\)分別代表\(N(0,1)\)的機率密度函數(pdf)及累積機率分配函數(CDF).

寫下\(\ln L(\beta)\)。

Logit model

假設\(\epsilon_i\)的CDF為\(F()\),其中 \[F(w)=\frac{e^w}{1+e^w}\]

令\(f()\)代表其pdf，請問\(f()\)與\(F()\)有什麼關係？

寫下\(\ln L(\beta)\)。

9.4 配適度

傳統衡量迴歸模型配適度的\(R^2\)在這裡並不適用。

為什麼\(R^2\)不適用？

常見以下兩種衡量方式：

\(Pseudo-R^{2}\): \[Pseudo-R^{2}=1-\frac{\ln L}{\ln L_{0}}\] 其中\(L_0\)為只有\(\{y_i\}\)觀察值而無\(\{x_i\}\)觀察值的最大概似函數值。
預測準確度：依據以下預測原則， \[ \begin{aligned}\hat{Y_{i}}=1 & \mbox{ if} & F\left(X_{i}^{'}\hat{\beta}\right)\geqq0.5\\ \hat{Y_{i}}=0 & \mbox{ if} & F\left(X_{i}^{'}\hat{\beta}\right)<0.5 \end{aligned} \] 其中\(\hat{\beta}\)為估計係數值，接著去看猜中的比率有多高。

若樣本數有500個，其中\(y=0\)的有30個，請問在Probit和Logit模型下, \(L_0\)為多少？

9.5 邊際效果

迴歸模型： \[ \begin{align} Y^*_i &=\beta_0+\beta_1 x_i+\beta_2 D_i+\epsilon_i, \\ Y_i &=\mathbb{I}(Y_i^*>0), \end{align} \] 其中\(x_i\)為連續型變數，而\(D_i\)為間斷型變數（包含虛擬變數）。

想了解\(x_i\)、\(D_i\)對\(\Pr(Y_i=1)\)的邊際影響，其中：

Probit：\(\Pr(Y_i=1)=\Phi(\beta_0+\beta_1 x_i+\beta_2 D_i)\)
Logit： \(\Pr(Y_i=1)=F(\beta_0+\beta_1 x_i+\beta_2 D_i)\)

\(x\)的邊際效果為： \[\frac{\partial \Pr(Y_i=1|x_i,D_i)}{\partial x_i}\] \(D\)的邊際效果為： \[\Pr(Y_i=1|x_i,D_i=1)-\Pr(Y_i=1|x_i,D_i=0)\] 要注意：

兩者計算方法不同。
兩者都有起始點選擇的問題。

假設樣本觀察值如下：

i	Y	X	D
1	1	0.5	1
2	1	0.7	0
3	0	0.2	1
	mean	0.47	0.67

9.6 漸近分配

令\(\textbf{Y}_i\)代表第i個隨機抽出的觀察值（可以有很多特徵，如此人的身高、體重等）。

\[\hat{\theta}=\arg\max\frac{1}{n}\sum_{i}\ln f\left(\textbf{Y}\mid\theta\right)\]

一階條件: \[\begin{eqnarray} \frac{1}{n}\sum_i\frac{\partial}{\partial\theta}\ln f\left(\textbf{Y}\mid\hat{\theta}\right)=0 \tag{9.2} \end{eqnarray}\]

在正常情況下MLE會收斂，故: \[\hat{\theta}\stackrel{p}{\longrightarrow}\theta_0\]

對(9.2)的左式之\(\hat{\theta}\)在\(\theta_0\)值進行一階泰勒展開：

\[\frac{1}{n}\sum_{i}\frac{\partial}{\partial\theta}\ln f\left(Y_{i}\mid\hat{\theta}\right)\approx\frac{1}{n}\sum_{i}\frac{\partial}{\partial\theta}\ln f\left(Y_{i}\mid\theta_{0}\right)+\frac{1}{n}\sum_{i}\frac{\partial^{2}}{\partial\theta\partial\theta^{'}}\ln f\left(Y_{i}\mid\theta_{0}\right)\left(\hat{\theta}-\theta_{0}\right).\]

故 \[\begin{align} \frac{1}{n}\sum_{i}\frac{\partial^{2}}{\partial\theta\partial\theta^{'}}\ln f\left(Y_{i}\mid\theta_{0}\right)\left(\hat{\theta}-\theta_{0}\right)& \approx\left(\frac{1}{n}\sum_{i}\frac{\partial}{\partial\theta}\ln f\left(Y_{i}\mid\hat{\theta}\right)-\frac{1}{n}\sum_{i}\frac{\partial}{\partial\theta}\ln f\left(Y_{i}\mid\theta_{0}\right)\right) \\ & = -\frac{1}{n}\sum_{i}\frac{\partial}{\partial\theta}\ln f\left(Y_{i}\mid\theta_{0}\right), \end{align}\]

所以 \[\left(\hat{\theta}-\theta_{0}\right) \approx-\{\frac{1}{n}\sum_{i}\frac{\partial^{2}}{\partial\theta\partial\theta^{'}}\ln f\left(Y_{i}\mid\theta_{0}\right)\}^{-1}\frac{1}{n}\sum_{i}\frac{\partial}{\partial\theta}\ln f\left(Y_{i}\mid\theta_{0}\right).\]

說明\(\sqrt{n}\left(\hat{\theta}-\theta_{0}\right)\)會有常態漸近分配。

由於概似函數形式中所使用的機率（密度）函數\(f()\)為假設出來的，多數狀況真實機率（密度）函數會與假設不同，此時的估計式我們通常稱為「準最大概似估計式」(Quasi-Maximum Likelihood Estimator, Quasi-MLE)

若\(\hat{\theta}\)為quasi-MLE，則先前的漸近分配推導是否會有不同？