第 9 章 Binary choice model
9.1 隨機效用模型(Random Utility Model)
一個人投票給候選人A受什麼因素影響?
隨機抽出第i位選民,若他投給A,則Yi=1;反之為0。令
Ui(1):他投給A的效用。
Ui(0):他「不」投給A的效用。
根據效用理論,Yi的觀察值反應了以下的事實:
{Ui(1)≥Ui(0)⇒Yi=1Ui(1)<Ui(0)⇒Yi=0 令Xi為可解釋效用的變數,並假設
Ui(1)=X′iβ(1)+ϵi(1)Ui(0)=X′iβ(0)+ϵi(0)
則 Ui(1)−Ui(0)⏟Y∗i=X′i(β(1)−β(0))⏟β+(ϵi(1)−ϵi(0))⏟ϵi 因此 Y∗i≥(<)0⇔Yi=1(0)Y∗i稱為Yi的潛在變數(latent variable)。
我們有可能估計出個別β(1),β(0)值嗎?還是只能估β(1)−β(0)(即相差值)?
給定資料Yi,Xi及以下的迴歸模型: Y∗i=X′iβ+ϵi 我們要如何估算β。
隨機效用模型的隨機是指資料無法完全觀察,總是有殘餘效果(ϵ)產生推論的不確定性,而非個體效用帶有隨機的不理性。
9.2 最大概似估計法(Maximum Likelihood Estimation, MLE)
迴歸模型: Y∗i=X′iβ+ϵiYi=I(Y∗i>0) 其中I(A)為事件判斷函數(indicator function),當事件A發生時,其值為1,反之為0。在這裡我們的觀察資料只會包含(Yi,Xi)但不會有潛在變數Y∗i,因此最小平方估計法無法用在(9.1)。
事件發生機率與參數
隨機抽出的一組樣本是一個實現的事件(event),每個event有其發生的機率(密度)。
type | Pr_A | Pr_B | Pr_C |
---|---|---|---|
機器一 | 0.1 | 0.5 | 0.4 |
機器二 | 0.3 | 0.4 | 0.3 |
若按一次鈕得到A,請問樣本事件為什麼?此事件發生機率為多少?
你如果要猜機器型號,你會猜是什麼?
若按二次鈕得到AC,請問樣本事件為什麼?此事件發生機率為多少?
- 你如果要猜機器型號,你會猜是什麼?
參數 (使用符號Θ)廣義來說是機率(密度)函數的區別標示。
上題的Θ是什麼?
若得到AC,則此樣本事件發生機率與參數的關係為何?
概似函數
概似函數(likelihood function)是某個樣本事件下的機率(密度)值與參數間的關係: L(Θ)=Pr
由於是給定一組樣本下的樣本事件(“a given” sample event),有時我們會寫成 L(\Theta | \text{some sample event})
最大概似估計法
若對參數的猜測是以極大化L(\Theta)為目標,則我們在進行最大概似估計(maximum likelihood estimation)。
給定一組樣本\{y_i,x_i\}_{i=1,\dots,N},(9.1)式的概似函數如何表示?
很多時候我們會極大化取對數後的L(\Theta),即\ln L(\Theta)。
9.3 Probit and Logit
迴歸模型: \begin{align} Y^*_i &=X_i'\beta+\epsilon_i \tag{9.1} \\ Y_i &=\mathbb{I}(Y_i^*>0) \end{align}
為了定義概似函數,我們必假設\epsilon_i的分配,常見有以下兩種假設,都是以0為中心對稱的分配。
Probit model
假設 \epsilon_i\sim N(0,1) 我們習慣用\phi(.)及\Phi(.)分別代表N(0,1)的機率密度函數(pdf)及累積機率分配函數(CDF).
寫下\ln L(\beta)。
Logit model
假設\epsilon_i的CDF為F(),其中 F(w)=\frac{e^w}{1+e^w}
令f()代表其pdf,請問f()與F()有什麼關係?
寫下\ln L(\beta)。
9.4 配適度
傳統衡量迴歸模型配適度的R^2在這裡並不適用。
為什麼R^2不適用?
常見以下兩種衡量方式:
- Pseudo-R^{2}: Pseudo-R^{2}=1-\frac{\ln L}{\ln L_{0}} 其中L_0為只有\{y_i\}觀察值而無\{x_i\}觀察值的最大概似函數值。
- 預測準確度:依據以下預測原則, \begin{aligned}\hat{Y_{i}}=1 & \mbox{ if} & F\left(X_{i}^{'}\hat{\beta}\right)\geqq0.5\\ \hat{Y_{i}}=0 & \mbox{ if} & F\left(X_{i}^{'}\hat{\beta}\right)<0.5 \end{aligned} 其中\hat{\beta}為估計係數值,接著去看猜中的比率有多高。
若樣本數有500個,其中y=0的有30個,請問在Probit和Logit模型下, L_0為多少?
9.5 邊際效果
迴歸模型: \begin{align} Y^*_i &=\beta_0+\beta_1 x_i+\beta_2 D_i+\epsilon_i, \\ Y_i &=\mathbb{I}(Y_i^*>0), \end{align} 其中x_i為連續型變數,而D_i為間斷型變數(包含虛擬變數)。
想了解x_i、D_i對\Pr(Y_i=1)的邊際影響,其中:
Probit:\Pr(Y_i=1)=\Phi(\beta_0+\beta_1 x_i+\beta_2 D_i)
Logit: \Pr(Y_i=1)=F(\beta_0+\beta_1 x_i+\beta_2 D_i)
x的邊際效果為: \frac{\partial \Pr(Y_i=1|x_i,D_i)}{\partial x_i} D的邊際效果為: \Pr(Y_i=1|x_i,D_i=1)-\Pr(Y_i=1|x_i,D_i=0) 要注意:
兩者計算方法不同。
兩者都有起始點選擇的問題。
i | Y | X | D |
---|---|---|---|
1 | 1 | 0.5 | 1 |
2 | 1 | 0.7 | 0 |
3 | 0 | 0.2 | 1 |
mean | 0.47 | 0.67 |
9.6 漸近分配
令\textbf{Y}_i代表第i個隨機抽出的觀察值(可以有很多特徵,如此人的身高、體重等)。
\hat{\theta}=\arg\max\frac{1}{n}\sum_{i}\ln f\left(\textbf{Y}\mid\theta\right)
一階條件: \begin{eqnarray} \frac{1}{n}\sum_i\frac{\partial}{\partial\theta}\ln f\left(\textbf{Y}\mid\hat{\theta}\right)=0 \tag{9.2} \end{eqnarray}
在正常情況下MLE會收斂,故: \hat{\theta}\stackrel{p}{\longrightarrow}\theta_0
對(9.2)的左式之\hat{\theta}在\theta_0值進行一階泰勒展開:
\frac{1}{n}\sum_{i}\frac{\partial}{\partial\theta}\ln f\left(Y_{i}\mid\hat{\theta}\right)\approx\frac{1}{n}\sum_{i}\frac{\partial}{\partial\theta}\ln f\left(Y_{i}\mid\theta_{0}\right)+\frac{1}{n}\sum_{i}\frac{\partial^{2}}{\partial\theta\partial\theta^{'}}\ln f\left(Y_{i}\mid\theta_{0}\right)\left(\hat{\theta}-\theta_{0}\right).
故 \begin{align} \frac{1}{n}\sum_{i}\frac{\partial^{2}}{\partial\theta\partial\theta^{'}}\ln f\left(Y_{i}\mid\theta_{0}\right)\left(\hat{\theta}-\theta_{0}\right)& \approx\left(\frac{1}{n}\sum_{i}\frac{\partial}{\partial\theta}\ln f\left(Y_{i}\mid\hat{\theta}\right)-\frac{1}{n}\sum_{i}\frac{\partial}{\partial\theta}\ln f\left(Y_{i}\mid\theta_{0}\right)\right) \\ & = -\frac{1}{n}\sum_{i}\frac{\partial}{\partial\theta}\ln f\left(Y_{i}\mid\theta_{0}\right), \end{align}
所以 \left(\hat{\theta}-\theta_{0}\right) \approx-\{\frac{1}{n}\sum_{i}\frac{\partial^{2}}{\partial\theta\partial\theta^{'}}\ln f\left(Y_{i}\mid\theta_{0}\right)\}^{-1}\frac{1}{n}\sum_{i}\frac{\partial}{\partial\theta}\ln f\left(Y_{i}\mid\theta_{0}\right).
說明\sqrt{n}\left(\hat{\theta}-\theta_{0}\right)會有常態漸近分配。
由於概似函數形式中所使用的機率(密度)函數f()為假設出來的,多數狀況真實機率(密度)函數會與假設不同,此時的估計式我們通常稱為「準最大概似估計式」(Quasi-Maximum Likelihood Estimator, Quasi-MLE)
若\hat{\theta}為quasi-MLE,則先前的漸近分配推導是否會有不同?