3.3 質的データを目的変数とするケース
これまで扱ってきた線形回帰モデルは目的変数\(y_i\)に実数値を仮定していた.しかし,ここで扱うデータの目的変数(Diagnosis
)に仮定すべき型は離散型である.
取りうる値が2値の場合は,0または1のどちらかの値をとるとして考えるのがシンプルである.ここでこれからモデルが出力するものは,目的変数の値がどのような確率で1となるのか,という点に注意しよう.
\(i\)番目のサンプルにおける目的変数が1となる確率を\(\pi_i = P(Y_i = 1|X_i)\)とおくと,モデルによって\(\hat \pi_i \in [0,1]\)という推定値が得られるが,この\(\hat \pi_i\)の値がどの程度大きければ目的変数の推定値を1とするかはモデルの学習とはまた異なった観点が必要となる.
以上のことから以下のような考えで議論を進めていこう.
- モデルの推定値\(\hat \pi_i\)は\(0 \leq \hat \pi_i \leq 1\)となる必要がある
- 誤差の分布は2項分布の方がより適切である
- 線形回帰分析の考え方を応用してロジスティック回帰を検討する