3.3 質的データを目的変数とするケース

これまで扱ってきた線形回帰モデルは目的変数\(y_i\)に実数値を仮定していた.しかし,ここで扱うデータの目的変数(Diagnosis)に仮定すべき型は離散型である. 取りうる値が2値の場合は,0または1のどちらかの値をとるとして考えるのがシンプルである.ここでこれからモデルが出力するものは,目的変数の値がどのような確率で1となるのか,という点に注意しよう.

\(i\)番目のサンプルにおける目的変数が1となる確率を\(\pi_i = P(Y_i = 1|X_i)\)とおくと,モデルによって\(\hat \pi_i \in [0,1]\)という推定値が得られるが,この\(\hat \pi_i\)の値がどの程度大きければ目的変数の推定値を1とするかはモデルの学習とはまた異なった観点が必要となる.

以上のことから以下のような考えで議論を進めていこう.

  1. モデルの推定値\(\hat \pi_i\)\(0 \leq \hat \pi_i \leq 1\)となる必要がある
  2. 誤差の分布は2項分布の方がより適切である
  3. 線形回帰分析の考え方を応用してロジスティック回帰を検討する