3.3 質的データを目的変数とするケース

これまで扱ってきた線形回帰モデルは目的変数yiに実数値を仮定していた.しかし,ここで扱うデータの目的変数(Diagnosis)に仮定すべき型は離散型である. 取りうる値が2値の場合は,0または1のどちらかの値をとるとして考えるのがシンプルである.ここでこれからモデルが出力するものは,目的変数の値がどのような確率で1となるのか,という点に注意しよう.

i番目のサンプルにおける目的変数が1となる確率をπi=P(Yi=1|Xi)とおくと,モデルによってˆπi[0,1]という推定値が得られるが,このˆπiの値がどの程度大きければ目的変数の推定値を1とするかはモデルの学習とはまた異なった観点が必要となる.

以上のことから以下のような考えで議論を進めていこう.

  1. モデルの推定値ˆπi0ˆπi1となる必要がある
  2. 誤差の分布は2項分布の方がより適切である
  3. 線形回帰分析の考え方を応用してロジスティック回帰を検討する