3.3 質的データを目的変数とするケース
これまで扱ってきた線形回帰モデルは目的変数yiに実数値を仮定していた.しかし,ここで扱うデータの目的変数(Diagnosis
)に仮定すべき型は離散型である.
取りうる値が2値の場合は,0または1のどちらかの値をとるとして考えるのがシンプルである.ここでこれからモデルが出力するものは,目的変数の値がどのような確率で1となるのか,という点に注意しよう.
i番目のサンプルにおける目的変数が1となる確率をπi=P(Yi=1|Xi)とおくと,モデルによってˆπi∈[0,1]という推定値が得られるが,このˆπiの値がどの程度大きければ目的変数の推定値を1とするかはモデルの学習とはまた異なった観点が必要となる.
以上のことから以下のような考えで議論を進めていこう.
- モデルの推定値ˆπiは0≤ˆπi≤1となる必要がある
- 誤差の分布は2項分布の方がより適切である
- 線形回帰分析の考え方を応用してロジスティック回帰を検討する