3.3 質的データを目的変数とするケース

これまで扱ってきた線形回帰モデルは目的変数\(y_i\)に実数値を仮定していた．しかし，ここで扱うデータの目的変数(Diagnosis)に仮定すべき型は離散型である．取りうる値が2値の場合は，0または1のどちらかの値をとるとして考えるのがシンプルである．ここでこれからモデルが出力するものは，目的変数の値がどのような確率で1となるのか，という点に注意しよう．

\(i\)番目のサンプルにおける目的変数が1となる確率を\(\pi_i = P(Y_i = 1|X_i)\)とおくと，モデルによって\(\hat \pi_i \in [0,1]\)という推定値が得られるが，この\(\hat \pi_i\)の値がどの程度大きければ目的変数の推定値を1とするかはモデルの学習とはまた異なった観点が必要となる．

以上のことから以下のような考えで議論を進めていこう．

モデルの推定値\(\hat \pi_i\)は\(0 \leq \hat \pi_i \leq 1\)となる必要がある
誤差の分布は2項分布の方がより適切である
線形回帰分析の考え方を応用してロジスティック回帰を検討する