3.5 決定係数\(R^2\)
ここでは決定係数\(R^2\)について紹介する.
Definition 3.1 (決定係数) 目的変数\(y_i\),説明変数\(x_i\),\(i = 1,\ldots, n\)とした線形回帰モデルにおいて,決定係数とは以下のように定義される.
\[\begin{align} \tag{3.12} R^2 &= \frac{\sum_{i=1}^n (\hat y_i - \bar y)^2}{\sum_{i=1}^n (y_i - \bar y)^2} \end{align}\]
決定係数は,線形回帰モデルの当てはまりの評価に利用される量で.予測値\(\hat y_i\)と目的変数の平均\(\bar y\)の差の二乗和と,目的変数\(y_i\)と目的変数の平均\(\bar y\)の差の二乗和の比として定義される.
ここで,
\[ \begin{align} y_i = \hat y_i - e_i \end{align} \]
の両辺から\(\bar y\)を引き,その二乗和をとると
\[ \begin{align} \sum (y_i - \bar y)^2 &= \sum \left[ (\hat y_i - \bar y) - e_i \right]^2 \\ &= \sum \left[ (\hat y_i - \bar y)^2 - (\hat y_i - \bar y)e_i + e_i^2 \right] \\ &= \sum (\hat y_i - \bar y)^2 + \sum e_i^2 \\ &= \sum (\hat y_i - \bar y)^2 + \sum (\hat y_i - y_i)^2 \end{align} \]
となることが分かる.ここで\(\sum e_i \hat y_i = 0\)であることは残差の性質(3.11)を利用した.
すなわち
\[ \sum (\hat y_i - \bar y)^2 = \sum (y_i - \bar y)^2 - \sum (\hat y_i - y_i)^2 \] となる.これより
\[ \begin{align} R^2 &= \frac{\sum_{i=1}^n (\hat y_i - \bar y)^2}{\sum_{i=1}^n (y_i - \bar y)^2} \\ &= \frac{\sum_{i=1}^n (y_i - \bar y)^2 - \sum (\hat y_i - y_i)^2}{\sum_{i=1}^n (y_i - \bar y)^2} \\ &= 1 - \frac{\sum_{i=1}^n (y_i - \hat y_i)^2}{\sum_{i=1}^n (y_i - \bar y)^2} \end{align} \tag{3.13} \] と変形できる.
(3.13)式では,予測値を目的変数の平均としたモデルの場合の残差の二乗和と,推定したモデルの残差の二乗和の比をとったものを1から引いている.また,予測値が\(\bar y\)となる時は\(\beta_1 = 0\)と推定されているということから,分子にある最小二乗法によって推定されたモデルの残差の二乗和の方が分母にある予測値が平均であるモデルの残差の二乗和よりも小さいことが保証されます.
よって
\[ 0 \leq \frac{\sum_{i=1}^n (y_i - \hat y_i)^2}{\sum_{i=1}^n (y_i - \bar y)^2} \leq 1 \] であり
\[ 0 \leq R^2 \leq 1 \]
が成り立つ.
つまり決定係数とは,与えられたデータの線形回帰モデル\(\hat y_i = \bar y\)というモデルをベースとした当てはまりの良さを\(0 \sim 1\)の範囲で表すという指標であると言えます.
決定係数\(R^2\)が1に近いほど残差が小さく,当てはまりが良いと考えることができます.