3.6 決定係数の性質
既に説明したように決定係数\(R^2\)が取りうる範囲は\([0,1]\)であり,この値が1に近いほど説明力が高く,0に近いほど説明力が低いと解釈することもできる.実際には次のような性質があるため利用する際には注意が必要である.
- 決定係数は因果関係を示すの根拠となる指標ではない
- 決定係数は目的変数と説明変数が1次関数的な関係にあるかどうかを評価している
- 単回帰モデルにおいては\(n=2\)の時,常に決定係数は1をとる
決定係数は因果関係を示すの根拠となる指標ではない
\(y\)を目的変数,\(x\)を説明変数として単回帰モデルの決定係数\(R^2\)は,実は\(x\)を目的変数として\(y\)を説明変数としたモデルの決定係数と一致することが分かる.すなわち,どちらが目的変数でどちらが説明変数であるかに依存しない量である. すなわち,決定係数が因果関係を示す根拠ではない(ここでいう因果関係とは\(y\)という結果が得られる原因が\(x\)である,という関係を意味している).
実際,決定係数は\(x\)と\(y\)の相関係数の二乗に等しいことが証明できる. 相関係数については\({\rm Cor}(x,y) = {\rm Cor}(y,x)\)のように順序によらないため上記の性質が成り立つ.以下に決定係数が相関係数の二乗に等しいことを示そう.
まず
\[ \begin{align} \sum (\hat y_i - \bar y)^2 &= \sum (\bar y - \hat \beta_1 \bar x \beta_0 + \hat \beta_1 x_i - \bar y)((\hat y_i - y_i) + (y_i - \bar y)) \\ &= \sum \hat \beta_1(x_i - \bar x)(y_i - \bar y) \\ &= \frac{\sum(x_i - \bar x)(y_i - \bar y)}{\sum (x_i - \bar x)^2} \sum (x_i - \bar x)(y_i - \bar y) \\ &= \frac{\left\{ \sum(x_i - \bar x)(y_i - \bar y) \right\}^2}{\sum (x_i - \bar x)^2} \end{align} \] と変形できることを用いて相関係数は
\[ R^2 = \frac{\left\{ \sum(x_i - \bar x)(y_i - \bar y) \right\}^2}{ \sum (x_i - \bar x)^2 \sum (y_i - \bar y)} \] と表現できる.これは\(x_i,y_i\)の相関係数の2乗の形になっていて.相関係数はその定義からわかるように\(x_i,y_i\)が目的変数か説明変数かには関係なく決まる量である. このことからも,決定係数は因果関係を示す根拠には成り得ない.. 実際に説明変数と目的変数の関係を逆にしたモデル\(x_i = \beta_0 + \beta_1 y_i + \varepsilon_i\)を考えて最小二乗法による推定値に対する決定係数を変形しても上記のようになる.
決定係数は目的変数と説明変数が1次関数的な関係にあるかどうかを評価している
まず相関係数が1になる場合がどのような時かを考えてみよう.つまり
\[ \sum_{i=1}^n (y_i - \hat y_i)^2 = 0 \]
となる時を考えるわけだが,各\(i\)について\(e_i = 0\)となることを意味しているので\(y_i = \hat \beta_0 + \hat \beta_1 x_i\)と表せる. すなわち\(x_i,y_i\)が全ての点が直線\(y = \hat \beta_0 + \hat \beta_1 x\)上に位置している状態を指す.
このことから決定係数\(R^2 = 1\)は目的変数と説明変数の関係が一次関数で完全に表せている状況を意味している.
次に,明らかに目的変数と説明変数には関連性が見られるが相関係数\(R^2 \fallingdotseq 0\)となるケースを示す.
\[ y_i = x_i^2 \]
という関係の場合に単回帰モデルで推定してみよう.これは
のように単純な2次関数の関係を持つデータである.このデータを用いて回帰モデルによって学習を行ってみると
## [1] 1.110909e-31
となり,決定係数はほぼ0という値になる.しかし,明らかに\(x_i,y_i\)には関係がある.
以上で示したように,決定係数はあくまで1次関数のような関係性が強いかどうかの指標であり,値が0に近い値を取ったとしても\(x_i, y_i\)の間に何ら関係性がないことを示す根拠にはならない.
単回帰モデルにおいては\(n=2\)の時,常に決定係数は1をとる
これまでに示した通り,決定係数はデータ点全てが回帰直線上にあるとき最大値の1を取るので,もしデータ点が2個しかなければ回帰直線上に必ずデータ点全てが乗ることになる(そうででなければ残差二乗和が最小化されない).
以上の性質も踏まえて,決定係数\(R^2\)の値だけで判断するのではなく,残差の分布など総合的にみてモデルの当てはまりを判断するようにして欲しい.