3.5 決定係数R2
ここでは決定係数R2について紹介する.
Definition 3.1 (決定係数) 目的変数yi,説明変数xi,i=1,…,nとした線形回帰モデルにおいて,決定係数とは以下のように定義される.
R2=∑ni=1(ˆyi−ˉy)2∑ni=1(yi−ˉy)2
決定係数は,線形回帰モデルの当てはまりの評価に利用される量で.予測値ˆyiと目的変数の平均ˉyの差の二乗和と,目的変数yiと目的変数の平均ˉyの差の二乗和の比として定義される.
ここで,
yi=ˆyi−ei
の両辺からˉyを引き,その二乗和をとると
∑(yi−ˉy)2=∑[(ˆyi−ˉy)−ei]2=∑[(ˆyi−ˉy)2−(ˆyi−ˉy)ei+e2i]=∑(ˆyi−ˉy)2+∑e2i=∑(ˆyi−ˉy)2+∑(ˆyi−yi)2
となることが分かる.ここで∑eiˆyi=0であることは残差の性質(3.11)を利用した.
すなわち
∑(ˆyi−ˉy)2=∑(yi−ˉy)2−∑(ˆyi−yi)2 となる.これより
R2=∑ni=1(ˆyi−ˉy)2∑ni=1(yi−ˉy)2=∑ni=1(yi−ˉy)2−∑(ˆyi−yi)2∑ni=1(yi−ˉy)2=1−∑ni=1(yi−ˆyi)2∑ni=1(yi−ˉy)2 と変形できる.
(3.13)式では,予測値を目的変数の平均としたモデルの場合の残差の二乗和と,推定したモデルの残差の二乗和の比をとったものを1から引いている.また,予測値がˉyとなる時はβ1=0と推定されているということから,分子にある最小二乗法によって推定されたモデルの残差の二乗和の方が分母にある予測値が平均であるモデルの残差の二乗和よりも小さいことが保証されます.
よって
0≤∑ni=1(yi−ˆyi)2∑ni=1(yi−ˉy)2≤1 であり
0≤R2≤1
が成り立つ.
つまり決定係数とは,与えられたデータの線形回帰モデルˆyi=ˉyというモデルをベースとした当てはまりの良さを0∼1の範囲で表すという指標であると言えます.
決定係数R2が1に近いほど残差が小さく,当てはまりが良いと考えることができます.