3.5 決定係数R2

ここでは決定係数R2について紹介する.

Definition 3.1 (決定係数) 目的変数yi,説明変数xii=1,,nとした線形回帰モデルにおいて,決定係数とは以下のように定義される.

R2=ni=1(ˆyiˉy)2ni=1(yiˉy)2

決定係数は,線形回帰モデルの当てはまりの評価に利用される量で.予測値ˆyiと目的変数の平均ˉyの差の二乗和と,目的変数yiと目的変数の平均ˉyの差の二乗和の比として定義される.

ここで,

yi=ˆyiei

の両辺からˉyを引き,その二乗和をとると

(yiˉy)2=[(ˆyiˉy)ei]2=[(ˆyiˉy)2(ˆyiˉy)ei+e2i]=(ˆyiˉy)2+e2i=(ˆyiˉy)2+(ˆyiyi)2

となることが分かる.ここでeiˆyi=0であることは残差の性質(3.11)を利用した.

すなわち

(ˆyiˉy)2=(yiˉy)2(ˆyiyi)2 となる.これより

R2=ni=1(ˆyiˉy)2ni=1(yiˉy)2=ni=1(yiˉy)2(ˆyiyi)2ni=1(yiˉy)2=1ni=1(yiˆyi)2ni=1(yiˉy)2 と変形できる.

(3.13)式では,予測値を目的変数の平均としたモデルの場合の残差の二乗和と,推定したモデルの残差の二乗和の比をとったものを1から引いている.また,予測値がˉyとなる時はβ1=0と推定されているということから,分子にある最小二乗法によって推定されたモデルの残差の二乗和の方が分母にある予測値が平均であるモデルの残差の二乗和よりも小さいことが保証されます.

よって

0ni=1(yiˆyi)2ni=1(yiˉy)21 であり

0R21

が成り立つ.

つまり決定係数とは,与えられたデータの線形回帰モデルˆyi=ˉyというモデルをベースとした当てはまりの良さを01の範囲で表すという指標であると言えます.

決定係数R2が1に近いほど残差が小さく,当てはまりが良いと考えることができます.