3.3 最小二乗法

ここでは,回帰直線と実際のデータとの差の量である残差に注目する.ここで適当にHeightsからデータを10個取り出したデータを考え,推定値から得られる回帰直線も一緒に考える.

Heightsのデータから10個だけ抜き取った

Figure 3.5: Heightsのデータから10個だけ抜き取った

いま推定値をそれぞれˆβ0,ˆβ1として回帰直線で得られるyiの推定値を

ˆyi=ˆβ0+ˆβ1xi

とする.そしてこの推定値と実際のデータとの差を

ei=ˆyiyi

と定義しこれを残差(residuals)と呼ぶ.先ほどのFig 3.5において,実際のデータ点(黒丸)と回帰直線(オレンジの線) の差なのでグラフでみると次のようになる.

$\hat y_i$と$y$のそれぞれの差

Figure 3.6: ˆyiyのそれぞれの差

最小二乗法ではこのeiに着目しni=1e2iをできるだけ小さくするようにパラメータβ0,β1を選ぶ.これを数式で以下のように表現する.

ˆβ0,ˆβ1=arg minβ0,β1Rni=1e2i

実際に最小二乗法によってパラメータの推定値がどのように表されるのか確認していく. (3.4)式を満たすパラメーターˆβ0,ˆβ1を求めたいので,これらの関数であるL(β0,β1)を次のように考える.

L(β0,β1)=ni=1e2i=(yiˆyi)2=[yi(ˆβ0+ˆβ1xi)]2

具体的にはL(β0,β1)をそれぞれの変数で微分し0となる点を考える.ここでLについては微分した値が0になる点が最小になることがLの関数形からわかる.

すなわち

{β0L(β0,β1)β1L(β0,β1){ni=1[yi(β0+β1xi)]=0ni=1[yi(β0+β1xi)]xi=0

を解けば良い.

3.3.1 ˆβ0の推定

ˆβ0については,

ni=1[yi(β0+β1xi)]=yinβ0+β1xi=nˉynβ0β1nˉx=0

より

ˆβ0=ˉyˆβ1ˉx を得る.ここでˉx,ˉyはそれぞれxi,yiの平均でˉx=1/nxi,ˉy=1/nyiとした.これをそれぞれ式変形すれば

xi=nˉxyi=nˉy

を得る.

3.3.2 ˆβ1の推定

次にˆβ1については,

ni=1[yi(β0+β1xi)]xi=yixiβ0xiβ1x2i

とし,ここで(3.7)式を代入すると

yixi(ˉyˆβ1ˉx)xiˆβ1x2i=ˆβ1(ˉxxix2i)+yixiˉyxi

というように変形できる.さらに

(xiˉx)2=x2iˉxxi(xiˉx)(yiˉy)=xiyiˉyxi

であることに注意すると

ˆβ1=(xiˉx)(yiˉy)(xiˉx)2 となる.まとめると(3.4)式を満たすパラメーターの推定値は

ˆβ0=ˉyˆβ1ˉxˆβ1=(xiˉx)(yiˉy)(xiˉx)2

と解析的に求めることができる.