3.3 最小二乗法
ここでは,回帰直線と実際のデータとの差の量である残差に注目する.ここで適当にHeights
からデータを10個取り出したデータを考え,推定値から得られる回帰直線も一緒に考える.
Figure 3.5: Heightsのデータから10個だけ抜き取った
いま推定値をそれぞれˆβ0,ˆβ1として回帰直線で得られるyiの推定値を
ˆyi=ˆβ0+ˆβ1xi
とする.そしてこの推定値と実際のデータとの差を
ei=ˆyi−yi
と定義しこれを残差(residuals)と呼ぶ.先ほどのFig 3.5において,実際のデータ点(黒丸)と回帰直線(オレンジの線) の差なのでグラフでみると次のようになる.
Figure 3.6: ˆyiとyのそれぞれの差
最小二乗法ではこのeiに着目し∑ni=1e2iをできるだけ小さくするようにパラメータβ0,β1を選ぶ.これを数式で以下のように表現する.
ˆβ0,ˆβ1=arg minβ0,β1∈Rn∑i=1e2i
実際に最小二乗法によってパラメータの推定値がどのように表されるのか確認していく. (3.4)式を満たすパラメーターˆβ0,ˆβ1を求めたいので,これらの関数であるL(β0,β1)を次のように考える.
L(β0,β1)=n∑i=1e2i=∑(yi−ˆyi)2=∑[yi−(ˆβ0+ˆβ1xi)]2
具体的にはL(β0,β1)をそれぞれの変数で微分し0となる点を考える.ここでLについては微分した値が0になる点が最小になることがLの関数形からわかる.
すなわち
{∂∂β0L(β0,β1)∂∂β1L(β0,β1)⇔{∑ni=1[yi−(β0+β1xi)]=0∑ni=1[yi−(β0+β1xi)]xi=0
を解けば良い.
3.3.1 ˆβ0の推定
ˆβ0については,
n∑i=1[yi−(β0+β1xi)]=∑yi−nβ0+β1∑xi=nˉy−nβ0−β1nˉx=0
より
ˆβ0=ˉy−ˆβ1ˉx を得る.ここでˉx,ˉyはそれぞれxi,yiの平均でˉx=1/n∑xi,ˉy=1/n∑yiとした.これをそれぞれ式変形すれば
∑xi=nˉx∑yi=nˉy
を得る.
3.3.2 ˆβ1の推定
次にˆβ1については,
n∑i=1[yi−(β0+β1xi)]xi=∑yixi−β0∑xi−β1∑x2i
とし,ここで(3.7)式を代入すると
∑yixi−(ˉy−ˆβ1ˉx)∑xi−ˆβ1∑x2i=ˆβ1(ˉx∑xi−∑x2i)+∑yixi−ˉy∑xi
というように変形できる.さらに
∑(xi−ˉx)2=∑x2i−ˉx∑xi∑(xi−ˉx)(yi−ˉy)=∑xiyi−ˉy∑xi
であることに注意すると
ˆβ1=∑(xi−ˉx)(yi−ˉy)∑(xi−ˉx)2 となる.まとめると(3.4)式を満たすパラメーターの推定値は
ˆβ0=ˉy−ˆβ1ˉxˆβ1=∑(xi−ˉx)(yi−ˉy)∑(xi−ˉx)2
と解析的に求めることができる.