4.1 最小二乗推定と線形回帰モデル

線形回帰モデルでは,目的変数\(y\)に対して,それを説明するための変数,説明変数\(x_{1},\ldots,x_{p}\)との関係を

\[ y = \beta_0 + \beta_1 x_1 + \cdots + \beta_p x_p + \varepsilon \]

と仮定するモデルである.ここで\(\varepsilon\)はランダムな誤差として与えられ,確率変数として扱う. \(\rm E(\varepsilon) = 0, \rm V(\varepsilon) = \sigma^2\)とする.

また,\(\beta_{0},\ldots,\beta_{p}\)という\(p+1\)個のパラメータを回帰係数と呼び,目的変数と説明変数の関係性を表すものとする. \(y\)\(x_i\)はデータとして与えられるので,線形回帰モデルの主な目的はこの回帰係数を推定することといえる.

4.1.1 最小二乗推定

上記で与えた関係式は,あくま一つの目的変数に対するものであった.

実際にはデータは1組だけでなく複数観測される.いまデータの観測された数(サンプルサイズ)を\(n\)とすると, ある\(i\)番目の組についての関係を

\[ y_i = \beta_0 + \beta_1 x_{i1} + \cdots + \beta_p x_{ip} + \varepsilon_i \]

とする(添え字をつけただけである).さらに,それぞれ\(i\)についてベクトルとして表現し直せば

\[ \begin{align} \begin{pmatrix} y_1 & \vdots & y_n \end{pmatrix} &= \begin{pmatrix} 1 & x_{11} & \cdots & x_{1p} \\ \vdots & \vdots & \vdots \\ 1 & x_{n1} & \cdots & x_{np} \end{pmatrix} \begin{pmatrix} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_p \end{pmatrix} + \begin{pmatrix} \varepsilon_1 \\ \vdots \\ \varepsilon_n \end{pmatrix} \\ \boldsymbol y &= X \boldsymbol\beta + \boldsymbol\varepsilon \end{align} \]

と表現できる.ここで回帰係数ベクトル\(\boldsymbol\beta\)\(\| \boldsymbol y - X \boldsymbol\beta \|^2\)を最小にするように決める方法を 最小二乗推定と呼ぶ.\(\boldsymbol y - X \boldsymbol\beta\)は実際の目的変数の値と,説明変数と回帰係数による推定の誤差であり, これを二乗したものを最小にすることから最小二乗推定という名前が付けられている.

最小二乗推定では,回帰係数ベクトルの推定値\(\hat{\boldsymbol\beta}\)

\[ \hat{\boldsymbol\beta} = (X^{\top}X)^{-1}X^{\top}\boldsymbol y \]

と求められることが知られている.

線形回帰モデルにおける最小二乗推定は,目的変数\(\boldsymbol y\)\(X\)の列ベクトルで張られる空間に直行射影することと見なすことができる. すなわち,直行射影により,二乗誤差が最小になるという見方もできる.