3.1 線形単回帰モデルの定式化

例えばHeightsデータセットにある母親の身長mheightとその娘の身長dheightの 散布図を描いてみると,母親の身長が高い場合娘の身長も高いという傾向があるように見える.

Heights %>% 
  ggplot(aes(x=mheight, y=dheight)) +
  geom_point()
母親と娘の身長の散布図

Figure 3.1: 母親と娘の身長の散布図

単回帰モデルでは,このように目的変数1つに対して説明変数1つを次のような関係にあると仮定する.

\[ \begin{align} y_i = \beta_0 + \beta_1 x_i + \varepsilon_i \hspace{3mm} i=1,2,\ldots,n \end{align} \tag{3.1} \]

モデル(3.1)においては,二つのパラメーター\(\beta_0, \beta_1\)を考えていて.これらを回帰係数と呼ぶ.\(\beta_0\)の項は説明変数\(x_i\)に依らずに一定となっており,母親の身長に関係なくベースとして全員が持つ身長と見做すことができる.

一方\(\beta_1\)\(x\)との積の形になっており,この項は\(x_i\)の値の大きさに関連して決まる量,すなわち母親の身長に影響される項目と考えることができる.

次に\(\varepsilon_i\)の項について考えてみよう.これは誤差項と呼ばれ,例えばこの項を考えずに\(y_i = \beta_0 + \beta_1 x_i\)というモデルを考える場合,これは単なる直線を表す関数であることがわかる. 実際にグラフを書いてみると

直線の関数

Figure 3.2: 直線の関数

このように直線となる.これは構造として母親の身長が同じ場合,娘の身長も同じ であることを仮定していることになる. しかし明らかに実際はそんなことはなく,ある程度ばらついてることを踏まえれば,このばらつきこそが モデルで表現すべきことであると思える.そのために,ばらつきを表す項として\(\varepsilon_i\)を導入している. また統計モデルではこのばらつきが確率的であると考える.