3.1 線形単回帰モデルの定式化

例えばHeightsデータセットにある母親の身長mheightとその娘の身長dheightの 散布図を描いてみると,母親の身長が高い場合娘の身長も高いという傾向があるように見える.

Heights %>% 
  ggplot(aes(x=mheight, y=dheight)) +
  geom_point()
母親と娘の身長の散布図

Figure 3.1: 母親と娘の身長の散布図

単回帰モデルでは,このように目的変数1つに対して説明変数1つを次のような関係にあると仮定する.

yi=β0+β1xi+εii=1,2,,n

モデル(3.1)においては,二つのパラメーターβ0,β1を考えていて.これらを回帰係数と呼ぶ.β0の項は説明変数xiに依らずに一定となっており,母親の身長に関係なくベースとして全員が持つ身長と見做すことができる.

一方β1xとの積の形になっており,この項はxiの値の大きさに関連して決まる量,すなわち母親の身長に影響される項目と考えることができる.

次にεiの項について考えてみよう.これは誤差項と呼ばれ,例えばこの項を考えずにyi=β0+β1xiというモデルを考える場合,これは単なる直線を表す関数であることがわかる. 実際にグラフを書いてみると

直線の関数

Figure 3.2: 直線の関数

このように直線となる.これは構造として母親の身長が同じ場合,娘の身長も同じ であることを仮定していることになる. しかし明らかに実際はそんなことはなく,ある程度ばらついてることを踏まえれば,このばらつきこそが モデルで表現すべきことであると思える.そのために,ばらつきを表す項としてεiを導入している. また統計モデルではこのばらつきが確率的であると考える.