3.7 残差の分析

Rでは次のような残差の分析を手軽に行うことができる.

  1. 残差プロット
  2. Q-Qプロット

3.7.1 残差プロット

まずサンプルを示す.

# Forbesデータを使う
x <- Forbes$pres
y <- Forbes$bp
fit <- lm(y~x)

# 残差プロット
plot(fit, which=1)

残差プロットとは横軸に予測値\(\hat y_i\),縦軸に残差\(e_i\)をとった散布図である.赤線は残差を説明する回帰直線を表している. 残差とは説明しきれないランダムな誤差と考えられており,この回帰直線は横線の点線に近いほど残差の傾向が想定と近いことになる. すなわちモデルとしては当てはまりが良いといえる.数値が振られているものは残差の絶対値が大きいもので外れ値の候補となる. 例えばサンプルの図では,上に凸であるような傾向があるように見えるので当てはまりはそこまで良くないと考えられる.

3.7.2 Q-Qプロット

こちらもまずサンプルを示す.

plot(fit, which=2)

Q-Qプロットとは横軸に標準正規分布の分位点,縦軸に残差\(e_i\)の点をとった散布図である.Q-Qプロットは\(e_i\)の分布が正規分布とどの程度近いかを可視化する.一般的に線形回帰モデルの誤差項\(\varepsilon_i\)\(N(0,\sigma^2)\)という正規分布に従うことを仮定している.その場合にはこの仮定と実際のモデルの整合性を確認する必要がある.残差プロット同様残差の絶対値が大きいものには数値が振られて表示される. サンプルのデータでは分布の裾(値が小さい・大きい領域)で正規分布と異なっている傾向があるためモデルの過程から逸脱していることが示唆される.