Chapter 14 簡單線性迴歸分析二部曲


14.1.1 簡單線性迴歸分析首部曲的「續」


搜尋「1970年代波士頓都會區的最佳『hedonic housing price model』」,某一種迴歸模型。




  1. LS
  2. LASSO
  3. Ridge
  4. ML







14.1.2 繼續的「續」


  1. 引用知名數據集「anscombe」示範「散佈圖」的重要性、
  2. 什麼是「最小平方法」?
  3. 引用「相關係數」「簡單線性迴歸線」的「解釋變數」、
  4. 變數變換如何影響「簡單線性迴歸線」的「解釋能力」、
  5. 取得「最小平方法迴歸線」的報表、
  6. 抓取報表內的各種數字、


  1. 最小平方法「lsfit」家族的其他成員,「ls.print」跟「ls.diag」、
  2. 什麼是「迴歸診斷」?
  3. 深入探討知名數據集「anscombe」的第二組、第三組跟第四組子數據集、
  4. 介紹最簡單的「非線性迴歸線」、
  5. 示範各種波士頓數據集「房價中位數」與「低社經人口比例」的「非線性迴歸線」、


14.2 學習目標

14.3 準備工作





14.3.1 波士頓數據集

require(MASS) # 用「require」不用「library」,是因為如果R已經將套件MASS載入環境,就不需要再載一次。
boston <- Boston 
# 「不動」原始數據集,不論它有「多原始」,是R程式設計的一項絕佳習慣。
# 即便一般使用者是無法任意改變套件MASS的內容物!
### rad (index of accessibility to radial highways)
boston[,"rad"] <- factor(boston[,"rad"], ordered = TRUE)
### chas (= 1 if tract bounds river; 0 otherwise)
boston[,"chas"] <- factor(boston[,"chas"])
### 讀取自製的波士頓數據集中文資訊。
DISvars <- colnames(boston)[which(sapply(boston, class) == "integer")]
CONvars <- colnames(boston)[which(sapply(boston, class) == "numeric")]
colsBostonFull$內容物 <- sapply(boston, class)
說明
## 1                                          per capita crime rate by town
## 2       proportion of residential land zoned for lots over 25,000 sq.ft.
## 3                       proportion of non-retail business acres per town
## 4  Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
## 5                     nitric oxides concentration (parts per 10 million)
## 6                                   average number of rooms per dwelling
## 7                 proportion of owner-occupied units built prior to 1940
## 8                   weighted distances to five Boston employment centres
## 9                              index of accessibility to radial highways
## 10                              full-value property-tax rate per $10,000
## 11                                           pupil-teacher ratio by town
## 12        1000(Bk - 0.63)^2 where Bk is the proportion of blacks by town
## 13                                      % lower status of the population
## 14                       Median value of owner-occupied homes in $1000's
中文翻譯   中文變數名稱          內容物
## 1              每個城鎮人均犯罪率。         犯罪率         numeric
## 2  超過25,000平方呎的住宅用地比例。   住宅用地比例         numeric
## 3    每個城鎮非零售業務英畝的比例。   非商業區比例         numeric
## 4           是否鄰近Charles River。         河邊宅          factor
## 5                  氮氧化合物濃度。       空汙指標         numeric
## 6            每個住宅的平均房間數。     平均房間數         numeric
## 7    1940年之前建造的自用住宅比例。     老房子比例         numeric
## 8  距波士頓五大商圈的加權平均距離。   加權平均距離         numeric
## 9          環狀高速公路的可觸指標。     交通便利性 ordered, factor
## 10         財產稅占比(每一萬美元)。       財產稅率         numeric
## 11                         生師比。         生師比         numeric
## 12                     黑人的比例。       黑人指數         numeric
## 13     (比較)低社經地位人口的比例。 低社經人口比例         numeric
## 14         以千美元計的房價中位數。     房價中位數         numeric

14.3.2 anscombe數據集

這一組Tufte教授在「The Visual Display of Quantitative Information」這本書的第十頁用來示範「散佈圖」的數據集,源自於

Anscombe, Francis J. (1973). Graphs in statistical analysis. The American Statistician, 27, 17–21.

anscombe這一個字,在統計界已經是「幾乎一樣的平均數、標準差加相關係數卻完全不一樣的兩維數據集」的「代名詞」了!後來又有兩位學者「Justin Matejka」跟「George Fitzmaurice」循著同樣的思路,利用「Simulated Annealing」演算法找到「比anscombeanscombe」的數據集,



require(datasets) # 通常我們是這麼寫「library(datasets)」。
data("anscombe") # 載入。

14.3.3 datasauRus::datasaurus_dozen數據集

require(datasauRus) # 通常我們是這麼寫「library(datasauRus)」。
data(datasaurus_dozen) # 載入。

14.4 回顧最小平方法




  • (動作一:準備動作)準備數據,加上計算單變量與雙變量的摘要統計量。
df <- anscombe[, c("x1", "y1")] # 取出「x1」跟「y1」,其中「1」代表第一組。
colnames(df) <- c("x", "y") # 劃掉其中的「1」。
df # 呼叫出來再一次檢視這一組數據集。
# 繪製散佈圖。左右上下各加3個單位,方便大家觀察。
     xlim = range(df[, "x"]) + c(-3, 3),
     ylim = range(df[, "y"]) + c(-3, 3))

  • (動作二:搜尋最小平方法迴歸線)呼叫最小平方法R的函式「lsfit」。
m1 <- lsfit(df[c(1,2,3,4,5,6,7,8,9,10,11), "x"], df[c(1,2,3,4,5,6,7,8,9,10,11), "y"])
## Intercept         X 
## 3.0000909 0.5000909
  • (動作三:再一次搜尋最小平方法迴歸線)現在,只有「一個x」加「一個y」,那「最小平方法迴歸線」在幾何上,就是「按著那顆『黑點』轉動『直線』直到『SSE』出現最小值為止」,得到的那一條直線就是答案,就是「最小平方法迴歸線」。
SSE <- numeric(0) # 準備放置各種可能直線的SSE。
ybar <- mean(df[, "y"]) # 全部y座標的平均數。
xbar <- mean(df[, "x"]) # 全部x座標的平均數。
for (b in seq(-1, 1, 0.1)) {
  a <- ybar - b * xbar
  predy <- df[, "y"] - (a + b * df[, "x"])
  SSE <- c(SSE, sum(predy^2))
# 透過觀察散佈圖,或是計算幾組點對點的斜率,定調「斜率」可能的範圍。
# 加上「最小平方法迴歸線」一定通過(xbar,ybar)這一點,就可以取得對應某一個斜率的「截距」。
plot(seq(-1, 1, 0.1), SSE, type = "l") # 顯示SSE的搜尋成果。

b <- seq(-1, 1, 0.1)[which.min(SSE)] # 最小化SSE的斜率等於多少?
a <- ybar - b * xbar # 對應上述斜率的截距。
LINE <- c(a, b)
names(LINE) <- c("a", "b")
LINE # 報告成果。
##        a        b 
## 3.000909 0.500000
  • (動作四:驗證作者小編的理論)結論:答案是一樣的!也就是說,作者小編的理論得到證實。
plot(df[, c("x", "y")], 
     xlim = range(df[, "x"]) + c(-3, 3),
     ylim = range(df[, "y"]) + c(-3, 3)) # 最簡散佈圖。
abline(a = LINE["a"], b = LINE["b"], col = "red", lwd = 8) # 畫上搜尋成果的直線。
abline(m1, lwd = 3, col = "green") # 畫上R提供的答案直線。
title(paste0("迴圈搜尋成果:", "y = ", 
             round(LINE["a"], 2), 
             " + ", round(LINE["b"], 2), "x", 
             "; R提供的成果:", 
             "y = ", 
             round(m1$coefficients[1], 2), 
             " + ", round(m1$coefficients[2], 2), "x"))

14.5 最小平方法的二部曲








  1. (重點一)先仔細閱讀「簡介」,簡介「只是」一段言簡意賅的英文。比如說,「lsfit」的簡介就是

Find The Least Squares Fit

The least squares estimate of in the model \boldY=\boldXβ+\boldϵ is found.


  1. (重點二)剪貼範例到自己的環境,並進行測試。比如說,這兩句話就是「lsfit作者」提供的範例:
lsD9 <- lsfit(x = unclass(gl(2, 10)), y = weight)
  1. (重點三)在「See Also」這一段,「手冊作者」會建議「同時參考的手冊」。比如說,「lsfit作者」建議了「lm」、「ls.print」、「ls.diag」。


2021/02/08的早上看過一本談論「深度學習(Deep Learning)」的書,提到「挖掘結構的演算法」;




lm which usually is preferable;


  1. 找線
  2. 列印
  3. 診斷
### 找線
m1 <- lsfit(df[, "x"], df[, "y"])
### 列印
x <- sapply(1, function(w){
LSsum <- x["summary",1]$summary
cov.unscaled numeric,4 關於迴歸係數的摘要統計量

  cov.unscaled 關於戴帽子y的摘要統計量

14.5.3 請專家幫忙

m1 <- lm(y ~ x, data = df)
## # A tibble: 2 × 5
##   term        estimate std.error statistic p.value
##   <chr>          <dbl>     <dbl>     <dbl>   <dbl>
## 1 (Intercept)    3.00      1.12       2.67 0.0257 
## 2 x              0.500     0.118      4.24 0.00217
## # A tibble: 11 × 8
##        y     x .fitted  .resid   .hat .sigma   .cooksd .std.resid
##    <dbl> <dbl>   <dbl>   <dbl>  <dbl>  <dbl>     <dbl>      <dbl>
##  1  8.04    10    8.00  0.0390 0.100    1.31 0.0000614     0.0332
##  2  6.95     8    7.00 -0.0508 0.1      1.31 0.000104     -0.0433
##  3  7.58    13    9.50 -1.92   0.236    1.06 0.489        -1.78  
##  4  8.81     9    7.50  1.31   0.0909   1.22 0.0616        1.11  
##  5  8.33    11    8.50 -0.171  0.127    1.31 0.00160      -0.148 
##  6  9.96    14   10.0  -0.0414 0.318    1.31 0.000383     -0.0405
##  7  7.24     6    6.00  1.24   0.173    1.22 0.127         1.10  
##  8  4.26     4    5.00 -0.740  0.318    1.27 0.123        -0.725 
##  9 10.8     12    9.00  1.84   0.173    1.10 0.279         1.63  
## 10  4.82     7    6.50 -1.68   0.127    1.15 0.154        -1.45  
## 11  5.68     5    5.50  0.179  0.236    1.31 0.00427       0.166
## # A tibble: 1 × 12
##   r.squared adj.r.squared sigma statistic p.value    df logLik   AIC   BIC
##       <dbl>         <dbl> <dbl>     <dbl>   <dbl> <dbl>  <dbl> <dbl> <dbl>
## 1     0.667         0.629  1.24      18.0 0.00217     1  -16.8  39.7  40.9
## # ℹ 3 more variables: deviance <dbl>, df.residual <int>, nobs <int>

14.6 迴歸建模的第三階段:迴歸診斷

14.6.1 什麼是殘差?

14.6.2 殘差的變形

14.6.3 殘差的函數

14.7 迴歸診斷當x變數是低社經人口比例時的最小平方法迴歸線

CORmedv <- cor(x = boston[, CONvars[-12]], y = boston[, "medv"])
maxCOR <- rownames(CORmedv)[which.max(abs(CORmedv[,1]))]
plot(boston[, maxCOR], boston[, "medv"], 
     xlab = colsBostonFull$中文變數名稱[which(colsBostonFull$變數名 == maxCOR)],
     ylab = "房價中位數")
title(paste0("最高相關係數", " = ", 
             cor(boston[, maxCOR], 
                 boston[, "medv"])))

m1 <- lm(medv ~ lstat, data = boston)
par(mfrow = c(2, 2))

boston$lstat10 <- boston$lstat^(1/10)
m0 <- lm(medv ~ lstat10, data = boston)
par(mfrow = c(2, 2))

14.8 繼續挖Anscombe數據集


14.8.1 繼續挖Anscombe數據集之「y3

寫一支程式找到y = 4.01 + 0.35x。

14.8.2 繼續挖Anscombe數據集之「y2

Q1: 找到曲線方程式的估計?

df <- anscombe[, c("x2", "y2")] # 取出「x1」跟「y1」,其中「1」代表第一組。
colnames(df) <- c("x", "y") # 劃掉其中的「1」。
df # 呼叫出來再一次檢視這一組數據集。
m2poly <- lm(y ~ poly(x, 2, raw = TRUE), data = df)
Q2: 找到曲線方程式的斜率方程式的估計?

fx <- expression(A + B * x + C * x^2)
## B + C * (2 * x)
A <- summary(m2poly)$coefficients[1]
B <- summary(m2poly)$coefficients[2]
C <- summary(m2poly)$coefficients[3]
x <- df$x
##  [1]  0.246573427  0.753426573 -0.513706294  0.500000000 -0.006853147
##  [6] -0.767132867  1.260279720  1.767132867 -0.260279720  1.006853147
## [11]  1.513706294
df$dy <- eval(D(fx,'x'))
m2D <- lm(dy ~ x, data = df)
14.8.3 繼續挖Anscombe數據集之「y4

m48 <- lm(y4[-8] ~ x4[-8], data = anscombe)
## Call:
## lm(formula = y4[-8] ~ x4[-8], data = anscombe)
## Coefficients:
## (Intercept)       x4[-8]  
##       7.001           NA
## Call:
## lm(formula = y4[-8] ~ x4[-8], data = anscombe)
## Residuals:
##    Min     1Q Median     3Q    Max 
## -1.751 -1.036 -0.036  0.859  1.839 
## Coefficients: (1 not defined because of singularities)
##             Estimate Std. Error t value     Pr(>|t|)    
## (Intercept)   7.0010     0.3908   17.92 0.0000000239 ***
## x4[-8]            NA         NA      NA           NA    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Residual standard error: 1.236 on 9 degrees of freedom

Q1: 看到「NA」,怎麼在散佈圖表達這項結果、結局?

14.9 當x變數是低社經人口比例時的「非線性迴歸線」

lm(medv ~ lstat + I(lstat^2), data = boston)
lm(medv ~ poly(lstat, 4, raw = TRUE), data = boston) %>%
lm(medv ~ poly(lstat, 6, raw = TRUE), data = boston) %>%
lm(medv ~ poly(lstat, 8, raw = TRUE), data = boston) %>%
lm(medv ~ poly(lstat, 10, raw = TRUE), data = boston) %>%
ggplot(boston, aes(lstat, medv) ) +
  geom_point() +
  stat_smooth(method = lm, formula = y ~ poly(x, 5, raw = TRUE))

ggplot(boston, aes(lstat, medv) ) +
  geom_point() +
  stat_smooth(method = lm, formula = y ~ log(x))

lm(medv ~ log(lstat), data = boston) %>%
ggplot(boston, aes(lstat, medv) ) +
  geom_point() +
  stat_smooth(method = gam, formula = y ~ s(x))

gam(medv ~ s(lstat), data = boston) %>%
14.10 課後練習題