Essentially, all models are wrong, but some are useful.

— George Box (Box and Draper 1987)

写作灵感来自 Common statistical tests are linear models (or: how to teach stats) 参考文献 《Modern Applied Statistics with S》(第四版)(Venables and Ripley 2002) 和 《Mixed-effects models in S and S-PLUS》(Pinheiro and Bates 2000)

将 R 语言发挥到极致的 70 多个提示 (Tsagris and Papadakis 2018)

If you really want to assess uncertainty you need to take into account that the models are false and that several models may capture different aspects of the data and so be false in different ways.

— Brian D. Ripley1

为什么选择 R

Let’s not kid ourselves: the most widely used piece of software for statistics is Excel.

— Brian D. Ripley (Ripley 2002)

Jenny Bryan 在 2016 年国际 R 语言大会上的演讲 — 摆脱 Excel 吧!2

Nathan Stephens 总结了 Excel 的缺陷和不足,无法掌控数据,工作不可重复使用,文件太大不方便分享,包含大量丑陋的 VBA 代码,随着时间的推移,几乎不可维护, Excel 也不是数据库 https://resources.rstudio.com/wistia-rstudio-essentials-2/how-to-excel-without-using-excel

Some people familiar with R describe it as a supercharged version of Microsoft’s Excel spreadsheet software.

— Ashlee Vance3


I think, therefore I R.

— William B. King4

本书 R Markdown 源文件托管在 Github 仓库里,本地使用 RStudio IDE 编辑,bookdown 组织各个章节的 Rmd 文件和输出格式,使用 Git 进行版本控制。每次提交修改到 Github 上都会触发 Travis 自动编译书籍,将一系列 Rmd 文件经 knitr 调用 R 解释器执行里面的代码块,并将输出结果返回,Pandoc 将 Rmd 文件转化为 md 、 html 或者 tex 文件。若想输出 pdf 文件,还需要准备 TeX 排版环境,最后使用 Netlify 托管书籍网站,和 Travis 一起实现连续部署,使得每次修改都会同步到网站。

Rickyfox: Dang it how could I have missed this? Thx for the answer, I feel incredibly stupid now.

Juba: Never underestimate the power of R to make you feel stupid.

— Rickyfox and Juba5

本书依赖的 R 包和配置环境比较复杂,所以将整个运行环境打包成 Docker 镜像,方便读者重现,构建镜像的 Dockerfile 文件随同书籍源文件一起托管在 Github 上,方便读者研究。本地编译书籍只需三步走,先将存放在 Github 上的书籍项目克隆到本地6

git clone https://github.com/XiangyunHuang/MASR.git

然后在 Git Bash 的模拟终端器中,启动虚拟机,拉取准备好的镜像文件7

docker-machine.exe start default
docker pull xiangyunhuang/masr

最后 cd 进入书籍项目所在目录,运行如下命令编译书籍

docker run --rm -u docker -v "/${PWD}://home/docker/workspace" xiangyunhuang/masr make gitbook

编译成功后,可以在目录 _book/ 下看到生成的文件,点击文件 index.html 选择谷歌浏览器打开8,尽情地阅读吧!

如果你想了解编译书籍的环境和过程,我推荐你阅读随书籍源文件一起的 Dockerfile 文件,Docker Hub 是根据此文件构建的镜像,打包成功后,大约占用空间 2 Gb,本书在 RStudio IDE 下用 R Markdown (Xie, Allaire, and Grolemund 2018) 编辑的,编译本书获得电子版还需要以下 R 包和软件9

  packages = c("knitr", "rmarkdown", "bookdown"),
  dependencies = FALSE
## R version 3.6.2 (2019-12-12)
## Platform: x86_64-pc-linux-gnu (64-bit)
## Running under: Ubuntu 16.04.6 LTS
## Locale:
##   LC_CTYPE=zh_CN.UTF-8       LC_NUMERIC=C              
##   LC_TIME=zh_CN.UTF-8        LC_COLLATE=zh_CN.UTF-8    
##   LC_PAPER=zh_CN.UTF-8       LC_NAME=C                 
##   LC_ADDRESS=C               LC_TELEPHONE=C            
## Package version:
##   bookdown_0.17 knitr_1.26    rmarkdown_2.1
## Pandoc version:

镜像中已安装的 R 包列表可运行如下命令查看,或者点击链接

docker run --rm xiangyunhuang/masr Rscript -e 'xfun::session_info(.packages(TRUE))'

借助 bookdown (Xie 2016) 可以将 Rmd 文件组织起来, rmarkdown (Allaire et al. 2020)和 knitr (Xie 2015) 将源文件编译成 Markdown 文件, Pandoc 将 Markdown 文件转化成 HTML 和 TeX 文件,用 TinyTeX 将 TeX 文件编译成 PDF 文档,所有的图形都用 ggplot2 包制作 (Wickham 2016)

R 社区提供了丰富的帮助资源,可以先在 R 官网搜集的高频问题 https://cran.r-project.org/faqs.html 中查找,然后在线搜索 https://cran.r-project.org/search.htmlhttps://rseek.org/,更多帮助获取方式见 https://www.r-project.org/help.html


目前编译本书需要的 R 包如下:

表 0.1: 依赖的 R 包
  1. https://stat.ethz.ch/pipermail/r-help/2007-July/136590.html↩︎

  2. https://channel9.msdn.com/Events/useR-international-R-User-conference/useR2016/jailbreakr-Get-out-of-Excel-free↩︎

  3. https://www.nytimes.com/2009/01/07/technology/business-computing/07program.html↩︎

  4. https://ww2.coastal.edu/kingw/statistics/R-tutorials/↩︎

  5. https://stackoverflow.com/questions/15568942↩︎

  6. 如果本地环境中没有 Git,你需要从它的官网 https://git-scm.com/downloads 下载安装适配本地系统的 Git 软件。↩︎

  7. 为了方便读者重现本书的内容,特将书籍的编译环境打包成 Docker 镜像。在启动镜像前需要确保本地已经安装 Docker 软件 https://www.docker.com/products/docker-desktop,安装过程请看官网教程。↩︎

  8. 不要使用 IE 浏览器,推荐使用谷歌浏览器获取最佳阅读体验。↩︎

  9. Pandoc https://pandoc.org/ 软件是系统 Fedora 30 仓库自带的,版本是 2.2.1,较新的 RStudio IDE 捆绑的 Pandoc 软件一般会高于此版本。如果你打算在本地系统上编译书籍,RStudio IDE 捆绑的 Pandoc 软件版本已经足够,当然你也可以在 https://github.com/jgm/pandoc/releases/latest 下载安装最新版本,此外,你还需参考书籍随附的 Dockerfile 文件配置 C++ 代码编译环境,安装所需的 R 包,并确保本地安装的版本不低于镜像内的版本。↩︎