Chapter 3 新手上路 R Basics 2
3.1 为什么要学统计?
不管你是谁,不得不承认,我们所生活的世界,复杂,多变,充满随机性与不确定性。
同时,在这纷繁复杂的表象里面,也蕴含着必然的规律,也可以说是“套路”。
发现这些规律,帮助我们更好的理解我们的世界,作出更正确的决定,做更好的自己,哦耶。
这正是统计学干的事情。
不,我们借统计学干的事情。
[]!(/Users/yuandong/Dropbox/Public/stats.png)
- 幸存者偏差,二战盟军统计学家沃尔德
- 老物件、双盲实验、成功者的故事(从大学退学的特征)
- 不能只看贼吃肉,不看贼挨揍
3.2 补一点统计知识
描述性统计:Summary statistics
3.2.1 集中趋势统计量: 均值(Mean)、中位数(Median)、众数(Mode)、百分位数(percentile)
- 均值(Mean): 描述数据取值的平均位置,指一组数据的平均数
## [1] 20.09062
- 中位数(Median): 定义为数据排序位于中间位置的值
## [1] 19.2
*众数(Mode): 就是一组数据中占比例最多的那个数, R中未提供直接调用的函数
## [1] "10.4"
*百分位数 (percentile)
## 0% 25% 50% 75% 100%
## 10.400 15.425 19.200 22.800 33.900
3.2.2 离散趋势统计量:方差(var)、极差(range)
- 方差(Variance): 是描述数据取值分散性的一个度量.样本方差(sample variance)是样本相对于均值的偏差平方和的平均,记为s2:
\[s2=\frac{1}{n-1}\sum ^n _{i=1} (x_i-\bar{x})^2\] * 标准差就是方差开方:
\[s=\sqrt{\frac{1}{n-1}\sum ^n _{i=1} (x_i-\bar{x})^2}\]
## [1] 36.3241
- 极差(Range): 描述样本分散性的数字特征.当数据越分散,其极差越大
## [1] 10.4 33.9
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 10.40 15.43 19.20 20.09 22.80 33.90
## mpg cyl disp hp
## Min. :10.40 Min. :4.000 Min. : 71.1 Min. : 52.0
## 1st Qu.:15.43 1st Qu.:4.000 1st Qu.:120.8 1st Qu.: 96.5
## Median :19.20 Median :6.000 Median :196.3 Median :123.0
## Mean :20.09 Mean :6.188 Mean :230.7 Mean :146.7
## 3rd Qu.:22.80 3rd Qu.:8.000 3rd Qu.:326.0 3rd Qu.:180.0
## Max. :33.90 Max. :8.000 Max. :472.0 Max. :335.0
## drat wt qsec vs
## Min. :2.760 Min. :1.513 Min. :14.50 Min. :0.0000
## 1st Qu.:3.080 1st Qu.:2.581 1st Qu.:16.89 1st Qu.:0.0000
## Median :3.695 Median :3.325 Median :17.71 Median :0.0000
## Mean :3.597 Mean :3.217 Mean :17.85 Mean :0.4375
## 3rd Qu.:3.920 3rd Qu.:3.610 3rd Qu.:18.90 3rd Qu.:1.0000
## Max. :4.930 Max. :5.424 Max. :22.90 Max. :1.0000
## am gear carb
## Min. :0.0000 Min. :3.000 Min. :1.000
## 1st Qu.:0.0000 1st Qu.:3.000 1st Qu.:2.000
## Median :0.0000 Median :4.000 Median :2.000
## Mean :0.4062 Mean :3.688 Mean :2.812
## 3rd Qu.:1.0000 3rd Qu.:4.000 3rd Qu.:4.000
## Max. :1.0000 Max. :5.000 Max. :8.000