Chapter 3 新手上路 R Basics 2

3.1 为什么要学统计?

不管你是谁,不得不承认,我们所生活的世界,复杂,多变,充满随机性与不确定性。

同时,在这纷繁复杂的表象里面,也蕴含着必然的规律,也可以说是“套路”。

发现这些规律,帮助我们更好的理解我们的世界,作出更正确的决定,做更好的自己,哦耶。

这正是统计学干的事情。

不,我们借统计学干的事情。

[]!(/Users/yuandong/Dropbox/Public/stats.png)

  • 幸存者偏差,二战盟军统计学家沃尔德
  • 老物件、双盲实验、成功者的故事(从大学退学的特征)
  • 不能只看贼吃肉,不看贼挨揍

3.2 补一点统计知识

描述性统计:Summary statistics

3.2.1 集中趋势统计量: 均值(Mean)、中位数(Median)、众数(Mode)、百分位数(percentile)

  • 均值(Mean): 描述数据取值的平均位置,指一组数据的平均数
## [1] 20.09062
  • 中位数(Median): 定义为数据排序位于中间位置的值
## [1] 19.2

*众数(Mode): 就是一组数据中占比例最多的那个数, R中未提供直接调用的函数

## [1] "10.4"

*百分位数 (percentile)

##     0%    25%    50%    75%   100% 
## 10.400 15.425 19.200 22.800 33.900

3.2.2 离散趋势统计量:方差(var)、极差(range)

  • 方差(Variance): 是描述数据取值分散性的一个度量.样本方差(sample variance)是样本相对于均值的偏差平方和的平均,记为s2:

\[s2=\frac{1}{n-1}\sum ^n _{i=1} (x_i-\bar{x})^2\] * 标准差就是方差开方:

\[s=\sqrt{\frac{1}{n-1}\sum ^n _{i=1} (x_i-\bar{x})^2}\]

## [1] 36.3241
  • 极差(Range): 描述样本分散性的数字特征.当数据越分散,其极差越大
## [1] 10.4 33.9
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   10.40   15.43   19.20   20.09   22.80   33.90
##       mpg             cyl             disp             hp       
##  Min.   :10.40   Min.   :4.000   Min.   : 71.1   Min.   : 52.0  
##  1st Qu.:15.43   1st Qu.:4.000   1st Qu.:120.8   1st Qu.: 96.5  
##  Median :19.20   Median :6.000   Median :196.3   Median :123.0  
##  Mean   :20.09   Mean   :6.188   Mean   :230.7   Mean   :146.7  
##  3rd Qu.:22.80   3rd Qu.:8.000   3rd Qu.:326.0   3rd Qu.:180.0  
##  Max.   :33.90   Max.   :8.000   Max.   :472.0   Max.   :335.0  
##       drat             wt             qsec             vs        
##  Min.   :2.760   Min.   :1.513   Min.   :14.50   Min.   :0.0000  
##  1st Qu.:3.080   1st Qu.:2.581   1st Qu.:16.89   1st Qu.:0.0000  
##  Median :3.695   Median :3.325   Median :17.71   Median :0.0000  
##  Mean   :3.597   Mean   :3.217   Mean   :17.85   Mean   :0.4375  
##  3rd Qu.:3.920   3rd Qu.:3.610   3rd Qu.:18.90   3rd Qu.:1.0000  
##  Max.   :4.930   Max.   :5.424   Max.   :22.90   Max.   :1.0000  
##        am              gear            carb      
##  Min.   :0.0000   Min.   :3.000   Min.   :1.000  
##  1st Qu.:0.0000   1st Qu.:3.000   1st Qu.:2.000  
##  Median :0.0000   Median :4.000   Median :2.000  
##  Mean   :0.4062   Mean   :3.688   Mean   :2.812  
##  3rd Qu.:1.0000   3rd Qu.:4.000   3rd Qu.:4.000  
##  Max.   :1.0000   Max.   :5.000   Max.   :8.000

3.3 基本作图