4.15 分散・標準偏差

Definition 4.2 (分散・不偏分散・標準偏差) 観測されたデータを\(x_{1},\ldots,x_{n}\)とする.このときデータの分散は以下のように定義される.

\[\begin{align} s^2 = \frac1n \sum_{i=1}^{n} (x_i - \bar x) \end{align}\]

また,\(n\)ではなく\(n-1\)で割る場合を不偏分散という.

\[\begin{align} s'^2 = \frac1{n-1} \sum_{i=1}^{n} (x_i - \bar x) \end{align}\]

さらに,分散または不偏分散の正の平方根を標準偏差という.

s =

分散は,平均と比べて幾分想像しにくい統計量である.平均との差の二乗を足し上げて,\(n\)または\(n-1\)で割った数であるが, これは平均からのばらつきがどれ程大きいかを示している. 分散は二乗の操作をしているので必ず0以上である.すなわち,0に近ければ近いほどそのデータは平均周りに密集していることがわかる.

さらに標準偏差は分散に対して正の平方根をとっているが,これは二乗した際にデータのスケールが変わっていることを考慮し, 元のスケールに戻す操作を加えたものである.

4.15.1 Rでの計算

Rではvarで不偏分散,sdで標準偏差を計算することができる. 先ほどの平均・最大値・最小値に加えて,不偏分散,標準偏差を加えてみよう.

iris %>% 
  as_tibble() %>% 
  group_by(Species) %>% 
  summarise(across(c(Sepal.Length, Sepal.Width), list(mean=mean, min=min, max=max, var=var, sd=sd)))
## # A tibble: 3 × 11
##   Species    Sepal.Length_mean Sepal.Length_min Sepal.Length_max Sepal.Length_var
##   <fct>                  <dbl>            <dbl>            <dbl>            <dbl>
## 1 setosa                  5.01              4.3              5.8            0.124
## 2 versicolor              5.94              4.9              7              0.266
## 3 virginica               6.59              4.9              7.9            0.404
## # ℹ 6 more variables: Sepal.Length_sd <dbl>, Sepal.Width_mean <dbl>,
## #   Sepal.Width_min <dbl>, Sepal.Width_max <dbl>, Sepal.Width_var <dbl>,
## #   Sepal.Width_sd <dbl>