4.15 分散・標準偏差
Definition 4.2 (分散・不偏分散・標準偏差) 観測されたデータを\(x_{1},\ldots,x_{n}\)とする.このときデータの分散は以下のように定義される.
\[\begin{align} s^2 = \frac1n \sum_{i=1}^{n} (x_i - \bar x) \end{align}\]
また,\(n\)ではなく\(n-1\)で割る場合を不偏分散という.
\[\begin{align} s'^2 = \frac1{n-1} \sum_{i=1}^{n} (x_i - \bar x) \end{align}\]
さらに,分散または不偏分散の正の平方根を標準偏差という.
s =
分散は,平均と比べて幾分想像しにくい統計量である.平均との差の二乗を足し上げて,\(n\)または\(n-1\)で割った数であるが, これは平均からのばらつきがどれ程大きいかを示している. 分散は二乗の操作をしているので必ず0以上である.すなわち,0に近ければ近いほどそのデータは平均周りに密集していることがわかる.
さらに標準偏差は分散に対して正の平方根をとっているが,これは二乗した際にデータのスケールが変わっていることを考慮し, 元のスケールに戻す操作を加えたものである.
4.15.1 Rでの計算
Rではvar
で不偏分散,sd
で標準偏差を計算することができる.
先ほどの平均・最大値・最小値に加えて,不偏分散,標準偏差を加えてみよう.
iris %>%
as_tibble() %>%
group_by(Species) %>%
summarise(across(c(Sepal.Length, Sepal.Width), list(mean=mean, min=min, max=max, var=var, sd=sd)))
## # A tibble: 3 × 11
## Species Sepal.Length_mean Sepal.Length_min Sepal.Length_max Sepal.Length_var
## <fct> <dbl> <dbl> <dbl> <dbl>
## 1 setosa 5.01 4.3 5.8 0.124
## 2 versicolor 5.94 4.9 7 0.266
## 3 virginica 6.59 4.9 7.9 0.404
## # ℹ 6 more variables: Sepal.Length_sd <dbl>, Sepal.Width_mean <dbl>,
## # Sepal.Width_min <dbl>, Sepal.Width_max <dbl>, Sepal.Width_var <dbl>,
## # Sepal.Width_sd <dbl>