Rozdział 4 Miary rozproszenia
4.1 Odchylenie standardowe
Odchylenie standardowe (ang. standard deviation) jest chyba najpopularniejszą miarą rozproszenia rozkładu cechy.
Wzór na odchylenie standardowe pojawia się w dwóch wersjach: jedna z nich określana jest często w praktyce jako odchylenie standardowe "dla populacji", a druga nazywana jest odchyleniem standardowym "dla próby".
Wzór na odchylenie standardowe "dla populacji" o liczebności \(N\) jest następujący:
\[\begin{equation} \sigma_X = \sqrt{\frac{\sum_{i=1}^N \left(x_i-\bar{x}\right)^2}{N}} \tag{4.1} \end{equation}\]
Wzór na odchylenie standardowe "dla próby" o liczebności \(n\) to:
\[\begin{equation} s_X = \sqrt{\frac{\sum_{i=1}^n \left(x_i-\bar{x}\right)^2}{n-1}} \tag{4.2} \end{equation}\]
Ponieważ będziemy często traktować posiadane dane jak próbę pozwalającą wnioskować o procesie generującym dane (o populacji), w obliczeniach praktycznych będziemy stosować wzór (4.2).
W arkuszach kalkulacyjnych odchylenie standardowe dla próby wyznaczamy za pomocą funkcji ODCH.STANDARDOWE (STDEV) – arkusze Google, Excel lub (równoznacznie) ODCH.STANDARD.PRÓBKI (STDEV.S) – arkusze Google, Excel.
Odchylenie standardowe dla populacji można obliczyć za pomocą funkcji ODCH.STANDARD.POPUL (STDEVP) -- arkusze Google, Excel albo ODCH.STAND.POPUL (STDEV.P) – arkusze Google, Excel.
4.1.1 Wariancja
Odchylenie standardowe to pierwiastek z wariancji. Innymi słowy: wariancja to odchylenie standardowe do kwadratu.
Wzór na wariancję dla populacji o liczebności \(N\):
\[\begin{equation} \sigma^2_X = \frac{\sum_{i=1}^N \left(x_i-\bar{x}\right)^2}{N} \tag{4.3} \end{equation}\]
Dla próby o liczebności \(n\):
\[\begin{equation} s^2_X = \frac{\sum_{i=1}^n \left(x_i-\bar{x}\right)^2}{n-1} \tag{4.4} \end{equation}\]
4.1.2 Współczynnik zmienności
Współczynnik zmienności, który jest stosunkiem odchylenia standardowego do średniej, może być w niektórych sytuacjach lepszym miernikiem zmienności.
Jego wzór dla próby to:
\[\begin{equation} V_X = \frac{s_X}{\bar{x}} \tag{4.5} \end{equation}\]
Współczynnik zmienności możemy używać w przypadku zmiennych ilościowych na skali ilorazowej, w szczególności gdy przyjmują tylko (albo z reguły) wartości dodatnie.
4.1.3 Wykorzystanie odchylenia standardowego
Odchylenie standardowe jest miarą rozproszenia. W statystyce opisowej używamy tej miary na przykład:
porównując rozproszenie w różnych grupach (bezpośrednio lub w liczbach względnych, korzystając ze współczynnika zmienności),
opisując cechy mające w przybliżeniu rozkład normalny; w takiej sytuacji do opisu rozkładu wystarczą dwie wartości: średnia i odchylenie standardowe,
wyznaczając siłę efektu d Cohena (różnica pomiędzy średnimi dwóch grup),
wyznaczając standardyzowane wartości "z" (z-scores),
identyfikując wartości skrajne, odstające.
4.2 Rozstęp międzykwartylowy
Inną popularną miarą rozproszenia opartą na miarach położenia jest rozstęp międzykwartylowy (ang. IQR):
\[\begin{equation} IQR = Q_3 - Q_1 \tag{4.6} \end{equation}\]
gdzie \(Q_1\) to kwartyl pierwszy, a \(Q_3\) to kwartyl 3.
4.2.1 Odchylenie ćwiartkowe i pozycyjny współczynnik zmienności
Niekiedy w polskiej literaturze wprowadza się odchylenie ćwiartkowe i pozycyjny współczynnik zmienności. Odchylenie ćwiartkowe to połowa IQR:
\[ Q = IQR/2 \]
Pozycyjny współczynnik zmienności to iloraz odchylenia ćwiartkowego i mediany:
\[ V = Q/Me \]
4.3 Wykres ramka-wąsy
IQR i wartości miar położenia pozwalają stworzyć wykres pudełkowy (wykres ramka-wąsy, ang. boxplot). Na tym wykresie przedstawia się najczęściej medianę, kwartyl pierwszy, kwartyl trzeci, a także minimum i maksimum.
Dość często minimum i maksimum wyznacza się z pominięciem wartości odstających (ang. outliers), które osobno zaznacza się na wykresie w formie punktów. Typowa definicja wartości odstającej w tym kontekście zakłada, że wartości odstające są albo mniejsze niż \(Q_1 - 1{,}5\cdot IQR\), albo większe niż \(Q_3 + 1{,}5\cdot IQR\), choć oczywiście można przyjąć inne definicje wartości odstających.
4.4 Linki
Eksploracja i wizualizacja danych ilościowych - aplikacja webowa: https://istats.shinyapps.io/EDA_quantitative/