Rozdział 4 Miary rozproszenia

4.1 Odchylenie standardowe

Odchylenie standardowe (ang. standard deviation) jest chyba najpopularniejszą miarą rozproszenia rozkładu cechy.

Wzór na odchylenie standardowe pojawia się w dwóch wersjach: jedna z nich określana jest często w praktyce jako odchylenie standardowe "dla populacji", a druga nazywana jest odchyleniem standardowym "dla próby".

Wzór na odchylenie standardowe "dla populacji" o liczebności \(N\) jest następujący:

\[\begin{equation} \sigma_X = \sqrt{\frac{\sum_{i=1}^N \left(x_i-\bar{x}\right)^2}{N}} \tag{4.1} \end{equation}\]

Wzór na odchylenie standardowe "dla próby" o liczebności \(n\) to:

\[\begin{equation} s_X = \sqrt{\frac{\sum_{i=1}^n \left(x_i-\bar{x}\right)^2}{n-1}} \tag{4.2} \end{equation}\]

Ponieważ będziemy często traktować posiadane dane jak próbę pozwalającą wnioskować o procesie generującym dane (o populacji), w obliczeniach praktycznych będziemy stosować wzór (4.2).

W arkuszach kalkulacyjnych odchylenie standardowe dla próby wyznaczamy za pomocą funkcji ODCH.STANDARDOWE (STDEV) – arkusze Google, Excel lub (równoznacznie) ODCH.STANDARD.PRÓBKI (STDEV.S) – arkusze Google, Excel.

Odchylenie standardowe dla populacji można obliczyć za pomocą funkcji ODCH.STANDARD.POPUL (STDEVP) -- arkusze Google, Excel albo ODCH.STAND.POPUL (STDEV.P) – arkusze Google, Excel.

4.1.1 Wariancja

Odchylenie standardowe to pierwiastek z wariancji. Innymi słowy: wariancja to odchylenie standardowe do kwadratu.

Wzór na wariancję dla populacji o liczebności \(N\):

\[\begin{equation} \sigma^2_X = \frac{\sum_{i=1}^N \left(x_i-\bar{x}\right)^2}{N} \tag{4.3} \end{equation}\]

Dla próby o liczebności \(n\):

\[\begin{equation} s^2_X = \frac{\sum_{i=1}^n \left(x_i-\bar{x}\right)^2}{n-1} \tag{4.4} \end{equation}\]

4.1.2 Współczynnik zmienności

Współczynnik zmienności, który jest stosunkiem odchylenia standardowego do średniej, może być w niektórych sytuacjach lepszym miernikiem zmienności.

Jego wzór dla próby to:

\[\begin{equation} V_X = \frac{s_X}{\bar{x}} \tag{4.5} \end{equation}\]

Współczynnik zmienności możemy używać w przypadku zmiennych ilościowych na skali ilorazowej, w szczególności gdy przyjmują tylko (albo z reguły) wartości dodatnie.

4.1.3 Wykorzystanie odchylenia standardowego

Odchylenie standardowe jest miarą rozproszenia. W statystyce opisowej używamy tej miary na przykład:

  • porównując rozproszenie w różnych grupach (bezpośrednio lub w liczbach względnych, korzystając ze współczynnika zmienności),

  • opisując cechy mające w przybliżeniu rozkład normalny; w takiej sytuacji do opisu rozkładu wystarczą dwie wartości: średnia i odchylenie standardowe,

  • wyznaczając siłę efektu d Cohena (różnica pomiędzy średnimi dwóch grup),

  • wyznaczając standardyzowane wartości "z" (z-scores),

  • identyfikując wartości skrajne, odstające.

4.2 Rozstęp międzykwartylowy

Inną popularną miarą rozproszenia opartą na miarach położenia jest rozstęp międzykwartylowy (ang. IQR):

\[\begin{equation} IQR = Q_3 - Q_1 \tag{4.6} \end{equation}\]

gdzie \(Q_1\) to kwartyl pierwszy, a \(Q_3\) to kwartyl 3.

4.2.1 Odchylenie ćwiartkowe i pozycyjny współczynnik zmienności

Niekiedy w polskiej literaturze wprowadza się odchylenie ćwiartkowe i pozycyjny współczynnik zmienności. Odchylenie ćwiartkowe to połowa IQR:

\[ Q = IQR/2 \]

Pozycyjny współczynnik zmienności to iloraz odchylenia ćwiartkowego i mediany:

\[ V = Q/Me \]

4.2.2 Rozstęp decylowy

Niekiedy wprowadza się również rozstęp decylowy, czyli różnicę pomiędzy dziewiątym a pierwszym decylem.

4.2.3 Rozstęp

Samo słowo "rozstęp" (ang. range) to najczęściej określenie różnicy pomiędzy maksimum a minimum.

4.3 Wykres ramka-wąsy

IQR i wartości miar położenia pozwalają stworzyć wykres pudełkowy (wykres ramka-wąsy, ang. boxplot). Na tym wykresie przedstawia się najczęściej medianę, kwartyl pierwszy, kwartyl trzeci, a także minimum i maksimum.

Dość często minimum i maksimum wyznacza się z pominięciem wartości odstających (ang. outliers), które osobno zaznacza się na wykresie w formie punktów. Typowa definicja wartości odstającej w tym kontekście zakłada, że wartości odstające są albo mniejsze niż \(Q_1 - 1{,}5\cdot IQR\), albo większe niż \(Q_3 + 1{,}5\cdot IQR\), choć oczywiście można przyjąć inne definicje wartości odstających.

4.4 Linki

Eksploracja i wizualizacja danych ilościowych - aplikacja webowa: https://istats.shinyapps.io/EDA_quantitative/