Rozdział 4 Miary rozproszenia

4.1 Odchylenie standardowe

Odchylenie standardowe (ang. standard deviation) jest chyba najpopularniejszą miarą rozproszenia rozkładu cechy.

Wzór na odchylenie standardowe pojawia się w dwóch wersjach. W tym skrypcie będziemy je oznaczać² odpowiednio literami \(\widehat{\sigma}\) i \(s\).

\[\begin{equation} \widehat{\sigma}_X = \sqrt{\frac{\sum_{i=1}^n \left(x_i-\overline{x}\right)^2}{n}} \tag{4.1} \end{equation}\]

\[\begin{equation} s_X = \sqrt{\frac{\sum_{i=1}^n \left(x_i-\overline{x}\right)^2}{n-1}} \tag{4.2} \end{equation}\]

W powyższych wzorach zastosowano subskrypt \(X\), żeby zaznaczyć, że odchylenie standardowe wyznaczamy dla cechy ilościowej \(X\).

Miara \(s\) (wzór (4.2)) nazywana jest odchyleniem standardowym „z próby” lub „dla próby”, dlatego że zwykle jest preferowana, gdy analizowane dane pochodzą z próby.

Miarę \(\widehat{\sigma}\) (wzór (4.1)) również można zastosować dla próby, ale nazywana jest ona często odchyleniem standardowym „dla populacji”. W przypadku populacji tylko ten wzór powinien zostać zastosowany. Jeżeli mamy do czynienia z populacją, pomija się „daszek” nad \(\sigma\).

Jeżeli nie wiadomo, którego wzoru użyć (i ma nikogo, kto by wskazał, którego z tych wzorów oczekuje), stosuje się wzór (4.2).

W języku R funkcja sd() oblicza odchylenie standardowe \(s\) według wzoru (4.2). Wzoru na \(\widehat{\sigma}\) (4.1) nie ma w standardowych pakietach R i należy napisać własna funkcję lub zainstalować dodatkowy pakiet. Brak funkcji obliczającej \(\widehat{\sigma}\) w standardzie może stanowić dodatkową wskazówkę dotycząca tego, który z wzorów jest zwykle preferowany.

W arkuszach kalkulacyjnych odchylenie standardowe \(s\) („dla próby”) wyznaczamy za pomocą funkcji ODCH.STANDARDOWE (STDEV) – arkusze Google, Excel lub (równoznacznie) ODCH.STANDARD.PRÓBKI (STDEV.S) – arkusze Google, Excel.

Odchylenie standardowe \(\widehat{\sigma}\) „dla populacji” można obliczyć za pomocą funkcji ODCH.STANDARD.POPUL (STDEVP) – arkusze Google, Excel albo ODCH.STAND.POPUL (STDEV.P) – arkusze Google, Excel.

4.1.1 Wariancja

Odchylenie standardowe to pierwiastek z wariancji. Innymi słowy: wariancja to odchylenie standardowe do kwadratu.

Wzory na wariancję są, jak się można domyślić, również dwa:

\[\begin{equation} \widehat{\sigma}^2_X = \frac{\sum_{i=1}^n \left(x_i-\overline{x}\right)^2}{n} \tag{4.3} \end{equation}\]

\[\begin{equation} s^2_X = \frac{\sum_{i=1}^n \left(x_i-\overline{x}\right)^2}{n-1} \tag{4.4} \end{equation}\]

4.1.2 Współczynnik zmienności

Współczynnik zmienności, który jest stosunkiem odchylenia standardowego do średniej, może być w niektórych sytuacjach lepszym miernikiem zmienności.

Jego wzór dla próby to:

\[\begin{equation} V_X = \frac{s_X}{\overline{x}} \tag{4.5} \end{equation}\]

Współczynnika zmienności możemy używać w przypadku zmiennych ilościowych na skali ilorazowej, które przyjmują wyłącznie (albo z reguły) wartości dodatnie.

4.1.3 Wykorzystanie odchylenia standardowego

Odchylenie standardowe jest miarą rozproszenia. W statystyce opisowej używamy tej miary na przykład:

porównując rozproszenie w różnych grupach (bezpośrednio lub w liczbach względnych, korzystając ze współczynnika zmienności),
opisując cechy mające w przybliżeniu rozkład normalny; w takiej sytuacji do opisu rozkładu wystarczą dwie wartości: średnia i odchylenie standardowe,
wyznaczając siłę efektu d Cohena (standaryzowaną różnicę pomiędzy średnimi dwóch grup),
wyznaczając standardyzowane wartości „z” (z-scores),
identyfikując wartości skrajne, odstające.

4.1.4 Odchylenie standardowe nie jest średnim odchyleniem

4.2 Rozstęp międzykwartylowy

Inną popularną miarą rozproszenia opartą na miarach położenia jest rozstęp międzykwartylowy (ang. IQR):

\[\begin{equation} IQR = Q_3 - Q_1 \tag{4.6} \end{equation}\]

gdzie \(Q_1\) to kwartyl pierwszy, a \(Q_3\) to kwartyl 3.

4.2.1 Odchylenie ćwiartkowe i pozycyjny współczynnik zmienności

Niekiedy w polskiej literaturze wprowadza się odchylenie ćwiartkowe i pozycyjny współczynnik zmienności. Odchylenie ćwiartkowe to połowa IQR:

\[ Q = IQR/2 \]

Pozycyjny współczynnik zmienności to iloraz odchylenia ćwiartkowego i mediany:

\[ V = Q/Me \]

4.2.2 Rozstęp decylowy

Niekiedy wprowadza się również rozstęp decylowy, czyli różnicę pomiędzy dziewiątym a pierwszym decylem.

4.2.3 Rozstęp

Samo słowo „rozstęp” (ang. range) to najczęściej określenie różnicy pomiędzy maksimum a minimum.

4.3 Wykres pudełkowy

IQR i wartości miar położenia pozwalają stworzyć wykres pudełkowy (wykres ramka-wąsy, ang. boxplot). Na tym wykresie przedstawia się najczęściej medianę, kwartyl pierwszy, kwartyl trzeci, a także minimum i maksimum.

Dość często minimum i maksimum wyznacza się z pominięciem wartości odstających (ang. outliers), które osobno zaznacza się na wykresie w formie punktów. Typowa definicja wartości odstającej w tym kontekście zakłada, że wartości odstające są albo mniejsze niż \(Q_1 - 1{,}5\cdot IQR\), albo większe niż \(Q_3 + 1{,}5\cdot IQR\), choć oczywiście można przyjąć inne definicje wartości odstających.

4.4 Linki

Eksploracja i wizualizacja danych ilościowych - aplikacja webowa: https://istats.shinyapps.io/EDA_quantitative/

4.5 Zadania

Zadanie 4.1 Z danych GUS wynika, że w Polsce jest 16 miejscowości (miast i wsi) o nazwie Dobra. Na podstawie poniższej tabeli przygotuj wykres pudełkowy podsumowujący populację (liczbę mieszkańców) tych miejscowości.

Tabela 4.1: Ludność miejscowości o nazwie Dobra według Narodowego Spisu Powszechnego 2021
miejscowość	ludność
wieś Dobra, woj. zachodniopom., pow. policki	4276
wieś Dobra, woj. małop., pow. limanowski	3217
miasto Dobra, woj. zachodniopom., pow. łobeski	2103
miasto Dobra, woj. wielkop., pow. turecki	1358
wieś Dobra, woj. dolnośl., pow. bolesławiecki	1115
wieś Dobra, woj. opolskie, pow. krapkowicki	797
wieś Dobra, woj. łódzkie, pow. zgierski	617
wieś Dobra, woj. podkarp., pow. przeworski	468
wieś Dobra, woj. dolnośl., pow. oleśnicki	364
wieś Dobra, woj. podkarp., pow. sanocki	286
wieś Dobra, woj. śląskie, pow. zawierciański	276
wieś Dobra, woj. świętokrz., pow. staszowski	261
wieś Dobra, woj. łódzkie, pow. łaski	246
wieś Dobra, woj. pomorskie, pow. słupski	102
wieś Dobra, woj. mazow., pow. płocki	86
wieś Dobra, woj. wielkop., pow. poznański	76

Zadanie 4.2 Stwórz wykres pudełkowy dla kwoty zamówienia na podstawie danych o zamówieniach ze sklepu internetowego (orders.csv)[datasets/orders.csv]

Zadanie 4.3 Porównaj graficznie prędkość samochodów osobowych i jednośladów wykorzystując dwa położone obok siebie wykresy pudełkowe.

Uwaga! Nie są to oznaczenia powszechnie stosowane — w różnych tekstach można spotkać różne symbole. Zastosowany wzór należy rozpoznać z kontekstu (często autor podaje go wprost).↩︎