Rozdział 4 Miary rozproszenia
4.1 Odchylenie standardowe
Odchylenie standardowe (ang. standard deviation) jest chyba najpopularniejszą miarą rozproszenia rozkładu cechy.
Wzór na odchylenie standardowe pojawia się w dwóch wersjach. W tym skrypcie będziemy je oznaczać2 odpowiednio literami \(\widehat{\sigma}\) i \(s\).
\[\begin{equation} \widehat{\sigma}_X = \sqrt{\frac{\sum_{i=1}^n \left(x_i-\overline{x}\right)^2}{n}} \tag{4.1} \end{equation}\]
\[\begin{equation} s_X = \sqrt{\frac{\sum_{i=1}^n \left(x_i-\overline{x}\right)^2}{n-1}} \tag{4.2} \end{equation}\]
W powyższych wzorach zastosowano subskrypt \(X\), żeby zaznaczyć, że odchylenie standardowe wyznaczamy dla cechy ilościowej \(X\).
Miara \(s\) (wzór (4.2)) nazywana jest odchyleniem standardowym „z próby” lub „dla próby”, dlatego że zwykle jest preferowana, gdy analizowane dane pochodzą z próby.
Miarę \(\widehat{\sigma}\) (wzór (4.1)) również można zastosować dla próby, ale nazywana jest ona często odchyleniem standardowym „dla populacji”. W przypadku populacji tylko ten wzór powinien zostać zastosowany. Jeżeli mamy do czynienia z populacją, pomija się „daszek” nad \(\sigma\).
Jeżeli nie wiadomo, którego wzoru użyć (i ma nikogo, kto by wskazał, którego z tych wzorów oczekuje), stosuje się wzór (4.2).
W języku R funkcja sd()
oblicza odchylenie standardowe \(s\) według wzoru (4.2). Wzoru na \(\widehat{\sigma}\) (4.1) nie ma w standardowych pakietach R i należy napisać własna funkcję lub zainstalować dodatkowy pakiet. Brak funkcji obliczającej \(\widehat{\sigma}\) w standardzie może stanowić dodatkową wskazówkę dotycząca tego, który z wzorów jest zwykle preferowany.
W arkuszach kalkulacyjnych odchylenie standardowe \(s\) („dla próby”) wyznaczamy za pomocą funkcji ODCH.STANDARDOWE (STDEV) – arkusze Google, Excel lub (równoznacznie) ODCH.STANDARD.PRÓBKI (STDEV.S) – arkusze Google, Excel.
Odchylenie standardowe \(\widehat{\sigma}\) „dla populacji” można obliczyć za pomocą funkcji ODCH.STANDARD.POPUL (STDEVP) – arkusze Google, Excel albo ODCH.STAND.POPUL (STDEV.P) – arkusze Google, Excel.
4.1.1 Wariancja
Odchylenie standardowe to pierwiastek z wariancji. Innymi słowy: wariancja to odchylenie standardowe do kwadratu.
Wzory na wariancję są, jak się można domyślić, również dwa:
\[\begin{equation} \widehat{\sigma}^2_X = \frac{\sum_{i=1}^n \left(x_i-\overline{x}\right)^2}{n} \tag{4.3} \end{equation}\]
\[\begin{equation} s^2_X = \frac{\sum_{i=1}^n \left(x_i-\overline{x}\right)^2}{n-1} \tag{4.4} \end{equation}\]
4.1.2 Współczynnik zmienności
Współczynnik zmienności, który jest stosunkiem odchylenia standardowego do średniej, może być w niektórych sytuacjach lepszym miernikiem zmienności.
Jego wzór dla próby to:
\[\begin{equation} V_X = \frac{s_X}{\overline{x}} \tag{4.5} \end{equation}\]
Współczynnika zmienności możemy używać w przypadku zmiennych ilościowych na skali ilorazowej, które przyjmują wyłącznie (albo z reguły) wartości dodatnie.
4.1.3 Wykorzystanie odchylenia standardowego
Odchylenie standardowe jest miarą rozproszenia. W statystyce opisowej używamy tej miary na przykład:
porównując rozproszenie w różnych grupach (bezpośrednio lub w liczbach względnych, korzystając ze współczynnika zmienności),
opisując cechy mające w przybliżeniu rozkład normalny; w takiej sytuacji do opisu rozkładu wystarczą dwie wartości: średnia i odchylenie standardowe,
wyznaczając siłę efektu d Cohena (standaryzowaną różnicę pomiędzy średnimi dwóch grup),
wyznaczając standardyzowane wartości „z” (z-scores),
identyfikując wartości skrajne, odstające.
4.2 Rozstęp międzykwartylowy
Inną popularną miarą rozproszenia opartą na miarach położenia jest rozstęp międzykwartylowy (ang. IQR):
\[\begin{equation} IQR = Q_3 - Q_1 \tag{4.6} \end{equation}\]
gdzie \(Q_1\) to kwartyl pierwszy, a \(Q_3\) to kwartyl 3.
4.2.1 Odchylenie ćwiartkowe i pozycyjny współczynnik zmienności
Niekiedy w polskiej literaturze wprowadza się odchylenie ćwiartkowe i pozycyjny współczynnik zmienności. Odchylenie ćwiartkowe to połowa IQR:
\[ Q = IQR/2 \]
Pozycyjny współczynnik zmienności to iloraz odchylenia ćwiartkowego i mediany:
\[ V = Q/Me \]
4.3 Wykres pudełkowy
IQR i wartości miar położenia pozwalają stworzyć wykres pudełkowy (wykres ramka-wąsy, ang. boxplot). Na tym wykresie przedstawia się najczęściej medianę, kwartyl pierwszy, kwartyl trzeci, a także minimum i maksimum.
Dość często minimum i maksimum wyznacza się z pominięciem wartości odstających (ang. outliers), które osobno zaznacza się na wykresie w formie punktów. Typowa definicja wartości odstającej w tym kontekście zakłada, że wartości odstające są albo mniejsze niż \(Q_1 - 1{,}5\cdot IQR\), albo większe niż \(Q_3 + 1{,}5\cdot IQR\), choć oczywiście można przyjąć inne definicje wartości odstających.
4.4 Linki
Eksploracja i wizualizacja danych ilościowych - aplikacja webowa: https://istats.shinyapps.io/EDA_quantitative/
4.5 Zadania
Zadanie 4.1 Z danych GUS wynika, że w Polsce jest 16 miejscowości (miast i wsi) o nazwie Dobra. Na podstawie poniższej tabeli przygotuj wykres pudełkowy podsumowujący populację (liczbę mieszkańców) tych miejscowości.
miejscowość | ludność |
---|---|
wieś Dobra, woj. zachodniopom., pow. policki | 4276 |
wieś Dobra, woj. małop., pow. limanowski | 3217 |
miasto Dobra, woj. zachodniopom., pow. łobeski | 2103 |
miasto Dobra, woj. wielkop., pow. turecki | 1358 |
wieś Dobra, woj. dolnośl., pow. bolesławiecki | 1115 |
wieś Dobra, woj. opolskie, pow. krapkowicki | 797 |
wieś Dobra, woj. łódzkie, pow. zgierski | 617 |
wieś Dobra, woj. podkarp., pow. przeworski | 468 |
wieś Dobra, woj. dolnośl., pow. oleśnicki | 364 |
wieś Dobra, woj. podkarp., pow. sanocki | 286 |
wieś Dobra, woj. śląskie, pow. zawierciański | 276 |
wieś Dobra, woj. świętokrz., pow. staszowski | 261 |
wieś Dobra, woj. łódzkie, pow. łaski | 246 |
wieś Dobra, woj. pomorskie, pow. słupski | 102 |
wieś Dobra, woj. mazow., pow. płocki | 86 |
wieś Dobra, woj. wielkop., pow. poznański | 76 |
Zadanie 4.2 Stwórz wykres pudełkowy dla kwoty zamówienia na podstawie danych o zamówieniach ze sklepu internetowego (orders.csv
)[datasets/orders.csv]
Zadanie 4.3 Porównaj graficznie prędkość samochodów osobowych i jednośladów wykorzystując dwa położone obok siebie wykresy pudełkowe.
Uwaga! Nie są to oznaczenia powszechnie stosowane — w różnych tekstach można spotkać różne symbole. Zastosowany wzór należy rozpoznać z kontekstu (często autor podaje go wprost).↩︎