Rozdział 4 Miary rozproszenia
4.1 Odchylenie standardowe
Odchylenie standardowe (ang. standard deviation) jest chyba najpopularniejszą miarą rozproszenia rozkładu cechy.
Wzór na odchylenie standardowe pojawia się w dwóch wersjach. W tym skrypcie będziemy je oznaczać2 odpowiednio literami ˆσ i s.
ˆσX=√∑ni=1(xi−¯x)2n
sX=√∑ni=1(xi−¯x)2n−1
W powyższych wzorach zastosowano subskrypt X, żeby zaznaczyć, że odchylenie standardowe wyznaczamy dla cechy ilościowej X.
Miara s (wzór (4.2)) nazywana jest odchyleniem standardowym „z próby” lub „dla próby”, dlatego że zwykle jest preferowana, gdy analizowane dane pochodzą z próby.
Miarę ˆσ (wzór (4.1)) również można zastosować dla próby, ale nazywana jest ona często odchyleniem standardowym „dla populacji”. W przypadku populacji tylko ten wzór powinien zostać zastosowany. Jeżeli mamy do czynienia z populacją, pomija się „daszek” nad σ.
Jeżeli nie wiadomo, którego wzoru użyć (i ma nikogo, kto by wskazał, którego z tych wzorów oczekuje), stosuje się wzór (4.2).
W języku R funkcja sd() oblicza odchylenie standardowe s według wzoru (4.2). Wzoru na ˆσ (4.1) nie ma w standardowych pakietach R i należy napisać własna funkcję lub zainstalować dodatkowy pakiet. Brak funkcji obliczającej ˆσ w standardzie może stanowić dodatkową wskazówkę dotycząca tego, który z wzorów jest zwykle preferowany.
W arkuszach kalkulacyjnych odchylenie standardowe s („dla próby”) wyznaczamy za pomocą funkcji ODCH.STANDARDOWE (STDEV) – arkusze Google, Excel lub (równoznacznie) ODCH.STANDARD.PRÓBKI (STDEV.S) – arkusze Google, Excel.
Odchylenie standardowe ˆσ „dla populacji” można obliczyć za pomocą funkcji ODCH.STANDARD.POPUL (STDEVP) – arkusze Google, Excel albo ODCH.STAND.POPUL (STDEV.P) – arkusze Google, Excel.
4.1.1 Wariancja
Odchylenie standardowe to pierwiastek z wariancji. Innymi słowy: wariancja to odchylenie standardowe do kwadratu.
Wzory na wariancję są, jak się można domyślić, również dwa:
ˆσ2X=∑ni=1(xi−¯x)2n
s2X=∑ni=1(xi−¯x)2n−1
4.1.2 Współczynnik zmienności
Współczynnik zmienności, który jest stosunkiem odchylenia standardowego do średniej, może być w niektórych sytuacjach lepszym miernikiem zmienności.
Jego wzór dla próby to:
VX=sX¯x
Współczynnika zmienności możemy używać w przypadku zmiennych ilościowych na skali ilorazowej, które przyjmują wyłącznie (albo z reguły) wartości dodatnie.
4.1.3 Wykorzystanie odchylenia standardowego
Odchylenie standardowe jest miarą rozproszenia. W statystyce opisowej używamy tej miary na przykład:
porównując rozproszenie w różnych grupach (bezpośrednio lub w liczbach względnych, korzystając ze współczynnika zmienności),
opisując cechy mające w przybliżeniu rozkład normalny; w takiej sytuacji do opisu rozkładu wystarczą dwie wartości: średnia i odchylenie standardowe,
wyznaczając siłę efektu d Cohena (standaryzowaną różnicę pomiędzy średnimi dwóch grup),
wyznaczając standardyzowane wartości „z” (z-scores),
identyfikując wartości skrajne, odstające.
4.2 Rozstęp międzykwartylowy
Inną popularną miarą rozproszenia opartą na miarach położenia jest rozstęp międzykwartylowy (ang. IQR):
IQR=Q3−Q1
gdzie Q1 to kwartyl pierwszy, a Q3 to kwartyl 3.
4.2.1 Odchylenie ćwiartkowe i pozycyjny współczynnik zmienności
Niekiedy w polskiej literaturze wprowadza się odchylenie ćwiartkowe i pozycyjny współczynnik zmienności. Odchylenie ćwiartkowe to połowa IQR:
Q=IQR/2
Pozycyjny współczynnik zmienności to iloraz odchylenia ćwiartkowego i mediany:
V=Q/Me
4.3 Wykres pudełkowy
IQR i wartości miar położenia pozwalają stworzyć wykres pudełkowy (wykres ramka-wąsy, ang. boxplot). Na tym wykresie przedstawia się najczęściej medianę, kwartyl pierwszy, kwartyl trzeci, a także minimum i maksimum.
Dość często minimum i maksimum wyznacza się z pominięciem wartości odstających (ang. outliers), które osobno zaznacza się na wykresie w formie punktów. Typowa definicja wartości odstającej w tym kontekście zakłada, że wartości odstające są albo mniejsze niż Q1−1,5⋅IQR, albo większe niż Q3+1,5⋅IQR, choć oczywiście można przyjąć inne definicje wartości odstających.
4.4 Linki
Eksploracja i wizualizacja danych ilościowych - aplikacja webowa: https://istats.shinyapps.io/EDA_quantitative/
4.5 Zadania
Zadanie 4.1 Z danych GUS wynika, że w Polsce jest 16 miejscowości (miast i wsi) o nazwie Dobra. Na podstawie poniższej tabeli przygotuj wykres pudełkowy podsumowujący populację (liczbę mieszkańców) tych miejscowości.
| miejscowość | ludność |
|---|---|
| wieś Dobra, woj. zachodniopom., pow. policki | 4276 |
| wieś Dobra, woj. małop., pow. limanowski | 3217 |
| miasto Dobra, woj. zachodniopom., pow. łobeski | 2103 |
| miasto Dobra, woj. wielkop., pow. turecki | 1358 |
| wieś Dobra, woj. dolnośl., pow. bolesławiecki | 1115 |
| wieś Dobra, woj. opolskie, pow. krapkowicki | 797 |
| wieś Dobra, woj. łódzkie, pow. zgierski | 617 |
| wieś Dobra, woj. podkarp., pow. przeworski | 468 |
| wieś Dobra, woj. dolnośl., pow. oleśnicki | 364 |
| wieś Dobra, woj. podkarp., pow. sanocki | 286 |
| wieś Dobra, woj. śląskie, pow. zawierciański | 276 |
| wieś Dobra, woj. świętokrz., pow. staszowski | 261 |
| wieś Dobra, woj. łódzkie, pow. łaski | 246 |
| wieś Dobra, woj. pomorskie, pow. słupski | 102 |
| wieś Dobra, woj. mazow., pow. płocki | 86 |
| wieś Dobra, woj. wielkop., pow. poznański | 76 |
Zadanie 4.2 Stwórz wykres pudełkowy dla kwoty zamówienia na podstawie danych o zamówieniach ze sklepu internetowego (orders.csv)[datasets/orders.csv]
Zadanie 4.3 Porównaj graficznie prędkość samochodów osobowych i jednośladów wykorzystując dwa położone obok siebie wykresy pudełkowe.
Uwaga! Nie są to oznaczenia powszechnie stosowane — w różnych tekstach można spotkać różne symbole. Zastosowany wzór należy rozpoznać z kontekstu (często autor podaje go wprost).↩︎