Rozdział 4 Miary rozproszenia
4.1 Odchylenie standardowe
Odchylenie standardowe (ang. standard deviation) jest chyba najpopularniejszą miarą rozproszenia rozkładu cechy.
Wzór na odchylenie standardowe pojawia się w dwóch wersjach: jedna z nich określana jest często w praktyce jako odchylenie standardowe "dla populacji", a druga nazywana jest odchyleniem standardowym "dla próby".
Wzór na odchylenie standardowe "dla populacji" o liczebności N jest następujący:
σX=√∑Ni=1(xi−ˉx)2N
Wzór na odchylenie standardowe "dla próby" o liczebności n to:
sX=√∑ni=1(xi−ˉx)2n−1
Ponieważ będziemy często traktować posiadane dane jak próbę pozwalającą wnioskować o procesie generującym dane (o populacji), w obliczeniach praktycznych będziemy stosować wzór (4.2).
W arkuszach kalkulacyjnych odchylenie standardowe dla próby wyznaczamy za pomocą funkcji ODCH.STANDARDOWE (STDEV) – arkusze Google, Excel lub (równoznacznie) ODCH.STANDARD.PRÓBKI (STDEV.S) – arkusze Google, Excel.
Odchylenie standardowe dla populacji można obliczyć za pomocą funkcji ODCH.STANDARD.POPUL (STDEVP) -- arkusze Google, Excel albo ODCH.STAND.POPUL (STDEV.P) – arkusze Google, Excel.
4.1.1 Wariancja
Odchylenie standardowe to pierwiastek z wariancji. Innymi słowy: wariancja to odchylenie standardowe do kwadratu.
Wzór na wariancję dla populacji o liczebności N:
σ2X=∑Ni=1(xi−ˉx)2N
Dla próby o liczebności n:
s2X=∑ni=1(xi−ˉx)2n−1
4.1.2 Współczynnik zmienności
Współczynnik zmienności, który jest stosunkiem odchylenia standardowego do średniej, może być w niektórych sytuacjach lepszym miernikiem zmienności.
Jego wzór dla próby to:
VX=sXˉx
Współczynnik zmienności możemy używać w przypadku zmiennych ilościowych na skali ilorazowej, w szczególności gdy przyjmują tylko (albo z reguły) wartości dodatnie.
4.1.3 Wykorzystanie odchylenia standardowego
Odchylenie standardowe jest miarą rozproszenia. W statystyce opisowej używamy tej miary na przykład:
porównując rozproszenie w różnych grupach (bezpośrednio lub w liczbach względnych, korzystając ze współczynnika zmienności),
opisując cechy mające w przybliżeniu rozkład normalny; w takiej sytuacji do opisu rozkładu wystarczą dwie wartości: średnia i odchylenie standardowe,
wyznaczając siłę efektu d Cohena (różnica pomiędzy średnimi dwóch grup),
wyznaczając standardyzowane wartości "z" (z-scores),
identyfikując wartości skrajne, odstające.
4.2 Rozstęp międzykwartylowy
Inną popularną miarą rozproszenia opartą na miarach położenia jest rozstęp międzykwartylowy (ang. IQR):
IQR=Q3−Q1
gdzie Q1 to kwartyl pierwszy, a Q3 to kwartyl 3.
4.2.1 Odchylenie ćwiartkowe i pozycyjny współczynnik zmienności
Niekiedy w polskiej literaturze wprowadza się odchylenie ćwiartkowe i pozycyjny współczynnik zmienności. Odchylenie ćwiartkowe to połowa IQR:
Q=IQR/2
Pozycyjny współczynnik zmienności to iloraz odchylenia ćwiartkowego i mediany:
V=Q/Me
4.3 Wykres ramka-wąsy
IQR i wartości miar położenia pozwalają stworzyć wykres pudełkowy (wykres ramka-wąsy, ang. boxplot). Na tym wykresie przedstawia się najczęściej medianę, kwartyl pierwszy, kwartyl trzeci, a także minimum i maksimum.
Dość często minimum i maksimum wyznacza się z pominięciem wartości odstających (ang. outliers), które osobno zaznacza się na wykresie w formie punktów. Typowa definicja wartości odstającej w tym kontekście zakłada, że wartości odstające są albo mniejsze niż Q1−1,5⋅IQR, albo większe niż Q3+1,5⋅IQR, choć oczywiście można przyjąć inne definicje wartości odstających.
4.4 Linki
Eksploracja i wizualizacja danych ilościowych - aplikacja webowa: https://istats.shinyapps.io/EDA_quantitative/