Rozdział 4 Miary rozproszenia

4.1 Odchylenie standardowe

Odchylenie standardowe (ang. standard deviation) jest chyba najpopularniejszą miarą rozproszenia rozkładu cechy.

Wzór na odchylenie standardowe pojawia się w dwóch wersjach: jedna z nich określana jest często w praktyce jako odchylenie standardowe "dla populacji", a druga nazywana jest odchyleniem standardowym "dla próby".

Wzór na odchylenie standardowe "dla populacji" o liczebności N jest następujący:

σX=Ni=1(xiˉx)2N

Wzór na odchylenie standardowe "dla próby" o liczebności n to:

sX=ni=1(xiˉx)2n1

Ponieważ będziemy często traktować posiadane dane jak próbę pozwalającą wnioskować o procesie generującym dane (o populacji), w obliczeniach praktycznych będziemy stosować wzór (4.2).

W arkuszach kalkulacyjnych odchylenie standardowe dla próby wyznaczamy za pomocą funkcji ODCH.STANDARDOWE (STDEV) – arkusze Google, Excel lub (równoznacznie) ODCH.STANDARD.PRÓBKI (STDEV.S) – arkusze Google, Excel.

Odchylenie standardowe dla populacji można obliczyć za pomocą funkcji ODCH.STANDARD.POPUL (STDEVP) -- arkusze Google, Excel albo ODCH.STAND.POPUL (STDEV.P) – arkusze Google, Excel.

4.1.1 Wariancja

Odchylenie standardowe to pierwiastek z wariancji. Innymi słowy: wariancja to odchylenie standardowe do kwadratu.

Wzór na wariancję dla populacji o liczebności N:

σ2X=Ni=1(xiˉx)2N

Dla próby o liczebności n:

s2X=ni=1(xiˉx)2n1

4.1.2 Współczynnik zmienności

Współczynnik zmienności, który jest stosunkiem odchylenia standardowego do średniej, może być w niektórych sytuacjach lepszym miernikiem zmienności.

Jego wzór dla próby to:

VX=sXˉx

Współczynnik zmienności możemy używać w przypadku zmiennych ilościowych na skali ilorazowej, w szczególności gdy przyjmują tylko (albo z reguły) wartości dodatnie.

4.1.3 Wykorzystanie odchylenia standardowego

Odchylenie standardowe jest miarą rozproszenia. W statystyce opisowej używamy tej miary na przykład:

  • porównując rozproszenie w różnych grupach (bezpośrednio lub w liczbach względnych, korzystając ze współczynnika zmienności),

  • opisując cechy mające w przybliżeniu rozkład normalny; w takiej sytuacji do opisu rozkładu wystarczą dwie wartości: średnia i odchylenie standardowe,

  • wyznaczając siłę efektu d Cohena (różnica pomiędzy średnimi dwóch grup),

  • wyznaczając standardyzowane wartości "z" (z-scores),

  • identyfikując wartości skrajne, odstające.

4.2 Rozstęp międzykwartylowy

Inną popularną miarą rozproszenia opartą na miarach położenia jest rozstęp międzykwartylowy (ang. IQR):

IQR=Q3Q1

gdzie Q1 to kwartyl pierwszy, a Q3 to kwartyl 3.

4.2.1 Odchylenie ćwiartkowe i pozycyjny współczynnik zmienności

Niekiedy w polskiej literaturze wprowadza się odchylenie ćwiartkowe i pozycyjny współczynnik zmienności. Odchylenie ćwiartkowe to połowa IQR:

Q=IQR/2

Pozycyjny współczynnik zmienności to iloraz odchylenia ćwiartkowego i mediany:

V=Q/Me

4.2.2 Rozstęp decylowy

Niekiedy wprowadza się również rozstęp decylowy, czyli różnicę pomiędzy dziewiątym a pierwszym decylem.

4.2.3 Rozstęp

Samo słowo "rozstęp" (ang. range) to najczęściej określenie różnicy pomiędzy maksimum a minimum.

4.3 Wykres ramka-wąsy

IQR i wartości miar położenia pozwalają stworzyć wykres pudełkowy (wykres ramka-wąsy, ang. boxplot). Na tym wykresie przedstawia się najczęściej medianę, kwartyl pierwszy, kwartyl trzeci, a także minimum i maksimum.

Dość często minimum i maksimum wyznacza się z pominięciem wartości odstających (ang. outliers), które osobno zaznacza się na wykresie w formie punktów. Typowa definicja wartości odstającej w tym kontekście zakłada, że wartości odstające są albo mniejsze niż Q11,5IQR, albo większe niż Q3+1,5IQR, choć oczywiście można przyjąć inne definicje wartości odstających.

4.4 Linki

Eksploracja i wizualizacja danych ilościowych - aplikacja webowa: https://istats.shinyapps.io/EDA_quantitative/