Rozdział 3 Miary tendencji centralnej i położenia
3.1 Średnia
3.1.1 Średnia arytmetyczna
Średnia arytmetyczna to najprostsze i podstawowe narzędzie podsumowujące położenie rozkładu cechy. Jeżeli mówimy po prostu "średnia", najczęściej chodzi nam właśnie o średnią arytmetyczną.
Średnia arytmetyczna z \(n\) wartości (oznaczanych od \(x_1\) do \(x_n\)) wynosi:
\[\begin{equation} \bar{x} = \frac{\sum_{i=1}^n x_i}{n} \tag{3.1} \end{equation}\]
Można powiedzieć, że średnia jest środkiem ciężkości zbioru danych.
Typowe własności:
Suma odchyleń \((\bar{x}-x_i)\) od średniej jest równa zero.
Średnia arytmetyczna to taka liczba, że suma kwadratów różnic między nią a każdą z wartości \(x_i\) (\(\sum_i(x_i-\bar{x})^2\) jest najmniejsza.
Jeżeli każdą z wartości \(x_i\) powiększymy o stałą \(a\), to nowa średnia wyniesie \(\bar{x}+a\).
Jeżeli każdą z wartości \(x_i\) pomnożymy przez stałą \(k\), to nowa średnia wyniesie \(k\bar{x}\).
3.1.2 Średnia ważona (arytmetyczna)
Niekiedy liczbom z opisywanego zbioru przypisujemy różne wagi (\(x_1\) uwzględniamy z wagą \(w_1\), \(x_2\) z wagą \(w_2\), itd.). Wagi powinny sumować się do 1 (\(\sum_i w_i=1\)).
W takiej sytuacji arytmetyczną średnią ważoną wyznaczamy na podstawie wzoru:
\(\bar{x}_{\text{ważona}} =\sum_{i=1}^n x_iw_i\)
Jeżeli wszystkie wagi są równe, arytmetyczna średnia ważona jest równa zwykłej średniej arytmetycznej.
3.1.3 Średnia harmoniczna
Średnią harmoniczną wyznaczamy za pomocą następującego wzoru:
\[ H = \frac{n}{\sum_{i=1}^n\frac{1}{x_i}} \]
Średnia harmoniczna może zapewnić właściwą średnią, jeżeli liczymy średnią z ilorazów, których licznik jest równy. Na przykład, jeżeli z miejsca A do miejsca B pojadę z prędkością 10 km/h, a wrócę tą samą trasą z prędkością 15 km/h, to moja średnia prędkość podróży będzie równa średniej harmonicznej z tych dwóch liczb (10 i 15) i będzie wynosiła 12 km/h.
3.2 Mediana
Mediana dzieli dany zbiór (próbę, populację) na dwie równe części. Jeżeli posortujemy zbiór liczb, to mediana będzie środkową wartością lub średnią arytmetyczną z dwóch środkowych wartości.
3.3 Dominanta
Dominanta (moda) to wartość najczęściej występująca w zbiorze danych (szeregu liczb). Szereg może mieć kilka dominant.
Jeżeli liczby dotyczą cechy ciągłej, taka definicja dominanty traci rację bytu. W takich sytuacjach często stosuje się inną definicję dominanty: jest to miejsce na osi X, dla którego histogram (stworzony na podstawie szeregu rozdzielczego) osiąga szczyt. W takiej sytuacji dominanta zależy od sposobu pogrupowania danych w klasy oraz od szczegółowego sposobu wyznaczenia miejsca na osi X (środek przedziału lub interpolacja).
3.4 Miary położenia (kwantyle)
Miary położenia (inaczej miary pozycyjne) to miary oparte na uporządkowanym (posortowanym) zbiorze danych. Przykładem takiej miary jest najbardziej znany kwantyl: mediana.
3.4.1 Kwartyle
Mediana dzieli dany zbiór (próbę, populację) na dwie równe części. Kwartyle (pierwszy, drugi = mediana i trzeci) dzielą dany zbiór na cztery równe części.
Kwartyl pierwszy (dolny) to (w pierwszym znaczeniu, zob. niżej) liczba, która rozbija zbiór danych na dolne 25% obserwacji i górne 75% obserwacji.
Kwartyl drugi to mediana. Rozbija ona zbiór danych na dolne 50% i górne 50%.
Kwartyl trzeci (górny) to liczba, która rozbija zbiór na dolne 75% obserwacji i górne 25% obserwacji.
3.4.2 Dwa znaczenia słowa kwartyl
Warto przy tej okazji zwrócić uwagę na fakt, że słowo kwartyl (podognie jak słowa oznaczające niektóre inne kwantyle, np. kwintyl lub decyl) może występować w dwóch znaczeniach:
w pierwszym znaczeniu kwartyl (kwintyl, decyl) to wartość liczbowa oddzielająca określoną frakcję (np. pierwszy kwartyl oddziela dolne 25% )
w drugim znaczeniu kwartyl to obserwacje, które pod względem analizowanej cechy znajdują się w określonej ćwiartce.
Na przykład weźmy dochód dyspozycyjny gospodarstw domowych. Drugi kwartyl to:
w pierwszym znaczeniu -- mediana dochodów,
w drugim znaczeniu -- te gospodarstwa domowe, których dochód znajduje się w przedziale między pierwszym kwartylem (w pierwszym znaczeniu) a medianą.
3.4.3 Kwintyle
Kwintyle dzielą zbiór danych na 5 grup, np. drugi kwintyl (w pierwszym znaczeniu) dzieli zbiór na dolne 40% i górne 60%.
3.4.4 Decyle
Decyle dzielą zbiór danych na 10 grup. Na przykład 3 decyl dzieli zbiór na dolne 30% i górne 70%.
3.4.5 Percentyle
Percentyle albo centyle dzielą zbiór danych na 100 grup. Przyjmuje się, że analogicznie można zdefiniować percentyle ułamkowe, np. percentyl 97,5 dzieli zbiór danych na dolne 97,5% i górne 2,5%.
3.4.6 Wyznaczanie kwantyli w praktyce
W praktyce okazuje się, że definicja przedstawiona powyżej nie jest wystarczająco jednoznaczna. Na przykład, czy da się wyznaczyć na podstawie ogólnej definicji pierwszy kwartyl dla zbioru danych składającego się z jedynie 11 obserwacji?
W poniższej tabeli pokazano wyznaczenie kwartyli dla prostego zbioru danych składającego się z dziesięciu liczb: 1, 1, 2, 2, 4, 5, 6, 7, 9, 10 z wykorzystaniem dziewięciu (!) algorytmów zaimplementowanych w R.
Numer algorytmu | Kwartyl 1 | Mediana | Kwartyl 3 |
---|---|---|---|
type = 1 | 2.000000 | 4.0 | 7.000000 |
type = 2 | 2.000000 | 4.5 | 7.000000 |
type = 3 | 1.000000 | 4.0 | 7.000000 |
type = 4 | 1.500000 | 4.0 | 6.500000 |
type = 5 | 2.000000 | 4.5 | 7.000000 |
type = 6 | 1.750000 | 4.5 | 7.500000 |
type = 7 | 2.000000 | 4.5 | 6.750000 |
type = 8 | 1.916667 | 4.5 | 7.166667 |
type = 9 | 1.937500 | 4.5 | 7.125000 |
3.5 Linki
Średnia a mediana — aplikacja webowa: https://istats.shinyapps.io/MeanvsMedian/
Asymetria rozkładu a średnia i mediana — symulacja: https://college.cengage.com/nextbook/statistics/utts_13540/student/html/simulation2_3.html