Rozdział 3 Miary tendencji centralnej i położenia

3.1 Średnia

3.1.1 Średnia arytmetyczna

Średnia arytmetyczna to najprostsze i podstawowe narzędzie podsumowujące położenie rozkładu cechy. Jeżeli mówimy po prostu "średnia", najczęściej chodzi nam właśnie o średnią arytmetyczną.

Średnia arytmetyczna z \(n\) wartości (oznaczanych od \(x_1\) do \(x_n\)) wynosi:

\[\begin{equation} \bar{x} = \frac{\sum_{i=1}^n x_i}{n} \tag{3.1} \end{equation}\]

Można powiedzieć, że średnia jest środkiem ciężkości zbioru danych.

Typowe własności:

  • Suma odchyleń \((\bar{x}-x_i)\) od średniej jest równa zero.

  • Średnia arytmetyczna to taka liczba, że suma kwadratów różnic między nią a każdą z wartości \(x_i\) (\(\sum_i(x_i-\bar{x})^2\) jest najmniejsza.

  • Jeżeli każdą z wartości \(x_i\) powiększymy o stałą \(a\), to nowa średnia wyniesie \(\bar{x}+a\).

  • Jeżeli każdą z wartości \(x_i\) pomnożymy przez stałą \(k\), to nowa średnia wyniesie \(k\bar{x}\).

3.1.2 Średnia ważona (arytmetyczna)

Niekiedy liczbom z opisywanego zbioru przypisujemy różne wagi (\(x_1\) uwzględniamy z wagą \(w_1\), \(x_2\) z wagą \(w_2\), itd.). Wagi powinny sumować się do 1 (\(\sum_i w_i=1\)).

W takiej sytuacji arytmetyczną średnią ważoną wyznaczamy na podstawie wzoru:

\(\bar{x}_{\text{ważona}} =\sum_{i=1}^n x_iw_i\)

Jeżeli wszystkie wagi są równe, arytmetyczna średnia ważona jest równa zwykłej średniej arytmetycznej.

3.1.3 Średnia harmoniczna

Średnią harmoniczną wyznaczamy za pomocą następującego wzoru:

\[ H = \frac{n}{\sum_{i=1}^n\frac{1}{x_i}} \]

Średnia harmoniczna może zapewnić właściwą średnią, jeżeli liczymy średnią z ilorazów, których licznik jest równy. Na przykład, jeżeli z miejsca A do miejsca B pojadę z prędkością 10 km/h, a wrócę tą samą trasą z prędkością 15 km/h, to moja średnia prędkość podróży będzie równa średniej harmonicznej z tych dwóch liczb (10 i 15) i będzie wynosiła 12 km/h.

3.1.4 Średnia geometryczna

Średnia geometryczna wyznaczana jest na podstawie wzoru:

\[ G = \left(x_1\cdot x_2\cdot ... \cdot x_n\right)^{1/n} = \left(\prod_i x_i\right)^{1/n}\]

Średnia geometryczną wykorzystujemy między innymi wyznaczając średnie tempo wzrostu.

3.2 Mediana

Mediana dzieli dany zbiór (próbę, populację) na dwie równe części. Jeżeli posortujemy zbiór liczb, to mediana będzie środkową wartością lub średnią arytmetyczną z dwóch środkowych wartości.

3.3 Dominanta

Dominanta (moda) to wartość najczęściej występująca w zbiorze danych (szeregu liczb). Szereg może mieć kilka dominant.

Jeżeli liczby dotyczą cechy ciągłej, taka definicja dominanty traci rację bytu. W takich sytuacjach często stosuje się inną definicję dominanty: jest to miejsce na osi X, dla którego histogram (stworzony na podstawie szeregu rozdzielczego) osiąga szczyt. W takiej sytuacji dominanta zależy od sposobu pogrupowania danych w klasy oraz od szczegółowego sposobu wyznaczenia miejsca na osi X (środek przedziału lub interpolacja).

3.4 Miary położenia (kwantyle)

Miary położenia (inaczej miary pozycyjne) to miary oparte na uporządkowanym (posortowanym) zbiorze danych. Przykładem takiej miary jest najbardziej znany kwantyl: mediana.

3.4.1 Kwartyle

Mediana dzieli dany zbiór (próbę, populację) na dwie równe części. Kwartyle (pierwszy, drugi = mediana i trzeci) dzielą dany zbiór na cztery równe części.

Kwartyl pierwszy (dolny) to (w pierwszym znaczeniu, zob. niżej) liczba, która rozbija zbiór danych na dolne 25% obserwacji i górne 75% obserwacji.

Kwartyl drugi to mediana. Rozbija ona zbiór danych na dolne 50% i górne 50%.

Kwartyl trzeci (górny) to liczba, która rozbija zbiór na dolne 75% obserwacji i górne 25% obserwacji.

3.4.2 Dwa znaczenia słowa kwartyl

Warto przy tej okazji zwrócić uwagę na fakt, że słowo kwartyl (podognie jak słowa oznaczające niektóre inne kwantyle, np. kwintyl lub decyl) może występować w dwóch znaczeniach:

  • w pierwszym znaczeniu kwartyl (kwintyl, decyl) to wartość liczbowa oddzielająca określoną frakcję (np. pierwszy kwartyl oddziela dolne 25% )

  • w drugim znaczeniu kwartyl to obserwacje, które pod względem analizowanej cechy znajdują się w określonej ćwiartce.

Na przykład weźmy dochód dyspozycyjny gospodarstw domowych. Drugi kwartyl to:

  • w pierwszym znaczeniu -- mediana dochodów,

  • w drugim znaczeniu -- te gospodarstwa domowe, których dochód znajduje się w przedziale między pierwszym kwartylem (w pierwszym znaczeniu) a medianą.

3.4.3 Kwintyle

Kwintyle dzielą zbiór danych na 5 grup, np. drugi kwintyl (w pierwszym znaczeniu) dzieli zbiór na dolne 40% i górne 60%.

3.4.4 Decyle

Decyle dzielą zbiór danych na 10 grup. Na przykład 3 decyl dzieli zbiór na dolne 30% i górne 70%.

3.4.5 Percentyle

Percentyle albo centyle dzielą zbiór danych na 100 grup. Przyjmuje się, że analogicznie można zdefiniować percentyle ułamkowe, np. percentyl 97,5 dzieli zbiór danych na dolne 97,5% i górne 2,5%.

3.4.6 Wyznaczanie kwantyli w praktyce

W praktyce okazuje się, że definicja przedstawiona powyżej nie jest wystarczająco jednoznaczna. Na przykład, czy da się wyznaczyć na podstawie ogólnej definicji pierwszy kwartyl dla zbioru danych składającego się z jedynie 11 obserwacji?

W poniższej tabeli pokazano wyznaczenie kwartyli dla prostego zbioru danych składającego się z dziesięciu liczb: 1, 1, 2, 2, 4, 5, 6, 7, 9, 10 z wykorzystaniem dziewięciu (!) algorytmów zaimplementowanych w R.

Tabela 3.1: Wyniki wyznaczenia kwartyli z prostego szeregu dziesięciu liczb: 1, 1, 2, 2, 4, 5, 6, 7, 9, 10 za pomocą dziewięciu algorytmów zaimplementowanych w R
Numer algorytmu Kwartyl 1 Mediana Kwartyl 3
type = 1 2.000000 4.0 7.000000
type = 2 2.000000 4.5 7.000000
type = 3 1.000000 4.0 7.000000
type = 4 1.500000 4.0 6.500000
type = 5 2.000000 4.5 7.000000
type = 6 1.750000 4.5 7.500000
type = 7 2.000000 4.5 6.750000
type = 8 1.916667 4.5 7.166667
type = 9 1.937500 4.5 7.125000

3.5 Linki

Średnia a mediana — aplikacja webowa: https://istats.shinyapps.io/MeanvsMedian/

Asymetria rozkładu a średnia i mediana — symulacja: https://college.cengage.com/nextbook/statistics/utts_13540/student/html/simulation2_3.html