Rozdział 2 Trzy światy

Trzy elementy („trzy światy”) podstawowego kursu statystyki to:

  1. Statystyka opisowa (była w poprzednim semestrze)

  2. Rachunek prawdopodobieństwa (pewne elementy były w poprzednim semestrze, teraz pojawi się go więcej)

  3. Wnioskowanie statystyczne (clue statystyki i sedno tego semestru)

Statystyka opisowa mówi o tym, w jaki sposób możemy zmierzyć lub podsumowywać informacje o zbiorowościach (o zbiorach danych).

Rachunek prawdopodobieństwa to dział matematyki, w którym kluczową rolę odgrywają zmienne losowe, czyli zmienne przyjmujące wartości zależące od przypadku.

Wnioskowanie statystyczne to zastosowanie rachunku prawdopodobieństwa do tego, żeby przy określonych założeniach wnioskować o populacji/procesie na podstawie próby (czyli na podstawie cząstkowych danych).

Warto zdać sobie sprawę z istnienia tych trzech elementów, żeby wiedzieć, w którym z tych światów w danym momencie się poruszamy. Zobaczmy to na przykładzie liczenia średniej:

  1. Średnia w statystyce opisowej – przykład: dziesięcioro studentów w ramach kursu statystyki opisowej otrzymało następujące oceny: 4.0, 5.0, 4.5, 3.0, 3.0, 3.5, 5.0, 4.0, 4.5, 4.0. Oblicz średnią.

  2. Średnia w rachunku prawdopodobieństwa – przykład: rzucamy krzywą monetą, która z prawdopodobieństwem 0,6 zwraca orła, a z prawdopodobieństwem 0,4 reszkę. W przypadku orła wygrywamy 1 dolara, w przypadku reszki tracimy 1 dolara. Jaki jest nasz średni zarobek w jednym rzucie?

Średnią w rachunku prawdopodobieństwa (średnią z rozkładu prawdopodobieństwa) nazywa się wartością oczekiwaną zmiennej losowej.

  1. Średnia we wnioskowaniu statystycznym – przykład: chcielibyśmy oszacować, ile przeciętna rodzina w naszym mieście ma dzieci. W tym celu losujemy 100 rodzin, obliczamy m.in. średnią z próby (załóżmy, że \(\bar{x}=1.97\)) i podstawie danych z próby szacujemy średnią w populacji, podając przedział ufności (np. z ufnością \(1-\alpha=0.95\) stwierdziliśmy, że w naszym mieście średnia liczba dzieci w rodzinie, \(\mu\), zawiera się między 1,61 a 2,33).

Analogiczne przykłady możemy przytoczyć dla innych miar, na przykład dla odchylenia standardowego, mediany czy piątego (dziesiątego, siedemdziesiątego...) percentyla.

  1. Odchylenie standardowe w statystyce opisowej – przykład: Okręgowa Komisja Egzaminacyjna opublikowała w lipcu 2022 wyniki egzaminu ósmoklasisty. Według raportu odchylenie standardowe punktów uzyskanych przez uczniów z języka polskiego to 18 punktów procentowych, z matematyki to 29 punktów procentowych, zaś z angielskiego to 31 punktów procentowych. Jak widać, rozproszenie wyników było największe w przypadku języka angielskiego.

  2. Odchylenie standardowe w rachunku prawdopodobieństwa – przykład: zakładam, że zysk z akcji spółki Apple (AAPL) w kolejnym miesiącu wyniesie średnio 1,21% z odchyleniem standardowym 2,34 punktu procentowego. W moim modelu zakładam, że zysk ma rozkład normalny o tych parametrach.

  3. Odchylenie standardowe we wnioskowaniu statystycznym – przykład: na podstawie 20-osobowej próby, używając metody samowspornej (bootstrap), szacujemy, że odchylenie standardowe wzrostu w populacji mężczyzn wynosi pomiędzy 7,5 cm a 10,4 cm.

2.1 Pytania

Pytanie 2.1 W którym z trzech światów (a może w jeszcze innym świecie) znajdujemy się, gdy:

  1. obliczamy, ile średnio rodzeństwa ma osiemdziesięcioro studentów, którzy przyszli na wykład?

  2. na podstawie zasad gry w ruletkę zastanawiamy się, ile średnio kasyno ma przychodu na jednym dolarze, inwestowanym w zakłady?

  3. próbujemy oszacować z wystarczającą dokładnoscią czułość testów na Covid-19?

  4. szacujemy, jaki procent graczy kupujących losy w Lotto średnio wygrywa choć kilkanaście złotych?