Problem

Chcemy się dowiedzieć czegoś na temat populacji (całości) na podstawie próby (części tej całości).

Przykładowo chcemy ocenić ile wynosi średnia waga główki kapusty na 100 h polu. Można ściąć wszystki i zważyć ale można też ściąć trochę (pobrać próbę się mówi uczenie) zważyć i poznać średnią na całym polu z dobrą dokładnością

Przykładowy problem

Oszacować średnią na podstawie próby

Przykładowy problem nr 1

Plik rwc2015.csv zawiera dane (w tym dotyczące wagi) dla wszystkich rugbystów uczestniczących w turnieju o Puchar Świata w 2015 roku.

Liczba rugbystów: 623.

Obliczamy (prawdziwą) średnią, odchylenie standardowe i współczynnik zmienności:

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    65.0    93.0   103.0   102.8   113.0   145.0

Czyli średnio rugbysta na turnieju RWC’2015 ważył 102.7961477 kg a odchylenie standardowe (s) wyniosło 12.9236635 kg.

Wykres (rozkład jest dwumodalny; bo w rugby są dwie grupy zawodników, wcale nie wszyscy > 110 kg):

Szacujemy średnią na podstawie 2 zawodników pobranych losowo

Powtarzamy eksperyment 1000 razy (dwóch bo dla jednego nie obliczmy wariancji)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    75.0    96.0   103.0   102.8   109.5   127.0

średnia wyszła 102.8315 a odchylenie standardowe 9.4733364. Wartość \(s/\sqrt{2}\) jest równa 9.1384101

szacujemy średnią na podstawie 10 zawodników pobranych losowo

Powtarzamy eksperyment 1000 razy

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    89.3    99.6   102.8   102.6   105.6   116.0

średnia wyszła 102.6077111 a odchylenie standardowe 4.3120977. Wartość \(s/\sqrt{10}\) jest równa 4.0868212

szacujemy średnią na podstawie 40 zawodników pobranych losowo

Uwaga: 40 zawodników to około 6.4% całego zbioru. Powtarzamy eksperyment 1000 razy

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   96.38  101.33  102.79  102.73  104.03  109.60

średnia wyszła 102.7337816 a odchylenie standardowe 2.0414474. Wartość \(s/\sqrt{40}\) jest równa 2.0434106.

Wykres

Wnioski z eksperymentu

Wszystkie średnie są zbliżone do wartości prawdziwej (to się nazywa nieobciążoność); jeżeli będziemy oceniać wartość prawdziwej średniej na podstawie próby, a naszą ocenę powtórzymy wielokrotnie, to średnia będzie zbliżona do wartości prawdziwej (a nie np. niższa czy wyższa) Ta cecha jest niezależna od wielkości próby.

Jeżeli rośnie liczebność próby to zmienność wartości średniej-w-próbie maleje, co za tym idzie prawdopodobieństwo, że wartość oceniona na podstawie średniej z próby będzie zbliżona do wartości szacowanego parametru rośnie (to się nazywa zgodność). Co więcej dobrym przybliżeniem zmienności średniej-w-próbie jest prosta formuła \(s/\sqrt{n}\) gdzie \(n\) jest liczebnością próby.

Jeżeli mamy dwie metody oszacowania parametru obie nieobciążone oraz zgodne, to którą wybrać? Tę która ma mniejszą wariancję. Taką metodę nazywa się bardziej efektywną.

Metodę o której mowa, formalnie funkcję elementów z próby, nazywa się w statystyce estymatorem

Estymator zatem powinien być nieobciążony, zgodny oraz efektywny (czyli mieć małą wariancję). Można matematycznie udowodnić, że jakiś estymator ma tak małą wariancję, że niemożliwe jest wynalezienie czegoś jeszcze bardziej efektywnego. Takim estymatorem średniej w populacji jest średnia z próby…

Przykładowy problem nr 2

Plik kandydaci_ws_2018_3.csv zawiera dane (w tym dotyczące wieku) dla ponad 7000 kandydatów do Sejmików Wojewódzkich w wyborach samorządowych w 2018 roku.

Dokładniej to kandydatów jest 7076.

Obliczamy (prawdziwą) średnią, odchylenie standardowe i współczynnik zmienności:

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   18.00   34.00   46.00   46.24   58.00   91.00

Czyli średnio kandydat miał 46.2389768 lat a odchylenie standardowe wieku wyniosło 14.613121 lat.

Wykres (rozkład znowu jest dwumodalny z jakiś powodów):

Szacujemy średnią na podstawie 2 kandydatów pobranych losowo

Powtarzamy eksperyment 1000 razy

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   18.50   38.00   45.50   45.43   52.50   79.00

Odchylenie standardowe wyniosło 10.0428832. Wartość \(s/\sqrt{2}\) jest równa 10.333037.

Szacujemy średnią na podstawie 10 kandydatów pobranych losowo

Powtarzamy eksperyment 1000 razy.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   33.00   43.00   46.05   46.17   49.33   60.00

Odchylenie standardowe wyniosło 4.5022474. Wartość \(s/\sqrt{10}\) jest równa 4.6210746.

Szacujemy średnią na podstawie 40 kandydatów pobranych losowo

Uwaga: 40 kandydatów to ok 0.6% całości. Powtarzamy eksperyment 1000 razy.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   38.67   44.69   46.25   46.26   47.88   52.65

Odchylenie standardowe wyniosło 2.3376995. Wartość \(s/\sqrt{40}\) jest równa 2.3105373.

Szacujemy średnią na podstawie 70 kandydatów pobranych losowo

Uwaga: 70 kandydatów to około ok 1% całości (1000 powtórzeń)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   41.39   45.14   46.33   46.29   47.49   52.41

Odchylenie standardowe wyniosło 1.730741 Wartość \(s/\sqrt{70}\) jest równa 1.746602.

Wykres

Przykładowy problem nr 3

Plik airline_delay_causes.csv (pobrany z http://www.transtats.bts.gov/OT_Delay/OT_DelayCause1.asp) zawiera dane dotyczące opóźnień w ruchu lotniczym w USA w latach 2003–2021. Są to wskaźniki miesięczne dla każdego przewoźnika/lotniska docelowego. Wykorzystujemy zmienne arr_flights: Number of flights which arrived at the airport; arr_del15: Number of flights delayed (>= 15minutes late); arr_delay: Total time (minutes) of delayed flights

Obliczamy wskaźnik: średnie opóźnienie miesięczne (pomijamy lotniska o liczbie lotów mniejszej niż 30/miesiąc czyli 1/dzień):

Czyli pojedyncza liczba to średnie opóźnienie dla każdej kombinacji X-Y-Z-M, gdzie X oraz Y to lotniska, Z to przewoźnik a M to numer miesiąca. (Samoloty, które wylądowało o czasie mają opóźnienie równe zero oczywiście)

Liczymy prawdziwe średnie itp:

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   6.062   9.724  11.149  14.648 172.194

średnia wartość wskaźnika linia/lotnisko wynosi zatem 11.1485249 (odchylenie standardowe 7.22357). Wszytkich wskaźników jest 272324

Rozkład wskaźnika jest cośkolwiek skośny:

Szacujemy średnią na podstawie 2 wartości pobranych losowo

Wykonujemy jak zwykle 1000 powtórzeń

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.7968  7.5999 10.5115 11.3179 13.9704 38.5804

Odchylenie standardowe wyniosło 5.2262583. Wartość \(s/\sqrt{2}\) jest równa 5.1078354.

szacujemy średnią na podstawie 10 wartości pobranych losowo

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   5.488   9.457  10.972  11.100  12.525  22.916

Odchylenie standardowe wyniosło 2.2710619. Wartość \(s/\sqrt{10}\) jest równa 2.2842934.

szacujemy średnią na podstawie 100 wartości pobranych losowo

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   9.112  10.574  11.039  11.064  11.526  13.266

Odchylenie standardowe wyniosło 0.7114277. Wartość \(s/\sqrt{100}\) jest równa 0.722357.

szacujemy średnią na podstawie 1000 wartości pobranych losowo

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   10.55   10.99   11.15   11.14   11.29   11.94

Odchylenie standardowe wyniosło 0.2209824. Wartość \(s/\sqrt{1000}\) jest równa 0.2284293.

Wykres

Wniosek: precyzja wnioskowania zwiększa się wraz z liczebnością próby; tym szybciej im rozproszenie w populacji generalnej jest mniejsze. Żeby z dużą dokładnością wnioskować o średniej dla dużej populacji wcale nie trzeba pobierać dużej próby. W ostatnim przykładzie wystarczyło 100/1000 (czyli 0,04–0,4% liczebności populacji).

Rozkład normalny

Rozkład empiryczny Sobczak (s. 32) zmiennej to przyporządkowanie kolejnym wartościom zmiennej odpowiadających im liczebności. Rozkład odwierciedla strukturę badanej zbiorowości ze względu na pewną cechę. Z tego wynika że rozkład emiryczny = ** szereg rozdzielczy ** = struktura zbiorowści

Interpretacja wartości rozkładu empirycznego zwykle jest w kategoriach ryzyka/szansy czy prawdopodobieństwa. Przykładowo dla średniej wartości opóźnień, wyobraźmy sobie że interesują nas wszystkie średnie wartości opóźnień równe 5.0000 minut. Takich średnich jest 150; wszystkich średnich dla przypomnienia jest 272324; iloraz tych wartości będzie interpretowany jako ryzyku/szans/prawdopodobieństwo (wynosi ono 0.0550814 %. Można ten procent interpretować że ryzyko średniego opóźnienia w wielkości 5 minut na dowolnym połączeniu w USA.)

Podobnie można obliczyć ryzyko średniego opóźnienia w wielkości 5–6 minut na dowolnym połączeniu w USA. Wynosi ono: 6.5579971 %.

Załóżmy że istnieje zapotrzebowanie społeczne na wiedzę na temat ryzyka średnich opóźnień. Możemy to jak widać łatwo liczyć ale jedocześnie jest to kłopotliwe. Należy do tego mieć zbiór 272 tys liczb. Rozkład teoretyczny to matematyczne uogólnienie rozkładu empirycznego. Jest to model matematyczny operujący pojęciem (ściśle sformalizowanym) prawdopodobieństwa (zamiast liczebności). Rozkład teoretyczny jest:

Żeby było ciekawiej istnieje dokładnie jeden rozkład teoretyczny, który z dobrą dokładnością opisuje rozkłady empiryczne będące wynikiem powyższej zabawy. Ten rozkład (zwany normalnym) zależy tylko od dwóch parametrów: średniej i rozproszenia, gdzie średnia będzie równa (prawdziwej) średniej w populacji a rozproszenie wartości rozproszenia w populacji podzielonej przez pierwiastek z wielkości próby.

Dla próby 100-elementowej (opóźnienia lotów) wygląda to tak:

dla próby 1000-elementowej (opóźnienia lotów):

Prawda, że wynik jest całkiem dobry? Teoretyczność czerwonej krzywej polega na tym, że ona zawsze będzie identyczna, podczas gdy histogram będzie różny. Gdybyśmy powtórzyli nasz eksperyment (generowania 1000 losowych prób przypominam), to zapewne trochę by się różnił, bo byśmy wylosowali inne wartości do prób. Ta teoretyczna abstrakcja nazywa się prawdopodobieństwem. Rzucając monetą 1000 razy spodziewamy się po 500 orłów i reszek, co w modelu matematycznym będzie opisane jak: prawdopodobieństwo wyrzucenia orła wynosi 0,5. Rzucanie monetą to bardzo prosty eksperyment; nasz z liczeniem średniej wskaźnika opóźnień jest dużo bardziej skomplikowany więc miło jest się dowiedzieć, że używając czerwonej krzywej można łatwo obliczyć jak bardzo prawdopodobne jest na przykład popełnienie błędu większego niż 10%, albo większego niż 5 minut. Albo jak duża powinna być próba żeby ten błąd był nie większy niż 5 minut.

Dla rozkładu normalnego prawdopodobieństwo \(m \pm s\) wynosi około 0,68 prawdopodobieństwo \(m \pm 2 \times s\) wynosi około 0,95 a \(m \pm 3 \times s\) około 0,997. Czyli w przedziale \(-3s < m +3s\) znajdują się praktycznie wszystkie wartości tego rozkładu.

Wnioskowanie statystyczne (interferance)

Analizując dane uzyskane z próby celem jest ich uogólnienie na całą populację. Obliczamy średnią z próby i przyjmujemy że jest to średnia w populacji. Ale dobrze by było wiedzieć jak bardzo wiarygodna jest ta wartość, inaczej mówiąc jak dużo mogliśmy się pomylić.

Do oceny tej wiarygodności można użyć wariancji-średniej-z-próby (która nazywa się wariancją błędu albo error variance) Jeżeli wariancja błędu jest duża, to w pojedynczej próbie mogą wystąpić wartości znacznie bardziej różniące się od średniej; jeżeli jest mała to takie bardzo różniące się od średniej wartości mają małe szanse na zaistnienie. Do tego w przypadku rozkładu normalnego wiemy ze wariancja błędu = \(s/\sqrt(n)\) (gdzie \(s\) jest wariancją w populacji a \(n\) wielkością próby.)

W ramach wnioskowania stosowane są trzy metody (podejścia):

Estymacja punktowa

Szacujemy średnią (inny parametr) i tę wartość uznajemy za wartość prawdziwą; dokładność szacunku jest nieokreślona

Estymacja przedziałowa

Nie można ustalić prawdopodobieństwa popełnienia błędu dla dokładnej wartości parametru (co wynika z właściwości matematycznych modelu) ale można dla dowolnego przedziału od–do.

Czyli nie można ustalić, że z prawdopodobieństwem 95% oszacujemy wartość średnią czegoś jako 5,000000, ale można z prawdopodobieństwem 95% oszacować przedział w którym znajdzie się średnia (np że będzie to na przykład 4,9–5,1).

Estymacja przedziałowa to oszacowanie przedziału wartości od-do, który z zadanym z góry prawdopodobieństwem zawiera prawdziwą wartość średniej.

Z góry wyznaczone prawdopodobieństwo nazywa się poziomem ufności (określa jak często mamy się NIE rąbnąć)

Testowanie hipotez

Większość analiz statystycznych polega na porówaniu. W wyniku tego porównania otrzymujemy liczbę. Załóżmy, że mamy dwie próby dotyczące wieku kandydatów na radnych do sejmików wojewódzkich z roku 2018 (średnia 46,1) oraz z roku 2014 (47,2). Różnica wynosi 1,1 lat i może być spowodowana błędem przypadkowym i/lub wynikać z tego że faktycznie w roku 2014 kandydaci byli starsi.

Formalnie stawiamy hipotezę że różnica średnich wynosi zero. Jest to tzw. hipoteza zerowa. Niezbędne jest także postawienie hipotezy alternatywnej którą może być proste zaprzeczenie zerowej. Zapisuje się to następująco:

\(H_0\): różnica średnich wieku wynosi zero (\(m_1 = m_2\))

\(H_1\): różnica średnich wieku jest różna od zera ($ m_1 = m_2$)

Hipotezy sprawdzamy wykorzystując test statystyczny czyli funkcję której wartości zależą wartości testowanych parametrów (w tym przypadku \(m_1\) oraz \(m_2\))

Nie jest chyba wielkim zakoczeniem że testem dla różnicy średnich jest różnica średnich w próbie. Całkiem zdroworozsądkowo możemy przyjąć, że duże różnice świadczą na rzecz hipotezy alternatywnej a małe na rzecz hipotezy zerowej.

Duża różnica pomiędzy hipotezą a wynikiem z próby może wynikać

  1. z tego że pechowo trafiła nam się nietypowa próba, który zdarza się rzadko (rozkład normalny)

  2. hipoteza jest fałszywa, średnia jest inna niż zakładamy

Statystyk zawsze wybierze drugą wersję. Pozostaje tylko ustalić (dla statystyka) co to jest rzadko? Rzadko to rzadziej niż z góry ustalone prawdopodobieństwo otrzymania różnicy którą otrzymaliśmy w próbie lub większej (coś jak założenie że zrealizował się najlepszy z najgorszych scenariuszy).

Przyjmijmy przykładowo że prawdopodobieństwo wystąpienia różnica 1,1 lat (i większej) oszacowane na podstawie odpowiedniego modelu matematycznego (rozkład normalny) wynosi 0,3 co znaczy że coś takiego zdarza się względnie często – raz na trzy pobrane próby.

Pobraliśmy drugą próbę, różnica wyniosła 3,2 lata. Prawdopodobieństwo wystąpienia takiej różnicy (i większej) wynosi 0,009 co znaczy że coś takiego zdarza się względnie rzadko – 9 razy na tysiąc prób.

Przyjmując że możemy się mylić 5 razy na 100 w pierwszym przypadku statystyk powie że nie ma podstaw do obalenia hipotezy. Różnica 1,1 lat wynika z przypadku. W drugim wypadku powie że hipoteza jest fałszywa bo zdarzyło się coś co nie powinno się zdarzyć.

Prawdopodobieństwo ,,graniczne’’ ustalamy z góry i nazywa się ono poziomem istotności. Określa ono jak często możemy się rąbnąć odrzucając hipotezę zerową która jest prawdziwa.

Ale jest jeszcze drugi przypadek popełnienia błędu: przyjmujemy hipotezę która jest fałszywa. W testach statystycznych nie określa się tego prawdopodobieństwa a w związku z tym nie można przyjąć hipotezy zerowej (bo nie znamy ryzyka popełnienia błędu).

W konsekwencji hipotezę zerową albo się odrzuca albo nie ma podstaw do odrzucenia. Wniosek cokolwiek niekonkluzywny ale tak jest.

Dlatego też często ,,opłaca się’’ odrzucić hipotezę zerową, bo taki rezultat jest ,,bardziej konkretny’’.