Rozdział 10 Rozkłady próbkowania

10.1 Statystyki i parametry

Parametr to miara charakteryzująca jedną lub więcej populacji lub procesów. Czasem, dla podkreślenia faktu, że parametr dotyczy populacji, a nie próby, mówi się wprost parametr populacji.

Przykłady parametrów:

udział osób niebieskookich w populacji świata,
różnica pomiędzy średnimi dochodami mężczyzn i kobiet w Polsce,
prawdopodobieństwo, że w kolejnym porodzie w danym szpitalu urodzi się dziewczynka.

Będziemy zakładać, że parametr to stała (niezmienna) wartość. Zwykle nie możemy poznać go wprost, stąd chcemy oszacować, ile wynosi. Aby oszacować parametry z populacji, potrzebujemy metod wnioskowania statystycznego.

Statystyka (statystyka z próby) to liczba podsumowująca próbę (losową) pobraną z populacji. Statystyk z próby będziemy używać, żeby oszacować nieznaną wartość parametrów.

Typowe pary parametrów i statystyk wraz z oznaczeniami:

Średnia w populacji $\mu$ – średnia z próby $\bar{x}$.
Proporcja w populacji $p$ – proporcja z próby $\hat{p}$.
Wariancja w populacji $\sigma^2$ – wariancja z próby $s^2$.
Odchylenie standardowe w populacji $\sigma$ – odchylenie standardowe z próby $s$.
Różnica między średnimi w dwóch populacjach $\mu_1-\mu_2$ – różnica pomiędzy średnimi w próbie $\bar{x}_1-\bar{x}_2$.
Różnica między proporcjami w dwóch populacjach $p_1-p_2$ – różnica pomiędzy proporcjami w próbie $\hat{p}_1-\hat{p}_2$.
Korelacja w danej populacji $\rho$ – korelacja w próbie wylosowanej z tej populacji $r$.

Warto zapamiętać, że statystyka z próby może być traktowana jak zmienna losowa. Jeżeli będziemy wielokrotnie pobierać próbę losową z danej populacji, statystyka (np. średnia) będzie przyjmować różne wartości. Jest to więc zmienna losowa. Statystyka z próby, tak jak każda inna zmienna, ma swój rozkład, nazywany rozkładem próbkowania.

Jeżeli chcemy zaznaczyć, że mówimy o statystyce, np. o średniej z próby, jak o zmiennej losowej, możemy zapisać tę statystykę wielką literą, np. $\bar{X}$.

10.2 Rozkład próbkowania średniej z próby

Jeżeli zmienna ma (w populacji) rozkład o średniej $\mu$ i odchyleniu standardowym $\sigma$, to średnia $\bar{X}$ z n-elementowej próby ma rozkład o wartości oczekiwanej $\mathbb{E}(X)=\mu$ i odchyleniu standardowym $\sigma/\sqrt{n}$. Można dojść do takiego wniosku korzystając z zależności opisanych w części 7.5.3.

Wartość oczekiwaną rozkładu próbkowania średniej z próby oznaczamy czasem symbolem $\mu_{\bar{X}}$, a odchylenie standardowe średniej z próby przez $\sigma_{\bar{X}}$. Odchylenie standardowe średniej z próby nazwywamy błędem standardowym średniej z próby.

Jeżeli zmienna w populacji ma rozkład normalny, to średnia z próby będzie również miała rozkład normalny.

10.3 Centralne twierdzenie graniczne

Niezależnie od tego, jaki kształt ma rozkład zmiennej populacji (pod warunkiem, że ma skończoną wariancję), rozkład średniej z próby staje się coraz bardziej zbliżony do rozkładu normalnego, gdy liczba obserwacji w próbie ($n$) rośnie.

Gwarantuje to centralne twierdzenie graniczne.

10.4 Estymatory punktowe – obciążone i nieobciążone

Estymator punktowy to statystyka z próby, za pomocą której dokonujemy oszacowania parametru z populacji. Szacowanie takie polega na podaniu jednej liczby (punktu) – stąd nazwa. Otrzymana wartość estymatora punktowego nazywana jest często oszacowaniem lub oceną (punktową), a sam proces szacowania nazywany jest estymacją.

Na przykład średnia z próby ($\bar{X}$) jest estymatorem punktowym średniej z populacji $\mu_X$, a wariancja z próby ($S^2$) jest estymatorem punktowym wariancji z populacji ($\sigma^2$).

Estymator $\hat{\Theta}$ jest nieobciążonym estymatorem parametru z populacji $\theta$, jeżeli $\mathbb{E}(\hat{\Theta})=\theta$. W innym przypadku estymator jest obciążony⁶.

Przykłady(zob. również ćwiczenie 10.3):

Średnia z próby $\bar{X}$ jest nieobciążonym estymatorem średniej z populacji, ponieważ $\mathbb{E}(\bar{X})=\mu$.
Wariancja z próby $S^2$ (obliczona za pomocą wzoru (A.72) mającego w mianowniku $n-1$, czyli liczebność próby pomniejszoną o jednostkę) jest nieobciążonym estymatorem wariancji z populacji $\sigma^2$: $\mathbb{E}(S^2)=\sigma^2$.
$\mathbb{E}(S) \ne \sigma$, więc odchylenie standardowe z próby nie jest nieobciążonym estymatorem odchylenia standardowego z populacji.

10.5 Wnioskowanie statystyczne

Rozkłady próbkowania stanowią matematyczną podstawę metod wnioskowania statystycznego. Dwie główne metody wnioskowania statystycznego to:

szacowanie (estymacja) za pomocą przedziałów ufności,
testy hipotez (testy statystyczne).

Przedział ufności to przedział, który stanowi oszacowanie nieznanego parametru z ufnością $(1-\alpha)$. Jeżeli odpowiednie warunki są spełnione, to prawdopodobieństwo, że przedział ufności, który będziemy wyznaczać, będzie zawierał prawdziwy parametr, wynosi $(1-\alpha)$.

Test statystyczny to technika polegająca na tym, że stawiamy dwie hipotezy dotyczące parametrów populacji: hipotezę zerową i hipotezę alternatywną, a następnie na podstawie danych stwierdzamy, czy możemy odrzucić hipotezę zerową na rzecz alternatywnej.

W kolejnych rozdziałach przedstawione zostaną metody konstruowania przedziałów ufności i testy statystyczne dla najprostszych parametrów.

10.6 Linki

Rozkład średniej z próby / centralne twierdzenie graniczne

wizualizacja 1: https://seeing-theory.brown.edu/probability-distributions/index.html#section3
wizualizacja 2 - zmienna ciągła: https://istats.shinyapps.io/sampdist_cont/
wizualizacja 3 - zmienna dyskretna: https://istats.shinyapps.io/SampDist_discrete/
wizualizacja 4 - proporcja (frakcja): https://istats.shinyapps.io/SampDist_Prop/
wizualizacja 5 - proporcja (frakcja): https://learning.statistics-is-awesome.org/threethings/

Centralne twierdzenie graniczne – wyjaśnienie na kanale 3Blue1Brown

10.7 Pytania

Pytanie 10.1 Sprawdź, czy znasz odpowiedzi na następujące pytania kontrolne:

Jakie są podobieństwa i różnice pomiędzy parametrami z populacji i statystykami z próby?
Czym jest rozkład próbkowania?
Co to jest estymator punktowy parametru populacji? Podaj przykład.
Jaka jest różnica między estymatorem punktowym obciążonym i nieobciążonym?
Co oznaczają symbole $\mu_{\bar{X}}$ i $\sigma_{\bar{X}}?$
Jaka jest zależność pomiędzy wartością oczekiwaną średniej z próby $\bar{X}$ a średnią w populacji, z której ta próba jest losowana?
Jaka jest zależność pomiędzy odchyleniem standardowym w rozkładzie próbkowania średniej z próby $\bar{X}$ a odchyleniem standardowym cechy w populacji, z której ta próba jest losowana?
O czym mówi Centralne Twierdzenie Graniczne?
Czy średnia z próby będzie miała zawsze rozkład (w przybliżeniu) normalny?

10.8 Zadania

Zadanie 10.1 Załóżmy, że rozkład masy ciała osób w budynku jest w przybliżeniu normalny o średniej = 71 kg i odchyleniu standardowym = 15 kg.

Jakie jest prawdopodobieństwo, że 7 osób, które losowo wejdą do windy, będzie łącznie ważyć więcej niż 525 kg?

Jakie jest prawdopodobieństwo, że średnia masa ciała obliczona dla siedmiu osób, które losowo wejdą do windy, będzie mniejsza niż 63 kg?

Zadanie 10.2 (McClave and Sincich 2012) Poniższy rozkład prawdopodobieństwa opisuje populację, w której możliwe są wartości pomiaru równe 0, 2, 4 i 6. Każda z tych wartości może wystąpić z równym prawdopodobieństwem.

$x$	$\textbf{p}(x)$
0	0,25
2	0,25
4	0,25
6	0,25

Wypisz wszystkie możliwe różne dwuelementowe próby, które można wylosować z tej populacji (kolejność wystąpień wartości jest ważna).
Oblicz średnią dla każdej z prób wypisanych w poprzednim punkcie.
Dwuelementowa (n=2) próba jest losowo wybrana z tej populacji. Jakie jest prawdopodobieństwo, że otrzymamy jedną konkretną próbkę (na przykład pierwszą wypisaną w punkcie a).
Dwuelementowa próba jest wylosowana z tej populacji. Wypisz wszystkie możliwe wartości $\bar{X}$ otrzymane w punkcie (b) i wyznacz prawdopodobieństwo każdej z tych wartości. Podaj rozkład zmiennej $\bar{X}$ w formie tabeli. Przedstaw rozkład próbkowania średniej z próby na wykresie.

Zadanie 10.3 (McClave and Sincich 2012) Dany jest rozkład prawdopodobieństwa („populacja”):

$x$	$\textbf{p}(x)$
0	1/3
1	1/3
4	1/3

Znajdź $\mu$ i $\sigma^2$.
Wyznacz rozkład próbkowania średniej z próby $\bar{X}$ dla próby losowej liczącej $n=2$ (próby dwuelementowej) wylosowanej z tego rozkładu.
Pokaż, że $\bar{X}$ jest nieobciążonym estymatorem $\mu$. [Wskazówka: pokaż, że $\mathbb{E}(\bar{X})=\sum \bar{x}\textbf{p}(\bar{x})=\mu$.]
Wyznacz rozkład próbkowania wariancji z próby $S^2$ dla próby losowej dwuelementowej z tego rozkładu.
Pokaż, że $S^2$ jest nieobciążonym estymatorem $\sigma^2$.

Zadanie 10.4 (McClave and Sincich 2012) Załóżmy, że próba n-elementowa jest wybrana losowo z populacji o średniej $\mu=100$ i wariancji $\sigma^2=25$.

Dla każdej z poniższych wartości n, podaj średnią i odchylenie standardowe rozkładu średniej z próby $\bar{X}$.

n = 4
n = 25
n = 100
n = 50
n = 500
n = 1000

Zadanie 10.5 Próba składająca się z $n$ = 64 obserwacji jest losowana z populacji o średniej równej 20 i odchyleniu standardowym równym 16.

Podaj średnią (wartość oczekiwaną) i odchylenie standardowe rozkładu średniej z próby $\bar{X}$.
Opisz kształt rozkładu średniej z próby $\bar{X}$. Czy odpowiedź zależy od liczebności próby?
Wyznacz wartość z-score odpowiadającą wartości $\bar{x}$ = 16.
Wyznacz wartość z-score odpowiadającą wartości $\bar{x}$ = 23.
Wyznacz $\mathbb{P}(\bar{X}<16)$.
Wyznacz $\mathbb{P}(\bar{X}<23)$.
Wyznacz $\mathbb{P}(16<\bar{X}<23)$.

Zadanie 10.6 Średnia liczba dzieci przypadających na kobietę w pewnym państwie to 1,31. Załóżmy, że odchylenie standardowe w populacji to 0,4. Jeżeli losowo wybierzemy 200 kobiet, jakie jest prawdopodobieństwo, że średnia liczba dzieci w tej próbie będzie pomiędzy 1,26 i 1,36.

Zadanie 10.7 Dom w podwarszawskiej miejscowości kosztuje średnio 2,6 miliona złotych. Załóżmy, że ceny mają rozkład normalny i odchylenie standardowe wynosi 500 000 złotych. Losujemy 25-elementową próbę domów i obliczamy średnią. Jakie jest prawdopodobieństwo, że średnia z próby przekroczy 3 miliony złotych?

Zadanie 10.8 Ekonomista chciałby wyznaczyć przeciętny dochód rodziny w pewnej populacji. Wiemy, że odchylenie standardowe w populacji to 4500 funtów. Ekonomista korzysta z próby losowej n=225 obserwacji. Jakie jest prawdopodobieństwo, że średnia z próby będzie się różnić od średniej z populacji o mniej niż 800 funtów?

Zadanie 10.9 Rowery górskie firmy ABC są wystawiane w salonach w Mediolanie średnio za cenę 700$. Załóżmy, że odchylenie standardowe ceny roweru jest równe 100$. Jeżeli dobierzemy losowo 60 rowerów, to jakie jest prawdopodobieństwo, że średnia cena roweru górskiego ABC w tej próbie będzie zawierać się między 680$ a 720$?

Zadanie 10.10 W pewnym mieście 50% rodzin z dziećmi ma jedno dziecko, 30% dwoje dzieci, 15% troje dzieci, 4% czworo dzieci, 1% pięcioro dzieci. Na festyn rodzinny zaproszono 100 losowych rodzin mających przynajmniej jedno dziecko; rodziny przyjdą ze wszystkimi swoimi dziećmi. Organizatorzy przygotowują dla każdego dziecka, które pojawi się na festynie, drobny upominek. Chcieliby mieć przynajmniej 99,9-procentową pewność, że upominków wystarczy dla wszystkich dzieci.

Ile upominków powinni przygotować?
Załóżmy, że organizatorzy przygotowali liczbę upominków wyznaczoną w punkcie (a). Jakie jest prawdopodobieństwo, że po rozdaniu upominków dzieciom zostanie im przynajmniej 15 niewykorzystanych?

Literatura

McClave, J. T., and T. T. Sincich. 2012. Statistics. Pearson Education. https://books.google.pl/books?id=gcYsAAAAQBAJ.

Grecka litera ${\theta}$ (theta/teta) używana jest często jako oznaczenie generalne dowolnego parametru. Stąd za $\theta$ możemy w tym akapicie podstawić np. $\mu$, $\sigma^2$, $\rho$, itd., zaś za $\hat{\Theta}$ możemy podstawić odpowiednio $\bar{X}$, $S^2$, $R$ itd., czyli odpowiednią statystykę z próby.↩︎