Rozdział 13 Liczebność próby

13.1 Określanie liczebności próby przy szacowaniu średniej

Kiedy planujemy badanie, możemy się zastanawiać, jak duża powinna być próba losowa, abyśmy uzyskali wystarczającą dokładność.

Na przykład wiemy, że szacowanie przedziału ufności dla średniej będziemy przeprowadzać na poziomie istotności \(1-\alpha=0{,}95\) i chcemy się mylić o co najwyżej ±\(e\) (wielkość \(e\) nazwijmy maksymalnym błędem szacunku). Innymi słowy, chcemy, żeby przedział ufności miał szerokość nie większą niż \(2e\).

Odwracając wzór na przedział ufności dla średniej (11.1), uzyskujemy wzór na liczebność próby w takiej sytuacji:

\[\begin{equation} n=\left(\frac{z_{\alpha/2}\cdot\sigma}{{e}}\right)^2 \tag{13.1} \end{equation}\]

Jak widać, wymagane jest założenie dotyczące wielkości odchylenia standardowego w populacji \(\sigma\). Przybliżenie takiej wartości można uzyskać, korzystając z poprzednich badań w podobnych populacjach lub na podstawie intuicji. Na wszelki wypadek można zakładaną wartość \(\sigma\) odpowiednio zawyżyć.

Jako wskazówka dotycząca rzędu wielkości może służyć również reguła, zgodnie z którą w wielu zbiorach danych, w szczególności takich, gdzie rozkład jest w przybliżeniu normalny, niemal wszystkie wartości mieszczą się w odległości ± trzech odchyleń standardowych od średniej. Oznacza to, że szerokość przedziału od minimum do maksimum to około \(6\sigma\). Jeżeli więc możemy założyć, że wszystkie wartości mieszczą się między \(A\) i \(B\), różnicę \(B-A\) możemy podzielić przez sześć, tym samym uzyskując oszacowanie odchylenia standardowego.

13.2 Określanie liczebności próby przy szacowaniu proporcji

Analogicznie uzyskujemy wzór dla wielkości próby potrzebnej do oszacowania proporcji z zadaną dokładnością ±\(e\) (w tym przypadku maksymalny błąd szacunku często określany jest punktach procentowych; należy pamiętać, że wstawiając do wzoru, zamieniamy go na odpowiedni ułamek). Przekształcając wzór (12.1), uzyskujemy:

\[\begin{equation} n=\frac{({z}_{\alpha/2})^2 \cdot p \cdot q}{{e}^2} \tag{13.2} \end{equation}\]

W tym przypadku również potrzebne jest założenie dotyczące proporcji \(p\) w populacji. Funkcja opisana wzorem (13.2) osiąga maksymalną wartość dla \(p=0{,}5\), stąd jeżeli nie mamy żadnych informacji pozwalających założyć \(p\), najbezpieczniej przyjąć \(p=0{,}5\).

13.3 Zaokrąglanie

Wzory (13.2) i (13.1) zwrócą najprawdopodobniej wartość ułamkową, natomiast wielkość próby \(n\) musi być oczywiście liczbą naturalną. W związku z tym powinniśmy wziąć najmniejszą liczbę naturalną większą niż wynik obliczeń. Innymi słowy zaokrąglamy w górę, czyli stosujemy funkcję sufit.

13.4 Szablony

Arkusze kalkulacyjne

Liczebność próby — arkusz Google

Liczebność próby — szablon w Excelu

Kod w R

# Szacowanie proporcji
# Dane:
# Poziom ufności:
conf <- 0.99
# Maksymalny błąd szacunku (e):
e <- 0.01
# Zakładana proporcja (p):
p <- 0.5

# Obliczenia
alpha <- 1 - conf
z <- -qnorm(alpha/2)

ceiling(z^2 * p * (1-p) / e^2)
## [1] 16588
# Szacowanie średniej
# Dane:
# Poziom ufności:
conf <- 0.9
# Maksymalny błąd szacunku (e):
e <- 1
# Zakładane odchylenie standardowe (sigma):
sigma <- 10

# Obliczenia
alpha <- 1 - conf
z <- -qnorm(alpha/2)

ceiling(z^2 * sigma^2 / e^2)
## [1] 271

Kod w Pythonie

# Szacowanie proporcji
import numpy as np
from scipy.stats import norm
# Dane:
# Poziom ufności:
conf = 0.99
# Maksymalny błąd szacunku (e):
e = 0.01
# Zakładana proporcja (p):
p = 0.5

# Obliczenia
alpha = 1 - conf
z = -norm.ppf(alpha/2)

print(np.ceil(z**2 * p * (1 - p) / e**2))
## 16588.0
# Szacowanie średniej
import numpy as np
from scipy.stats import norm
# Dane:
# Poziom ufności:
conf = 0.9
# Maksymalny błąd szacunku (e):
e = 1
# Zakładane odchylenie standardowe (sigma):
sigma = 10

# Obliczenia
alpha = 1 - conf
z = -norm.ppf(alpha / 2)

print(np.ceil(z**2 * sigma**2 / e**2))
## 271.0

13.6 Zadania

Zadanie 13.1 Firma zajmująca się analizą wynagrodzeń chciałaby oszacować średnie zarobki menedżerów wysokiego szczebla z dokładnością plus/minus 2000 dolarów, z 95% ufnością. Na podstawie poprzednich analiz można założyć, że wariancja wynagrodzeń menedżerów wynosi około 40 000 000 USD2. Jaka jest minimalna potrzebna liczebność próbki?

Zadanie 13.2 Jak duża powinna być próba losowa, żeby określić frakcję wadliwych komponentów powstających w pewnym procesie produkcyjnym, jeżeli chcemy poznać tę frakcję z dokładnością do ±0,05 z ufnością 90%? Nie mamy żadnej informacji/przypuszczeń odnośnie do zakładanego udziału wadliwych komponentów w populacji.

Zadanie 13.3 Pewna firma wierzy, że jej udział w rynku to 14% (14% konsumentów używa produktu tej firmy). Wyznacz minimalną wielkość próbki, taką żeby oszacować rzeczywisty udział w rynku z dokładnością ± 5 punktów procentowych, z 90-procentową ufnością.

Zadanie 13.4 Znajdź minimalną wymaganą wielkość próby, aby oszacować przeciętną liczbę markowych koszul sprzedawanych dziennie. Dokładność powinna wynosić ±10 sztuk, poziom ufności 0,9. Dodatkową informacją jest to, że odchylenie standardowe liczby koszul sprzedawanych dziennie nie przekracza 50 sztuk.

Zadanie 13.5 W ramach eksperymentu losujemy punkty z Ziemi i na tej podstawie szacujemy udział lądów w jej powierzchni, wyznaczając 90-procentowe przedziały ufności. Wiemy, że prawdziwa wartość to 0,29 (29% powierzchni Ziemi stanowią lądy). Jakiej wielkości musi być próba, żeby oszacowanie miało dokładność ± 2 punkty procentowe?

Zadanie 13.6 (Agresti, Franklin, and Klingenberg 2016) Jak dużej próby potrzebujemy, żeby oszacować średni roczny dochód rdzennych Amerykanów w hrabstwie Onondaga w stanie New York z dokładnością do 1000 USD z ufnością 0,99? Nie mamy informacji o odchyleniu standardowym, ale zgadujemy, że niemal wszystkie wartości dochodu należą do przedziału (0 USD; 120 000 USD) i rozkład dochodów ma w przybliżeniu kształt krzywej dzwonowej.

Literatura

Agresti, Alan, Christine Franklin, and Bernhard Klingenberg. 2016. Statistics: The Art and Science of Learning from Data. 4th edition. Pearson.