Rozdział 12 Przedział ufności dla proporcji

12.1 Wzory

Proporcja w statystyce to udział obserwacji spełniających dany warunek.

Przykłady:

  • Udział osób leworęcznych w populacji.

  • Udział osób popierających urzędującego prezydenta w wyborach w USA.

  • Udział wadliwych mikroprocesorów wyprodukowanych przez fabrykę A.

  • Prawdopodobieństwo, że w rzucie pewną konkretną, niekoniecznie idealnie wyważoną kostką do gry wypadnie szóstka.

Ponieważ proporcja w matematyce (i w życiu) ma trochę inne znaczenie niż w statystyce, w niektórych podręcznikach używa się innych słów. Na przykład „frakcja” lub „wskaźnik struktury”. Zamiast przedziałów ufności lub testów proporcji mówi się wtedy o przedziałach/testach frakcji lub wskaźnika struktury.

Proporcja przemnożona przez 100 to procent albo odsetek. W niektórych podręcznikach pojawia się więc sformułowanie „testy/przedziały ufności dla odsetka” .

Przedział ufności dla proporcji możemy wyznaczyć na podstawie następującego wzoru:

\[\begin{equation} \hat{p}\pm z_{\alpha/2}\sqrt{\frac{\hat{p}\hat{q}}{n}} \tag{12.1} \end{equation}\]

W powyższym wzorze \(n\) to wielkość próby (liczba obserwacji), \(\hat{p}\) to proporcja z próby, \(\hat{q}\) to \(1-\hat{p}\), zaś \(z_{\alpha/2}\) to odpowiedni kwantyl standardowego rozkładu normalnego (analogicznie do wzoru (11.1)). Komponent \(\sqrt{\frac{\hat{p}\hat{q}}{n}}\) to błąd standardowy proporcji z próby lub, bardziej precyzyjnie, oszacowanie tego błędu standardowego.

Warunki zastosowania wzoru:

  • Próba jest losowa i pochodzi z populacji docelowej.

  • Próba jest wystarczająco duża. Dla naszych celów ustalmy, że \(n\hat{p} \geqslant 15\) i \(n\hat{q}\geqslant 15\), gdzie \(\hat{p}\) to proporcja z próby, a \(\hat{q}=1-\hat{p}\). Czasem łagodzi się te założenia i stwierdza, że wystarczy \(n\hat{p} \geqslant 5\) i \(n\hat{q}\geqslant 5\).

W praktyce zamiast powyższego prostego wzoru często stosuje się tzw. Wilson score interval. To podejście ma sporo zalet (np. nie zwraca przedziałów o zerowej szerokości). Wzór na tak skonstruowany przedział ufności jest dość złożony i nie prezentujemy go tutaj, jest jednak w szablonie (vide niżej).

12.2 Linki

Przedział ufności dla proporcji - wizualizacja: https://istats.shinyapps.io/Inference_prop/

12.3 Szablony

Arkusze kalkulacyjne

Przedział ufności dla proporcji — arkusz Google

Przedział ufności dla proporcji — szablon w Excelu

Kod w R

# Przedział ufności dla proporcji
# Dane:
# Liczba wszystkich obserwacji:
n <- 160
# Liczba obserwacji sprzyjających:
x <- 15
# Proporcja w próbie:
phat <- x/n
# Poziom ufności:
conf <- 0.95

# Prosty wzór:
alpha <- 1 - conf
resa <- phat + c(-qnorm(1-alpha/2), qnorm(1-alpha/2)) * sqrt((1/n)*phat*(1-phat))
# Wilson score:
resw <- prop.test(x, n, conf.level = 1-alpha, correct = FALSE)$conf.int

print(paste(
  list(
    "Przedział ufności - prosty wzór:",
    resa, 
    "Przedział ufności - Wilson score:", 
    resw)))
## [1] "Przedział ufności - prosty wzór:"         "c(0.0485854437380776, 0.138914556261922)"
## [3] "Przedział ufności - Wilson score:"        "c(0.0576380069455474, 0.148912026631301)"
# Z wykorzystaniem pakietu binom
# Liczba wszystkich obserwacji:
n <- 160
# Liczba obserwacji sprzyjających:
x <- 15
# Poziom ufności:
conf <- 0.95
# methods="all" oznacza wszystkie metody, metoda "prosty wzór" to method="asymptotic"
binom::binom.confint(x, n, conf.level = conf, methods = "all")
##           method  x   n       mean      lower     upper
## 1  agresti-coull 15 160 0.09375000 0.05667743 0.1498726
## 2     asymptotic 15 160 0.09375000 0.04858544 0.1389146
## 3          bayes 15 160 0.09627329 0.05301161 0.1424125
## 4        cloglog 15 160 0.09375000 0.05494601 0.1449700
## 5          exact 15 160 0.09375000 0.05342512 0.1499102
## 6          logit 15 160 0.09375000 0.05730929 0.1496827
## 7         probit 15 160 0.09375000 0.05616008 0.1472798
## 8        profile 15 160 0.09375000 0.05506974 0.1453215
## 9            lrt 15 160 0.09375000 0.05506409 0.1453210
## 10     prop.test 15 160 0.09375000 0.05523020 0.1525939
## 11        wilson 15 160 0.09375000 0.05763801 0.1489120

Kod w Pythonie

# Przedział ufności dla proporcji
# Dane:
# Liczba wszystkich obserwacji:
n = 160
# Liczba obserwacji sprzyjających:
x = 15
# Proporcja w próbie:
phat = x/n
# Poziom ufności:
conf = 0.95

from statsmodels.stats.proportion import proportion_confint
# Prosty wzór:
resa = proportion_confint(x, n, alpha=1-conf, method='normal')
# Wilson score:
resw = proportion_confint(x, n, alpha=1-conf, method='wilson')

print("Przedział ufności - prosty wzór:", resa, 
"\nPrzedział ufności - Wilson score:", resw)
## Przedział ufności - prosty wzór: (0.048585443738077556, 0.13891455626192245) 
## Przedział ufności - Wilson score: (0.05763800694554742, 0.14891202663130057)

12.4 Zadania

Zadanie 12.1 (Na podstawie Aczel and Sounderpandian 2018) Producent leczniczego kremu do skóry jest zainteresowany udziałem osób w określonym wieku, którym ów lek przyniesie poprawę stanu skóry. W 68-osobowej losowej grupie uzyskano pozytywny efekt kuracji w 42 przypadkach. Jakiego udziału osób, którym ten lek przyniesie poprawę, należy, z 99-procentową ufnością, spodziewać się w populacji?

Zadanie 12.2 (Na podstawie Aczel and Sounderpandian 2018) Obecnie tylko 1% gospodarstw domowych korzysta z energii elektrycznej wyprodukowanej z wykorzystaniem energii słonecznej. Załóżmy, że wynik ten otrzymano na podstawie próby losowej konsumentów energii liczącej 8000 osób. Proszę podać 95-procentowy przedział ufności dla proporcji użytkowników energii słonecznej w populacji.

Zadanie 12.3 Wylosuj trzydzieści razy losowe miejsce na Ziemi sprawdzając, czy trafiasz w ląd czy w wodę. Na tej podstawie oszacuj udział lądu w powierzchni Ziemi. Przyjmij 90-procentowy przedział ufności.

Narzędzie do losowania miejsca na Ziemi: https://www.random.org/geographic-coordinates/

Literatura

Aczel, A. D., and J. Sounderpandian. 2018. Statystyka w Zarządzaniu. PWN. https://ksiegarnia.pwn.pl/Statystyka-w-zarzadzaniu,731934758,p.html.