Rozdział 12 Przedział ufności dla proporcji
12.1 Wzory
Proporcja w statystyce to udział obserwacji spełniających dany warunek.
Przykłady:
Udział osób leworęcznych w populacji.
Udział osób popierających urzędującego prezydenta w wyborach w USA.
Udział wadliwych mikroprocesorów wyprodukowanych przez fabrykę A.
Prawdopodobieństwo, że w rzucie pewną konkretną, niekoniecznie idealnie wyważoną kostką do gry wypadnie szóstka.
Ponieważ proporcja w matematyce (i w życiu) ma trochę inne znaczenie niż w statystyce, w niektórych podręcznikach używa się innych słów. Na przykład „frakcja” lub „wskaźnik struktury”. Zamiast przedziałów ufności lub testów proporcji mówi się wtedy o przedziałach/testach frakcji lub wskaźnika struktury.
Proporcja przemnożona przez 100 to procent albo odsetek. W niektórych podręcznikach pojawia się więc sformułowanie „testy/przedziały ufności dla odsetka” .
Przedział ufności dla proporcji możemy wyznaczyć na podstawie następującego wzoru:
\[\begin{equation} \hat{p}\pm z_{\alpha/2}\sqrt{\frac{\hat{p}\hat{q}}{n}} \tag{12.1} \end{equation}\]
W powyższym wzorze \(n\) to wielkość próby (liczba obserwacji), \(\hat{p}\) to proporcja z próby, \(\hat{q}\) to \(1-\hat{p}\), zaś \(z_{\alpha/2}\) to odpowiedni kwantyl standardowego rozkładu normalnego (analogicznie do wzoru (11.1)). Komponent \(\sqrt{\frac{\hat{p}\hat{q}}{n}}\) to błąd standardowy proporcji z próby lub, bardziej precyzyjnie, oszacowanie tego błędu standardowego.
Warunki zastosowania wzoru:
Próba jest losowa i pochodzi z populacji docelowej.
Próba jest wystarczająco duża. Dla naszych celów ustalmy, że \(n\hat{p} \geqslant 15\) i \(n\hat{q}\geqslant 15\), gdzie \(\hat{p}\) to proporcja z próby, a \(\hat{q}=1-\hat{p}\). Czasem łagodzi się te założenia i stwierdza, że wystarczy \(n\hat{p} \geqslant 5\) i \(n\hat{q}\geqslant 5\).
W praktyce zamiast powyższego prostego wzoru często stosuje się tzw. Wilson score interval. To podejście ma sporo zalet (np. nie zwraca przedziałów o zerowej szerokości). Wzór na tak skonstruowany przedział ufności jest dość złożony i nie prezentujemy go tutaj, jest jednak w szablonie (vide niżej).
12.2 Linki
Przedział ufności dla proporcji - wizualizacja: https://istats.shinyapps.io/Inference_prop/
12.3 Szablony
Arkusze kalkulacyjne
Przedział ufności dla proporcji — arkusz Google
Przedział ufności dla proporcji — szablon w Excelu
Kod w R
# Przedział ufności dla proporcji
# Dane:
# Liczba wszystkich obserwacji:
n <- 160
# Liczba obserwacji sprzyjających:
x <- 15
# Proporcja w próbie:
phat <- x/n
# Poziom ufności:
conf <- 0.95
# Prosty wzór:
alpha <- 1 - conf
resa <- phat + c(-qnorm(1-alpha/2), qnorm(1-alpha/2)) * sqrt((1/n)*phat*(1-phat))
# Wilson score:
resw <- prop.test(x, n, conf.level = 1-alpha, correct = FALSE)$conf.int
print(paste(
list(
"Przedział ufności - prosty wzór:",
resa,
"Przedział ufności - Wilson score:",
resw)))
## [1] "Przedział ufności - prosty wzór:" "c(0.0485854437380776, 0.138914556261922)"
## [3] "Przedział ufności - Wilson score:" "c(0.0576380069455474, 0.148912026631301)"
# Z wykorzystaniem pakietu binom
# Liczba wszystkich obserwacji:
n <- 160
# Liczba obserwacji sprzyjających:
x <- 15
# Poziom ufności:
conf <- 0.95
# methods="all" oznacza wszystkie metody, metoda "prosty wzór" to method="asymptotic"
binom::binom.confint(x, n, conf.level = conf, methods = "all")
## method x n mean lower upper
## 1 agresti-coull 15 160 0.09375000 0.05667743 0.1498726
## 2 asymptotic 15 160 0.09375000 0.04858544 0.1389146
## 3 bayes 15 160 0.09627329 0.05301161 0.1424125
## 4 cloglog 15 160 0.09375000 0.05494601 0.1449700
## 5 exact 15 160 0.09375000 0.05342512 0.1499102
## 6 logit 15 160 0.09375000 0.05730929 0.1496827
## 7 probit 15 160 0.09375000 0.05616008 0.1472798
## 8 profile 15 160 0.09375000 0.05506974 0.1453215
## 9 lrt 15 160 0.09375000 0.05506409 0.1453210
## 10 prop.test 15 160 0.09375000 0.05523020 0.1525939
## 11 wilson 15 160 0.09375000 0.05763801 0.1489120
Kod w Pythonie
# Przedział ufności dla proporcji
# Dane:
# Liczba wszystkich obserwacji:
n = 160
# Liczba obserwacji sprzyjających:
x = 15
# Proporcja w próbie:
phat = x/n
# Poziom ufności:
conf = 0.95
from statsmodels.stats.proportion import proportion_confint
# Prosty wzór:
resa = proportion_confint(x, n, alpha=1-conf, method='normal')
# Wilson score:
resw = proportion_confint(x, n, alpha=1-conf, method='wilson')
print("Przedział ufności - prosty wzór:", resa,
"\nPrzedział ufności - Wilson score:", resw)
## Przedział ufności - prosty wzór: (0.048585443738077556, 0.13891455626192245)
## Przedział ufności - Wilson score: (0.05763800694554742, 0.14891202663130057)
12.4 Zadania
Zadanie 12.1 (Na podstawie Aczel and Sounderpandian 2018) Producent leczniczego kremu do skóry jest zainteresowany udziałem osób w określonym wieku, którym ów lek przyniesie poprawę stanu skóry. W 68-osobowej losowej grupie uzyskano pozytywny efekt kuracji w 42 przypadkach. Jakiego udziału osób, którym ten lek przyniesie poprawę, należy, z 99-procentową ufnością, spodziewać się w populacji?
Zadanie 12.2 (Na podstawie Aczel and Sounderpandian 2018) Obecnie tylko 1% gospodarstw domowych korzysta z energii elektrycznej wyprodukowanej z wykorzystaniem energii słonecznej. Załóżmy, że wynik ten otrzymano na podstawie próby losowej konsumentów energii liczącej 8000 osób. Proszę podać 95-procentowy przedział ufności dla proporcji użytkowników energii słonecznej w populacji.
Zadanie 12.3 Wylosuj trzydzieści razy losowe miejsce na Ziemi sprawdzając, czy trafiasz w ląd czy w wodę. Na tej podstawie oszacuj udział lądu w powierzchni Ziemi. Przyjmij 90-procentowy przedział ufności.
Narzędzie do losowania miejsca na Ziemi: https://www.random.org/geographic-coordinates/