Rozdział 12 Przedział ufności dla proporcji

12.1 Wzory

Proporcja w statystyce to udział obserwacji spełniających dany warunek.

Przykłady:

  • Udział osób leworęcznych w populacji.

  • Udział osób popierających urzędującego prezydenta w wyborach w USA.

  • Udział wadliwych mikroprocesorów wyprodukowanych przez fabrykę A.

  • Prawdopodobieństwo, że w rzucie pewną konkretną, niekoniecznie idealnie wyważoną kostką do gry wypadnie szóstka.

Ponieważ proporcja w matematyce (i w życiu) ma trochę inne znaczenie, w niektórych podręcznikach używa się innych słów. Na przykład „frakcja” lub „wskaźnik struktury”. Zamiast przedziałów ufności lub testów proporcji mówi się wtedy o przedziałach/testach frakcji lub wskaźnika struktury.

Proporcja przemnożona przez 100 to procent albo odsetek. W niektórych podręcznikach pojawia się więc sformułowanie „testy/przedziały ufności dla odsetka” .

Przedział ufności dla proporcji możemy wyznaczyć na podstawie następującego wzoru:

\[\begin{equation} \hat{p}\pm z_{\alpha/2}\sqrt{\frac{\hat{p}\hat{q}}{n}} \tag{12.1} \end{equation}\]

W powyższym wzorze \(n\) to wielkość próby (liczba obserwacji), \(\hat{p}\) to proporcja z próby, \(\hat{q}\) to \(1-\hat{p}\), zaś \(z_{\alpha/2}\) to odpowiedni kwantyl standardowego rozkładu normalnego (analogicznie do wzoru (11.1)).

Warunki zastosowania wzoru:

  • Próba jest losowa i pochodzi z populacji docelowej.

  • Próba jest wystarczająco duża. Dla naszych celów ustalmy, że \(n\hat{p} \ge 15\) i \(n\hat{q}\ge 15\), gdzie \(\hat{p}\) to proporcja z próby, a \(\hat{q}=1-\hat{p}\). Czasem łagodzi się te założenia i stwierdza, że wystarczy \(n\hat{p} \ge 5\) i \(n\hat{q}\ge 5\).

W praktyce zamiast powyższego prostego wzoru często stosuje się tzw. Wilson score interval. To podejście ma sporo zalet (np. nie zwraca przedziałów o zerowej szerokości). Wzór na tak skonstruowany przedział ufności jest dość złożony i nie prezentujemy go tutaj, jest jednak w szablonie (vide niżej).

12.2 Linki

Przedział ufności dla proporcji - wizualizacja: https://istats.shinyapps.io/Inference_prop/

12.3 Szablony

Arkusze kalkulacyjne

Przedział ufności dla proporcji — arkusz Google

Przedział ufności dla proporcji — szablon w Excelu

Kod w R

# Przedział ufności dla proporcji
# Dane:
# Liczba wszystkich obserwacji:
n <- 160
# Liczba obserwacji sprzyjających:
x <- 15
# Proporcja w próbie:
p <- x/n
# Poziom ufności:
conf <- 0.95

# Prosty wzór:
alpha <- 1 - conf
resa <- p + c(-qnorm(1-alpha/2), qnorm(1-alpha/2)) * sqrt((1/n)*p*(1-p))
# Wilson score:
resw <- prop.test(x, n, conf.level = 1-alpha, correct = FALSE)$conf.int

print(paste(
  list(
    "Przedział ufności - prosty wzór:",
    resa, 
    "Przedział ufności - Wilson score:", 
    resw)))
## [1] "Przedział ufności - prosty wzór:"         "c(0.0485854437380776, 0.138914556261922)"
## [3] "Przedział ufności - Wilson score:"        "c(0.0576380069455474, 0.148912026631301)"

Kod w Pythonie

# Przedział ufności dla proporcji
# Dane:
# Liczba wszystkich obserwacji:
n = 160
# Liczba obserwacji sprzyjających:
x = 15
# Proporcja w próbie:
p = x/n
# Poziom ufności:
conf = 0.95

from statsmodels.stats.proportion import proportion_confint
# Prosty wzór:
resa = proportion_confint(x, n, alpha=1-conf, method='normal')
# Wilson score:
resw = proportion_confint(x, n, alpha=1-conf, method='wilson')

print("Przedział ufności - prosty wzór:", resa, 
"\nPrzedział ufności - Wilson score:", resw)
## Przedział ufności - prosty wzór: (0.048585443738077556, 0.13891455626192245) 
## Przedział ufności - Wilson score: (0.05763800694554742, 0.14891202663130057)

12.4 Zadania

Zadanie 12.1 (Na podstawie Aczel and Sounderpandian 2018) Producent leczniczego kremu do skóry jest zainteresowany udziałem osób w określonym wieku, którym ów lek przyniesie poprawę stanu skóry. W 68-osobowej losowej grupie uzyskano pozytywny efekt kuracji w 42 przypadkach. Jakiego udziału osób, którym ten lek przyniesie poprawę, należy, z 99-procentową ufnością, spodziewać się w populacji?

Zadanie 12.2 (Na podstawie Aczel and Sounderpandian 2018) Obecnie tylko 1% gospodarstw domowych korzysta z energii elektrycznej wyprodukowanej z wykorzystaniem energii słonecznej. Załóżmy, że wynik ten otrzymano na podstawie próby losowej konsumentów energii liczącej 8000 osób. Proszę podać 95-procentowy przedział ufności dla proporcji użytkowników energii słonecznej w populacji.

Zadanie 12.3 Wylosuj trzydzieści razy losowe miejsce na Ziemi sprawdzając, czy trafiasz w ląd czy w wodę. Na tej podstawie oszacuj udział lądu w powierzchni Ziemi. Przyjmij 90-procentowy przedział ufności.

Narzędzie do losowania miejsca na Ziemi: https://www.random.org/geographic-coordinates/

Literatura

Aczel, A. D., and J. Sounderpandian. 2018. Statystyka w Zarządzaniu. PWN. https://ksiegarnia.pwn.pl/Statystyka-w-zarzadzaniu,731934758,p.html.