Rozdział 17 Testowanie hipotez dla dwóch proporcji

17.1 Test dwóch proporcji dla dużych prób

W teście dwóch proporcji hipoteza zerowa brzmi, że różnica między proporcjami w populacjach, z których pobieramy dwie próby wynosi zero¹¹:

\[ H_0: p_1-p_2 = 0,\] gdzie \(p_1\) to proporcja w pierwszej populacji, a \(p_2\) to proporcja w drugiej populacji.

Tradycyjnie możemy mieć trzy opcje hipotezy alternatywnej. W teście dwustronnym:

\[H_A: p_1-p_2 \ne 0\]

W teście lewostronnym:

\[H_A: p_1-p_2 < 0 \]

W teście prawostronnym:

\[H_A: p_1-p_2 > 0 \]

Hipotezy powyższe można zapisać \(H_A:p_1\ne p_2\), \(H_A:p_1<p_2\) i \(H_A:p_1>p_2\), a hipotezę zerową \(H_0: p_1=p_2\).

Statystyka testowa \(z\) to:

\[z=\frac{\hat{p}_1-\hat{p}_2}{\sqrt{\hat{p}\hat{q} \left(\frac{1}{n_1}+\frac{1}{n_2}\right)}},\] gdzie \(\hat{p}_1\) i \(\hat{p}_2\) to proporcje w próbie 1 i 2, a \(\hat{p}\) to zbiorcza proporcja w dwóch próbach:

\[\hat{p}_1=\frac{x_1}{n_1}, \:\: \hat{p}_2=\frac{x_2}{n_2}, \:\: \hat{p}=\frac{x_1+x_2}{n_1+n_2}, \:\: \hat{q}=1-\hat{p}\]

Obszar odrzucenia dobieramy tak, jak w innych testach \(z\).
Należy pamiętać, że założeniem testu jest to, że pobrane próbki wylosowano niezależnie z dwóch badanych populacji (procesów). Warunkiem stosowania testu jest również to, żeby obie próby były wystarczająco duże, aby można było stosować przybliżenie z wykorzystaniem rozkładu normalnego. W praktyce możemy uznać, że próby są wystarczająco duże, jeżeli \(n_1 \hat{p}_1\geqslant 15\), \(n_1 \hat{q}_1\geqslant 15\), \(n_2 \hat{p}_2\geqslant 15\) i \(n_2 \hat{q}_2\geqslant 15\). Niekiedy zamiast \(15\) jako minimum minimorum podaje się \(5\).

17.2 Wzory

Różnica między proporcjami w dwóch populacjach – przedział ufności:

\[\begin{equation} (\hat{p}_1-\hat{p}_2)\pm z_{\alpha/2}{\sqrt{\frac{\hat{p}_1\hat{q}_1}{n_1}+\frac{\hat{p}_2\hat{q}_2}{n_2}}} \tag{17.1} \end{equation}\]

Różnica między proporcjami w dwóch populacjach – test:

\[\begin{equation} \begin{split} z=\frac{(\hat{p}_1-\hat{p})-0}{\sqrt{\hat{p}\hat{q} \left(\frac{1}{n_1}+\frac{1}{n_2}\right)}} \\ {}\hat{p}_1=\frac{x_1}{n_1}, \:\: \hat{p}_2=\frac{x_2}{n_2}, \:\: \hat{p}=\frac{x_1+x_2}{n_1+n_2} \end{split} \tag{17.2} \end{equation}\]

17.3 Wielkość efektu

Gdy porównujemy dwie proporcje, wielkość efektu możemy mierzyć na kilka sposobów. Możemy używać:

(bezwzględnej) różnicy między proporcjami: \(|\hat{p}_1-\hat{p}_2|\),
ilorazu proporcji: \(\hat{p}_1/\hat{p}_2\) albo \(\hat{p}_2/\hat{p}_1\),
ilorazu szans: \(\hat{o}_1/\hat{o}_2\) albo \(\hat{o}_2/\hat{o}_1\), gdzie \(\hat{o}_i = \hat{p}_i/(1-\hat{p}_i)\).

Ostatnia opcja (iloraz szans) jest chyba najczęściej stosowana w literaturze, w szczególności w literaturze medycznej.

17.4 Szablony

Arkusze kalkulacyjne

Test i przedziały dla 2 proporcji — arkusz Google

Test i przedziały dla 2 proporcji — szablon w Excelu

Kod w R

# Test dla dwóch proporcji
# Liczba wszystkich obserwacji w próbie 1:
n1 <- 24
# Liczba obserwacji sprzyjających w próbie 1:
x1 <- 21
# Proporcja w próbie 1:
phat1 <- x1/n1
# Liczba wszystkich obserwacji w próbie 2:
n2 <- 24
# Liczba obserwacji sprzyjających w próbie 2:
x2 <- 14
# Proporcja w próbie 2:
phat2 <- x2/n2


# Poziom istotności:
alpha <- 0.05
# Hipoteza alternatywna (znak): "<"; ">"; "<>"; "≠"
alt <- ">"

alttext <- if(alt==">") {"greater"} else if(alt=="<") {"less"} else {"two.sided"}

test <- prop.test(c(x1, x2), c(n1, n2), alternative=alttext, correct=FALSE)
test_z <- unname(-sign(diff(test$estimate))*sqrt(test$statistic))
crit_z <- if(test$alternative=="less") {qnorm(alpha)} else if(test$alternative=="greater") {qnorm(1-alpha)} else {qnorm(1-alpha/2)}

print(c('Proporcje w próbach ' = test$estimate, 
        'Liczebność ' = c(n1, n2),
        'Hipoteza zerowa' = paste0('p1-p2 = ', 0),
        'Hipoteza alt.' = paste0('p1-p2 ', alt, ' ', 0),
        'Stat. testowa z' = test_z,
        'Stat. testowa chi^2' = unname(test$statistic),
        'Wartość krytyczna z' = crit_z,
        'Wartość krytyczna chi^2' = crit_z^2,
        'Wartość p' = test$p.value
))

## Proporcje w próbach .prop 1 Proporcje w próbach .prop 2                Liczebność 1 
##                     "0.875"         "0.583333333333333"                        "24" 
##                Liczebność 2             Hipoteza zerowa               Hipoteza alt. 
##                        "24"                 "p1-p2 = 0"                 "p1-p2 > 0" 
##             Stat. testowa z         Stat. testowa chi^2         Wartość krytyczna z 
##          "2.27359424023522"          "5.16923076923077"          "1.64485362695147" 
##     Wartość krytyczna chi^2                   Wartość p 
##          "2.70554345409541"        "0.0114951970462325"

Kod w Pythonie

from statsmodels.stats.proportion import proportions_ztest
from scipy.stats import norm, chi2_contingency
import numpy as np

n1 = 24
x1 = 21
phat1 = x1 / n1

n2 = 24
x2 = 14
phat2 = x2 / n2

alpha = 0.05
alt = ">"

if alt == ">":
    alttext = "larger"
elif alt == "<":
    alttext = "smaller"
else:
    alttext = "two-sided"

test_result = proportions_ztest(count = np.array([x1, x2]), nobs = np.array([n1, n2]), alternative = alttext)

print("Statystyka testowa z:", test_result[0], 
"\np-value:", test_result[1])

## Statystyka testowa z: 2.2735942402352203 
## p-value: 0.011495197046232447

17.5 Zadania

Zadanie 17.1 (Aczel and Sounderpandian 2018) Brak spłat kredytów hipotecznych stał się ostatnio problemem amerykańskiej gospodarki. Według USA Today odsetek właścicieli domów obciążonych hipoteką, którzy nie spłacali terminowo należności wynosi 4,9% w niektórych rejonach na zachodzie, a 6,9% na południu. Wiedząc, że powyższe dane zostały obliczone na podstawie dwóch niezależnych prób losowych o liczebnościach 1000 każda, zbadaj równość frakcji nierzetelnych kredytobiorców. Przyjmij α = 0,05.

Zadanie 17.2 W 1972 r. 48 menedżerów bankowych otrzymało te same akta osobowe. Każdego z nich poproszono o ocenę, czy dana osoba powinna zostać awansowana na stanowisko kierownika oddziału, czy też powinni zostać przesłuchani inni kandydaci. Akta były identyczne, z tym wyjątkiem, że w połowie przypadków poinformowano, że rozważana osoba jest kobietą, a w połowie, że mężczyzną. Spośród 24 przypadków „mężczyzn”, awans zaproponowano w 21 przypadkach, spośród 24 przypadków „żeńskich” do awansu zarekomendowano 14 (Rosen and Jerdee 1974). Czy to przekonujący dowód na to, że menedżerowie dyskryminowali aplikujące kobiety? Czy też różnicę w liczbach zalecanych do awansu można z wystarczającą pewnością przypisać przypadkowi?

Zadanie 17.3 Francuscy socjologowie badają, co ma potencjalny wpływ na dawanie napiwków i ich wysokość (zob. Guéguen and Jacob 2005; Guéguen 2012). Przy tej okazji często okazuje się, że zmienną różnicującą częstość dawania napiwków może być płeć klienta (a także kelnera). W badaniu Guéguen and Jacob (2005) barmanka otrzymała napiwek od 21 z 97 mężczyzn oraz od 4 z 46 obsługiwanych kobiet. Czy różnica jest istotna statystycznie (α = 0,05)?

W badaniu Guéguen (2012) zbadano zachowanie aż 503 klientów płci męskiej (217 napiwków) i 344 klientek (104 napiwki) pewnej restauracji. Czy w tym przypadku różnica jest istotna statystycznie?

Czy w tych dwóch badaniach wielkość efektu jest podobna?

Zadanie 17.4 W badaniu Guéguen (2012) zbadano współzależność napiwków i koloru włosów (a ściślej rzecz biorąc – peruki) kelnerki w restauracji. Gdy kelnerka miała perukę w kolorze blond, 73 spośród 130 mężczyzn dało napiwek, zaś w przypadku innych kolorów 217 spośród 503 mężczyzn zdecydowało się na napiwek. U kobiet ta relacja wyglądała następująco: kelnerka blondynka – 25/90, kelnerka nie-blondynka – 79/254. Czy współzależność była istotna statystycznie w przypadku obu płci klientów?

Zadanie 17.5 Koń nazywany „Mądrym Hansem” potrafił podobno znaleźć właściwą odpowiedź na zadanie matematyczne i wystukać odpowiednią liczbę kopytem. W ramach badania przeprowadzonego w 1911 roku okazało się, że Hans potrafił udzielić prawidłowej odpowiedzi w 89% (50/56), gdy widział zadającego pytanie, a tylko w 6% (2/35), gdy nie widział (Pfungst 2012). Pytający znał odpowiedzi na zadane pytania. Takie wyniki pokazały, że Hans był mądry nie dlatego, że znał matematykę, ale dlatego, że umiał odczytać mowę ciała zadającego pytanie. Sprawdź istotność statystyczną przeprowadzonego badania.

Literatura

Aczel, A. D., and J. Sounderpandian. 2018. Statystyka w Zarządzaniu. PWN. https://ksiegarnia.pwn.pl/Statystyka-w-zarzadzaniu,731934758,p.html.

Guéguen, Nicolas. 2012. “Hair Color and Wages: Waitresses with Blond Hair Have More Fun.” The Journal of Socio-Economics 41 (4): 370–72. https://doi.org/10.1016/j.socec.2012.04.012.

Guéguen, Nicolas, and Céline Jacob. 2005. “The Effect of Touch on Tipping: An Evaluation in a French Bar.” International Journal of Hospitality Management 24 (2): 295–99. https://doi.org/10.1016/j.ijhm.2004.06.004.

Pfungst, Oskar. 2012. Clever Hans; (the Horse of Mr. Von Osten.) a Contribution to Experimental Animal and Human Psychology.

Rosen, Benson, and Thomas H. Jerdee. 1974. “Influence of Sex Role Stereotypes on Personnel Decisions.” Journal of Applied Psychology 59: 9–14. https://doi.org/10.1037/h0035834.

Są testy również dla innych wartości \(D_0\), jednak nie będziemy się nimi tutaj zajmować.↩︎