2.3 Binomialfordeling

2.3.1 Fordeling af forskel i to estimerede andele

Vi antager i det følgende, at vi har observationer af den samme variabel fra to forskellige grupper, for nemheds skyld kaldet “gruppe 1” og “gruppe 2” (det er komplet ligegyldigt, hvilken gruppe der betegnes “gruppe 1”, og hvilken der betegnes “gruppe 2”).

Vi antager endvidere, at variablens værdier i hver gruppe har to mulige udfald: 1 og 0, samt at værdierne i de to grupper er indbyrdes uafhængige (dvs. ikke påvirker hinanden).

Med det som udgangspunkt kan vi estimere de ukendte andele af 1’ere (= sandsynlighed for udfaldet 1) i hver gruppe på samme måde, som vi hidtil har gjort (for én gruppe i kapitel 1).

Vi er interesseret i at estimere andelen af 1’ere indenfor hver gruppe og herefter sammenligne de to andele for at se, om der ser ud til at være en forskel mellem de to grupper.

Resultat: Fordeling af \(\hat p_1-\hat p_2\)

Antag at…

  • \(X_1,...,X_{n_1}\) er indbyrdes uafhængige observationer med to mulige udfald: 1 og 0 (“gruppe 1”)
  • \(Y_1,...,Y_{n_2}\) er indbyrdes uafhængige observationer med to mulige udfald: 1 og 0 (“gruppe 2”)
  • observationerne \(X_1,..., X_{n_1}\) og \(Y_1,...,Y_{n_2}\) er indbyrdes uafhængige

Vi estimerer sandsynlighederne \(p_1\) (for udfaldet 1 i gruppe 1) og \(p_2\) (for udfaldet 1 i gruppe 2) ved \[\begin{align*} \hat p_1&=\frac{1}{n_1}\sum_{i=1}^{n_1}X_i&\hat p_2&=\frac{1}{n_2}\sum_{i=1}^{n_2}Y_i \end{align*}\]

Estimatet af forskellen \(p_1-p_2\) mellem sandsynlighederne i de to grupper bliver omtrent normalfordelt \[\textstyle\hat p_1-\hat p_2\overset{a}{\sim} N\left(p_1-p_2,\sqrt{\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}}\right)\] når \(n_1\hat p_1>10\) og \(n_1(1-\hat p_1)>10\) og \(n_2\hat p_2>10\) og \(n_2(1-\hat p_2)>10\).

Forklaring af resultatet:

  • Vi antager, at vi har observationer af én variabel i to forskellige grupper
  • Variablen har to mulige udfald: 1 og 0
  • Datamaterialet består af \(n_1\) observationer fra gruppe 1, der alle har sandsynlighed \(p_1\) for udfaldet 1, og \(n_2\) observationer fra gruppe 2, der alle har sandsynlighed \(p_2\) for udfaldet 1
  • Resultatet fortæller, at estimatet \(\hat p_1-\hat p_2\) af forskellen mellem andelen af 1’ere i de to grupper sådan cirka kan beskrives ved en normalfordeling
  • Denne normalfordeling har parametre \(p_1-p_2\) (middelværdi) og \(\sqrt{\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}}\) (standardafvigelse)