1.3 Binomialfordeling
1.3.1 Fordeling, “p-hat”
Binomialfordelingen består af to parametre n og p, hvor n angiver antalsparameteren, som vi sædvanligvis antager er kendt. Der er derfor kun én ukendt parameter i fordelingen, nemlig p. Når vi skal estimere (dvs. gætte på) en værdi af den ukendte parameter p i en binomialfordeling, er det ikke på forhånd klart, hvordan vi gør det bedst muligt. Der er imidlertid tungtvejende teoretiske argumenter for, at den bedste måde at estimere en værdi for p er som angivet i nedenstående resultat.
Resultat: Fordeling af \(\hat p\) (“p-hat”)
Lad \(X_1,...,X_n\) være indbyrdes uafhængige observationer af en variabel med to mulige udfald: 1 og 0, og lad p betegne sandsynligheden for at få udfaldet 1. Vi estimerer binomialfordelingens parameter p ved \[\hat p=\frac{1}{n}\sum_{i=1}^nX_i\] Estimatet af \(p\) bliver omtrent normalfordelt \[\hat p\overset{a}{\sim} N\left(p,\sqrt{\frac{p(1-p)}{n}}\right)\] når både \(n\hat p\)>15 og \(n(1-\hat p)\)>15.
Bemærk:
- Symbolet \(p\) betegner en ukendt teoretisk værdi, som vi er interesseret i at estimere. Symbolet \(\hat p\) betegner vores gæt på den ukendte størrelse \(p\).
- Notationen \(\overset{a}{\sim}\) angiver, at \(\hat p\) sådan cirka (= “asymptotisk”) er beskrevet ved den angivne normalfordeling, når blot betingelserne \(n\hat p>15\) og \(n(1-\hat p)>15\) er opfyldt.
Forklaring af resultatet:
- Vi antager, at vi har et datamateriale med \(n\) observationer af en variabel med to mulige udfald: 1 og 0
- Den første observation i datamaterialet betegner vi med \(X_1\), den næste med \(X_2\) osv.
- Vi tænker på det, som om vi endnu ikke kender talværdierne af de enkelte observationer. Derfor skriver vi observationerne som store bogstaver (dvs. \(X_1\), \(X_2\) osv.). Det vi antager er, at alle observationer har den samme sandsynlighed \(p\) for at give udfaldet 1
- Resultatet fortæller, at vores estimat \(\hat p\) af den ukendte sandsynlighed \(p\) sådan cirka kan beskrives ved en normalfordeling (dvs. at hvis vi udregner en masse forskellige estimater, så vil estimaterne sådan cirka kunne beskrives ved en normalfordeling)
- Denne normalfordeling har parametre \(p\) (middelværdi) og \(\sqrt{\frac{p(1-p)}{n}}\) (standardafvigelse)
- Ideen er at udnytte resultatet, til at sige noget om størrelsen af usikkerheden på vores estimat \(\hat p\)
Eksempel: Skat
Fordelingen af de indkomne svar på spørgsmålet “Er topskatten for høj?” kan med en vis rimelighed beskrives ved en binomialfordeling \(Bin(n,p)\).
Der er registreret svar fra \(n\) = 975 personer, og vi lader her 1 repræsentere svarmuligheden “Ja” og 0 repræsentere svarmuligheden “Nej”.
Hvis vi, for eksemplets skyld, vælger at estimere sandsynligheden \(p\) ud fra \(n\) = 10 respondenters svar, så får vi en lang række forskellige estimater afhængig af præcis hvilke 10 respondenters svar, vi vælger.
Tegner vi et histogram baseret på alle de forskellige estimater, får vi tegnet fordelingen af estimatet af \(p\) baseret på 10 observationer:
Det fremgår af histogrammet, at fordelingen af et estimat baseret på 10 observationer med en vis rimelighed kan beskrives ved en normalfordeling (pga. klokkeformen).
Når vi nu kan se, at vi kan bruge en normalfordeling til at beskrive fordelingen af \(\hat p\), så kan vi bruge denne viden til også at sige noget om usikkerheden på \(\hat p\).