1.3.2 Konfidensinterval (teori), “p-hat”
1.3.2.1 Transformation
Vi er interesseret i at finde ud af, hvor præcist vores estimat ˆp af den ukendte sandsynlighed p i binomialfordelingen er (NB: Vi anvender ordene “sandsynlighed” og “andel” synonymt som betegnelse for p).
Vi ved, at estimatet ˆp i sig selv sådan cirka kan beskrives ved hjælp af en normalfordeling ˆpa∼N(p,√p(1−p)n)
Det kan vi alternativt også skrive som ˆp−p√ˆp(1−ˆp)/na∼N(0,1) pga. normalfordelingens transformationsegenskab.
I det nedenstående gennemgår vi kort, hvordan vi kan udnytte det, til at sige noget om præcisionen af estimatet ˆp.
Overvejelserne følger samme fremgangsmåde som konstruktionen af konfidensintervallet for den ukendte middelværi μ i en normalfordeling.
1.3.2.2 Symmetri i N(0,1)-fordelingen
N(0,1)-fordelingen er symmetrisk omkring 0, og det kan vi udnytte.
Ser vi eksempelvis på 2,5%-fraktilen i N(0,1)-fordelingen, som vi ved beregning kan finde til z2,5% = -1,96, så betyder det, at der per definition ligger 2,5% sandsynlighed til venstre for værdien -1,96
og pga. symmetrien også 2,5% sandsynlighed til højre for værdien 1,96
og dermed ligger der 95% sandsynlighed i intervallet [−1,96;1,96]
Det leder til nedenstående generelle overvejelse (tilfældet ovenfor svarer til α=5%).
For 0<α<1 ligger der per definition α/2 sandsynlighed til venstre for α/2-fraktilen zα/2
og pga. symmetrien også α/2 sandsynlighed til højre for værdien −zα/2
og dermed ligger der 1−α sandsynlighed i intervallet [zα/2;−zα/2]
1.3.2.3 Præcision af ˆp
Vi er nu klar til at sige noget om præcisionen af vores estimat ˆp.
Vi ved, at størrelsen ˆp−p√ˆp(1−ˆp)/n sådan cirka er beskrevet ved en N(0,1)-fordeling.
Vi har ovenfor set, hvordan vi i N(0,1)-fordelingen kan konstruere et interval, som indeholder en vis mængde sandsynlighed.
Ved at bruge disse overvejelser på størrelsen ˆp−p√ˆp(1−ˆp)/n kan vi konstruere et interval, som indeholder ˆp−p√ˆp(1−ˆp)n med en vis sandsynlighed.
Ved at flytte lidt rundt på tingene (transformere) kan vi ændre det til et interval, som indeholder ˆp med en vis sandsynlighed.
Vi får hermed konstrueret et interval som med en vis sandsynlighed indeholder vores estimat ˆp. Intervallet siger dermed noget om, hvor meget eller lidt vi skal forvente, at estimatet ˆp vil variere, dvs. det siger noget om, hvor præcist vores estimat ˆp er.
Mere formelt, så laver vi følgende overvejelse. For 0<α<1 ligger ˆp−p√ˆp(1−ˆp)/n} ca. med sandsynlighed 1−α i intervallet [zα/2;−zα/2]
og dermed ligger ˆp−p med sandsynlighed 1−α i intervallet [zα/2√ˆp(1−ˆp)/n;−zα/2√ˆp(1−ˆp)/n]
og dermed ligger ˆp med sandsynlighed 1−α i intervallet $
OPSUMMERING:
- Vi har nu fundet frem til det resultat, vi skal bruge til at sige noget om præcisionen af vores estimat ˆp.
- Udgangspunktet er, at vi gerne vil estimere sandsynligheden p i en binomialfordeling.
- Resultatet siger, at med sandsynlighed 1−α er forskellen mellem den ukendte størrelse p og vores estimat ˆp mindre end −2zα/2√ˆp(1−ˆp)/n (= længden af intervallet [p+zα/2√ˆp(1−ˆp)/n;p−zα/2√ˆp(1−ˆp)/n]).
- Ved at vælge en værdi af α tæt på 0, bliver 1−α tæt på 1, og dermed siger resultatet, at afstanden mellem den ukendte værdi p og vores estimat ˆp med stor sandsynlighed (= 1−α) ligger indenfor en afstand på −2zα/2√ˆp(1−ˆp)/n af hinanden.