1.2.3 Konfidensinterval (praksis), “my-hat”

1.2.3.1 Beregning

Når vi skal estimere en ukendt middelværdi \(\mu\) i en normalfordeling \(N(\mu,\sigma)\), kan vi bruge det nedenstående resultat til at sige noget om, hvor præcist vores estimat \(\hat\mu\) af den ukendte middelværdi \(\mu\) er. Resultatet opsummerer overvejelserne i afsnit 1.2.2.

Det nedenstående interval kaldes et \(1-\alpha\) konfidensinterval for \(\mu\). Ofte anvendes \(\alpha=5\%\) ved beregning af intervallet (som dermed bliver et 95% (\(=1-\alpha\)) konfidensinterval).

Resultat: Konfidensinterval for \(\mu\)

Hvis \(X_1,...,X_n\) er indbyrdes uafhængige observationer af en normalfordelt variabel \(N(\mu,\sigma)\), så vil den ukendte middelværdi \(\mu\) ligge i intervallet \[\Bigl[\hat\mu+t_{\alpha/2}(n-1)\cdot\frac{\hat\sigma}{\sqrt{n}};\quad\hat\mu-t_{\alpha/2}(n-1)\cdot\frac{\hat\sigma}{\sqrt{n}}\Bigr]\] med sandsynlighed \(1-\alpha\), hvor \(t_{\alpha/2}(n-1)\) er \(\alpha/2\)-fraktilen i \(t(n-1)\)-fordelingen.

Bemærk: For ethvert \(0<\alpha<1\) er \(t_{\alpha/2}(n-1)<0\) og dermed \(-t_{\alpha/2}(n-1)>0\), således at intervallet ovenfor altid er veldefineret.

Idéen bag at beregne et konfidensinterval for den ukendte middelværdi \(\mu\) er, at…

  • uanset hvordan vi beregner et estimat af (= gæt på) værdien af den ukendte størrelse \(\mu\), så vil estimatet variere lidt fra gang til gang alene på grund af tilfældig variation. Derfor giver det ikke mening kun at gætte på én bestemt værdi af \(\mu\) (et såkaldt punktestimat (“point estimate”)).
  • et estimat af den ukendte værdi \(\mu\) ikke er meget værd, hvis ikke vi ved, hvor præcist det er.
  • vi beregner derfor et helt interval (= konfidensintervallet) af plausible værdier for \(\mu\) (et såkaldt intervalestimat (“interval estimate”)).
  • værdierne i konfidensintervallet er de værdier, vi vil anse som fornuftige gæt på den sande værdi af \(\mu\) på baggrund af vores observationer i datamaterialet

Det beregnede interval kaldes et konfidensinterval, fordi det udtrykker, hvor sikre (“confident”) vi er på, at intervallet indeholder den ukendte størrelse \(\mu\).

Værdien \(1-\alpha\) kaldes intervallets konfidensniveau (“confidence level”) og udtrykker med hvor stor sandsynlighed, intervallet indeholder den ukendte størrelse \(\mu\).

Eksempel: Ølsalg

Vi ser igen på prisen på Grøn Tuborg i Føtex og antager som hidtil, at prisen kan beskrives ved en normalfordeling \(N(\mu,\sigma)\).

Hvis vi bruger de første \(n=4\) ugers prisobservationer som grundlag for at beregne et estimat af \(\hat\mu\), finder vi at \(\hat\mu=3,\!62\) og \(\hat\sigma=0,\!36\).

Nøgletal for prisen på 1 stk. Tuborg i Føtex (4 ugers data)

Figur 1.7: Nøgletal for prisen på 1 stk. Tuborg i Føtex (4 ugers data)

Det er naturligvis klart, at vores gæt på en forventet pris på Grøn Tuborg på \(\hat\mu=3,\!62\) kr. er behæftet med en vis usikkerhed, fordi det kun er baseret på 4 ugers observationer.

Vi kan derfor også beregne et konfidensinterval hørende til estimatet \(\hat\mu=3,\!62\). Hvis vi eksempelvis sætter \(\alpha=20\%\), finder vi at et 80%-konfidensinterval for \(\mu\) er givet ved \[\begin{align*} &\mathrel{\phantom{=}}\Bigl[\hat\mu+{t_{\alpha/2}}(n-1)\cdot\frac{\hat\sigma}{\sqrt{n}};\quad\hat\mu-t_{\alpha/2}(n-1)\cdot\frac{\hat\sigma}{\sqrt{n}}\Bigr]\\ &=\bigl[3,\!62-1,\!64\cdot 0,\!36/\sqrt{4};\quad 3,\!62+1,\!64\cdot 0,\!36/\sqrt{4}\bigr] = [3,\!33;\quad 3,\!92] \end{align*}\]

99%-konfidensinterval for prisen på 1 stk. Tuborg i Føtex (4 ugers data)

Figur 1.8: 99%-konfidensinterval for prisen på 1 stk. Tuborg i Føtex (4 ugers data)

Med 80% sandsynlighed vil den sande (men for os ukendte) forventede pris på Grøn Tuborg dermed ligge mellem 3,33 kr. og 3,92 kr. Intervallets konfidensniveau på 80% betyder, at hvis vi gentagne gange beregner et estimat af \(\mu\) baseret på 4 ugers observationer, så vil estimatet af \(\mu\) i det lange løb ligge i intervallet fra 3,33 kr. til 3,92 kr. 80% af tiden (dvs. 4 ud af 5 gange).

Tegner vi alle 4 ugers prisestimaterne op over tid og sammenligner med det fundne 80%-konfidensinterval (de røde linjer i figuren nedenfor) kan vi netop se, at intervallet indeholder de fleste – men ikke alle – af estimaterne.

Estimater af prisen på 1 stk. Tuborg i Føtex

Figur 1.9: Estimater af prisen på 1 stk. Tuborg i Føtex

I princippet burde intervallet indeholde ca. 80% af estimaterne, men vi kan se, at i praksis indeholder det faktisk lidt mere end 80% (helt præcist: 35 ud af 39 estimater).

Udover tilfældig variation kan det skyldes, at normalfordelingen – som vi tidligere har set – ikke giver en 100% korrekt beskrivelse af prisen på Grøn Tuborg, og vores metode derfor ikke passer perfekt til data.

Eksemplet med kun at anvende 4 ugers observationer til estimation af \(\mu\) er udelukkende medtaget for at vise, hvordan estimaterne ændrer sig i takt med, at der vælges data for nye 4 ugers perioder.

I praksis er der naturligvis ikke nogen grund til ikke at anvende hele datasættets 157 observationer til beregning af \(\hat\mu\). I det tilfælde finder vi at \(\hat\mu=3,\!44\) og \(\hat\sigma=0,\!23\), og dermed at eksempelvis et 95%-konfidensinterval for \(\mu\) er givet som \[\begin{align*} &\mathrel{\phantom{=}}\Bigl[\hat\mu+{t_{\alpha/2}}(n-1)\cdot\frac{\hat\sigma}{\sqrt{n}};\quad\hat\mu-t_{\alpha/2}(n-1)\cdot\frac{\hat\sigma}{\sqrt{n}}\Bigr]\\ &=\bigl[3,\!44-1,\!98\cdot 0,\!23/\sqrt{157};\quad 3,\!44+1,\!98\cdot 0,\!23/\sqrt{157}\bigr] = [3,\!40;\quad 3,\!47] \end{align*}\]

Nøgletal for prisen på 1 stk. Tuborg i Føtex

Figur 1.10: Nøgletal for prisen på 1 stk. Tuborg i Føtex

Tilsvarende er eksempelvis et 99%-konfidensinterval givet som \[\begin{align*} &\mathrel{\phantom{=}}\Bigl[\hat\mu+{t_{\alpha/2}}(n-1)\cdot\frac{\hat\sigma}{\sqrt{n}};\quad\hat\mu-t_{\alpha/2}(n-1)\cdot\frac{\hat\sigma}{\sqrt{n}}\Bigr]\\ &=\bigl[3,\!44-2,\!61\cdot 0,\!23/\sqrt{157};\quad 3,\!44+2,\!61\cdot 0,\!23/\sqrt{157}\bigr] = [3,\!39;\quad 3,\!49] \end{align*}\]
99%-konfindensinterval for prisen på 1 stk. Tuborg i Føtex

Figur 1.11: 99%-konfindensinterval for prisen på 1 stk. Tuborg i Føtex