2.2 Normalfordeling
2.2.1 Fordeling af forskel i to estimerede middelværdier
Vi antager i det følgende, at vi har observationer af den samme variabel fra to forskellige grupper, for nemheds skyld kaldet “gruppe 1” og “gruppe 2” (det er komplet ligegyldigt, hvilken af de to grupper, der betegnes “gruppe 1”, og hvilken der betegnes “gruppe 2”).
Vi antager endvidere, at variablens værdier i hver gruppe kan beskrives ved en normalfordeling, samt at værdierne i de to grupper er indbyrdes uafhængige (dvs. ikke påvirker hinanden).
Med det som udgangspunkt kan vi estimere de ukendte parametre i normalfordelingen i hver gruppe på samme måde, som vi hidtil har gjort.
Vi er interesseret i at estimere middelværdien af variablen indenfor hver gruppe og herefter sammenligne de to middelværdier for at se, om der ser ud til at være en forskel mellem de to grupper.
Resultat: Fordeling af \(\hat\mu_1-\hat\mu_2\)
Antag at…
- \(X_1,...,X_{n_1}\) er indbyrdes uafhængige observationer, der er normalfordelt \(N(\mu_1,\sigma_1)\) (“gruppe 1”)
- \(Y_1,...,Y_{n_2}\) er indbyrdes uafhængige observationer, der er normalfordelt \(N(\mu_2,\sigma_2)\) (“gruppe 2”)
- observationerne \(X_1,..., X_{n_1}\) og \(Y_1,...,Y_{n_2}\) er indbyrdes uafhængige
Vi estimerer de ukendte parametre i de to normalfordelingerne ved \[\begin{align*} \hat\mu_1&=\frac{1}{n_1}\sum_{i=1}^{n_1}X_i&\hat\sigma_1=\sqrt{\frac{1}{n_1-1}\sum_{i=1}^{n_1}\left(X_i-\hat\mu_1\right)^2}\\ \hat\mu_2&=\frac{1}{n_2}\sum_{i=1}^{n_2}Y_i&\hat\sigma_2=\sqrt{\frac{1}{n_2-1}\sum_{i=1}^{n_2}\left(Y_i-\hat\mu_2\right)^2} \end{align*}\]
Estimatet af forskellen \(\mu_1-\mu_2\) mellem middelværdien i de to grupper bliver selv normalfordelt \[\hat\mu_1-\hat\mu_2\sim N\left(\mu_1-\mu_2,\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_1^2}{n_2}}\right)\]
Forklaring af resultatet:
- Vi antager, at vi har observationer af én variabel i to forskellige grupper
- Datamaterialet består af \(n_1\) observationer fra gruppe 1, der alle er normalfordelt \(N(\mu_1,\sigma_1)\) og \(n_2\) observationer fra gruppe 2, der alle er normalfordelt \(N(\mu_2,\sigma_2)\)
- Resultatet fortæller, at estimatet \(\hat\mu_1-\hat\mu_2\) af forskellen mellem middel- værdierne i de to grupper i sig selv kan beskrives ved en normalfordeling
- Denne normalfordeling har parametre \(\mu_1-\mu_2\) (middelværdi) og \(\sqrt{\sigma_1^2/n_1+\sigma_2^2/n_2}\) (standardafvigelse)
- Fordi vi ikke kender standardafvigelserne \(\sigma_1\) og \(\sigma_2\) i de to grupper, er vi nødt til at estimere dem
- Fordi vi estimerer standardafvigelserne \(\sigma_1\) og \(\sigma_2\) ændres fordelingen, der beskriver \(\hat\mu_1-\hat\mu_2\), fra en normalfordeling til en \(t\)-fordeling.
For fuldstændighedens skyld anfører vi nedenfor fordelingen af (det transformerede) estimat \(\hat\mu_1-\hat\mu_2\), der kan beskrives ved en \(t\)-fordeling.
Resultat: Fordeling af \(\hat\mu_1-\hat\mu_2\) (transformeret)
Under samme antager som i resultatet ovenfor er størrelsen \[\frac{\hat\mu_1-\hat\mu_2-(\mu_1-\mu_2)}{\sqrt{\frac{\hat\sigma_1^2}{n_1}+\frac{\hat\sigma_2^2}{n_2}}}\] beskrevet ved en \(t\)-fordeling med \(f\) frihedsgrader, hvor \[f=\frac{\left(\frac{\hat\sigma_1^2}{n_1}+\frac{\hat\sigma_2^2}{n_2}\right)^2}{\frac{1}{n_1-1}\left(\frac{\hat\sigma_1^2}{n_1}\right)^2+\frac{1}{n_2-1}\left(\frac{\hat\sigma_2^2}{n_2}\right)^2}\]