Kapitel 4 T-test for skæve stikprøver
I de tilfælde, hvor det ikke er muligt at overholde alle de pågældende antagelser for en t-test, som beskrevet i afsnit 2.3.2, kan det ikke med sikkerhed antages, at resultaterne er retvisende. I dette afsnit vil det vises, hvad der kan ske, hvis stikprøverne ikke er normalfordelte, når der arbejdes med en uparret t-test.
I dette eksempel benyttes betafordelingen, se figur 3.13, og gammafordelingen, se figur 3.14, til at udføre en uparret t-test.
Nulhypotesen er \(H_0: \mu_1 - \mu_2 = 0\) og den alternative hypotese er \(H_1 : \mu_1 - \mu_2 \neq 0\). Denne nulhypotese undersøges ved hjælp af en uparret t-test. Der udtages en stikprøve fra hver af de viste fordelinger, som der udføres to-sidet uparret t-test på, ved hjælp af den indbyggede funktion t.test
.
Stik1 <- rbeta(n = 100, shape1 = 8, shape2 = 2)
Stik2 <- rgamma(n = 100, shape = 1, rate = 2)
t_test <- t.test(Stik1, Stik2, alternative = "two.sided",
mu = 0, conf.level = 0.95)
Udfra t-testen fås et konfidensinterval på [0.262, 0.4413
]. Forskellen mellem populationernes middelværdier vil ligge i dette interval med \(95\%\) sikkerhed, ifølge t-testen. Dækningsgraden af et konfidensinterval kan undersøges ved at trække nye stikprøver fra populationerne, i alt \(10,000\) gange, og hver gang oprette et nyt konfidensinterval. Den sande dækningsgrad er andelen af gangene, forskellen mellem populationernes middelværdier er indeholdt i konfidensintervallerne.
# Middelværdien for en betafordeling er alfa/(alfa+beta)
middel_stik1 <- 8/(8+2)
# Middelværdien for en gammafordeling er shape*(shape/rate)
middel_stik2 <- 1*(1/2)
sand_dif <- abs(middel_stik1 - middel_stik2)
daekningsgrad <- replicate(n = 10000, {
x1 <- rbeta(n = 20, shape1 = 8, shape2 = 2)
x2 <- rgamma(n = 20, shape = 1, rate = 2)
t_test <- t.test(x1, x2, alternative = "two.sided",
conf.level = 0.95)
konf_interval <- t_test$conf.int
# Tjekker, om den sande difference ligger i konfidensintervallet
konf_interval[1L] <= sand_dif & konf_interval[2L] >= sand_dif
})
tf <- table(daekningsgrad)
tf
## daekningsgrad
## FALSE TRUE
## 794 9206
Det fremgår fra tabellen, at dækningsgraden af konfidensintervallerne er 92.06
\(\%\). Dette stemmer ikke overens med antagelsen om, at konfidensintervallet har en dækningsgrad på \(95\%\). Det kan derfor ikke antages, at en t-test på en ikke-normalfordelt stikprøve altid giver retvisende resultater.