Kapitel 7 Inferens i en population

För att kunna dra slutsatser om den målpopulation som vi önskar att undersöka utifrån den mindre grupp enheter som vi samlat in information om, måste vi utföra någon form av inferens. Detta kapitel kommer innehålla många olika metoder och är främst strukturerad kring hur många populationer vi vill utföra inferensen på och sedan med avseende på vilken parameter.

7.1 Inferens i en population

När vi endast är intresserade av att undersöka en population (eller grupp).

7.1.1 Medelvärden, \(\mu\)

För inferens över medelvärden har vi följande krav som måste uppfyllas:

  • Oberoende stickprov
  • Kan uppfyllas genom att ett Obundet Slumpmässigt Urval (OSU) har skett
  • Stickprovsmedelvärdet, \(\bar{X}\), måste kunna anses vara normalfördelad
  • Kan uppfyllas med hjälp av Centrala Gränsvärdessatsen (CGS) om stickprovet är nog stort, där tumregeln är \(n > 30\). CGS säger att ett medelvärde (eller summa) av lika fördelade variabler kommer vara approximativt normalfördelad i detta fall.
  • Om stickprovet är litet måste istället mätvariabeln, \(X\), som är av intresse anses vara normalfördelad. Detta innebär att den transformation som sker till medelvärdet också kommer vara normalfördelad.

7.1.1.1 Hypotesprövningar

Vid en hypotesprövning av ett medelvärde utgår vi från den femstegsprocess som diskuterats under föreläsningarna. I följande exempel kommer vi titta på variabeln Sepal.Length från ??.

När vi formulerar våra hypoteser gäller det att transformera vad det är vi vill undersöka till matematiska uttryck. Vi behöver också se till att vi använder rätt matematisk symbol i mothypotesen för att testet ska genomföras på rätt sätt. Till skillnad från i SPSS kan vi i R styra vilken sorts mothypotes som vi vill undersöka.

Vi använder oss utav funktionen t.test() som har följande argument som är av intresse:

  • x - anger vilken variabel som vi vill undersöka,
  • alternative - anger vilken sorts mothypotes som ska testas där värdena "two.sided", "less" eller "greater",
  • mu - anger det värde som vi vill testa, motsvarande \(\mu_0\) i föreläsningarna,
  • conf.level - anger konfidensgraden för testet, angivet i decimalform.

Exempelvis skulle vi vara intresserade av att undersöka ifall genomsnittslängden av blommornas foderblad (Sepal.Length från iris-data) överstiger 5 cm. Vi ställer då upp hypoteser enligt:

\[\begin{align} H_0: \mu \le 5 \\ H_a: \mu > 5 \end{align}\]

Med en signifikansnivå på 5 procent blir funktionen som vi skriver i R som följer:

t.test(x = iris$Sepal.Length, 
       alternative = "greater",
       mu = 5,
       conf.level = 0.95)
## 
##  One Sample t-test
## 
## data:  iris$Sepal.Length
## t = 12.473, df = 149, p-value < 2.2e-16
## alternative hypothesis: true mean is greater than 5
## 95 percent confidence interval:
##  5.731427      Inf
## sample estimates:
## mean of x 
##  5.843333

I utskriften ser vi väldigt mycket information och, här ser vi en nackdel med R, att utskrifterna inte är tydligt strukturerade likt andra programvaror.

Följande information kan utläsas ur de olika raderna:

  • På första raden får vi information om vilken variabel som testet är gjort på.
  • På andra raden får vi information från testet där t är den beräknade testvariabeln, df är frihetsgraderna i t-fördelningen, och p-value är p-värdet av testet.
  • På tredje raden får vi information om vilken sorts mothypotes som har undersökts.
  • På fjärde och femte raden fås ett beräknat konfidensintervall som skulle kunna användas för att besvara mothypotesen. I detta fall då vi har en mothypotes som är angiven som \(>\), beräknas ett nedåt begränsat intervall.
  • De sista raderna i utskriften anger beskrivande mått från stickprovet.

För att kunna ta ett beslut från detta test kan vi direkt jämföra det beräknade p-värdet från utskriften med den angivna signifikansnivån. Om p-värdet är lägre kan vi förkasta \(H_0\), annars kan vi inte förkasta den.

7.1.1.2 Konfidensintervall

För intervallskattningar för ett medelvärde kan samma funktion som för hypotesprövningar, t.test(), användas där argumentet alternative anger vilken sorts intervall som beräknas. Notera att vi för enkelsidiga intervall måste ange den mothypotes som stämmer överens med begränsningen.

Ett tips för att bedöma detta är att titta på formuleringen som används i \(H_a\) och byta ut värdet som testas med den gräns som vi beräknar. Exempelvis skulle mothypotesen, “mindre än 5” (\(H_a: \mu < 5\)), resultera i ett uppåt begränsat intervall enligt:

\[ \mu < \bar{x} + t_{\alpha(1); n-1} \cdot \frac{s}{\sqrt{n}} \] som med R-kod beräknas med:

t.test(x = iris$Sepal.Length, 
       alternative = "less",
       conf.level = 0.95)
## 
##  One Sample t-test
## 
## data:  iris$Sepal.Length
## t = 86.425, df = 149, p-value = 1
## alternative hypothesis: true mean is less than 0
## 95 percent confidence interval:
##     -Inf 5.95524
## sample estimates:
## mean of x 
##  5.843333

I utskriften är vi endast intresserade av det beräknade konfidensintervallet vilket innebär att vi inte behöver ange något värde på mu eftersom det endast påverkar beräkningen av \(t_{test}\).