Kapitel 3 Grundläggande statistiska begrepp

Nu när vi fått en introduktion till R behöver vi också titta närmare på några av de statistiska begrepp som redan använts och kommer användas frekvent i detta underlag.

3.1 Population, stickprov och datainsamling

I ett undersökningsproblem finns det en grupp utav enheter som vi har ett intresse av att dra slutsatser om. Det skulle kunna vara “fiskar i Sverige”, “barn mellan 5 till 15 år”, “studenter vid LiU” eller “köp vid IKEA”. Denna grupp av enheter kallar vi för en population. Att samla in information från varje enhet i populationen kommer i många fall vara omöjligt, om inte väldigt dyrt, vilket innebär att vi i praktiken faktiskt inte har möjlighet att dra slutsatser baserat på all information som finns i populationen.

Istället måste vi förlita oss på en mindre mängd enheter som är en del utav populationen. Denna mindre mängd enheter kan väljas ut på många olika sätt men vi kallar fortfarande mängden för ett stickprov eller urval. De enheter som specifikt väljs ut ur populationen kommer påverka vilken information som vi samlar in men eftersom vi vill dra slutsatser om populationen är det viktigt att stickprovet speglar populationen, att det är representativt. Att dra slutsatser om storleken på alla fiskar i Sverige baserat på 200 fiskar som undersöktes i Vättern kommer förmodligen inte stämma överens med verkligheten. Det finns en bias i detta urval som ger en skev bild av sanningen.

Det vanligaste sättet att genomföra ett urval är genom ett Obundet Slumpmässigt Urval (OSU). Denna metod kräver att det finns en förteckning över enheterna i populationen och att varje enhet har samma sannolikhet att bli utvald. Eftersom sannolikheten att bli utvald är samma för vardera enhet kommer denna metod medföra att enheterna är oberoende. Detta är en viktig egenskap som vi kommer återkomma till senare.

Kravet på en förteckning av alla enheter i populationen går inte alltid att uppfylla i en undersökning. Att ha en förteckning över alla fiskar i Sverige är förmodligen inget lätt uppdrag och i det tidigare exemplet med fiskarna, var sannolikheten att en fisk i Vättern skulle bli utvald i stickprovet större än 0 medan sannolikheten för en fisk i ett annat vattendrag var 0. Detta är alltså inget OSU i båda bemärkelserna. Istället kan vi använda mer avancerade urvalsmetoder som tar hänsyn till problematiken som uppstår när en förteckning av populationen inte går att utgå ifrån. Mer om detta senare.

3.2 Variabler

När vi valt ut vilka enheter som vi ska samla information från behöver vi också sammanställa dessa mätningar på ett strukturerat sätt. Vi anser att mätningar av samma sak, till exempel arten på fisken, dess vikt och längd, är olika variabler. Dessa variabler varierar beroende på vilken enhet som observeras och vi kallar då varje enhets samling av mätvärden för en observation. Variabler kan vara av olika typ och följa olika skalor. Dessa egenskaper hjälper till att styra förväntningarna om vad en variabel kan innehålla för information och hur vi kan läsa av den.1

3.2.1 Variabeltyp

Vi delar upp variabeltyper i två huvudsakliga grupper kvalitativa och kvantitativa variabler. Variabeltypen styr vad vi kan använda för metoder för att sammanfatta, visualisera och analysera informationen.

  • Kvalitativa variabler kan beskrivas som kategorier, till exempel arten av en fisk. Det är något som vi mäter i text. Detta motsvarar ett character-objekt i R.
  • Kvantitativa variabler mäts med siffror, till exempel längden eller vikten av en fisk. Detta motsvarar ett numeric-objekt i R.

Om vi samlar in data själv på egen hand, kan vi styra vilken typ av variabel som vi samlar in som mätning av vissa egenskaper. Storleken på en fisk skulle kunna mätas som en kvalitativ variabel, en liten, medelstor eller stor fisk, eller en kvantitativ variabel, vikten angiven i gram, beroende på vad vi vill ha för typ av information. Det är praxis att samla in data kvantitativt om möjligheten finns eftersom vi kan konvertera numeriska mätningar till kategorier i efterhand men vi har ingen möjlighet att konvertera kvalitativa variabler till kvantitativa. Vi kan säga att en fisk som väger 65 g (kvantitativ) är en liten fisk (kvalitativ), men vi kan inte säga hur mycket en liten fisk (kvalitativ) egentligen väger i gram (kvantitativ).

Om vi inte samlar in data själv är ett första steg i analysprocessen att identifiera vilken typ utav variabel som datamaterialet innehåller.

3.2.2 Variabelskala

Olika variabler kan följa olika skalor som ger oss information om hur vi relaterar olika värden med varandra. Även denna egenskap styr hur vi kan hantera variablerna i senare delar av undersökningen.

Kvalitativa variabler kan delas in i två olika skalor nominalskala och ordinalskala. Båda dessa skalor omfattar kategorier (som ibland kan anges med siffror) men det finns en viktig skillnad mellan dem.

Nominalskala betyder att kategorierna inte går att rangordna på något sätt, att vi inte kan säga att en kategori är större, bättre, eller mer än en annan kategori. Variabeln fiskart följer en sådan skala, vi mäter vilken art en fisk tillhör med en kategor (artens namn), och vi kan inte rangordna art på något sätt.2

Ordinalskala däremot innehåller kategorier som vi kan rangordna. Vi kan säga att i den kvalitativa variabeln storlek är “liten” mindre än “medel” men vi kan inte säga exakt hur mycket mindre. Ordinalskala kräver inte att skillnaden mellan intilliggande kategorier är lika stora utan bara att det råder en skillnad som kan rangordnas.

Kvantitativa variabler följer huvudsakligen två andra variabelskalor, men det kan förekomma fall där en kvantitativ variabel följer en ordinalskala. Detta kan ske ifall mätningen görs i intervall, 0-4, 5-9, 10-19, osv. och medför att vi kan säga att ett intervall är större än det andra men vi kan inte beräkna exakta skillnader då intervallen är olika stora.

Det vanligaste fallet är däremot att en kvantitativ variabel följer en intervallskala eller kvotskala. Båda dessa skalor hanterar numeriska värden där vi kan beräkna exakta differenser mellan två olika mätningar men vi kan däremot endast beräkna kvoter i kvotskala.

Ett exempel på intervallskala är temperatur mätt i \(^\circ\)C. Vi kan säga att 20\(^\circ\)C är 10 grader varmare än 10\(^\circ\)C men vi kan inte säga att det är dubbelt så varmt. Detta beror på att Celsius-skalan inte har någon tydlig nollpunkt. 0\(^\circ\)C är egentligen inte 0 i en fysisk betydelse och relationer mellan övriga värden blir då godtyckliga.

Variabler som följer en kvotskala ska ha en absolut nollpunkt, ett värde som faktiskt betyder 0. Längd och vikt är exempel på variabler som följer denna skala då det finns en tydlig nollpunkt som verkligen betyder 0. Vi kan säga att 200g är dubbelt så tungt som 100g.

3.3 Exempeldata

Återkommande i detta underlag kommer beräkningar i R visas som tillämpar den statistiska teorin. För att visa dessa exempel behöver vi ett datamaterial att undersöka.

Bild skapad av `@allison_horst`

Figur 3.1: Bild skapad av @allison_horst

Ett forskarteam vid Antarktis har under 2007-2009 samlat in information om 333 pingviner vid tre öar runtomkring Palmer Research Station. Datamaterialet finns inuti paketet palmerpenguins som kan installeras och laddas med hjälp av följande kod. Datamaterialet laddas in från paketet med hjälp av data() och kommer heta penguins som standardnamn.

install.packages("palmerpenguins")

require(palmerpenguins)

data(penguins)

Datamaterialet behöver rensas från saknade värden för dessa kommer ställa till problem. I denna kod används filter() från paketet dplyr där datamaterialet penguins rensas från observationer där sex är NA, Rs sätt att ange saknade värden (not available). Mer om databearbetning kommer visas i kapitel om Tidyverse när underlaget är mer utformat.

install.packages("dplyr")
require(dplyr)

## Filtrerar bort observationer som saknar information
penguins <- filter(penguins, !is.na(sex))

Det laddas in som en data.frame på rådataformat där varje rad är en enskild observation (pingvin) och varje kolumn är en variabel som det samlats information om från respektive pingvin. En överblick av materialet ges i följande tabell.3

Tabell 3.1: Urval av observationer från datamaterialet.
species island bill_length_mm bill_depth_mm flipper_length_mm body_mass_g sex year
Gentoo Biscoe 51.5 16.3 230 5500 male 2009
Adelie Torgersen 34.6 21.1 198 4400 male 2007
Adelie Dream 42.3 21.2 191 4150 male 2007
Gentoo Biscoe 50.0 15.9 224 5350 male 2009
Gentoo Biscoe 45.2 14.8 212 5200 female 2009

Med hjälp av funktionen str() kan vi få information om vad R anser att dessa variabler är för typ.

str(penguins)
## tibble [333 × 8] (S3: tbl_df/tbl/data.frame)
##  $ species          : Factor w/ 3 levels "Adelie","Chinstrap",..: 1 1 1 1 1 1 1 1 1 1 ...
##  $ island           : Factor w/ 3 levels "Biscoe","Dream",..: 3 3 3 3 3 3 3 3 3 3 ...
##  $ bill_length_mm   : num [1:333] 39.1 39.5 40.3 36.7 39.3 38.9 39.2 41.1 38.6 34.6 ...
##  $ bill_depth_mm    : num [1:333] 18.7 17.4 18 19.3 20.6 17.8 19.6 17.6 21.2 21.1 ...
##  $ flipper_length_mm: int [1:333] 181 186 195 193 190 181 195 182 191 198 ...
##  $ body_mass_g      : int [1:333] 3750 3800 3250 3450 3650 3625 4675 3200 3800 4400 ...
##  $ sex              : Factor w/ 2 levels "female","male": 2 1 1 1 2 1 2 1 2 2 ...
##  $ year             : int [1:333] 2007 2007 2007 2007 2007 2007 2007 2007 2007 2007 ...

Denna utskrift innehåller mycket information, men vi får en översikt av alla variabler i objektet med deras namn till vänster, en variabel efter varje $. Till höger efter : får vi hur R har klassificerat varje variabel, vilken typ av objekt som variabeln har sparats som.

species beskriver arten av pingvin som vi kan bedöma en kvalitativ variabel och R har sparat den som en Factor med tre nivåer/kategorier (levels). bill_length_mm är en kvantitativ variabel som beskriver längden av pingvinens näbb vilket R sparat som en numeric. Liknande information kan utläsas från de övriga variablerna.

Bild skapad av `@allison_horst`

Figur 3.2: Bild skapad av @allison_horst

Det som inte visas i ovanstående utskrift är vilken skala variablerna följer vilket också är en viktig bit information att veta om. Eftersom det är någon annan som samlat in informationen måste vi nu fundera på vilken skala som är rimlig för respektive variabel, och det resonemanget kan ske på följande sätt:

  • species: Art av pingvin mäts som en kvalitativ variabel och vi kan inte säga att en art är “bättre” eller “större” än någon annan. Vi kan alltså inte rangordna kategorierna och denna variabel följer då en nominalskala.
  • island: Vilken ö pingvinen har befunnit sig på vid mättidpunkten är också en kvalitativ variabel som inte går att rangordna. Därav följer även denna variabel en nominalskala.
  • bill_length_mm: En kvantitativ variabel som mäter längden på näbben i millimeter (mm). Längd är en typisk variabel som följer en kvotskala eftersom det finns en tydlig nollpunkt i 0 mm.
  • bill_depth_mm: Se ovan om kvotskala.
  • flipper_length_mm: Längden av pingvinens fena. Se ovan om kvotskala.
  • body_mass_g: Vikt av pingvinen mätt i gram. Även vikt har en tydlig nollpunkt och variabeln anses följa en kvotskala.
  • sex: Pingvinens biologiska kön vilket är en kvalitativ variabel som inte går att rangordna, nominalskala.
  • year: Denna variabel är lite svårare att bedöma då den mäter året då pingvinen är undersökt som en numerisk variabel (heltal så R har sparat det som en int), men variabeln i sig kanske inte bedöms vara numerisk i denna kontext. Vi går inte in vidare på detta utan för enkelhetens skull kan vi säga att: eftersom det går att beräkna differenser mellan åren, (det är 1 år mellan 2007 och 2008) men ingen tydlig nollpunkt finns på skalan, så kan vi anse denna variabel följa en intervallskala.4

Med denna beskrivning av variablernas typ och skala kan vi gå vidare med efterföljande metoder.


  1. Se tidigare kapitel om typer av objekt i R.↩︎

  2. Vi kanske kan tycka att vi kan rangordna art utefter dess storlek, sällsynthet, m.m. men då rangordnar vi ju faktiskt efter en annan variabel inte endast art.↩︎

  3. Datamaterialet följer inte camelCase praxis utan använder istället _ för att separera ord. Vi kommer senare i underlaget titta på hur vi kan byta namn på variablerna.↩︎

  4. Alternativet hade varit att anse variabeln följa en ordinalskala då “kategorierna” kan rangordnas.↩︎