Kapitel 2 Introduktion till R

R är ett programmeringsspråk för dataanalys. Men R sträcker sig långt utöver enkla databearbetningar och statistisk modellering. Tack vare ett aktivt community har det utvecklats en stor mängd paket för att lösa många av de olika uppgifter en dataanalytiker kan tänkas ställas inför.

R kan i sin enklaste form användas som en miniräknare med +, -, / eller *.

Exempelvis:

100 + 4

## [1] 104

Eller:

4 * 6 - 2

## [1] 22

Beräkningar, eller alla former av manipuleringar kan sparas i så kallade objekt.

Exempelvis kan vi spara en av ovanstående beräkningar i objektet x med <- som kallas för the assign operator.

x <- 100 + 4
x

## [1] 104

Pilen <- kan även vändas på ->

100 + 4 -> x
x

## [1] 104

Du kan spara flera värden i ett objekt genom att omsluta dem med funktionen c() och separatera med , (c står för combine). Då kallas objektet för en vector.

x <- c(4, 100 + 4, 10 * 2)
x

## [1]   4 104  20

Objekt och vektorer är inte begränsade till numeriska värden utan kan även innehålla text.

text <- c("hej", "jag", "älskar", "r")
text

## [1] "hej"    "jag"    "älskar" "r"

Vi kan dock inte blanda text och numeriska värden. Då kommer R att tolka det som text.

blandat <- c(1, 5, "hej", 6)
blandat

## [1] "1"   "5"   "hej" "6"

2.1 Saknade värden (missing values)

Ett vanligt fenomen i data från verkligheten är saknade värden. Saknade värden representeras i R med NA. NA är inte noll. Det är inte heller ett värde. Det är helt enkelt en indikation på att vi inte vet vilket värde som ligger där.

Det här upplevde i alla fall jag som lite förvirrande till en början.

Om vi har en vektor med NA:

x <- c(4, NA, 2, 50)

Och kollar vilka värden som är större än 2.

x > 2

## [1]  TRUE    NA FALSE  TRUE

Så ser vi att vår observation med NA inte är TRUE eller FALSE utan helt enkelt NA.

Om vi vill kolla vilka värden som är NA borde vi kunna göra samma sak:

x == NA

## [1] NA NA NA NA

Det här svaret känns kanske inte intuitivt men det här beror på att vi helt enkelt inte vet. Det går inte att utvärdera om x är NA.

Vi kan illustrera med ett exempel:

filips_ålder <- NA
helenas_ålder <- NA
filips_ålder == helenas_ålder

## [1] NA

Är Filips ålder densamma som Helenas ålder för att vi saknar värdet? Nej, det går inte att veta.

Därför använder man i R istället is.na() för att undersöka om något är NA.

is.na(x)

## [1] FALSE  TRUE FALSE FALSE

NA är ett vanligt argument i funktioner. Ska vi exempelvis beräkna medelvärdet på vår vektor x som har NA i sig så får vi:

mean(x)

## [1] NA

Eftersom vi saknar ett värde kan vi omöjligen veta vad medelvärdet för x är. Det saknade värdet kan vara vilken siffra som helst.

Därför kan vi i funktionen mean() välja att helt bortse från det saknade värdet:

mean(x, na.rm = TRUE)

## [1] 18.66667

2.2 R är ett funktionellt programmeringsspråk

Vi använder oss hela tiden av funktioner i R. Vi kan skriva egna funktioner men oftast använder vi färdiga funktioner från paket med funktioner.

Funktionell programmering är bra för dataanalys. Ofta jobbar vi med data som vi vill manipulera om och om igen och funktioner är ett bra sätt att göra det på. På många sätt liknar R därför Excel som också jobbar mycket med funktioner.

2.2.1 Funktioner

Precis som i Excel finns det flertalet inbyggda statistiska och matematiska funktioner i R:

mean()
median()
sd()
…osv

Det finns också matematiska funktioner

log()
sin()
cos()
…osv

2.2.2 Dokumentation av funktioner

Funktioner innehåller också dokumentation om hur de fungerar.

För att komma åt dokumentation skriver du ett frågetecken innan funktioner.

?mean()

2.2.3 Övning

Använd några av R:s statistiska funktioner på en numerisk vektor

2.3 Data frames

Det vanligaste formatet i R för dataanalys
En data.frame är en rektangulär tabell med en eller flera kolumner

year	month	day	dep_time	sched_dep_time	dep_delay	arr_time	sched_arr_time	arr_delay	carrier	flight	tailnum	origin	dest	air_time	distance	hour	minute	time_hour
2013	1	1	517	515	2	830	819	11	UA	1545	N14228	EWR	IAH	227	1400	5	15	2013-01-01 05:00:00
2013	1	1	533	529	4	850	830	20	UA	1714	N24211	LGA	IAH	227	1416	5	29	2013-01-01 05:00:00
2013	1	1	542	540	2	923	850	33	AA	1141	N619AA	JFK	MIA	160	1089	5	40	2013-01-01 05:00:00
2013	1	1	544	545	-1	1004	1022	-18	B6	725	N804JB	JFK	BQN	183	1576	5	45	2013-01-01 05:00:00
2013	1	1	554	600	-6	812	837	-25	DL	461	N668DN	LGA	ATL	116	762	6	0	2013-01-01 06:00:00
2013	1	1	554	558	-4	740	728	12	UA	1696	N39463	EWR	ORD	150	719	5	58	2013-01-01 05:00:00

Vi kan enkelt skapa våra egna data.frames.

data.frame(random_number = rnorm(5))

##   random_number
## 1    -1.6016871
## 2     0.9579026
## 3    -0.0611958
## 4     0.4586249
## 5     0.4869843

En data.frame är ett bra sätt att spara en eller flera vektorer. De måste då vara exakt lika långa.

data.frame(x = c(1,2,3),
           y = c("hej", "på", "dig"))

##   x   y
## 1 1 hej
## 2 2  på
## 3 3 dig

Om du sparar vektorerna som två objekt kan du enkelt göra dem till den data.frame.

siffror <- c(5,1,2,5)
ord <- c("vad", "var", "det", "där")

data.frame(siffror, ord)

##   siffror ord
## 1       5 vad
## 2       1 var
## 3       2 det
## 4       5 där

2.4 Paket

Vi nämnde tidigare att vi kan spara funktioner i så kallade paket. Paket är precis det. Ett sätt för oss att spara och lätt komma åt funktioner i R. Paket som genomgår viss granskning läggs upp på CRAN (The Comprehensive R Archive Network). Men man kan även skapa egna paket och lägga upp på Github eller spara på sin egen dator.

För att installera ett paket från CRAN använder du funktionen install.packages("paketnamn").

När du sedan laddat ner paketet behöver du ladda det i R genom library(paketnamn).

2.4.1 Övning

Paketet tidyverse är nedladdat åt dig. Ladda paketet med library()

2.5 tidyverse and friends

tidyverse är en samling paket för att lösa olika typer av problem inom dataanalys.

De har en gemensam filosofi: paketen och dess funktioner är i första hand designade för att människor ska använda dem.

Det gör att de av många upplevs som enklare att använda och mer konsekventa än det som kallas base R . D.v.s. R utan några paket.

Vi kommer här att fokusera på tidyverse eftersom det är ett bra sätt att komma igång med R.

2.6 Workflow i R

I R så jobbar vi med så kallade R-projects. I Rstudio kan du klicka på file -> New Project -> New Directory -> Create Project för att skapa ett nytt projekt. Genom att skapa ett projekt vet R alltid var filerna för det projektet är och det blir enklare för dig att jobba.

2.7 Att skriva kod i R

När du skriver kod gör du det dels med hänsyn dels till andra men framför allt med hänsyn till ditt framtida jag. Koden ska med andra ord vara enkel att läsa.

Därför kan det vara bra att följa en stilguide.

Jag följer stilguiden från tidyverse som säger att:

Namnge alltid variabler, objekt m.m. med små bokstäver.

Exempelvis är det enklare att läsa:

min_egna_funktion <- function(x)

I kontrast till:

MinEgnaFunktion <- function(x)

Vi strävar dessutom efter att skriva kod som vi skriver text, med mellanrum mellan , och ord.

Det här är enklare att läsa:

mean(x, na.rm = TRUE)

Än det här:

mean(x,na.rm=TRUE)

När vi sparar filer så försöker vi följa den här syntaxen. Därför ska du inte ha mellanrum i när du sparar filer. min-r-fil.R är bra men min R fil.R är dåligt.

När vi skriver kod försöker vi dessutom inte att skriva för lång uttryck:

Det här är mycket svårare att läsa:

iris %>% group_by(Species) %>% summarise(Sepal.Length = mean(Sepal.Length), Sepal.Width = mean(Sepal.Width), Species = n_distinct(Species))

Än det här:

iris %>%
  group_by(Species) %>%
  summarise(
    Sepal.Length = mean(Sepal.Length),
    Sepal.Width = mean(Sepal.Width),
    Species = n_distinct(Species)
  )

2.8 Rmarkdown

Rmarkdown är ett format som tillåter dig varva r-kod med skriven text. Du kan sedan rendera filen till antigen HTML, PDF, Word, PowerPoint samt en rad andra format.