Modul 4: k Nearest Neighbors - OPGAVE
Denne opgave tager udgangspunkt i tingene gennemgået i afsnittet “Modul 4: k Nearest Neighbors - EKSEMPEL.”
Datamaterialet til denne opgave findes i datafilen “su.xlsx.” Det er variablen Indtægt vi vil forsøge at beskrive/forudsige på baggrund af en række af datasættets øvrige variable.
Overblik over data
- Omdøb variablene i datasættet (til kortere og mere praktiske navne) v.hj.a kommandoen
names(su) <- c("Id", "Alder", "Køn", "Postnummer", "Region", "Kommune", "Aldersgruppe", "Civilstatus", "AntalPersoner", "AntalHjemmeboende", "Beskæftigelse", "Uddannelse", "Arbejdstid", "Indtægt", "SpgVækst", "SpgViden", "SpgSU", "SpgGevinst", "SpgVelstand", "SpgLån", "SpgKapacitet")
Begræns datasættet til kun at omhandle variablene Alder, Køn, Uddannelse, Arbejdstid, Indtægt og kun personer med en indtægt under 30.000 kr. om måneden
Beregn RMSE-afstanden mellem observation 1 og 2 baseret på variablene Alder og Arbejdstid
Vis med en manuel kontrolberegning hvordan RMSE-værdien fremkommer
Tegn et histogram af fordelingen af variablen Indkomst
Normalisér variablen Indtægt og tegn et histogram af fordelingen af den standardiserede variabel
Tegn et barplot af fordelingen af variablen Uddannelse (brug “barplot(table(…))”)
Lav variablen Uddannelse om til en numerisk variabel og tegn et barplot af den numeriske variabel (igen v.hj.a. barplot(table(…)))
Estimation af knn model
Klargør datasættet til knn estimation af en model for variablen Indtægt ved at…
- opdele datasættet i trænings- og testdatasæt (træning = 2/3, test = 1/3)
- lave alle kategoriske variable til numeriske (v.hj.a. step_integer)
- standardisere alle variable (v.hj.a. step_normalize)
Estimér knn-modeller for et passende valg antal k-værdier mellem 1 og 30 (brug gerne en passende valgt krydsvalidering i estimationen)
Vælg den bedste model (dvs. med lavest RMSE)
Evaluér de enkelte variables betydning for den valgte model
Beregn den gennemsnitlige RMSE for testdatasættet
Sammenlign lineær regressionsmodel og knn model
Estimér en lineær regressionsmodel (med Indtægt som responsvariabel og alle øvrige som forklarende variable og baseret på samme træningsdatasæt som ovenfor)
Evaluér de enkelte variables betydning for regressionsmdellen
Beregn den gennemsnitlige RMSE for testdatasættet og sammenlign med knn-modellen NB: RMSE- og MAE-værdierne nedenfor er SUMMEN på tværs af alle observationer, hvorimod det er GENNEMSNITTET på tværs af alle observationer, der er returneret for knn-modellen ovenfor