Modul 4: k Nearest Neighbors - OPGAVE

Denne opgave tager udgangspunkt i tingene gennemgået i afsnittet “Modul 4: k Nearest Neighbors - EKSEMPEL.”

Datamaterialet til denne opgave findes i datafilen “su.xlsx.” Det er variablen Indtægt vi vil forsøge at beskrive/forudsige på baggrund af en række af datasættets øvrige variable.

Overblik over data

  1. Omdøb variablene i datasættet (til kortere og mere praktiske navne) v.hj.a kommandoen
names(su) <- c("Id", "Alder", "Køn", "Postnummer", "Region", "Kommune", "Aldersgruppe", "Civilstatus", "AntalPersoner", "AntalHjemmeboende", "Beskæftigelse", "Uddannelse", "Arbejdstid", "Indtægt", "SpgVækst", "SpgViden", "SpgSU", "SpgGevinst", "SpgVelstand", "SpgLån", "SpgKapacitet")
  1. Begræns datasættet til kun at omhandle variablene Alder, Køn, Uddannelse, Arbejdstid, Indtægt og kun personer med en indtægt under 30.000 kr. om måneden

  2. Beregn RMSE-afstanden mellem observation 1 og 2 baseret på variablene Alder og Arbejdstid

  3. Vis med en manuel kontrolberegning hvordan RMSE-værdien fremkommer

  4. Tegn et histogram af fordelingen af variablen Indkomst

  5. Normalisér variablen Indtægt og tegn et histogram af fordelingen af den standardiserede variabel

  6. Tegn et barplot af fordelingen af variablen Uddannelse (brug “barplot(table(…))”)

  7. Lav variablen Uddannelse om til en numerisk variabel og tegn et barplot af den numeriske variabel (igen v.hj.a. barplot(table(…)))

Estimation af knn model

  1. Klargør datasættet til knn estimation af en model for variablen Indtægt ved at…

    1. opdele datasættet i trænings- og testdatasæt (træning = 2/3, test = 1/3)
    2. lave alle kategoriske variable til numeriske (v.hj.a. step_integer)
    3. standardisere alle variable (v.hj.a. step_normalize)
  2. Estimér knn-modeller for et passende valg antal k-værdier mellem 1 og 30 (brug gerne en passende valgt krydsvalidering i estimationen)

  3. Vælg den bedste model (dvs. med lavest RMSE)

  4. Evaluér de enkelte variables betydning for den valgte model

  5. Beregn den gennemsnitlige RMSE for testdatasættet

Sammenlign lineær regressionsmodel og knn model

  1. Estimér en lineær regressionsmodel (med Indtægt som responsvariabel og alle øvrige som forklarende variable og baseret på samme træningsdatasæt som ovenfor)

  2. Evaluér de enkelte variables betydning for regressionsmdellen

  3. Beregn den gennemsnitlige RMSE for testdatasættet og sammenlign med knn-modellen NB: RMSE- og MAE-værdierne nedenfor er SUMMEN på tværs af alle observationer, hvorimod det er GENNEMSNITTET på tværs af alle observationer, der er returneret for knn-modellen ovenfor