Modul 6: Neurale netværk - OPGAVE

Denne opgave tager udgangspunkt i tingene gennemgået i afsnittet “Modul 6: Neurale netværk - EKSEMPEL.”

Datamaterialet til denne opgave findes i datafilen “su.xlsx.” Det er variablen Indtægt vi vil forsøge at beskrive/forudsige på baggrund af en række af datasættets øvrige variable.

Som udgangspunkt bruges sigmoid som aktiveringsfunktion i de estimerede neurale netværk, medmindre andet er angivet.

Overblik over data

  1. Omdøb variablene i datasættet (til kortere og mere praktiske navne) v.hj.a kommandoen
names(su) <- c("Id", "Alder", "Køn", "Postnummer", "Region", "Kommune", "Aldersgruppe", "Civilstatus", "AntalPersoner", "AntalHjemmeboende", "Beskæftigelse", "Uddannelse", "Arbejdstid", "Indtægt", "SpgVækst", "SpgViden", "SpgSU", "SpgGevinst", "SpgVelstand", "SpgLån", "SpgKapacitet")
  1. Begræns datasættet til kun at omhandle variablene Alder, Køn, Uddannelse, Arbejdstid, Indtægt og kun personer med en indtægt under 30.000 kr. om måneden

Estimation af neurale netværk med ét input

  1. Klargør datasættet til estimation af et neuralt netværk for variablen Indtægt ved at opdele datasættet i trænings- og testdatasæt (træning = 2/3, test = 1/3)

  2. Standardiser test- og træningsdatasættene

  3. Estimér et neuralt netværk for Indtægt uden skjulte lag og Arbejdstid som forklarende variabel

  4. Vis hvorledes de fittede værdier i punkt 5 er beregnet

  5. Estimér et neuralt netværk for Indtægt med 1 skjult lag med 1 knude og Arbejdstid som forklarende variabel

  6. Vis hvorledes de fittede værdier i punkt 7 er beregnet

Estimation af neurale netværk med multiple input

  1. Estimér et neuralt netværk for Indtægt uden skjulte lag og Alder, Køn, Uddannelse og Arbejdstid som forklarende variable

  2. Sammenlign det neurale netværk i punkt 9 med en tilsvarende lineær regressionsmodel

  3. Estimér neurale netværk for Indtægt med 1 skjult lag med hhv. 5 og 10 knuder og Alder, Køn, Uddannelse og Arbejdstid som forklarende variable. Sammenlign de to netværks RMSE (på testdatasættet)

  4. Gentag punkt 11 blot med tanh som aktiveringsfunktion i stedet for sigmoid (sæt act.fct=“tanh” i neuralnet(…))

  5. Vurdér betydningen af hver enkelt af de forklarende variable i de fire netværk i punkt 11 og 12 ved at se på Shapley-værdierne for de første 5 observationer i testdatasættet