Modul 6: Neurale netværk - OPGAVE
Denne opgave tager udgangspunkt i tingene gennemgået i afsnittet “Modul 6: Neurale netværk - EKSEMPEL.”
Datamaterialet til denne opgave findes i datafilen “su.xlsx.” Det er variablen Indtægt vi vil forsøge at beskrive/forudsige på baggrund af en række af datasættets øvrige variable.
Som udgangspunkt bruges sigmoid som aktiveringsfunktion i de estimerede neurale netværk, medmindre andet er angivet.
Overblik over data
- Omdøb variablene i datasættet (til kortere og mere praktiske navne) v.hj.a kommandoen
names(su) <- c("Id", "Alder", "Køn", "Postnummer", "Region", "Kommune", "Aldersgruppe", "Civilstatus", "AntalPersoner", "AntalHjemmeboende", "Beskæftigelse", "Uddannelse", "Arbejdstid", "Indtægt", "SpgVækst", "SpgViden", "SpgSU", "SpgGevinst", "SpgVelstand", "SpgLån", "SpgKapacitet")
- Begræns datasættet til kun at omhandle variablene Alder, Køn, Uddannelse, Arbejdstid, Indtægt og kun personer med en indtægt under 30.000 kr. om måneden
Estimation af neurale netværk med ét input
Klargør datasættet til estimation af et neuralt netværk for variablen Indtægt ved at opdele datasættet i trænings- og testdatasæt (træning = 2/3, test = 1/3)
Standardiser test- og træningsdatasættene
Estimér et neuralt netværk for Indtægt uden skjulte lag og Arbejdstid som forklarende variabel
Vis hvorledes de fittede værdier i punkt 5 er beregnet
Estimér et neuralt netværk for Indtægt med 1 skjult lag med 1 knude og Arbejdstid som forklarende variabel
Vis hvorledes de fittede værdier i punkt 7 er beregnet
Estimation af neurale netværk med multiple input
Estimér et neuralt netværk for Indtægt uden skjulte lag og Alder, Køn, Uddannelse og Arbejdstid som forklarende variable
Sammenlign det neurale netværk i punkt 9 med en tilsvarende lineær regressionsmodel
Estimér neurale netværk for Indtægt med 1 skjult lag med hhv. 5 og 10 knuder og Alder, Køn, Uddannelse og Arbejdstid som forklarende variable. Sammenlign de to netværks RMSE (på testdatasættet)
Gentag punkt 11 blot med tanh som aktiveringsfunktion i stedet for sigmoid (sæt act.fct=“tanh” i neuralnet(…))
Vurdér betydningen af hver enkelt af de forklarende variable i de fire netværk i punkt 11 og 12 ved at se på Shapley-værdierne for de første 5 observationer i testdatasættet