Modul 5: Beslutningstræer - OPGAVE
Denne opgave tager udgangspunkt i tingene gennemgået i afsnittet “Modul 5: Beslutningstræer - EKSEMPEL.”
Datamaterialet til denne opgave findes i datafilen “su.xlsx.” Det er variablen Indtægt vi vil forsøge at beskrive/forudsige på baggrund af en række af datasættets øvrige variable.
Overblik over data
- Omdøb variablene i datasættet (til kortere og mere praktiske navne) v.hj.a kommandoen
names(su) <- c("Id", "Alder", "Køn", "Postnummer", "Region", "Kommune", "Aldersgruppe", "Civilstatus", "AntalPersoner", "AntalHjemmeboende", "Beskæftigelse", "Uddannelse", "Arbejdstid", "Indtægt", "SpgVækst", "SpgViden", "SpgSU", "SpgGevinst", "SpgVelstand", "SpgLån", "SpgKapacitet")
- Begræns datasættet til kun at omhandle variablene Alder, Køn, Uddannelse, Arbejdstid, Indtægt og kun personer med en indtægt under 30.000 kr. om måneden
Estimation af beslutningstræ
Klargør datasættet til estimation af beslutningstræer for variablen Indtægt ved at opdele datasættet i trænings- og testdatasæt (træning = 2/3, test = 1/3)
Estimér et beslutningstræ for Indtægt og forklarende variable Arbejdstid og Alder med 2 lag og UDEN pruning
Estimér et besluningstræ for Indtægt og forklarende variable Arbejdstid og Alder med 2 lag og MED pruning (prøv forskellige værdier af cp) og sammenlign med træet i punkt 4
Estimér et beslutningstræ for Indtægt med alle forklarende variable, uden begrænsninger på antal lag og UDEN pruning
Estimér et beslutningstræ for Indtægt med alle forklarende variable, uden begrænsninger på antal lag og MED pruning (prøv forskellige værdier af cp) og sammenlign med træet i punkt 6
Vurdér de enkelte variables betydning i modellen fra punkt 7 (se på “variable importance” og “partial dependence plots”)
Estimation af random forest model
- Estimér en random forest model for Indtægt med alle forklarende variable og tuning af hyperparametre