Modul 2: Regression - OPGAVE

Denne opgave tager udgangspunkt i tingene gennemgået i afsnittet “Modul 2: Regression - EKSEMPEL.”

Datamaterialet til denne opgave findes i datafilen “kreditdefaults_fixed.csv.” Datamaterialet består af data om hvorvidt en række låntagere har kunnet tilbagebetale deres lån (“ikke default”) eller ej (“default”) samt forskellig baggrundsinformation om låntagerne.

Indlæsning af data

setwd(r"(C:\....)")

kredit <- read.csv('kreditdefaults_fixed.csv')

Søjlen default.status er givet som tekst. Lav en ny søjle, hvor variablen i stedet er givet som 0 (ikke default) og 1 (default).
Opdel datasættet i trænings- og testsæt (og brug træningssættet i alle de nedenstående opgaver medmindre andet er angivet).

Overblik over data

Find antallet af lån der er gået default hhv. ikke default
Visualisér følgende elementer af datasættet (brug den originale default.status variabel medmindre andet er angivet):

i): Et barplot for kredit.rating for default og ikke default (brug col = default.status argumentet i ggplot funktionerne)

ii): Et histogram af fordelingen for den årlige indkomst for default og ikke default

iii): En tabel over antallet af defaults for alle forskellige antal terminer

iv): Et plot med variablen fra punkt 1. på y-aksen og års.erhvervs.erfaring på x-aksen (brug geom_smooth, brug ikke længere col = default.status)

Hint: I geom_bar og geom_histogram kan man bruge position = “dodge” for at optegne søjler side om side.

Grundmodel

Lav en logistisk regression for default med alle de forklarende variable.
Tegn et histogram af modellens sandsynligheder for testdatasættet.
Konstruér en confusion matrix (brug 0.5 som cutoff værdi til at skelne mellem prediktion af default hhv. ikke default).
Beregn AUC og tegn ROC-kurven.

Modeludvidelser

Man kunne forestille sig, at logaritmen til den årlige indkomst som forklarende variabel måske ville kunne forbedre modellen:

Lav en ny variabel i datasættet kaldet log.årlig.indkomst, som er logaritmen til årlig.indkomst.

Lav histogrammer som i punkt 4 ii) blot for log.årlig.indkomst i stedet for årlig.indkomst og sammenlign med 4 ii).
Gentag punkt 5-8 men for en model med log.årlig.indkomst som variabel i stedet for årlig.indkomst.
Gentag punkt 5-8 men hvor der også bruges krydsvalidering.
Sammenlign de tre modeller (fra 5, 10 og 11) og vurdér hvilken der er bedst, baseret på Accuracy, AUC og ROC-kurve.
Vurdér hvor godt den bedste af de tre modeller beskriver sandsynligheden for default?