Modul 1: Introduktion - OPGAVE
Denne opgave tager udgangspunkt i tingene gennemgået i afsnittet “Modul 1: Introduktion - EKSEMPEL”.
Datamaterialet til denne opgave findes i datafilen “su.xlsx”. Datamaterialet består af spørgeskemasvar vedrørende en række spørgsmål omkring befolkningens holdning til Statens Uddannelsesstøtte. Spørgeskemasvarene er indhentet i november måned 2021.
Overblik over data
- Indlæs datasættet
- Omdøb variablene i datasættet (til kortere og mere praktiske navne) v.hj.a kommandoen
names(su) <- c("Id", "Alder", "Køn", "Postnummer", "Region", "Kommune", "Aldersgruppe", "Civilstatus", "AntalPersoner", "AntalHjemmeboende", "Beskæftigelse", "Uddannelse", "Arbejdstid", "Indtægt", "SpgVækst", "SpgViden", "SpgSU", "SpgGevinst", "SpgVelstand", "SpgLån", "SpgKapacitet")
- Bestem antal variable i datasættet
Antal personer i husstanden
- Find de mulige værdier af variablen AntalPersoner
- Tegn fordelingen af AntalPersoner og bestem den hyppigst forekommende værdi
Månedlig indtægt efter skat
- Bestem antallet af manglende observationer af variablen Indtægt
- Tegn fordelingen af Indtægt
- Find den største observation af Indtægt
- Find den mindste observation af Indtægt
- Find mulige outlier observationer af Indtægt
- Bestem hvor mange personer, der har en indtægt over 30.000 kr. per måned
- Fjern observationer med en indtægt over 30.000 kr. per måned
- Tegn fordelingen af Indtægt
- Beregn den gennemsnitlige månedlige indtægt blandt personerne i datasættet
- Beregn standardafvigelsen af den månedlige indtægt blandt personerne i datasættet
- Beregn et 95%-konfidensinterval ud fra resultaterne i 13. og 14. og fortolk det
- Tegn et boxplot af Indtægt for hver værdi af Uddannelse og vurdér om der ser ud til at være en sammenhæng mellem personers indtægt og uddannelse
Lineær regressionsmodel
- Estimér en lineær regressionsmodel med responsvariabel Indtægt og forklarende variabel Alder
- Beregn “mean squared error”, “root mean squared error” og “mean absolute error” for modellen i 18.
- Estimér en lineær regressionsmodel med responsvariabel Indtægt og alle datasættets øvrige variable som forklarende variable
- Beregn “mean squared error”, “root mean squared error” og “mean absolute error” for modellen i 20 og sammenlign med resultaterne i 19.