Modul 1: Introduktion - OPGAVE
Denne opgave tager udgangspunkt i tingene gennemgået i afsnittet “Modul 1: Introduktion - EKSEMPEL”.
Datamaterialet til denne opgave findes i datafilen “su.xlsx”. Datamaterialet består af spørgeskemasvar vedrørende en række spørgsmål omkring befolkningens holdning til Statens Uddannelsesstøtte. Spørgeskemasvarene er indhentet i november måned 2021.
Overblik over data
- Indlæs datasættet
 - Omdøb variablene i datasættet (til kortere og mere praktiske navne) v.hj.a kommandoen
 
names(su) <- c("Id", "Alder", "Køn", "Postnummer", "Region", "Kommune", "Aldersgruppe", "Civilstatus", "AntalPersoner", "AntalHjemmeboende", "Beskæftigelse", "Uddannelse", "Arbejdstid", "Indtægt", "SpgVækst", "SpgViden", "SpgSU", "SpgGevinst", "SpgVelstand", "SpgLån", "SpgKapacitet")- Bestem antal variable i datasættet
 
Antal personer i husstanden
- Find de mulige værdier af variablen AntalPersoner
 - Tegn fordelingen af AntalPersoner og bestem den hyppigst forekommende værdi
 
Månedlig indtægt efter skat
- Bestem antallet af manglende observationer af variablen Indtægt
 - Tegn fordelingen af Indtægt
 - Find den største observation af Indtægt
 - Find den mindste observation af Indtægt
 - Find mulige outlier observationer af Indtægt
 - Bestem hvor mange personer, der har en indtægt over 30.000 kr. per måned
 - Fjern observationer med en indtægt over 30.000 kr. per måned
 - Tegn fordelingen af Indtægt
 - Beregn den gennemsnitlige månedlige indtægt blandt personerne i datasættet
 - Beregn standardafvigelsen af den månedlige indtægt blandt personerne i datasættet
 - Beregn et 95%-konfidensinterval ud fra resultaterne i 13. og 14. og fortolk det
 - Tegn et boxplot af Indtægt for hver værdi af Uddannelse og vurdér om der ser ud til at være en sammenhæng mellem personers indtægt og uddannelse
 
Lineær regressionsmodel
- Estimér en lineær regressionsmodel med responsvariabel Indtægt og forklarende variabel Alder
 - Beregn “mean squared error”, “root mean squared error” og “mean absolute error” for modellen i 18.
 - Estimér en lineær regressionsmodel med responsvariabel Indtægt og alle datasættets øvrige variable som forklarende variable
 - Beregn “mean squared error”, “root mean squared error” og “mean absolute error” for modellen i 20 og sammenlign med resultaterne i 19.