Modul 1: Introduktion - OPGAVE

Denne opgave tager udgangspunkt i tingene gennemgået i afsnittet “Modul 1: Introduktion - EKSEMPEL.”

Datamaterialet til denne opgave findes i datafilen “su.xlsx.” Datamaterialet består af spørgeskemasvar vedrørende en række spørgsmål omkring befolkningens holdning til Statens Uddannelsesstøtte. Spørgeskemasvarene er indhentet i november måned 2021.

Overblik over data

 1. Indlæs datasættet
 2. Omdøb variablene i datasættet (til kortere og mere praktiske navne) v.hj.a kommandoen
names(su) <- c("Id", "Alder", "Køn", "Postnummer", "Region", "Kommune", "Aldersgruppe", "Civilstatus", "AntalPersoner", "AntalHjemmeboende", "Beskæftigelse", "Uddannelse", "Arbejdstid", "Indtægt", "SpgVækst", "SpgViden", "SpgSU", "SpgGevinst", "SpgVelstand", "SpgLån", "SpgKapacitet")
 1. Bestem antal variable i datasættet

Antal personer i husstanden

 1. Find de mulige værdier af variablen AntalPersoner
 2. Tegn fordelingen af AntalPersoner og bestem den hyppigst forekommende værdi

Månedlig indtægt efter skat

 1. Bestem antallet af manglende observationer af variablen Indtægt
 2. Tegn fordelingen af Indtægt
 3. Find den største observation af Indtægt
 4. Find den mindste observation af Indtægt
 5. Find mulige outlier observationer af Indtægt
 6. Bestem hvor mange personer, der har en indtægt over 30.000 kr. per måned
 7. Fjern observationer med en indtægt over 30.000 kr. per måned
 8. Tegn fordelingen af Indtægt
 9. Beregn den gennemsnitlige månedlige indtægt blandt personerne i datasættet
 10. Beregn standardafvigelsen af den månedlige indtægt blandt personerne i datasættet
 11. Beregn et 95%-konfidensinterval ud fra resultaterne i 13. og 14. og fortolk det
 12. Tegn et boxplot af Indtægt for hver værdi af Uddannelse og vurdér om der ser ud til at være en sammenhæng mellem personers indtægt og uddannelse

Lineær regressionsmodel

 1. Estimér en lineær regressionsmodel med responsvariabel Indtægt og forklarende variabel Alder
 2. Beregn “mean squared error,” “root mean squared error” og “mean absolute error” for modellen i 18.
 3. Estimér en lineær regressionsmodel med responsvariabel Indtægt og alle datasættets øvrige variable som forklarende variable
 4. Beregn “mean squared error,” “root mean squared error” og “mean absolute error” for modellen i 20 og sammenlign med resultaterne i 19.