Kapitel 1
Databeskrivelse, 1 variabel
1.1 Indledning
Første skridt i en analyse af et datamateriale er at skabe sig et overblik over indholdet af datamaterialet.
I praksis indeholder datamaterialer ofte mange variable og et stort antal observationer. Det gør det svært at overskue, hvilken information der kan uddrages af et datamateriale.
Derfor er der behov for værktøjer, der kort og præcist kan give et overblik over indholdet af et stort og omfattende datamateriale.
Kapitel 1 beskæftiger sig med, hvorledes man ved hjælp af grafiske og numeriske (dvs. talmæssige) værktøjer kan opsummere indholdet af et datamateriale, uanset dets størrelse.
Eksempel: Boligpriser
Datamaterialet i datafilen Boligpriser.jmp indeholder information om salget af 77.625 boliger (adresse, opførelsesår, størrelse, salgstidspunkt, pris m.m.).
Datamaterialet er så stort, at det er umuligt at overskue med det blotte øje.
Derfor er der behov for værktøjer, der kort og præcist kan opsummere de væsentligste karakteristika i datamaterialet.
1.2 Variabeltyper
Kvantitativ/kategorisk
Når vi skal beskrive en variabel i et datamateriale, skelner vi mellem to forskellige typer af variable, afhængig af om variablens værdier har en naturlig talmæssig fortolkning eller ej.
En variabel kaldes…
- kvantitativ (“quantitative”/“numerical”) hvis dens værdier mest naturligt angives som tal, dvs. hvis variablen kan måles i en eller anden form for meningsfuld enhed: meter, kilo, kr., dage o.lign.
(variable som f.eks. højde, vægt, indkomst, ventetid)
- kategorisk
(“categorical”/“qualitative”) hvis dens værdier mest naturligt angives v.hj.a. bogstaver/ord
(variable som f.eks. køn, øjenfarve, kundetilfredshed, uddannelsesmæssig baggrund)
Med andre ord så er alle de variable vi enten kan måle eller tælle kvantitative variable, mens alle øvrige er kategoriske variable.
Eksempel: Boligpriser
Variablen BoligM2 er en kvantitativ variabel, der angiver boligens areal i kvadratmeter. AntalRum og Salgspris er andre eksempler på kvantitative variable.
Variablen Kommune er en kategorisk variabel, der angiver, hvilken kommune boligen er beliggende i. Landsdel og Bolitype er andre eksempler på kategoriske variable.
Der er behov for forskellige metoder til analyse af henholdsvis kvantitative og kategoriske variable. Derfor er det vigtigt at være opmærksom på, hvilken af de to typer en given variabel er.
For kvantitative variable giver det mening at lave beregninger med variablens værdier (eksempelvis lægge værdier sammen eller trække værdier fra hinanden), mens den slags ikke giver mening for kategoriske variable.
I visse tilfælde afhænger det af den konkrete sammenhæng, om en variabel opfattes som kvantitativ eller kategorisk.
Eksempel: Boligpriser
Variablen Opførelsesår er et eksempel på en variabel, der både kan opfattes som kvantitativ og kategorisk. Det giver fin mening at lave beregninger med variablens værdier (f.eks. trække to værdier fra hinanden for derved at beregne forskellen i alder på to boliger).
Hvis man vil lave beregninger med variablens værdier, svarer det til at opfatte variablen som kvantitativ. Hvis man i stedet blot vil bruge variablen til at gruppere boligerne efter, hvornår de er opført, svarer det til at opfatte variablen som kategorisk.
Variablen Salgsdato er et andet eksempel på en variabel, der både kan opfattes som kvantitativ og kategorisk.
En kategorisk variabels (bogstav)værdier kan altid omdefineres til passende valgte talværdier. Det ændrer imidlertid ikke variablen fra at være kategorisk til kvantitativ.
Selv om en variabel har værdier, der er angivet som tal, så er den kun kvantitativ, såfremt det også giver mening at fortolke variablens værdier som tal (dvs. gange værdierne med et tal, lægge dem sammen, trække dem fra hinanden o.lign.)
Eksempel: Boligpriser
Variablen Postnr indeholder boligens postnummer. Variablens værdier er tal, men alligevel er variablen en kategorisk variabel, fordi det ikke giver mening at fortolke værdien af et postnummer som et tal. Det er f.eks. meningsløst at gange værdien af et postnummer med 2, eller meningsløst at fortolke værdien af forskellen mellem to postnumre.
Bemærk ligeledes, at variablen Kommune fortsat er kategorisk, selv hvis vi erstatter de enkelte kommunernes navne med talværdier, f.eks. 1 = Kolding, 2 = Fredericia osv. Det skyldes, at de valgte talværdier ikke har nogen naturlig talmæssig fortolkning (det er f.eks. meningsløst at beregne og fortolke et gennemsnit af de valgte talværdier).
Kvantitative og kategoriske variable opdeles hver især i to undergrupper af variable:
Databehandlingsprogrammet JMP angiver variabeltyperne ved følgende symboler:
::include_graphics("C:\\Users\\msn.fi\\OneDrive - CBS - Copenhagen Business School\\Desktop\\CBS\\Onlinenoter\\HD Business Intelligence (F2023)\\kapitel_databeskrivelse_1_variabel\\JMP_var_kvantitativ.png") knitr
Bemærk, at JMP ikke skelner mellem kontinuerte og diskrete variable, fordi man i visse tilfælde kan lave de samme analyser for de to variabeltyper.