6 Datenmanagement
6.1 Erstellung eines Teildatensatzes
Emma sieht anhand der Datensatzbeschreibung (siehe Kapitel 5), dass viel mehr Variablen im Datensatz enthalten sind, als sie eigentlich benötigt. Daher erstellt sie zunächst einen Teildatensatz mit den für sie relevanten Variablen. Dazu (und auch für spätere Datenauswertungen) nutzt Sie das tidyverse-Paket. Das Paket hat sie bereits installiert und kann es deshalb direkt aktivieren.
In ihrer Abschlussarbeit interessiert sich Emma für das politische Interesse und die Wahlabsicht ihrer Generation sowie darauf bezogene Unterschiede zwischen den Geschlechtern und Altersgruppen. Sie sucht im Datensatz nach den entsprechenden Merkmalen (Variablen) und stellt fest, dass sie folgende Variablen benötigt:
sex = Geschlecht
age = Alter
pa02a = politisches Interesse
pv01 = Wahlabsicht
Sie möchte nun einen weiteren Datensatz erstellen, der nur diese vier Variablen enthält. Zuerst definiert Emma den Namen des neuen Datensatzes: “ALLBUS_21_Analyse”. Dieser basiert zunächst auf dem bestehenden Datensatz “ALLBUS_21 (dies wird durch den Zuweisungspfeil <- sichtbar) Dann gibt sie mittels select-Befehl an, welche Variablen im neuen Datensatz enthalten sein sollen. Die Verknüpfung der beiden Befehlszeilen erfolgt durch das sogenannte”Pipe”-Symbol “%>%”. Nach Ausführung der Befehlszeilen wird ein neuer Datensatz erzeugt, der im oberen rechten Fenster unter [Environment] angezeigt wird.
library(tidyverse)
ALLBUS_21_Analyse <- ALLBUS_21 %>% #Erstellung eines neuen Teildatensatzes "ALLBUS_21_Analyse"
select (sex, age, pa02a, pv01 ) #mit den ausgewählten Variablen sex, age, yborn, pa02a, pv01
Emma erstellt mittels glimpse-Befehl einen Überblick über ihren neuen Datensatz, den sie für die Auswertung nutzen möchte. Er beinhaltet jetzt nur die 4 benötigten Variablen und 5342 Beobachtungen.
glimpse (ALLBUS_21_Analyse) #Zusammenfassender Blick auf den Datensatz
#> Rows: 5,342
#> Columns: 4
#> $ sex <dbl+lbl> 2, 1, 2, 1, 2, 1, 2, 2, 1, 2, 1, 1, 2, 1…
#> $ age <dbl+lbl> 54, 53, 89, 79, 62, 23, 31, 57, 68, 51, …
#> $ pa02a <dbl+lbl> 3, 1, 4, 3, 3, 1, 2, 3, 1, 2, 4, 2, 3, 3…
#> $ pv01 <dbl+lbl> 3, 1, 1, 6, NA, 1, 4, 2, 6, NA, …
6.2 Erstellung neuer Variablen
Emma sieht in der Datensatzbeschreibung, dass das Alter bislang als stetige Variable vorliegt. Sie möchte aber zwei Gruppen bilden (“18-25jährige” und “älter als 25 Jahre”). Dazu bildet sie eine neue Variable, die in dieser Form noch nicht im Datensatz enthalten ist. Sie wählt wieder zuerst den Datensatz aus, in dem die Änderungen zusammengeführt werden soll. Das ist ihr Datensatz für die Auswertungen; also “ALLBUS_21_Analyse”. Die Informationen, die hier verwendet werden sollen, kommen aus dem gleichen Datensatz, daher wählt sie hier “<- ALLBUS_21_Analyse”. Im nächsten Schritt gibt Emma an, was passieren soll. Sie verwendet den mutate-Befehl, um eine neue Variable zu erstellen. Diese Variable nennt sie “age_group”. Danach gibt sie mit case_when an, wie die Zuordnung genau funktionieren soll. Emma interessiert sich zum einen für die Altersgruppe 18-25jährige. Um dieser Gruppe anzugehören, muss eine Person jünger als 26 sein, daher also age < 26. Die für diese Personen gebildete Gruppe soll “18-25jährige” heißen. Die zweite Gruppe sind die Personen, die älter als 25 sind, also age > 25. Diese Gruppe soll mit “älter als 25 Jahre” bezeichnet werden. Mit dem Befehl labelled gibt Emma der Variablen dann noch ein Label. Abschließend lässt sie sich in einem neuen Befehl eine Häufigkeitsauszählung der neuen Variablen ausgeben. Der Befehl table wird genutzt, um eine Häufigkeitstabelle zu erstellen. Mit “ALLBUS_21_Analyse” gibt Emma an, auf welchen Datensatz zugegriffen werden soll. Mit $age_group gibt sie die Variable an, die ausgezählt werden soll.
ALLBUS_21_Analyse <- ALLBUS_21_Analyse %>%
mutate(age_group = case_when(age < 26 ~ '18-25jährige',
age > 25 ~ 'älter als 25 Jahre') %>%
labelled(label = "Altersgruppen")) #Variablenlabel
table (ALLBUS_21_Analyse$age_group) #Häufigkeitsauszählung der neuen Variable
#>
#> 18-25jährige älter als 25 Jahre
#> 387 4914
Sie hat nun 387 junge Menschen (18-25 Jahre) im ALLBUS-Datensatz identifiziert. Für diese Gruppe möchte Sie zunächst schauen, wie es um deren politisches Interesse und die Wahlabsichten bestellt ist. Dazu erstellt sie einen weiteren Teildatensatz, der nur die jungen Menschen enthält.
6.3 Auswahl von Teilstichproben
Analog zum Vorgehen bei der Erstellung eines weiteren Datensatzes gibt sie zunächst an, wo die neuen Änderungen gespeichert werden sollen. In diesem Fall in einem Datensatz mit dem Namen “ALLBUS_21_young”. Sie greift dazu wieder auf ihren Datensatz zur Analyse zu und filtert diesen über den Befehl filter. Sie wählt im nächsten Schritt die Variable “age_group” und gibt an, welche Fälle sie filtern möchte. In diesem Fall interessiert sich Emma ausschließlich für die jungen Befragten, also “18-25jährige”. In R wird das logische “=” durch zwei Gleichheitszeichen “==” symbolisiert.
Um das Ergebnis zu überprüfen, lässt sie sich den Datensatz in tabellarischer Form anzeigen.
Es öffnet sich ein neues Fenster, in dem der Datensatz angezeigt wird. Außerdem findet er sich auch im oberen rechten Fenster unter [Environment] wieder.