Anhang D — Datensätze
In diesem Anhang finden Sie Informationen über einige Datensätze, die in diesem Kurs verwendet werden und die über die Learnweb-Seite des Kurses zum Herunterladen verfügbar sind. Manche dieser Datensätze werden weder in der Vorlesung noch in den Übungen benutzt. Sie können sie zum Ausprobieren und selbständigen Üben herunterladen. Alle Datensätze sind bereits bereinigt, Sie können direkt damit arbeiten. Bitte beachten Sie aber, dass die Datensätze wegen der Bereinigungen nur für diesen Kurs geeignet sind, Sie können keine wirklich verlässlichen Schlussfolgerungen aus ihnen ziehen. Für weitergehende Forschungsprojekte sollten Sie immer auf die Originalquellen zurückgreifen.
Da über das Learnweb nur Dateien bis zu maximal 100 MB bereitgestellt werden können, sind manche Dateien komprimiert. In diesen Fällen laden Sie bitte die komprimierten (zip
) Dateien auf Ihren Rechner herunter und entpacken sie. Anschließend können Sie mit den ausgepackten csv
-Dateien arbeiten.
D.1 SOEP
Das Sozio-ökonomische Panel SOEP ist ein Längsschnittdatensatz, der in der ökonomischen Forschung in Deutschland oft verwendet wird. Er enthält Angaben zu vielen Personen und Haushalten über einen Zeitraum von fast 40 Jahren. Aus Datenschutzgründen arbeiten wir in diesem Kurs jedoch nicht mit den richtigen Daten, sondern einem künstlichen kleineren Datensatz, der sich an das Format der Originaldaten anlehnt. Die Variablen nehmen jedoch nicht die in Wirklichkeit beobachteten Werte an. Der Datensatz ist in der Datei mocksoep.csv
abgespeichert.
Die Variablen in dem Datensatz sind:
id
Personen-IDhid
Haushalts-IDyear
Jahr der Beobachtungage
Alter in Jahrensex
Geschlecht mit den beiden Ausprägungen “F” für “Frau” und “M” für “Mann”npers
Anzahl der Personen im Haushalteduc
Zahl der Schul- und Ausbildungsjahrehours
Anzahl an Arbeitsstunden (im Jahr)empllev
Beschäftigungsstatus mit den drei Ausprägungen “nicht” für “nicht beschäftigt”, “voll” für “Vollzeit” und “teil” für “Teilzeit”region
Bundesland (mit Zweibuchstaben-Abkürzungen für die 16 Länder)pregov
Bruttoeinkommen (im Jahr, in Euro)postgov
Nettoeinkommen (nach Steuern und Transfers, im Jahr, in Euro)earn
personenbezogenes Arbeitseinkommen (im Jahr, in Euro)sport
Häufigkeit sportlicher Betätigung (mit vier Ausprägungen von fast nie bis mindestens einmal pro Woche)height
Körpergröße in cmweight
Körpergewicht in kghealthsat
Zufriedenheit mit der Gesundheit auf einer Skala von 1 (miserabel) bis 10 (super)ndoctor
Zahl der Arztbesuche im letzten Quartallifesat
allgemeine Lebenszufriedenheit auf einer Skala von 1 (miserabel) bis 10 (super)
Das Geschlecht sex
, die Region region
, der Beschäftigungsstatus empllev
und die beiden IDs sind nominal skaliert, die Zufriedenheiten healthsat
und lifesat
sowie die Sporthäufigkeit sport
sind ordinal skaliert.
D.2 Internet-Movie-Database
Der Original-Datensatz der Internet-Movie-Database ist sehr groß, nämlich verteilt auf mehrere Einzeldateien über 230 MB. Für diesen Kurs wurde der Datensatz ziemlich radikal vereinfacht und gekürzt. Er ist in der Datei imdb.csv
gespeichert und hat nur noch folgende Variablen (und bei weitem nicht mehr alle Filme):
title_id
eindeutige Kennung für jeden Film, mit dem weitere Daten aus anderen Datenbanken zugespielt werden könntentitle
Filmtitelyear
Jahr des Erscheinensgenre
Genre (wurde im Vergleich zum Originaldatensatz deutlich vergröbert)avgvote
durchschnittliches Rating des Filmsbudget
Budget in Mio. US-Dollars (es werden nur Filme berücksichtigt, deren Budget in US-Dollars angegeben war, im Originaldatensatz sind auch andere Filme enthalten)grossinc
Höhe des eingespielten Betrags (in Mio. US-Dollars)users_rev
Anzahl Reviews von Nutzerncritics_rev
Anzahl Reviews von Kritikern
D.3 Gapminder
Gapminder ist eine unabhängige schwedische Stiftung, die u.a. umfangreiche verlässliche internationale Daten bereitstellt, um (nach eigenen Angaben) gegen bestürzend falsche Vorstellungen zu kämpfen und eine fakten-basierte Weltsicht zu fördern. Der Datenbestand ist sehr umfangreich, in der Datei gapmindersubset.csv
ist nur eine sehr kleine Auswahl für einen verkürzten Zeitraum gespeichert, manche Beobachtungen mit fehlenden Werten wurden gelöscht. Die Variablen sind:
country
Land (abgekürzt nach ISO)year
Jahr der Beobachtungpop_XX_YY
Population im Alter von XX Jahren bis YY Jahrefertility
Fertilitätsrate (Kinder pro Frau)co2
jährliche CO2-Emissionen (in 1000 t)gdp_pc
Pro-Kopf-Bruttoinlandsprodukt (US-Dollar, inflationsbereinigt)
D.4 Eikon
Als Beispieldatensatz wurde von Eikon/Refinitiv die Zeitreihe der täglichen Werte des Baltic-Dry-Indexes heruntergeladen. Dieser Index steht für das Preisniveau des Massen-Transports von Gütern wie Getreide oder Kohle. Die Transportkosten schwanken sehr stark, wie man an diesem Datensatz sehen kann. Die Daten liegen vor für den Zeitraum vom 3.2.2014 bis zum 31.1.2024. Folgende Variablen sind enthalten:
JAHR
,MONAT
,TAG
Spalten für Jahr, Monat und Tag der BeobachtungLFDTAG
Zähler für die Tage (1 ist der erste Tag, 2495 der letzte Tag)BDI
Wert des Indexes
D.5 Bloomberg
Dieser Datensatz wurde am Bloomberg-Terminal der Fakultät für die Vorlesung heruntergeladen. Er enthält 5-Minuten-Angaben zu Aktienkursen und Handelsaktivitäten der Aktien von Apple, Google, Samsung und Xiaomi. Da der Umgang mit Datums- und Zeitangaben nicht in der Vorlesung behandelt wird, sind einige zusätzliche Spalten generiert worden, die die Analyse der Zeitangaben erleichtern. Folgende Variablen sind in dem Datensatz vorhanden:
times
der genaue Zeitpunkt im Format YYYY-MM-DD HH:MM:SS (also Jahr-Monat-Tag Stunde:Minuten:Sekunden); die Sekunden sind immer 0open
Kurs am Beginn des 5-Minuten-Intervallshigh
höchster Kurslow
niedrigster Kursclose
Kurs am Ende des 5-Minuten-IntervallsnumEvents
Anzahl der Transaktionenvolume
Anzahl der gehandelten Aktienvalue
Wert der gehandelten Aktienname
Name der Aktiengesellschaft (APPLE, GOOGLE, SAMSUNG, XIAOMI)year
Jahr (immer 2022)month
Monatday
Taghour
Stundeminute
Minutedaynr
laufende Nummer des Tags (der 24.2.2022 ist Tag 1, Wochenenden und andere Tage ohne Handel werden mitgezählt)
D.6 Campus-Files
Das Forschungsdatenzentrum des Statistischen Bundesamts stellt einige (leider sehr alte) Datensätze für die Lehre zur Verfügung. Wir nutzen in diesem Kurs zwei dieser sogenannten Campus-Files.
Krankenhausdaten des Statistischen Bundesamts. Die Daten sind in der Datei
cf_drg_2010.csv
(225 MB) gespeichert. Die Datei ist mit dem zugehörigen Codebookcf_drg_2010.pdf
(in dem die Variablen erklärt werden) zusammen in der komprimierten Dateicf_drg_2010.zip
(37 MB) im Learnweb zu finden.Einkommensteuerdaten des Statistischen Bundesamts. Die Daten sind in der Datei
cf_est_2001.csv
(31 MB) gespeichert. Das zugehörige Codebook istcf_est_2001.pdf
.
D.7 Fahrraddaten
Auf der Internetseite der Stadt Münster gibt es eine Verlinkung auf die stündlichen Daten der Fahrrad-Zählstellen in der Stadt für ein ganzes Jahr, unter anderem für das Neutor 2023. Die Daten sind in einer Excel-Tabelle gespeichert. Für diesen Kurs wurden die Daten teilweise aufbereitet. Insbesondere wurden die Angaben zum Wetter vergröbert, so dass es nicht mehr rund 35, sondern nur noch 8 unterschiedliche Ausprägungen gibt. Für die Zeit von 02:00 bis 03:00 am Sonntag, 26. März 2023 fehlen die Daten wegen der Umstellung auf die Sommerzeit. Für den Tag der Umstellung auf die Winterzeit gibt es trotz der eingefügten Extra-Stunde nur 24 Beobachtungen. Aus diesem Grund gibt es insgesamt 8759 Beobachtungen (365 Tage * 24 Stunden/Tag minus 1 Stunde).
Die Variablen in der Datei fahrrad2023.csv
sind:
beob
: Stunde des Jahres 2023. Die Stunde 2019 (am 26. März) fehlt.jahr
: alle Beobachtungen nehmen den Wert 2023 an.monat
: Monat des Jahres als Zahl (1-12).tag
: Tag des Monats als Zahl (1-31).stunde
: Stunde des Tags als Zahl (0-23).tagimjahr
: Tag des Jahres (1-365)wtag
: Wochentag als ordered factor (Montag, Dienstag, …,Sonntag).rein
: Fahrräder in Richtung Innenstadt.raus
: Fahrräder aus der Innenstadt heraus.wetter
: acht Ausprägungen, z.B. “Bewölkt” oder “Regen”.temp
: Temperatur in Grad Celsius.humid
: Luftfeuchtigkeit in Prozentregen
: Regen in mm (in der Stunde)wind
: Windgeschwindigkeit in km/h
D.8 Bigmac-Index
Der Datensatz wurde im Februar 2024 von der github-Seite des Economist kopiert und etwas gekürzt. Der Economist hat eine sehr einfache Methode vorgeschlagen, die Kaufkraft zwischen verschiedenen Ländern zu vergleichen. Üblicherweise wird die Kaufkraft verglichen, indem man den Preis eines Warenkorbs in dem einen Land mit dem Preis des gleichen Warenkorbs in einem anderen Land vergleicht, und zwar in einer der beiden Währungen, d.h. der Wechselkurs wird berücksichtigt. Der Economist vereinfacht die Vorgehensweise, indem der Preis nur eines einzigen Produkts verglichen wird, nämlich der Preis eines “Big-Mac” von McDonalds. Außerdem werden die Preise zum jeweils aktuellen Wechselkurs in US-Dollar umgerechnet und so über alle Länder und Währungen hinweg vergleichbar gemacht. Die Länder der Euro-Zone sind zusammenfasst. Die Datei bigmacindex.csv
enthält folgende Variablen:
year
Jahr der Beobachtungname
Land (ausgeschrieben)iso3
Land (Kürzel)cur
Kürzel für die Währung (currency)local
lokaler Preisexchr
Wechselkurs, gemessen in lokale Währungseinheiten pro US-Dollar; Achtung, in Europa sind wir es gewohnt, dass der Dollarkurs in der Form “US-Dollar pro Euro” berichtet wird, das ist der Kehrwert des Wechselkurses in diesem Dataframe.gdpusd
Bruttoinlandsprodukt pro Kopf in US-Dollar.
D.9 Wetterdaten
Der Deutsche Wetterdienst (DWD) hat ein Open-Data-Angebot. Von dort wurden alle Daten aller Wetterstationen bis zum 4.3.2024 heruntergeladen und anschließend gekürzt. Der Originaldatensatz ist erheblich größer, es gibt Angaben von über 1200 Stationen, die aber nicht alle durchgängig Daten lieferten. Für einige (wenige) Stationen reichen die Beobachtungen sogar bis ins 18. Jahrhundert zurück. Die Datei wetter.csv
enthält für 97 Wetterstationen, die vom 1. Januar 1960 bis zum 4. März 2024 jeden Tag Daten lieferten, folgende Variablen:
STATIONS_ID
StationsnummerMESS_DATUM
Tag der Messung im Format JJJJMMTT als IntegerFX
Tagesmaximum Windgeschwindigkeit in m/sFM
Mittlere Windgeschwindigkeit in m/sRSK
tägliche Niederschlagshöhe in mmSDK
tägliche Sonnenscheindauer in Std.PM
Mittlerer Luftdruck in hPaUPM
Tagesmittel der relativen Feuchte in ProzentTMK
Tagesmittel der Temperatur (in Grad Celsius)TXK
Tagesmaximum der Lufttemperatur in 2m HöheTNK
Tagesminimum der Lufttemperatur in 2m HöheTGK
Tagesminimum der Lufttemperatur in 5cm HöheJAHR
Jahr der MessungMONAT
Monat der MessungTAG
Tag des MonatsLFDTAG
laufende Nummer des Tags (der 1.1.1960 ist Tag 1, der 4.3.2024 ist Tag 23440)
Nicht an jedem Tag sind alle Variablen an allen Stationen vorhanden. Fehlende Werte sind als NA
gekennzeichnet. Eine genaue Beschreibung des Datenangebots des DWD finden Sie in wetter.zip
im Learnweb. Dort gibt es auch eine Tabelle, in der die Namen und die geografische Lage der Wetterstationen zu den STATIONS_ID
s aufgelistet werden. Die Wetterstation am Flughafen Münster/Osnabrück hat die STATIONS_ID
1766.