Anhang D — Datensätze

In diesem Anhang finden Sie Informationen über einige Datensätze, die in diesem Kurs verwendet werden und die über die Learnweb-Seite des Kurses zum Herunterladen verfügbar sind. Manche dieser Datensätze werden weder in der Vorlesung noch in den Übungen benutzt. Sie können sie zum Ausprobieren und selbständigen Üben herunterladen. Alle Datensätze sind bereits bereinigt, Sie können direkt damit arbeiten. Bitte beachten Sie aber, dass die Datensätze wegen der Bereinigungen nur für diesen Kurs geeignet sind, Sie können keine wirklich verlässlichen Schlussfolgerungen aus ihnen ziehen. Für weitergehende Forschungsprojekte sollten Sie immer auf die Originalquellen zurückgreifen.

Da über das Learnweb nur Dateien bis zu maximal 100 MB bereitgestellt werden können, sind manche Dateien komprimiert. In diesen Fällen laden Sie bitte die komprimierten (zip) Dateien auf Ihren Rechner herunter und entpacken sie. Anschließend können Sie mit den ausgepackten csv-Dateien arbeiten.

D.1 SOEP

Das Sozio-ökonomische Panel SOEP ist ein Längsschnittdatensatz, der in der ökonomischen Forschung in Deutschland oft verwendet wird. Er enthält Angaben zu vielen Personen und Haushalten über einen Zeitraum von fast 40 Jahren. Aus Datenschutzgründen arbeiten wir in diesem Kurs jedoch nicht mit den richtigen Daten, sondern einem künstlichen kleineren Datensatz, der sich an das Format der Originaldaten anlehnt. Die Variablen nehmen jedoch nicht die in Wirklichkeit beobachteten Werte an. Der Datensatz ist in der Datei mocksoep.csv abgespeichert.

Die Variablen in dem Datensatz sind:

  • id Personen-ID
  • hid Haushalts-ID
  • year Jahr der Beobachtung
  • age Alter in Jahren
  • sex Geschlecht mit den beiden Ausprägungen “F” für “Frau” und “M” für “Mann”
  • npers Anzahl der Personen im Haushalt
  • educ Zahl der Schul- und Ausbildungsjahre
  • hours Anzahl an Arbeitsstunden (im Jahr)
  • empllev Beschäftigungsstatus mit den drei Ausprägungen “nicht” für “nicht beschäftigt”, “voll” für “Vollzeit” und “teil” für “Teilzeit”
  • region Bundesland (mit Zweibuchstaben-Abkürzungen für die 16 Länder)
  • pregov Bruttoeinkommen (im Jahr, in Euro)
  • postgov Nettoeinkommen (nach Steuern und Transfers, im Jahr, in Euro)
  • earn personenbezogenes Arbeitseinkommen (im Jahr, in Euro)
  • sport Häufigkeit sportlicher Betätigung (mit vier Ausprägungen von fast nie bis mindestens einmal pro Woche)
  • height Körpergröße in cm
  • weight Körpergewicht in kg
  • healthsat Zufriedenheit mit der Gesundheit auf einer Skala von 1 (miserabel) bis 10 (super)
  • ndoctor Zahl der Arztbesuche im letzten Quartal
  • lifesat allgemeine Lebenszufriedenheit auf einer Skala von 1 (miserabel) bis 10 (super)

Das Geschlecht sex, die Region region, der Beschäftigungsstatus empllev und die beiden IDs sind nominal skaliert, die Zufriedenheiten healthsat und lifesat sowie die Sporthäufigkeit sport sind ordinal skaliert.

D.2 Internet-Movie-Database

Der Original-Datensatz der Internet-Movie-Database ist sehr groß, nämlich verteilt auf mehrere Einzeldateien über 230 MB. Für diesen Kurs wurde der Datensatz ziemlich radikal vereinfacht und gekürzt. Er ist in der Datei imdb.csv gespeichert und hat nur noch folgende Variablen (und bei weitem nicht mehr alle Filme):

  • title_id eindeutige Kennung für jeden Film, mit dem weitere Daten aus anderen Datenbanken zugespielt werden könnten
  • title Filmtitel
  • year Jahr des Erscheinens
  • genre Genre (wurde im Vergleich zum Originaldatensatz deutlich vergröbert)
  • avgvote durchschnittliches Rating des Films
  • budget Budget in Mio. US-Dollars (es werden nur Filme berücksichtigt, deren Budget in US-Dollars angegeben war, im Originaldatensatz sind auch andere Filme enthalten)
  • grossinc Höhe des eingespielten Betrags (in Mio. US-Dollars)
  • users_rev Anzahl Reviews von Nutzern
  • critics_rev Anzahl Reviews von Kritikern

D.3 Gapminder

Gapminder ist eine unabhängige schwedische Stiftung, die u.a. umfangreiche verlässliche internationale Daten bereitstellt, um (nach eigenen Angaben) gegen bestürzend falsche Vorstellungen zu kämpfen und eine fakten-basierte Weltsicht zu fördern. Der Datenbestand ist sehr umfangreich, in der Datei gapmindersubset.csv ist nur eine sehr kleine Auswahl für einen verkürzten Zeitraum gespeichert, manche Beobachtungen mit fehlenden Werten wurden gelöscht. Die Variablen sind:

  • country Land (abgekürzt nach ISO)
  • year Jahr der Beobachtung
  • pop_XX_YY Population im Alter von XX Jahren bis YY Jahre
  • fertility Fertilitätsrate (Kinder pro Frau)
  • co2 jährliche CO2-Emissionen (in 1000 t)
  • gdp_pc Pro-Kopf-Bruttoinlandsprodukt (US-Dollar, inflationsbereinigt)

D.4 Eikon

Als Beispieldatensatz wurde von Eikon/Refinitiv die Zeitreihe der täglichen Werte des Baltic-Dry-Indexes heruntergeladen. Dieser Index steht für das Preisniveau des Massen-Transports von Gütern wie Getreide oder Kohle. Die Transportkosten schwanken sehr stark, wie man an diesem Datensatz sehen kann. Die Daten liegen vor für den Zeitraum vom 3.2.2014 bis zum 31.1.2024. Folgende Variablen sind enthalten:

  • JAHR, MONAT, TAG Spalten für Jahr, Monat und Tag der Beobachtung
  • LFDTAG Zähler für die Tage (1 ist der erste Tag, 2495 der letzte Tag)
  • BDI Wert des Indexes

D.5 Bloomberg

Dieser Datensatz wurde am Bloomberg-Terminal der Fakultät für die Vorlesung heruntergeladen. Er enthält 5-Minuten-Angaben zu Aktienkursen und Handelsaktivitäten der Aktien von Apple, Google, Samsung und Xiaomi. Da der Umgang mit Datums- und Zeitangaben nicht in der Vorlesung behandelt wird, sind einige zusätzliche Spalten generiert worden, die die Analyse der Zeitangaben erleichtern. Folgende Variablen sind in dem Datensatz vorhanden:

  • times der genaue Zeitpunkt im Format YYYY-MM-DD HH:MM:SS (also Jahr-Monat-Tag Stunde:Minuten:Sekunden); die Sekunden sind immer 0
  • open Kurs am Beginn des 5-Minuten-Intervalls
  • high höchster Kurs
  • low niedrigster Kurs
  • close Kurs am Ende des 5-Minuten-Intervalls
  • numEvents Anzahl der Transaktionen
  • volume Anzahl der gehandelten Aktien
  • value Wert der gehandelten Aktien
  • name Name der Aktiengesellschaft (APPLE, GOOGLE, SAMSUNG, XIAOMI)
  • year Jahr (immer 2022)
  • month Monat
  • day Tag
  • hour Stunde
  • minute Minute
  • daynr laufende Nummer des Tags (der 24.2.2022 ist Tag 1, Wochenenden und andere Tage ohne Handel werden mitgezählt)

D.6 Campus-Files

Das Forschungsdatenzentrum des Statistischen Bundesamts stellt einige (leider sehr alte) Datensätze für die Lehre zur Verfügung. Wir nutzen in diesem Kurs zwei dieser sogenannten Campus-Files.

  • Krankenhausdaten des Statistischen Bundesamts. Die Daten sind in der Datei cf_drg_2010.csv (225 MB) gespeichert. Die Datei ist mit dem zugehörigen Codebook cf_drg_2010.pdf (in dem die Variablen erklärt werden) zusammen in der komprimierten Datei cf_drg_2010.zip (37 MB) im Learnweb zu finden.

  • Einkommensteuerdaten des Statistischen Bundesamts. Die Daten sind in der Datei cf_est_2001.csv (31 MB) gespeichert. Das zugehörige Codebook ist cf_est_2001.pdf.

D.7 Fahrraddaten

Auf der Internetseite der Stadt Münster gibt es eine Verlinkung auf die stündlichen Daten der Fahrrad-Zählstellen in der Stadt für ein ganzes Jahr, unter anderem für das Neutor 2023. Die Daten sind in einer Excel-Tabelle gespeichert. Für diesen Kurs wurden die Daten teilweise aufbereitet. Insbesondere wurden die Angaben zum Wetter vergröbert, so dass es nicht mehr rund 35, sondern nur noch 8 unterschiedliche Ausprägungen gibt. Für die Zeit von 02:00 bis 03:00 am Sonntag, 26. März 2023 fehlen die Daten wegen der Umstellung auf die Sommerzeit. Für den Tag der Umstellung auf die Winterzeit gibt es trotz der eingefügten Extra-Stunde nur 24 Beobachtungen. Aus diesem Grund gibt es insgesamt 8759 Beobachtungen (365 Tage * 24 Stunden/Tag minus 1 Stunde).

Die Variablen in der Datei fahrrad2023.csv sind:

  • beob: Stunde des Jahres 2023. Die Stunde 2019 (am 26. März) fehlt.
  • jahr: alle Beobachtungen nehmen den Wert 2023 an.
  • monat: Monat des Jahres als Zahl (1-12).
  • tag: Tag des Monats als Zahl (1-31).
  • stunde: Stunde des Tags als Zahl (0-23).
  • tagimjahr: Tag des Jahres (1-365)
  • wtag: Wochentag als ordered factor (Montag, Dienstag, …,Sonntag).
  • rein: Fahrräder in Richtung Innenstadt.
  • raus: Fahrräder aus der Innenstadt heraus.
  • wetter: acht Ausprägungen, z.B. “Bewölkt” oder “Regen”.
  • temp: Temperatur in Grad Celsius.
  • humid: Luftfeuchtigkeit in Prozent
  • regen: Regen in mm (in der Stunde)
  • wind: Windgeschwindigkeit in km/h

D.8 Bigmac-Index

Der Datensatz wurde im Februar 2024 von der github-Seite des Economist kopiert und etwas gekürzt. Der Economist hat eine sehr einfache Methode vorgeschlagen, die Kaufkraft zwischen verschiedenen Ländern zu vergleichen. Üblicherweise wird die Kaufkraft verglichen, indem man den Preis eines Warenkorbs in dem einen Land mit dem Preis des gleichen Warenkorbs in einem anderen Land vergleicht, und zwar in einer der beiden Währungen, d.h. der Wechselkurs wird berücksichtigt. Der Economist vereinfacht die Vorgehensweise, indem der Preis nur eines einzigen Produkts verglichen wird, nämlich der Preis eines “Big-Mac” von McDonalds. Außerdem werden die Preise zum jeweils aktuellen Wechselkurs in US-Dollar umgerechnet und so über alle Länder und Währungen hinweg vergleichbar gemacht. Die Länder der Euro-Zone sind zusammenfasst. Die Datei bigmacindex.csv enthält folgende Variablen:

  • year Jahr der Beobachtung
  • name Land (ausgeschrieben)
  • iso3 Land (Kürzel)
  • cur Kürzel für die Währung (currency)
  • local lokaler Preis
  • exchr Wechselkurs, gemessen in lokale Währungseinheiten pro US-Dollar; Achtung, in Europa sind wir es gewohnt, dass der Dollarkurs in der Form “US-Dollar pro Euro” berichtet wird, das ist der Kehrwert des Wechselkurses in diesem Dataframe.
  • gdpusd Bruttoinlandsprodukt pro Kopf in US-Dollar.

D.9 Wetterdaten

Der Deutsche Wetterdienst (DWD) hat ein Open-Data-Angebot. Von dort wurden alle Daten aller Wetterstationen bis zum 4.3.2024 heruntergeladen und anschließend gekürzt. Der Originaldatensatz ist erheblich größer, es gibt Angaben von über 1200 Stationen, die aber nicht alle durchgängig Daten lieferten. Für einige (wenige) Stationen reichen die Beobachtungen sogar bis ins 18. Jahrhundert zurück. Die Datei wetter.csv enthält für 97 Wetterstationen, die vom 1. Januar 1960 bis zum 4. März 2024 jeden Tag Daten lieferten, folgende Variablen:

  • STATIONS_ID Stationsnummer
  • MESS_DATUM Tag der Messung im Format JJJJMMTT als Integer
  • FX Tagesmaximum Windgeschwindigkeit in m/s
  • FM Mittlere Windgeschwindigkeit in m/s
  • RSK tägliche Niederschlagshöhe in mm
  • SDK tägliche Sonnenscheindauer in Std.
  • PM Mittlerer Luftdruck in hPa
  • UPM Tagesmittel der relativen Feuchte in Prozent
  • TMK Tagesmittel der Temperatur (in Grad Celsius)
  • TXK Tagesmaximum der Lufttemperatur in 2m Höhe
  • TNK Tagesminimum der Lufttemperatur in 2m Höhe
  • TGK Tagesminimum der Lufttemperatur in 5cm Höhe
  • JAHR Jahr der Messung
  • MONAT Monat der Messung
  • TAG Tag des Monats
  • LFDTAG laufende Nummer des Tags (der 1.1.1960 ist Tag 1, der 4.3.2024 ist Tag 23440)

Nicht an jedem Tag sind alle Variablen an allen Stationen vorhanden. Fehlende Werte sind als NA gekennzeichnet. Eine genaue Beschreibung des Datenangebots des DWD finden Sie in wetter.zip im Learnweb. Dort gibt es auch eine Tabelle, in der die Namen und die geografische Lage der Wetterstationen zu den STATIONS_IDs aufgelistet werden. Die Wetterstation am Flughafen Münster/Osnabrück hat die STATIONS_ID 1766.