Anhang D — Datensätze
In diesem Anhang finden Sie Informationen über einige Datensätze, die in diesem Kurs verwendet werden und die über die Learnweb-Seite des Kurses zum Herunterladen verfügbar sind. Manche dieser Datensätze werden weder in der Vorlesung noch in den Übungen benutzt. Sie können sie zum Ausprobieren und selbständigen Üben herunterladen. Alle Datensätze sind bereits bereinigt, Sie können direkt damit arbeiten. Bitte beachten Sie aber, dass die Datensätze wegen der Bereinigungen nur für diesen Kurs geeignet sind, Sie können keine wirklich verlässlichen Schlussfolgerungen aus ihnen ziehen. Für weitergehende Forschungsprojekte sollten Sie immer auf die Originalquellen zurückgreifen.
Da über das Learnweb nur Dateien bis zu maximal 100 MB bereitgestellt werden können, sind manche Dateien komprimiert. In diesen Fällen laden Sie bitte die komprimierten (zip) Dateien auf Ihren Rechner herunter und entpacken sie. Anschließend können Sie mit den ausgepackten csv-Dateien arbeiten.
D.1 SOEP
Das Sozio-ökonomische Panel SOEP ist ein Längsschnittdatensatz, der in der ökonomischen Forschung in Deutschland oft verwendet wird. Er enthält Angaben zu vielen Personen und Haushalten über einen Zeitraum von fast 40 Jahren. Aus Datenschutzgründen arbeiten wir in diesem Kurs jedoch nicht mit den richtigen Daten, sondern einem künstlichen kleineren Datensatz, der sich an das Format der Originaldaten anlehnt. Die Variablen nehmen jedoch nicht die in Wirklichkeit beobachteten Werte an. Der Datensatz ist in der Datei mocksoep.csv abgespeichert.
Die Variablen in dem Datensatz sind:
idPersonen-IDhidHaushalts-IDyearJahr der BeobachtungageAlter in JahrensexGeschlecht mit den beiden Ausprägungen “F” für “Frau” und “M” für “Mann”npersAnzahl der Personen im HaushalteducZahl der Schul- und AusbildungsjahrehoursAnzahl an Arbeitsstunden (im Jahr)empllevBeschäftigungsstatus mit den drei Ausprägungen “nicht” für “nicht beschäftigt”, “voll” für “Vollzeit” und “teil” für “Teilzeit”regionBundesland (mit Zweibuchstaben-Abkürzungen für die 16 Länder)pregovBruttoeinkommen (im Jahr, in Euro)postgovNettoeinkommen (nach Steuern und Transfers, im Jahr, in Euro)earnpersonenbezogenes Arbeitseinkommen (im Jahr, in Euro)sportHäufigkeit sportlicher Betätigung (mit vier Ausprägungen von fast nie bis mindestens einmal pro Woche)heightKörpergröße in cmweightKörpergewicht in kghealthsatZufriedenheit mit der Gesundheit auf einer Skala von 1 (miserabel) bis 10 (super)ndoctorZahl der Arztbesuche im letzten Quartallifesatallgemeine Lebenszufriedenheit auf einer Skala von 1 (miserabel) bis 10 (super)
Das Geschlecht sex, die Region region, der Beschäftigungsstatus empllev und die beiden IDs sind nominal skaliert, die Zufriedenheiten healthsat und lifesat sowie die Sporthäufigkeit sport sind ordinal skaliert.
D.2 The Movie-Database
Der Original-Datensatz der Movie-Database ist recht groß. Man findet ihn auf der Data-Science-Plattform kaggle und dem Link The Movies Dataset. Für diesen Kurs wurde der Datensatz radikal vereinfacht und gekürzt. Er ist in der Datei tmdb.csv gespeichert und hat nur noch folgende Variablen (und bei weitem nicht mehr alle Filme):
titleFilmtitelgenreGenre (im Vergleich zum Originaldatensatz deutlich vergröbert)yearJahr des ErscheinensbudgetBudget in Mio. US-DollarsrevenueHöhe des eingespielten Betrags (in Mio. US-Dollars)durationFilmdauer in Minutenavgvotedurchschnittliches Rating des Films
D.3 Weltbank
Der Datensatz der Weltbank wurde mit der API des R-Pakets wbstats heruntergeladen. Für alle verfügbaren Ländern über den jeweils maximal abgedeckten Zeitraum wurden folgende Variablen ausgelesen:
SP.POP.TOTL: EinwohnerzahlNY.GDP.PCAP.PP.CD: Diese Variable gibt die Höhe des Bruttoinlandsprodukts pro Einwohner in einem Jahr an. Gemessen wird das Bruttoinlandsprodukt in “kaufkraftbereinigten internationalen US-Dollars”. Die Kaufkraft eines internationalen Dollars ist genauso hoch wie die eines US-Dollars in den USA (im Jahr 2021).EN.GHG.CO2.MT.CE.AR5: Diese Variable gibt an, wie hoch der jährliche Ausstoß an CO2 (in Megatonnen) aus den Bereichen Landwirtschaft, Energie, Abfall und Industrie. Nicht betrachtet wird der Effekt von Änderungen der Landnutzung (z.B. Aufforstungen).SP.DYN.LE00.FE.IN: Durchschnittliche Lebenserwartung einer weiblichen Person, die im Betrachtungsjahr geboren wird, unter der Annahme, dass die Sterblichkeitsraten sich in Zukunft nicht verändern.SP.DYN.LE00.MA.IN: Durchschnittliche Lebenserwartung einer männlichen Person, die im Betrachtungsjahr geboren wird, unter der Annahme, dass die Sterblichkeitsraten sich in Zukunft nicht verändern.
Beobachtungen, bei denen die Angabe zum CO2-Ausstoß oder zum Pro-Kopf-Inlandsprodukt fehlen, wurden aus dem Datensatz gelöscht.
D.4 Eikon
Als Beispieldatensatz wurde von Eikon/Refinitiv die Zeitreihe der täglichen Werte des Baltic-Dry-Indexes heruntergeladen. Dieser Index steht für das Preisniveau des Massen-Transports von Gütern wie Getreide oder Kohle. Die Transportkosten schwanken sehr stark, wie man an diesem Datensatz sehen kann. Die Daten liegen vor für den Zeitraum vom 3.2.2014 bis zum 31.1.2024. Folgende Variablen sind enthalten:
JAHR,MONAT,TAGSpalten für Jahr, Monat und Tag der BeobachtungLFDTAGZähler für die Tage (1 ist der erste Tag, 2495 der letzte Tag)BDIWert des Indexes
D.5 Bloomberg
Dieser Datensatz wurde am Bloomberg-Terminal der Fakultät für die Vorlesung heruntergeladen. Er enthält 5-Minuten-Angaben zu Aktienkursen und Handelsaktivitäten der Aktien von Apple, Google, Samsung und Xiaomi. Da der Umgang mit Datums- und Zeitangaben nicht in der Vorlesung behandelt wird, sind einige zusätzliche Spalten generiert worden, die die Analyse der Zeitangaben erleichtern. Folgende Variablen sind in dem Datensatz vorhanden:
timesder genaue Zeitpunkt im Format YYYY-MM-DD HH:MM:SS (also Jahr-Monat-Tag Stunde:Minuten:Sekunden); die Sekunden sind immer 0openKurs am Beginn des 5-Minuten-Intervallshighhöchster Kurslowniedrigster KurscloseKurs am Ende des 5-Minuten-IntervallsnumEventsAnzahl der TransaktionenvolumeAnzahl der gehandelten AktienvalueWert der gehandelten AktiennameName der Aktiengesellschaft (APPLE, GOOGLE, SAMSUNG, XIAOMI)yearJahr (immer 2022)monthMonatdayTaghourStundeminuteMinutedaynrlaufende Nummer des Tags (der 24.2.2022 ist Tag 1, Wochenenden und andere Tage ohne Handel werden mitgezählt)
D.6 Campus-Files
Das Forschungsdatenzentrum des Statistischen Bundesamts stellt einige (leider sehr alte) Datensätze für die Lehre zur Verfügung. Wir nutzen in diesem Kurs zwei dieser sogenannten Campus-Files.
Krankenhausdaten des Statistischen Bundesamts. Die Daten sind in der Datei
cf_drg_2010.csv(225 MB) gespeichert. Die Datei ist mit dem zugehörigen Codebookcf_drg_2010.pdf(in dem die Variablen erklärt werden) zusammen in der komprimierten Dateicf_drg_2010.zip(37 MB) im Learnweb zu finden.Einkommensteuerdaten des Statistischen Bundesamts. Die Daten sind in der Datei
cf_est_2001.csv(31 MB) gespeichert. Das zugehörige Codebook istcf_est_2001.pdf.
D.7 Fahrraddaten
Auf der Internetseite der Stadt Münster gibt es eine Verlinkung auf die stündlichen Daten der Fahrrad-Zählstellen in der Stadt für ein ganzes Jahr, unter anderem für das Neutor 2023. Die Daten sind in einer Excel-Tabelle gespeichert. Für diesen Kurs wurden die Daten teilweise aufbereitet. Insbesondere wurden die Angaben zum Wetter vergröbert, so dass es nicht mehr rund 35, sondern nur noch 8 unterschiedliche Ausprägungen gibt. Für die Zeit von 02:00 bis 03:00 am Sonntag, 26. März 2023 fehlen die Daten wegen der Umstellung auf die Sommerzeit. Für den Tag der Umstellung auf die Winterzeit gibt es trotz der eingefügten Extra-Stunde nur 24 Beobachtungen. Aus diesem Grund gibt es insgesamt 8759 Beobachtungen (365 Tage * 24 Stunden/Tag minus 1 Stunde).
Die Variablen in der Datei fahrrad2023.csv sind:
beob: Stunde des Jahres 2023. Die Stunde 2019 (am 26. März) fehlt.jahr: alle Beobachtungen nehmen den Wert 2023 an.monat: Monat des Jahres als Zahl (1-12).tag: Tag des Monats als Zahl (1-31).stunde: Stunde des Tags als Zahl (0-23).tagimjahr: Tag des Jahres (1-365)wtag: Wochentag als ordered factor (Montag, Dienstag, …,Sonntag).rein: Fahrräder in Richtung Innenstadt.raus: Fahrräder aus der Innenstadt heraus.wetter: acht Ausprägungen, z.B. “Bewölkt” oder “Regen”.temp: Temperatur in Grad Celsius.humid: Luftfeuchtigkeit in Prozentregen: Regen in mm (in der Stunde)wind: Windgeschwindigkeit in km/h
D.8 Bigmac-Index
Der Datensatz wurde im Januar 2025 von der github-Seite des Economist kopiert und etwas gekürzt. Der Economist hat eine sehr einfache Methode vorgeschlagen, die Kaufkraft zwischen verschiedenen Ländern zu vergleichen. Üblicherweise wird die Kaufkraft verglichen, indem man den Preis eines Warenkorbs in dem einen Land mit dem Preis des gleichen Warenkorbs in einem anderen Land vergleicht, und zwar in einer der beiden Währungen, d.h. der Wechselkurs wird berücksichtigt. Der Economist vereinfacht die Vorgehensweise, indem der Preis nur eines einzigen Produkts verglichen wird, nämlich der Preis eines “Big-Mac” von McDonalds. Außerdem werden die Preise zum jeweils aktuellen Wechselkurs in US-Dollar umgerechnet und so über alle Länder und Währungen hinweg vergleichbar gemacht. Die Länder der Euro-Zone sind zusammenfasst. Die Datei bigmacindex.csv enthält folgende Variablen:
yearJahr der BeobachtungnameLand (ausgeschrieben)iso3Land (Kürzel)curKürzel für die Währung (currency)locallokaler PreisexchrWechselkurs, gemessen in lokale Währungseinheiten pro US-Dollar; Achtung, in Europa sind wir es gewohnt, dass der Dollarkurs in der Form “US-Dollar pro Euro” berichtet wird, das ist der Kehrwert des Wechselkurses in diesem Dataframe.gdpusdBruttoinlandsprodukt pro Kopf in US-Dollar.
D.9 Wetterdaten
Der Deutsche Wetterdienst (DWD) hat ein Open-Data-Angebot. Von dort wurden alle Daten aller Wetterstationen bis zum 16.1.2025 heruntergeladen und anschließend gekürzt. Der Originaldatensatz ist erheblich größer, es gibt Angaben von über 1200 Stationen, die aber nicht alle durchgängig Daten lieferten. Für einige (wenige) Stationen reichen die Beobachtungen sogar bis ins 18. Jahrhundert zurück. Die Datei wetter.csv enthält für 96 Wetterstationen, die vom 1. Januar 1960 bis zum 16. Januar 2025 jeden Tag Daten lieferten, folgende Variablen:
STATIONS_IDStationsnummerMESS_DATUMTag der Messung im Format JJJJMMTT als IntegerFXTagesmaximum Windgeschwindigkeit in m/sFMMittlere Windgeschwindigkeit in m/sRSKtägliche Niederschlagshöhe in mmSDKtägliche Sonnenscheindauer in Std.SHK_TAGTagesschneehöhe in cmPMMittlerer Luftdruck in hPaUPMTagesmittel der relativen Feuchte in ProzentTMKTagesmittel der Temperatur (in Grad Celsius)TXKTagesmaximum der Lufttemperatur in 2m HöheTNKTagesminimum der Lufttemperatur in 2m HöheTGKTagesminimum der Lufttemperatur in 5cm HöheJAHRJahr der MessungMONATMonat der MessungTAGTag des MonatsLFDTAGlaufende Nummer des Tags (der 1.1.1960 ist Tag 1, der 16.1.2025 ist Tag 23758)
Nicht an jedem Tag sind alle Variablen an allen Stationen vorhanden. Fehlende Werte sind als NA gekennzeichnet. Eine genaue Beschreibung des Datenangebots des DWD finden Sie in wetter.zip im Learnweb. Dort gibt es auch eine Tabelle, in der die Namen und die geografische Lage der Wetterstationen zu den STATIONS_IDs aufgelistet werden. Die Wetterstation Düsseldorf hat die STATIONS_ID 1078. Leider gibt es in Münster und Umgebung keine Station, die über den Betrachtungszeitraum hinweg Daten liefert.