Data Science 1

Deskription von Daten

Autor

Mark Trede

Veröffentlicht am

17.6.2024

Einleitung

Wirtschaftswissenschaften sind empirische Wissenschaften. Es geht immer um die reale Welt. Damit wir etwas über die reale Welt lernen können, brauchen wir Daten. Im Modul Data Science 1 lernen Sie, wie man mit Daten arbeitet. Die Kenntnisse aus diesem Modul werden für Sie sowohl im Laufe Ihres Studiums als auch darüber hinaus wertvoll sein. Das gilt nicht nur für Tätigkeiten in der Wissenschaft, sondern auch in der Praxis.

Natürlich ist Data Science ohne den Einsatz von Computern nicht möglich. Sie werden in diesem Modul lernen, wie man mit Hilfe von Computersoftware die Daten vorbereitet, auswertet und schließlich die Ergebnisse präsentiert. In 1  R und RStudio wird erklärt, wie die Computersoftware R und RStudio installiert wird, die wir in diesem Kurs verwenden, und wie die Grundlagen der Arbeit mit ihr aussehen.

Data Science ist aber auch ohne ein fundiertes theoretisches Verständnis nicht sinnvoll. Die Abstraktion von konkreten Anwendungen ist nötig, damit man den “Kern” der Methoden herausdestilliert und verstehen kann, was eigentlich bei der Datenanalyse passiert. Dieses abstrakte Wissen ist besonders wertvoll, weil es (im Gegensatz z.B. zu Software-Kenntnissen) nicht veraltet. Sie können es immer wieder in neuen Situationen auf neue Probleme anwenden. Für die von konkreten Anwendungen abstrahierte Behandlung der Datenanalyse braucht man ein geeignetes Vokabular und ein wenig Mathematik. Beides werden Sie im Laufe dieses Kurses lernen.

Die Arbeit mit Daten lässt sich in drei Phasen gliedern: Vorbereitung, Auswertung und Kommunikation.

Vorbereitungsphase

In 2  Daten lernen Sie, wie man allgemein und präzise über Daten sprechen kann. Das erlaubt es, von speziellen Einzelfällen zu abstrahieren. Selbst wenn Sie später mit neuer, anderer Software und neuer Technik zu tun haben, kann dieses strukturierte Wissen nahezu unverändert auf neue Situationen übertragen werden und bleibt daher langfristig wertvoll. 3  Daten importieren behandelt den Datenimport in R. Ferner geht es darum, welche wichtigen Datenquellen es für die Wirtschaftswissenschaften gibt. In 4  Das tidyverse-Paket behandeln wir Fragen der Datenbereinigung, -organisation und -transformation. Der Inhalt von 3  Daten importieren und 4  Das tidyverse-Paket ist ausgerichtet an den speziellen Erfordernissen von R und lässt sich nicht ohne weiteres auf andere Programme übertragen. Trotzdem vermitteln diese Kapitel ein wertvolles Grundverständnis für die praktische Arbeit mit Daten.

Auswertungsphase

Die Auswertungsphase bildet den Schwerpunkt dieses Kurses. Zuerst werden Methoden für univariate Daten behandelt (5  Visualisierungen bis 11  Quantile), anschließend Methoden für multivariate Daten (12  Mehrdimensionale Häufigkeiten bis 15  Lineare Regression).

5  Visualisierungen ist der Einstieg in die Visualisierung von Daten. Die “Philosophie” der eingesetzten Software (grammar of graphics) zwingt uns gründlich darüber nachzudenken, was Visualisierung eigentlich bedeutet und was genau man wie zeigen möchte. Die Frage, wie Daten grafisch dargestellt werden können, wird nicht nur in diesem Kapitel behandelt, sie zieht sich auch durch fast alle weiteren Kapitel.

In 6  Häufigkeiten, 7  Lagemaße und 8  Streuungsmaße geht es um Kennzahlen für univariate Daten, und zwar konkret um Häufigkeiten, Lagemaße und Streuungsmaße. Diese Kennzahlen helfen dabei, die Informationen zu verdichten, die in einem Datensatz stecken. Diese Methoden sind zeitlos, sie hängen nicht davon ab, welche Daten und welche Software Sie benutzen.

9  Additionssätze beschäftigt sich mit der Frage, wie man mit Gruppen von Beobachtungen umgeht und welche überraschenden Probleme dabei auftreten können. Ein gutes Verständnis dieser Phänomene ist wichtig, um nicht über Fallstricke bei der Datenanalyse zu stolpern. Außerdem lernen Sie in diesem Kapitel, wie man mit gewichteten Daten umgeht, denn das kommt in der praktischen empirischen Arbeit sehr häufig vor.

In 10  Verteilungsfunktion wird die empirische Verteilungsfunktion eingeführt, mit der sich beliebige Verteilungen sauber charakterisieren lassen. 11  Quantile behandelt Quantile, die sehr eng mit der Verteilungsfunktion zusammenhängen. In diesen beiden Kapiteln werden auch weitere grafische Darstellungstechniken wie z.B. Boxplots vorgestellt.

In 12  Mehrdimensionale Häufigkeiten bis 15  Lineare Regression geht es um multivariate Daten. Die Grundlagen werden in 12  Mehrdimensionale Häufigkeiten gelegt. 13  Bedingte Verteilungen zeigt, was bedingte Verteilungen sind und wie man sie nutzt. 14  Zusammenhangsmaße behandelt Zusammenhangsmaße und in 15  Lineare Regression wird die lineare Regression vorgestellt, eine bewährte statistische Technik, die in allen empirischen Wissenschaften eine wichtige Rolle spielt.

In allen Kapiteln wird ausführlich an Beispielen gezeigt, wie die Methoden in R umgesetzt werden. Dieses Wissen ist natürlich teilweise speziell auf die Software R zugeschnitten. Das Wissen über die statistischen Methoden zur Beschreibung von Daten ist jedoch unabhängig von der Datenanalyse-Software, die zum Einsatz kommt. Es wird also nicht mit dem nächsten technologischen Fortschritt veralten, sondern kann leicht auch mit neuen Handwerkzeugen genutzt werden.

Kommunikationsphase

Mit R und RStudio kann man schnell, einfach und effizient übersichtliche Reports über die Datenauswertung schreiben oder Präsentationen vorbereiten. Die Kommunikationsphase gehört zwar ans Ende der Datenanalyse, aber wir werden dieses Kapitel nicht erst am Ende des Kurses behandeln, sondern sobald Sie in den Übungen mit eigenen Analysen starten. Tipps und Tricks dazu finden Sie im Anhang B — Kommunikation.

Im Laufe dieses Kurses wenden wir uns immer wieder dem Problem der Datenqualität zu. Wichtige Fragen zur Datenqualität werden im Anhang A — Datenqualität diskutiert. Eigentlich gehört dieses Thema in die Vorbereitungsphase. Warum wird es trotzdem in einem Anhang behandelt? Der Grund ist einfach, dass für die Beurteilung der Datenqualität und für den Umgang mit nicht perfekten Daten auch Methoden der Auswertungsphase gebraucht werden. Es handelt sich also um ein Querschnittsthema.

Es gibt noch weitere Anhänge. Im Anhang B — Kommunikation wird beschrieben, wie man mit RStudio Quarto-Reports erstellt. Da häufig auch mathematische Ausdrücke und Formeln in den Text integriert werden sollen, erfahren Sie in diesem Anhang auch, wie man ansprechend formatierte Formeln in die Reports einbaut. Im Anhang C — Summenzeichen geht es um das Summenzeichen und die Rechenregeln für das Summenzeichen. Anhang D — Datensätze listet die Datensätze auf, die in diesem eLehrbuch für die Beispiele und Illustrationen benutzt werden. Diese und weitere Datensätze (bzw. Links auf die Datensätze) finden Sie auf der Learnweb-Seite der Vorlesung. Der letzte Anhang E — Literatur ist eine Auflistung von weiteren Lehrbüchern zu Data Science und deskriptiver Statistik - sowohl in deutscher als auch in englischer Sprache.

Creative Commons License
Dieses Lehrbuch unterliegt der Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.