Statistik 1

Wirtschaftswissenschaften sind empirische Wissenschaften. Es geht immer um die reale Welt. Damit wir etwas über die reale Welt lernen können, brauchen wir Daten. In dem Modul Statistik 1 lernen Sie, wie man mit Daten arbeitet. Die Kenntnisse aus diesem Modul werden für Sie sowohl im Laufe Ihres Studiums als auch darüber hinaus wertvoll sein. Das gilt nicht nur für Tätigkeiten in der Wissenschaft, sondern auch in der Praxis.

Statistik – oder wie man heute meistens sagt: Data Science – ist ohne den Einsatz von Computern nicht möglich. Sie werden lernen, wie man mit Hilfe von Computersoftware die Daten vorbereitet, auswertet und schließlich die Ergebnisse präsentiert. In Kapitel 1 wird erklärt, wie die Computersoftware R und RStudio installiert wird, die wir in diesem Kurs verwenden, und wie die Grundlagen der Arbeit mit ihr aussehen.

Data Science ist aber auch ohne ein fundiertes theoretisches Verständnis nicht sinnvoll. Die Abstraktion von konkreten Anwendungen ist nötig, damit man den “Kern” der Methoden herausdestilliert und verstehen kann, was eigentlich bei der Datenanalyse passiert. Dieses abstrakte Wissen ist besonders wertvoll, weil es (im Gegensatz z.B. zu Software) nicht veraltet. Sie können es immer wieder in neuen Situationen auf neue Probleme anwenden. Für die von konkreten Anwendungen abstrahierte Behandlung der Datenanalyse braucht man ein gemeinsames Vokabular und ein wenig Mathematik. Beides werden Sie im Laufe dieses Kurses lernen.

Die Arbeit mit Daten lässt sich in drei Phasen gliedern: Vorbereitung, Auswertung und Kommunikation.

Vorbereitungsphase

In Kapitel 2 lernen Sie, wie man allgemein und präzise über Daten sprechen kann. Das erlaubt es, von speziellen Einzelfällen zu abstrahieren. Selbst wenn Sie später mit neuer, anderer Software und neuer Technik zu tun haben, kann dieses strukturierte Wissen nahezu unverändert auf neue Situationen übertragen werden und bleibt daher langfristig wertvoll. Kapitel 3 behandelt den Datenimport in R. Ferner geht es darum, welche wichtigen Datenquellen es für die Wirtschaftswissenschaften gibt. In Kapitel 4 behandeln Fragen der Datenbereinigung, -organisation und -transformation. Der Inhalt der Kapitel 3 und 4 ist ausgerichtet an den speziellen Erfordernissen von R und lässt sich nicht ohne weiteres auf andere Programme übertragen. Trotzdem vermitteln diese Kapitel ein wertvolles Grundverständnis für die praktische Arbeit mit Daten.

Auswertungsphase

Die Auswertungsphase bildet den Schwerpunkt dieses Kurses. Zuerst werden Methoden für univariaten Daten behandelt (Kapitel 5 bis 11), anschließend Methoden für multivariate Daten (Kapitel 12 bis 15).

Kapitel 5 ist der Einstieg in die Visualisierung von Daten. Die “Philosophie” der eingesetzte Software (grammar of graphics) zwingt uns gründlich darüber nachzudenken, was Visualisierung eigentlich bedeutet und was genau man wie zeigen möchte. Die Frage, wie Daten grafisch dargestellt werden können, wird nicht nur in diesem Kapitel behandelt, sie zieht sich auch durch fast alle weiteren Kapitel.

In den Kapiteln 6, 7 und 8 geht es um Kennzahlen für univariate Daten, und zwar konkret um Häufigkeiten, Lagemaße und Streuungsmaße. Diese Kennzahlen helfen dabei, die Informationen zu verdichten, die in einem Datensatz stecken. Diese Methoden sind zeitlos, sie hängen nicht davon ab, welche Daten und welche Software Sie benutzen.

Kapitel 9 beschäftigt sich mit der Frage, wie man mit Gruppen von Beobachtungen umgeht und welche überraschenden Probleme dabei auftreten können. Ein gutes Verständnis dieser Phänomene ist wichtig, um nicht über Fallstricke bei der Datenanalyse zu stolpern.

In Kapitel 10 wird die empirische Verteilungsfunktion eingeführt, mit der sich beliebige Verteilungen sauber charakterisieren lassen. Kapitel 11 behandelt Quantile, die sehr eng mit der Verteilungsfunktion zusammenhängen. In diesen beiden Kapiteln werden auch weitere grafische Darstellungstechniken wie z.B. Boxplots vorgestellt.

In den Kapiteln 12 bis 15 geht es um multivariate Daten. Die Grundlagen werden in Kapitel 12 gelegt. Kapitel 13 zeigt, was bedingte Verteilungen sind und wie man sie nutzt. Kapitel 14 behandelt Zusammenhangsmaße und in Kapitel 15 wird die einfache lineare Regression vorgestellt, eine bewährte statistische Technik, die in allen empirischen Wissenschaften eine wichtige Rolle spielt.

In allen Kapiteln wird ausführlich an Beispielen gezeigt, wie die Methoden in R umgesetzt werden. Dieses Wissen ist natürlich teilweise speziell auf die Software R zugeschnitten. Das Wissen über die statistischen Methoden zur Beschreibung von Daten ist jedoch unabhängig von der Datenanalyse-Software, die zum Einsatz kommt. Es wird also nicht mit dem nächsten technologischen Fortschritt veralten, sondern kann leicht auch mit neuen Handwerkzeugen genutzt werden.

Kommunikationsphase

Mit R und RStudio kann man schnell, einfach und effizient übersichtliche Reports über die Datenauswertung schreiben oder Präsentationen vorbereiten. Die Kommunikationsphase gehört zwar ans Ende der Datenanalyse, aber wir werden dieses Kapitel nicht erst am Ende des Kurses behandeln, sondern sobald Sie in den Übungen mit eigenen Analysen starten. Tipps und Tricks dazu finden Sie im Anhang B.

Im Laufe dieses Kurses kehren wir von Zeit zu Zeit an den Anfang zurück und gehen auf Fragen der Datenqualität ein. Wichtige Fragen zur Datenqualität werden im Anhang A diskutiert. Eigentlich gehört dieses Thema in die Vorbereitungsphase. Warum wird es trotzdem in einem Anhang behandelt? Der Grund ist einfach, dass für die Beurteilung der Datenqualität und für den Umgang mit nicht perfekten Daten auch Methoden der Auswertungsphase gebraucht werden. Es handelt sich also um ein Querschnittsthema.

Es gibt noch weitere Anhänge. Im Anhang B wird beschrieben, wie man mit RStudio Notebooks (Daten-Reports) erstellt. Da häufig auch mathematische Ausdrücke und Formeln in den Text integriert werden sollen, erfahren Sie in diesem Anhang auch, wie man Formeln in die Reports einbaut. Im Anhang C geht es um das Summenzeichen und die Rechenregeln für das Summenzeichen. Anhang D listet die Datensätze auf, die in diesem eBook für die Beispiele und Illustrationen benutzt werden. Diese und weitere Datensätze (bzw. Links auf die Datensätze) findet man auf der Learnweb-Seite der Vorlesung. Der letzte Anhang E ist eine Auflistung von weiteren Lehrbüchern zu Data Science und deskriptiver Statistik - sowohl in deutscher als auch in englischer Sprache.

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.