Data Science 2

Statistische Inferenz

Autor

Mark Trede

Veröffentlicht am

2.2.2024

Einleitung

In den Wirtschaftswissenschaften spielen Zufall und Unsicherheit eine wichtige Rolle. Zum einen, weil die ökonomische Theorie deskriptive und normative Aussagen darüber macht, wie ökonomische Akteure sich unter Unsicherheit verhalten und wie sie sich rational verhalten sollten. Zum anderen, weil ökonomische Modelle mit Hilfe von statistischen Verfahren an die Realität angepasst werden sollen oder ökonomische Theorien anhand von emprischen Beobachtungen überprüft werden sollen. In dem Modul Data Science 2 lernen Sie, wie man mit Zufall und Unsicherheit umgeht.

Das Modul lässt sich in zwei große Teile gliedern, nämlich die Grundlagen der Wahrscheinlichkeitstheorie und die statistische Inferenz.

Wahrscheinlichkeitstheorie

Warum braucht man in den Wirtschaftswissenschaften Wahrscheinlichkeitstheorie? Es gibt zwei Gründe: Zum einen taucht die Wahrscheinlichkeitstheorie in der ökonomischen Theorie auf, wenn es um das Verhalten von ökonomischen Agenten unter Unsicherheit geht. Die Wahrscheinlichkeitstheorie ist also hier weniger ein Zweig der Mathematik, sondern dient zur Beschreibung des Verhaltens von Menschen unter Unsicherheit. In Kapitel 1 wird ein formaler Rahmen eingeführt, in dem man präzise mit Unsicherheit umgehen kann. Unsicherheit bedeutet, dass man nicht genau und sicher weiß, was passieren wird. Praktisch befinden wir uns also in der Realität so gut wie immer in einer Situation unter Unsicherheit. In Kapitel 2 lernen Sie, was man unter Wahrscheinlichkeit versteht. Aufbauend auf den ersten beiden Kapiteln wird anschließend in Kapitel 3 definiert, was Zufallsvariablen sind. Mit ihnen lassen sich in vielen Situationen Zufallsvorgänge sehr einfach erfassen. In Kapitel 4 lernen Sie eine Reihe von Standardverteilungen kennen. Bei vielen wissenschaftlichen Fragen geht es darum, wie mehrere Größen miteinander zusammenhängen. Auch dafür braucht man einen sauberen formalen Rahmen. Er wird in Kapitel 5 und Kapitel 6 vorgestellt.

Wahrscheinlichkeitstheorie ist noch aus einem zweiten, technischen Grund wichtig in der Ökonomik: Die Wahrscheinlichkeitstheorie bildet das formale Fundament für die statistische Inferenz, also die Kunst, Rückschlüsse von einer Stichprobe auf die Population zu ziehen. Der Übergang zur statistischen Inferenz wird in Kapitel 7 vorbereitet. Dort lernen Sie das Gesetz der großen Zahl und den zentralen Grenzwertsatz kennen.

Statistische Inferenz

Bei der statistischen Inferenz schließt man von einer Stichprobe auf die Population. Man spricht daher auch von “schließender Statistik”. Es geht letztlich um die Frage “Was können uns die Daten eigentlich sagen?” Sind die Ergebnisse, die wir ausrechnen, wirklich zuverlässig? Wie groß ist die mögliche Fehlerspanne unserer Resultate? Wie können wir Theorien oder Hypothesen empirisch überprüfen, wenn uns keine perfekten Daten vorliegen? In Kapitel 8 lernen Sie, was man in der Wissenschaft unter einer Stichprobe versteht. In den nachfolgenden Kapiteln wird dann gezeigt, wie man Stichproben nutzen kann. In Kapitel 9 und Kapitel 10 geht es um Punktschätzungen und Konfidenzintervalle. In Kapitel 11 wird ausführlich erklärt, was statistische Hypothesentests sind, welche “Philosophie” ihnen zugrunde liegt und wie man sie durchführt. In Kapitel 12 wird gezeigt, wie man Hypothesen über Erwartungswerte testet, in Kapitel 13 geht es um weitere Arten von Hypothesentests. Am Ende des Semesters wird in Kapitel 14 ein sehr allgemeiner computer-gestützter Testansatz vorgestellt, die sogenannte Bootstrap-Methode.

In diesem Kurs bauen alle späteren Kapitel auf früheren Kapiteln auf. Die statistische Inferenz in Form von Hypothesentests, Konfidenzintervallen und Punktschätzungen (Kapitel 9 bis Kapitel 14) ist nur dann wirklich verständlich, wenn man vorher das Konzept einer Stichprobe (Kapitel 8) verinnerlicht hat und die beiden grundlegenden Arten von Grenzwertsätzen kennt (Kapitel 7). Dafür ist eine Voraussetzung der Umgang mit gemeinsamen Verteilungen (Kapitel 5 und Kapitel 6). Zuvor muss man jedoch wissen, wie man mit univariaten Zufallsvariablen umgeht (Kapitel 3 und Kapitel 4). Um zu verstehen, was eine Zufallsvariable eigentlich ist, braucht man grundlegende Kenntnisse der Wahrscheinlichkeitstheorie (Kapitel 1 und Kapitel 2).

Der Name dieses Moduls “Data Science 2” lässt vermuten, dass dieses Modul auf dem Modul “Data Science 1” aufbaut. Diese Vermutung ist aber falsch. Beide Module sind inhaltlich in sich abgeschlossen und können unabhängig voneinander belegt werden. Wenn Sie “Data Science 1” bereits gehört haben, werden Sie jedoch feststellen, dass viele Begriffe, die Sie dort gelernt haben, in ähnlicher Form auch in “Data Science 2” vorkommen. Das ist kein Zufall, denn wir werden sehen, dass auf einer tieferen Ebene eine enge Beziehung zwischen beiden Ansätzen besteht. Anders als “Data Science 1” ist der Inhalt des Mathematik-Moduls “Analysis für Wirtschaftswissenschaften” jedoch eine wichtige Voraussetzung in diesem Kurs. Wenn Sie Lücken bei den Themen Differential- und Integrationsrechnung befürchten, sollten Sie auf jeden Fall die Inhalte des Analysis-Moduls wiederholen.

Vorausgesetzt wird ferner, dass Sie R und RStudio nutzen können. Die Software R wird in diesem Modul zwar nicht gleich zu Beginn des Semesters eingesetzt, aber sie spielt eine sehr wichtige Rolle, weil R das Verständnis von Zufall enorm erleichtern kann und weil einige der vorgestellten Methoden ausschließlich mit Hilfe eines Computers durchführbar sind. Im Anhang A finden Sie einige Hinweise zum Programmieren in R, insbesondere zu Vektoren und Schleifen.

Für die wahrscheinlichkeitstheoretischen Grundlagen braucht man ein wenig Grundkenntnisse über Mengen und Mengenoperationen. Sie werden im Anhang B knapp zusammengefasst. Hinweise auf weiterführende Literatur gibt Anhang C. Dieses eLehrbuch orientiert sich sowohl hinsichtlich seines Aufbaus als auch der Notation recht eng an dem auch im Anhang aufgelisteten Lehrbuch von Mosler und Schmid (2011).

Zum Layout in diesem eLehrbuch: Die (meisten) Definitionen sind blau unterlegt. Beispiele sind grün unterlegt und meistens mit einem Mausklick aus- und wieder einklappbar. Es gibt nur wenige Theoreme, sie sind rot unterlegt. Die Grafiken wurden alle in R erstellt. Der zugehörige R-Code ist für diesen Kurs nicht relevant, wer sich dennoch dafür interessiert, kann über den Grafiken auf “R-Code zeigen” klicken.

Der Text in diesem Lehrbuch ist nicht geschlechtsneutral formuliert. Sie haben jedoch die Möglichkeit, eine gegenderte Version zu lesen. Die Unterschiede sind außer in Kapitel 11 nicht sehr groß.

Dieses Lehrbuch unterliegt der Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.