1 Grundlagen

Zunächst wollen wir ein paar allgemeine Aspekte der Wahrscheinlichkeitsrechung und der Schätzung betrachten.

1.1 Frequentistischer Wahrscheinlichkeitsbegriff

Fasst man Wahrscheinlichkeiten frequentistisch auf, ist dies wie sie als relative Häufigkeiten für ein Ereignis aufzufassen, wenn die Wiederholung von Zufallsvorgängen sehr (undendlich) groß ist. Stellen wir uns einen Münzwurf vor. \(X_n\) bezeichnet die Anzahl an Kopfwürfen bei \(n\) Münzwürfen. Nach jedem Münzwurf betrachten wir \(\frac{x_n}{n}\) und sehen, dass sich dieser Anteil mit steigender Anzahl an Münzwürfen der theoretischen Wahrscheinlichkeit Kopf zu werfen beliebig nahe annähert.

1.2 Wahrscheinlichkeitsdichte

Bei stetigen Zufallsvariablen ist die Wahrscheinlichkeitsdichte etwas schwierig zu interpretieren. Grundsätzlich gilt:

Wahrscheinlichkeitsdichte = Wahrscheinlichkeitsmasse/Infinitesimal kleines Zahlenintervall

Etwas anschaulicher ist es vielleicht, sich vorszustellen, dass um den Bereich herum, um den die Dichte \(f(x)\) hoch ist, mehr Realisierungen erwartet werden, als in Bereichen mit kleiner Dichte. In folgendem Beispiel betrachten wir die Dichte einer Standardnormalverteilung und vergleichen die Werte die aus einer Simulation resultieren. Die Werte werden mit relative Häufigkeit in einem Intervall dividiert durch die breite eines Intervalls bestimmt.

1.3 Binomialverteilung

Sei \(X_i\) eine Bernoulli verteilte Zufallszahl mit Wahrscheinlichkeit \(\pi\), dann ist die Summe über \(n\) Zufallsvariablen \(X_i\)

\[Y = \sum_{i = 1}^{n} X_i\]

binomial verteilt mit Wahrscheinlichkeitsfunktion

\[f(Y=y) = \binom{n}{y} \pi^y \left( 1-\pi \right)^{n-y}\]

1.4 Poissonverteilung

Eine poisson verteilte Zufallszahl zählt die Anzahl an Treffern in \(n\) aufeinander folgenden Bernoulliversuchen, wenn \(n \to \infty\) und \(\pi \to 0\). Die Poissonverteilung kann somit approximativ für die Binomialverteilung verwendet werden. Die Wahrscheinlichkeitsfunktion lautet

\[ f(x) = \frac{\lambda^x}{x!}e^{-\lambda} \]

mit \(\lambda = n\cdot \pi\).

Beispiele für die Modellierung wären:

  • Anzahl an Erdbeben in einem Jahr
  • Anzahl an Ausfällen in einem Kreditportfolio
  • Terroranschläge in einem festen Zeitraum

1.5 Normalverteilung

Die Normalverteilung ist eine der wichtigsten Verteilungen in der Statistik. In Zusammenhang mit dem zentralen Grenzwertsatz und ihrer Faltungsstabilität bietet sie mathemtisch/statistisch angenehme Eigenschaften. Eine stetige Zufallszahl \(X\) ist normal verteilt mit Erwartungswert \(\mu\) und Varianz \(\sigma^2\) bei gegebener Wahrscheinlichkeitsdichte:

\[ f(x) = \frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left( - \frac{\left( x - \mu \right)^2}{2 \sigma^2} \right) \]

1.6 Student t Verteilung

Die Student t Verteilung ist wie die Normalverteilung für stetige Zufallsvariablen geeignet. Zudem ist sie symmetrisch. Im Gegensatz zur Normalverteilung kann die Student t Verteilung sogenannte “Heavy Tails” besser abbilden, da sie extremeren Werten höhere Wahrscheinlichkeitsmassen zuordnet. Dies wird über die Anzahl der Freiheitsgrade \(\nu\) gesteuert. Für \(\nu > 2\) existiert ein endlicher Wert für die Varianz, welche mit

\[ Var(X) = \frac{\nu}{\nu - 2} \]

bestimmt werden kann. Die Wahrscheinlichkeitsdichte ist mit

\[ f(x) = \frac{\Gamma\left( \frac{\nu + 1}{2} \right)}{ \sqrt{\pi \nu} \Gamma \left( \frac{\nu}{2} \right) \left( 1 + \frac{x^2}{\nu} \right)^{\frac{\nu + 1}{2}} } \]

gegeben, wobei \(\Gamma\) die Gammafunktion darstellt. Bei dieser Form ist der Erwartungswert \(E(X) = 0\) und die Standardabweichung \(\sqrt{\frac{\nu}{\nu - 2}}\). Jedoch kann dieses standardisierte Form durch

\[ x = \mu + s \cdot x \]

in eine verallgemeinerte Verteilung mit anderen Erwartungswert und anderer Standardabweichung überführt werden. Mit \(\nu \to \infty\) konvergiert die Wahrscheinlichkeitsdichte der Student t Verteilung gegen die der Normalverteilung.

1.7 Betaverteilung

Die Betaverteilung ist eine stetige Verteilung mit extrem variabler Form. Ihre Verwendung bietet sich für Zufallsvariablen an, welche Werte auf \((0, 1)\) annehmen. Die Form der Verteilung wird durch zwei Parameter \(a, b > 0\) festgelegt. Die Wahrscheinlichkeitsdichte ist mit

\[ f(x) = \frac{1}{B(a, b)} x^{a - 1}(1 - x)^{b - 1} \]

gegeben, wobei \(B\) die Betafunktion darstellt.

1.8 Kleinste-Quadrate-Schätzung

Bei der KQ-Schätzung wird der unbekannte Parameter durch Minimierung der Summe der quadratischen Abweichungen der realisierten Daten \(\boldsymbol{x} = (x_1, ..., x_n)^{T}\) vom Parameter bestimmt.

\[ \min_{\theta} \sum_{i = 1}^{n} (x_i - \theta)^2 \]

Man kann sich vorstellen, dass man bei gegebenen Daten fiktive Werte für \(\theta\) verwendet und die zugehörige Summe der quadratischen Abweichungen ermittelt. Man verwendet dann den Wert für \(\hat{\theta}_{KQ}\) der zur geringsten Abweichung geführt hat. Insbesondere für den Erwartungswert ist dieses Optimierungsproblem auf relativ einfache Weise analytisch lösbar.

1.9 Maximum-Likelihood Schätzung

Bei der ML-Schätzung wird der unbekannte Parameter durch Maximierung der Log-Likelihoodfunktion bestimmt. Die realisierten Daten \(\boldsymbol{x} = (x_1, ..., x_n)^{T}\) sind zusammen mit der Dichte- bzw. Wahrscheinlichkeitsfunktion \(f(x | \theta)\) gegeben. Der Wert der Log-Likelihoodfunktion hängt somit lediglich von der Wahl von \(\theta\) ab. Setzen wir fiktive Werte für \(\theta\) ein und bestimmen jedes Mal den zugehörigen Wert der Log-Likelihoodfunktion, so ist \(\hat{\theta}_{ML}\) der Wert für den die Log-Likelihoodfunktion am größten ist.

1.10 Verteilung eines Schätzers - Beispiel Erwartungswert

Annahme \(X_i \sim N(\mu, \sigma^2),~ i = 1, ...., n\), simuliere \(j = 1, ..., k\) Mal \(n\) Zufallszahlen \(\boldsymbol{x}\) und betrachte die Verteilung der Schätzungen. Für jede Stichprobe ermitteln wir den Schätzwert des Erwartungswertes \(\bar{x}\). Diesen Vorgang wiederholen wir \(k\) Mal.