1 Grundlagen

Zunächst wollen wir ein paar allgemeine Aspekte der Wahrscheinlichkeitsrechung und der Schätzung betrachten.

1.1 Frequentistischer Wahrscheinlichkeitsbegriff

Fasst man Wahrscheinlichkeiten frequentistisch auf, ist dies wie sie als relative Häufigkeiten für ein Ereignis aufzufassen, wenn die Wiederholung von Zufallsvorgängen sehr (undendlich) groß ist. Stellen wir uns einen Münzwurf vor. Xn bezeichnet die Anzahl an Kopfwürfen bei n Münzwürfen. Nach jedem Münzwurf betrachten wir xnn und sehen, dass sich dieser Anteil mit steigender Anzahl an Münzwürfen der theoretischen Wahrscheinlichkeit Kopf zu werfen beliebig nahe annähert.

102030405000.20.40.60.81
rel. Häufigkeitenwahre WahrscheinlichkeitAnzahl der Münzwürfe

1.2 Wahrscheinlichkeitsdichte

Bei stetigen Zufallsvariablen ist die Wahrscheinlichkeitsdichte etwas schwierig zu interpretieren. Grundsätzlich gilt:

Wahrscheinlichkeitsdichte = Wahrscheinlichkeitsmasse/Infinitesimal kleines Zahlenintervall

Etwas anschaulicher ist es vielleicht, sich vorszustellen, dass um den Bereich herum, um den die Dichte f(x) hoch ist, mehr Realisierungen erwartet werden, als in Bereichen mit kleiner Dichte. In folgendem Beispiel betrachten wir die Dichte einer Standardnormalverteilung und vergleichen die Werte die aus einer Simulation resultieren. Die Werte werden mit relative Häufigkeit in einem Intervall dividiert durch die breite eines Intervalls bestimmt.

051000.050.10.150.2
HistogrammNormalverteilungsdichteEmpirische Verteilung$x$$ f(x)$

1.3 Binomialverteilung

Sei Xi eine Bernoulli verteilte Zufallszahl mit Wahrscheinlichkeit π, dann ist die Summe über n Zufallsvariablen Xi

Y=ni=1Xi

binomial verteilt mit Wahrscheinlichkeitsfunktion

f(Y=y) = \binom{n}{y} \pi^y \left( 1-\pi \right)^{n-y}

01234500.050.10.150.20.250.30.350.4
$ \pi = 0.5 $$ \pi = 0.2 $$ \pi = 0.8 $$ Y \sim B(n = 5, \pi) $$x$$ f(x) $

1.4 Poissonverteilung

Eine poisson verteilte Zufallszahl zählt die Anzahl an Treffern in n aufeinander folgenden Bernoulliversuchen, wenn n \to \infty und \pi \to 0. Die Poissonverteilung kann somit approximativ für die Binomialverteilung verwendet werden. Die Wahrscheinlichkeitsfunktion lautet

f(x) = \frac{\lambda^x}{x!}e^{-\lambda}

mit \lambda = n\cdot \pi.

Beispiele für die Modellierung wären:

  • Anzahl an Erdbeben in einem Jahr
  • Anzahl an Ausfällen in einem Kreditportfolio
  • Terroranschläge in einem festen Zeitraum
$0$$1$$2$$3$$4$$5$$>5$00.10.20.30.40.50.6
$ \lambda = 0.5 $$ \lambda = 1.5 $$ \lambda = 2.5 $$ Y \sim P(\lambda) $$x$$ f(x) $

1.5 Normalverteilung

Die Normalverteilung ist eine der wichtigsten Verteilungen in der Statistik. In Zusammenhang mit dem zentralen Grenzwertsatz und ihrer Faltungsstabilität bietet sie mathemtisch/statistisch angenehme Eigenschaften. Eine stetige Zufallszahl X ist normal verteilt mit Erwartungswert \mu und Varianz \sigma^2 bei gegebener Wahrscheinlichkeitsdichte:

f(x) = \frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left( - \frac{\left( x - \mu \right)^2}{2 \sigma^2} \right)

−50500.10.20.30.40.50.60.70.80.9−505
$ \mu = 0,~\sigma = 1$$ \mu = -1,~\sigma = 1$$ \mu = 1,~\sigma = 1$$ \mu = 0,~\sigma = 1$$ \mu = 0,~\sigma = 0.5$$ \mu = 0,~\sigma = 2$$ f(x) $

1.6 Student t Verteilung

Die Student t Verteilung ist wie die Normalverteilung für stetige Zufallsvariablen geeignet. Zudem ist sie symmetrisch. Im Gegensatz zur Normalverteilung kann die Student t Verteilung sogenannte “Heavy Tails” besser abbilden, da sie extremeren Werten höhere Wahrscheinlichkeitsmassen zuordnet. Dies wird über die Anzahl der Freiheitsgrade \nu gesteuert. Für \nu > 2 existiert ein endlicher Wert für die Varianz, welche mit

Var(X) = \frac{\nu}{\nu - 2}

bestimmt werden kann. Die Wahrscheinlichkeitsdichte ist mit

f(x) = \frac{\Gamma\left( \frac{\nu + 1}{2} \right)}{ \sqrt{\pi \nu} \Gamma \left( \frac{\nu}{2} \right) \left( 1 + \frac{x^2}{\nu} \right)^{\frac{\nu + 1}{2}} }

gegeben, wobei \Gamma die Gammafunktion darstellt. Bei dieser Form ist der Erwartungswert E(X) = 0 und die Standardabweichung \sqrt{\frac{\nu}{\nu - 2}}. Jedoch kann dieses standardisierte Form durch

x = \mu + s \cdot x

in eine verallgemeinerte Verteilung mit anderen Erwartungswert und anderer Standardabweichung überführt werden. Mit \nu \to \infty konvergiert die Wahrscheinlichkeitsdichte der Student t Verteilung gegen die der Normalverteilung.

−6−4−2024600.050.10.150.20.250.30.350.4
$ \nu = 4 $$ \nu = 2 $$ \nu = 10 $$ \nu = 100 $$x$$ f(x) $

1.7 Betaverteilung

Die Betaverteilung ist eine stetige Verteilung mit extrem variabler Form. Ihre Verwendung bietet sich für Zufallsvariablen an, welche Werte auf (0, 1) annehmen. Die Form der Verteilung wird durch zwei Parameter a, b > 0 festgelegt. Die Wahrscheinlichkeitsdichte ist mit

f(x) = \frac{1}{B(a, b)} x^{a - 1}(1 - x)^{b - 1}

gegeben, wobei B die Betafunktion darstellt.

0.20.40.60.800.511.522.533.540.20.40.60.8
$ a = 5, b = 5 $$ a = 0.5, b = 0.5 $$ a = 1, b = 1 $$ a = 10, b = 5 $$ a = 5, b = 10 $$ a = 10, b = 10 $$ X \sim B(a, b) $$ f(x) $

1.8 Kleinste-Quadrate-Schätzung

Bei der KQ-Schätzung wird der unbekannte Parameter durch Minimierung der Summe der quadratischen Abweichungen der realisierten Daten \boldsymbol{x} = (x_1, ..., x_n)^{T} vom Parameter bestimmt.

\min_{\theta} \sum_{i = 1}^{n} (x_i - \theta)^2

Man kann sich vorstellen, dass man bei gegebenen Daten fiktive Werte für \theta verwendet und die zugehörige Summe der quadratischen Abweichungen ermittelt. Man verwendet dann den Wert für \hat{\theta}_{KQ} der zur geringsten Abweichung geführt hat. Insbesondere für den Erwartungswert ist dieses Optimierungsproblem auf relativ einfache Weise analytisch lösbar.

−10123452k4k6k8k10k
$ \text{Werte für den Erwartungswert: } \theta$$ \sum_{i = 1}^{n} (x_i - \theta)^2$

1.9 Maximum-Likelihood Schätzung

Bei der ML-Schätzung wird der unbekannte Parameter durch Maximierung der Log-Likelihoodfunktion bestimmt. Die realisierten Daten \boldsymbol{x} = (x_1, ..., x_n)^{T} sind zusammen mit der Dichte- bzw. Wahrscheinlichkeitsfunktion f(x | \theta) gegeben. Der Wert der Log-Likelihoodfunktion hängt somit lediglich von der Wahl von \theta ab. Setzen wir fiktive Werte für \theta ein und bestimmen jedes Mal den zugehörigen Wert der Log-Likelihoodfunktion, so ist \hat{\theta}_{ML} der Wert für den die Log-Likelihoodfunktion am größten ist.

−1012345−6000−5000−4000−3000−2000
$ \text{Werte für den Erwartungswert: } \theta$$ \ln \left( L(\theta) \right) $

1.10 Verteilung eines Schätzers - Beispiel Erwartungswert

Annahme X_i \sim N(\mu, \sigma^2),~ i = 1, ...., n, simuliere j = 1, ..., k Mal n Zufallszahlen \boldsymbol{x} und betrachte die Verteilung der Schätzungen. Für jede Stichprobe ermitteln wir den Schätzwert des Erwartungswertes \bar{x}. Diesen Vorgang wiederholen wir k Mal.

1.822.22.400.511.522.533.54
simulationtheoretischVerteilung des Schätzers$\bar{x}$