Kapitel 6 Statistische Schätzverfahren
Lernziele
- Schätzung von Parametern statistischer Verteilungen durchführen können
- Methode der Momente kennen und anwenden können
- Maximum-Likelihood-Schätzung erklären können
Im 3. Kapitel haben wir Wahrscheinlichkeits- und Dichtefunktionen kennengelernt. Diese Funktionen waren vorgegeben. Wir wenden uns in diesem Kapitel der Frage zu, wie eine Wahrscheinlichkeits- oder Dichtefunktion aus den Daten geschätzt werden kann. Wir gehen dabei in zwei Schritten vor:
Welche Verteilungsfamilie sollte ausgewählt werden? Dies könnte beispielsweise eine Binomial- oder eine Normalverteilung sein.
Wenn wir uns für eine Verteilungsfamilie entschieden haben, muss die konkrete Verteilung festgelegt werden, also sozusagen das Familienmitglied, indem die Parameterwerte aus den Daten geschätzt werden.
Die erste Frage können wir aus theoretischen Überlegungen beantworten, denn wir haben Situationen kennengelernt, in denen bestimmte Verteilungen angewandt werden. Beispielsweise wird die Binomialverteilung gewählt, wenn es um ein Zufallsexperiment mit genau zwei möglichen Ausgängen geht. Gleichermaßen entscheiden wir uns für die Exponentialverteilung, wenn wir die Zeitintervalle zwischen zwei Ereignissen modellieren.
Wir wenden uns in diesem Kapitel der zweiten Frage zu und lernen zwei Methoden kennen, mit denen die Parameterwerte geschätzt werden können.
Wir wollen dabei bedenken, dass es sich um Schätzungen handelt, d. h., wir kennen weder die wahre Verteilungsfamilie noch deren Parameterwerte. Es ist unmittelbar einsichtig, dass ein Modell mit vielen Parametern sehr flexibel ist und sich recht gut an die Daten anpasst. Allerdings müssen alle Parameter aus den Daten geschätzt werden. Dabei begehen wir Fehler, weil wir aus der Stichprobe schätzen und nicht etwa aus der Grundgesamtheit berechnen. Wir stellen fest: Je größer die Anzahl der Parameter, desto kleiner wird der Fehler durch Approximation durch das Modell, aber umso größer wird im Durchschnitt der Fehler durch Schätzung (aus der Stichprobe statt Totalerhebung; es steigt hier die Varianz). Je größer die Stichprobe, desto mehr Parameter können wir uns „erlauben“.
6.1 Momentenmethode
Wir betrachten nun ein Beispiel aus Zucchini et al. (2009).
Beispiel 6.1 (Flug überbucht) Eine Fluggesellschaft überbucht ihre Sitzplätze: Wenn es beispielsweise 300 Plätze in einem Flugzeug gibt, dann wird die Gesellschaft 320 Tickets verkaufen, weil sie weiß, dass nicht alle gebuchten Passagiere auch rechtzeitig erscheinen. Sollten tatsächlich mehr als 300 Passagiere mitfliegen wollen, muss die Gesellschaft diejenigen, die „zu viel“ sind, gegen eine Kompensation am Flughafen zurücklassen. Es ist deshalb von Interesse zu untersuchen, wie wahrscheinlich es ist, dass bei 320 verkauften Tickets mehr als 300 Fluggäste erscheinen.
Wir stellen uns zunächst die Frage nach der Verteilungsfamilie. Sei X die Anzahl der Fluggäste, die ihr Ticket in Anspruch nimmt. Mit jedem Fluggast wird ein unabhängiges Zufallsexperiment mit genau zwei Ausgängen durchgeführt: Entweder er erscheint und nimmt seine Buchung in Anspruch (=Erfolg), oder er erscheint nicht (=Misserfolg). Wir wählen deshalb eine Binomialverteilung.
Die Binomialverteilung ist eine diskrete Wahrscheinlichkeitsfunktion mit zwei Parametern. Der erste ist die Anzahl der Versuche, hier \(n=320\). Der zweite Parameter ist die Erfolgswahrscheinlichkeit \(\pi\), die wir als \(\hat \pi\) mit Daten aus der Vergangenheit schätzen: Wir wissen, dass historisch von 40.000 Reservierungen nur 37.560 in Anspruch genommen wurden. Dies entspricht einem Anteil von \(37.650/40.000 = 0{,}939 \approx 94 \%\).
Somit lautet die geschätzte Wahrscheinlichkeitsfunktion
\[\hat P(x)=\dbinom{320}{x} \cdot 0{,}939^x \cdot (1-0{,}939)^{320-x}\]
Mit dieser Funktion können wir unmittelbar die Wahrscheinlichkeiten dafür berechnen, dass eine bestimmte Anzahl von Passagieren erscheint (bzw. fernbleibt). Für die Fluggesellschaft ist die Wahrscheinlichkeit von \(X>300\) interessant, denn dann müsste sie Kompensation auszahlen:
\[\hat P(X>300)=\hat P(301)+\hat P(302)+\hat P(303)+⋯+\hat P(320)≈0{,}5119\]
Wir erhalten eine geschätzte Wahrscheinlichkeit von 51 %. Mit der geschätzten Wahrscheinlichkeitsfunktion kann die Fluggesellschaft entscheiden, ob sie lieber weniger Tickets verkauft und dadurch weniger Umsatz erzielt, aber auch mit einer geringeren Wahrscheinlichkeit Kompensationszahlungen fällig werden.
In diesem Beispiel haben wir eine Binomialverteilung betrachtet, bei der nur ein Parameter (\(\pi\)) zu schätzen war, weil sich der andere Parameter (\(n\)) unmittelbar aus der Anzahl der Versuche ergab.
Wenn nur ein Parameter mit der Methode der Momente zu schätzen ist, wird der Erwartungswert als Funktion des Parameters geschrieben. Bei der Binomialverteilung ist der Erwartungswert
\[E(X)=n \cdot p\]
Für unsere Stichprobe gilt somit
\[\overline{x}=n \cdot \hat \pi, \quad \text{ bzw.} \quad \hat \pi=\frac{\overline{x}}{n}\]
Wir schätzen also \(\pi\) durch den Anteil der Erfolge in der Stichprobe. Der Wechsel der Notation von \(p\) zu \(\pi\) soll lediglich verdeutlichen, dass nun der Anteil aus der Stichprobe gemeint ist und nicht mehr der unbekannte Anteil aus der Grundgesamtheit.
Im Allgemeinen wird der gesuchte Parameter in Form des ersten Momentes (hier: Erwartungswert, siehe Abschnitt 3.4) geschrieben und mit den Werten für die Stichprobe ausgerechnet. Dank des Gesetzes der Großen Zahlen erhalten wir einen konsistenten Schätzer, d. h., je größer die Stichprobe, desto wahrscheinlicher (näher) treffen wir den wahren Wert der Grundgesamtheit.
Aufgabe 6.1 (Momentenschätzer für Anzahl der Anrufer) Betrachten Sie die Anzahl der Anrufe in einem Call Center an einem Tag zwischen 11:00 Uhr und 11:30 Uhr. Dieses 30-Minuten-Intervall wird in 6 Abschnitte zu je 5 Minuten unterteilt, und in jedem 5-Minuten-Abschnitt geht die folgende Anzahl an Anrufen ein (Intervallgrenzen gerundet):
11:00-11:05 | 11:05-11:10 | 11:10-11:15 | 11:15-11:20 | 11:20-11:25 | 11:25-11:30 |
---|---|---|---|---|---|
4 | 6 | 6 | 5 | 7 | 14 |
Welcher Verteilung folgt die Anzahl der Anrufe in einem Zeitintervall? Schätzen Sie den Parameter dieser Verteilung aus der Stichprobe.
6.2 Maximum-Likelihood-Methode
Die Maximum-Likelihood-Methode ist eine weitere Schätzmethode. Sie geht wie folgt vor: Wir haben ein bestimmtes Ergebnis beobachtet, beispielsweise eine bestimmte Anzahl von Anrufen in einem Intervall oder eine bestimmte Anzahl von Augenzahlen beim Würfelwurf. Gesucht ist nun der Parameterwert, der den beobachteten Werten die größte (maximale) Wahrscheinlichkeit (Likelihood) gibt. Bisher kannten wir den (die) Parameter einer Verteilung und wollten wissen, mit welcher Wahrscheinlichkeit ein bestimmtes Ergebnis eintritt. Jetzt kennen wir das Ergebnis und fragen uns, welcher Wert des Parameters (der Parameter) zu diesem beobachteten Ergebnis geführt haben kann. Die Maximum-Likelihood-Schätzmethode kann nur dann angewendet werden, wenn die Werte in der Stichprobe nicht systematisch voneinander abhängen. Wir stellen dies dadurch sicher, dass die Stichprobe mit Zurücklegen gezogen wird. Bei unseren Standardbeispielen Würfel- oder Münzwurf ist dies ohnehin der Fall.
Während die Wahrscheinlichkeitsfunktion eine Funktion in Abhängigkeit von der Zufallsvariable ist (siehe Abschnitt 3.1), lernen wir nun eine neue Funktion kennen, die Likelihoodfunktion L. Sie sieht auf den ersten Blick genauso aus wie die Wahrscheinlichkeitsfunktion \(P(X=x)\) (bzw. die Dichtefunktion im Falle absolutstetiger Verteilungen), allerdings ist sie eine Funktion in Abhängigkeit vom Verteilungs-Parameter, wobei die für die Zufallsvariable tatsächlich beobachteten Zahlenwerte eingesetzt werden. Sie können den Wert der Likelihoodfunktion für verschiedene Parameterwerte ausrechnen und wählen dann den Parameterwert, der dem beobachteten Ergebnis die größte Wahrscheinlichkeit zuordnet. Dieser Parameterwert ist der Maximum-Likelihood-Schätzer (kurz: ML-Schätzer) des Parameters.
Wenn Sie den Funktionswert der Likelihoodfunktion für verschiedene Parameterwerte berechnen, lösen Sie das Problem im Prinzip durch Ausprobieren. Alternativ können Sie es analytisch lösen. Um so das Maximum zu finden, müssten Sie die 1. Ableitung der Likelihoodfunktion nach dem Parameter gleich Null setzen. Meistens ist es einfacher, die logarithmierte Likelihoodfunktion abzuleiten und gleich Null zu setzen. Durch dieses Verfahren finden Sie denselben Parameterschätzer. Sobald Sie die erste Ableitung gleich Null setzen, müssen Sie über den Parameter ein Dach schreiben, weil Sie an dieser Stelle vom wahren Wert auf den Schätzer übergehen.
Wir wollen dieses Verfahren anhand eines Beispiels veranschaulichen.
Beispiel 6.2 (ML-Schätzer für Poisson-Verteilungsparameter) Betrachtet wird die Anzahl der Bankkunden, die in einem 5-Minuten-Intervall in der Schalterhalle eintreffen. Die Bank interessiert sich für dieses Phänomen, weil sie mit dieser Untersuchung festlegt, wie viele Schalter sie geöffnet vorhalten muss, um Wartezeiten zu vermeiden. Wir wissen aus Abschnitt 3.1.2, dass die Anzahl der eintreffenden Kunden in einem Zeitintervall Poisson-verteilt ist. Gesucht ist demnach der Parameterschätzer für \(\lambda\).
Wir haben die folgende Anzahl an Bankkunden beobachtet:
\(x_1=2\) |
\(x_2=1\) |
\(x_3=0\) |
\(x_4=4\) |
Welcher Parameterschätzer gibt diesen Beobachtungen die maximale Wahrscheinlichkeit? (die Anzahlen werden als unabhängig voneinander angenommen)
Wahrscheinlichkeits- funktion | \(P(x)=\frac{\lambda^x}{x!} e^{-\lambda}\) |
Likelihood L(λ) | \(L(\lambda)=\frac{\lambda^{x_1}}{x_1!} e^{-\lambda}\cdot\frac{\lambda^{x_2}}{x_2!} e^{-\lambda}\cdot …\cdot\frac{\lambda^{x_n}}{x_n!}e^{-\lambda}\) \(=\frac{\lambda^{x_1+x_2+⋯+x_n} (e^{-\lambda})^n}{x_1!x_2!\cdot …\cdot x_n !}\) |
log-Likelihood | \(\log L(\lambda)=(x_1+x_2+\cdots+x_n)\cdot \log(\lambda)-\lambda n-\sum_{i=1}^n \log x_i!\) |
Erste Ableitung von log L(λ) = 0 | \(\frac{\sum x_i}{\lambda}-n=0\) |
Schätzer für den Parameter \(\lambda\) | \(\hat \lambda=\frac{∑ x_i}{n}\) |
Da mehrere Beobachtungen vorliegen, ergibt sich im zweiten Schritt mit der Unabhängigkeits-Annahme die Likelihood-Funktion als Produkt der Likelihoods für die einzelnen Beobachtungen.
Es ergibt sich ein Maximum-Likelihood-Schätzer für \(\lambda\) von \(\frac{∑ x_i}{n}=\frac{2+1+0+4}{4}=1{,}75\).
Wir kennen zwei Schätzmethoden: Die Momentenmethode und Maximum-Likelihood-Schätzer. Für unsere einfachen Anwendungen erhalten wir identische Ergebnisse, wobei die Momentenschätzer einfacher zu berechnen sind. In komplexeren statistischen Anwendungen wird oft auf Maximum-Likelihood-Schätzer zurückgegriffen. Wenn Sie diese Schätzmethode beschreiben und in einfachen Fällen anwenden können, haben Sie das Lernziel dieses Abschnittes erreicht.
Aufgabe 6.2 (ML-Schätzer für Münzwurf; entnommen aus Zucchini et al. (2009)) Wir wollen testen, ob eine Münze fair ist und werfen sie 10 Mal. Wir erhalten 6 Mal „Kopf“ und 4 Mal „Zahl“. Ermitteln Sie den Maximum-Likelihood-Schätzer für die „Erfolgswahrscheinlichkeit“ \(p\).
Schlüsselbegriffe:
Parameterschätzung; Methode der Momente; Maximum-Likelihood-Methode
Literatur: