9  Stichproben

In diesem Kapitel schlagen wir eine Brücke von der rein theoretischen Wahrscheinlichkeitsrechnung zur Empirie. Ein großer Vorteil der Wahrscheinlichkeitstheorie besteht nämlich darin, dass sie es uns erlaubt, Aussagen über Zufallsvariablen oder Populationen zu machen, von denen wir keine vollständigen Informationen haben, sondern nur einen Teil beobachten können. Man sagt, dass man von einer Stichprobe auf die Population schließt, und spricht daher auch von statistischer Inferenz (engl. statistical inference). Leider entspricht die Definition einer Stichprobe nicht dem umgangssprachlichen Gebrauch des Worts. Tatsächlich ist es nicht leicht - aber wichtig -, die formale Definition einer Stichprobe tief zu verstehen. In diesem Kurs beschränken wir uns auf den einfachsten Fall, die sogenannte einfache Stichprobe.

9.1 Einfache Stichproben

Ausgangspunkt unserer Überlegungen ist eine Zufallsvariable \(X\). Es kann sich dabei um eine beliebige Zufallsvariable mit einer beliebigen Verteilung handeln. Die Zufallsvariable \(X\) steht für die Population.

Mögliche Zufallsvariablen sind zum Beispiel:

  • \(X\) ist die Dauer, die eine Geschirrspülmaschine fehlerfrei funktioniert.

  • \(X\) ist das Nettomonatseinkommen eines zufällig ausgewählten Haushalts einer festgelegten Population.

  • \(X\) ist eine normalverteilte Zufallsvariable mit Erwartungswert \(\mu=5\) und Standardabweichung \(\sigma=2\).

Zu der Zufallsvariable \(X\) gehört eine Stichprobe \(X_1,X_2,\ldots,X_n\) des Umfangs \(n\).

Definition: Einfache Stichprobe

Die Folge von Zufallsvariablen \(X_1,X_2,\ldots,X_n\) heißt einfache Stichprobe (engl. simple random sample) aus \(X\), wenn

  1. jedes \(X_i\) wie \(X\) verteilt ist und

  2. \(X_1,X_2,\ldots,X_n\) unabhängig voneinander sind.

Neben dem englischen Terminus “simple random sample” spricht man auch von einem “i.i.d. sample”, wobei die Abkürzung für “identical and independently distributed” steht.

Achtung: Im Gegensatz zur umgangssprachlichen Bedeutung des Worts “Stichprobe” handelt es sich nicht um tatsächlich beobachtete Daten! Eine Stichprobe im Sinne der formalen Definition besteht aus Zufallsvariablen. Man kann sich eine Stichprobe vorstellen als die erhobenen Daten, bevor sie tatsächlich erhoben wurden. Sobald die Stichprobe (also die Zufallsvariablen) realisiert wurde, erhält man die tatsächlich erhobenen Daten. Um sie von der Stichprobe zu unterscheiden, schreibt man sie meist mit Kleinbuchstaben, \(x_1,x_2,\ldots,x_n\), und man spricht von der konkreten Stichprobe (oder realisierten Stichprobe).

Beim Blick auf die tatsächlich vorliegenden Daten sollte man sich immer klar machen:

Es hätte auch anders kommen können.

Würde man die Stichprobe erneut ziehen, erhielte man eine andere konkrete Stichprobe. Der Zufall spielt immer eine Rolle, sei es weil der Prozess inhärent zufällig ist wie ein Würfelwurf, sei es weil wir nicht ganz genau wissen, warum es zu einer bestimmten Realisation kommt, wie beispielsweise bei der Entwicklung von Aktienkursen.

Wie sieht eine Stichprobe aus für die Zufallsvariable \(X\): “Dauer, die eine Geschirrspülmaschine fehlerfrei funktioniert”? Als Stichprobenumfang setzen wir \(n=10\). Aus der Produktion werden nun zufällig 10 Geschirrspülmaschinen ausgewählt. Jede dieser Maschinen lässt man laufen, bis sie zum ersten Mal einen Fehler aufweist. Für die \(i\)-te Maschine sei \(X_i\) die Dauer (z.B. in Stunden) bis zum Fehler.

Da alle 10 Maschinen dasselbe Produktionsverfahren durchlaufen haben, ist es plausibel anzunehmen, dass die Verteilungen der Lebensdauer identisch sind. Ob eine Maschine länger oder kürzer hält, hat plausiblerweise keinen Einfluss auf die Laufzeit einer anderen Maschine. Die Dauern sind also unabhängig (zumindest wenn man die Annahme wirklich für plausibel hält).

Bevor diese Messungen tatsächlich durchgeführt werden, ist \(X_1,\ldots,X_{10}\) die Stichprobe. Es handelt sich noch um Zufallsvariablen. Sobald die Messungen durchgeführt wurden (und folglich alle 10 Maschinen kaputt sind), liegt die konkrete Stichprobe \(x_1,\ldots,x_{10}\) vor. Bei der konkreten Stichprobe handelt es sich um 10 Zahlen.

Wie sieht eine Stichprobe aus für die Zufallsvariable \(X\): “Nettomonatseinkommen eines zufällig ausgewählten Haushalts”? Der Stichprobenumfang sei \(n=1000\). Aus der Population wird ein Haushalt zufällig ausgewählt. Dabei soll sichergestellt sein, dass alle Haushalte die gleiche Ziehungswahrscheinlichkeit haben. Das Nettoeinkommen des gezogenen Haushalts ist \(X_1\). Nun wird aus der gleichen Population (also inklusive dem zuerst gezogenen Haushalt) wieder ein Haushalt ausgewählt. Sein Nettoeinkommen ist \(X_2\). Das wird bis \(X_{1000}\) wiederholt. Es ist also durchaus erlaubt und möglich (wenn auch in großen Populationen unwahrscheinlich), dass derselbe Haushalt mehrfach in einer einfachen Stichprobe vorkommt.

Da in jeder der 1000 Ziehungen aus der gleichen Population gezogen wird, sind alle Zufallsvariablen identisch verteilt. Ob in Schritt \(i\) ein reicher oder armer Haushalt gezogen wird, hat keinen Einfluss darauf, ob im nächsten Schritt ein reicher oder armer Haushalt gezogen wird. Die Ziehungen sind also unabhängig voneinander.

Die Stichprobe \(X_1,\ldots,X_{1000}\) setzt sich aus 1000 Nettoeinkommen zusammen, die noch nicht tatsächlich abgefragt wurden. Es handelt sich noch um Zufallsvariablen. Sobald die Einkommensdaten tatsächlich erhoben wurden, hat sich die Stichprobe realisiert. Die konkrete Stichprobe besteht aus den 1000 Zahlen \(x_1,\ldots,x_{1000}\).

Wie sieht eine Stichprobe für die Zufallsvariable \(X\sim N(5,2^2)\) aus? Als Stichprobenumfang setzen wir \(n=50\). Wir ziehen nun 50 Mal unabhängig voneinander aus der Normalverteilung \(N(5,2^2)\). Die Stichprobe besteht aus den Zufallsvariablen \(X_1,\ldots,X_{50}\). Sobald die Ziehung tatsächlich durchgeführt wurde, liegt die konkrete Stichprobe \(x_1,\ldots,x_{50}\) vor.

In R kann man mit dem Befehl

n <- 50
x <- rnorm(n, mean=5, sd=2)

eine einfache Stichprobe aus \(N(5,2^2)\) ziehen. Bevor der Befehl ausgeführt wird, steht x für die Stichprobe. Nach der Ausführung enthält x die konkrete Stichprobe.

9.2 Statistiken

Als Vorbereitung auf die eigentliche statistische Inferenz dient die folgende Definition.

Definition: Statistik

Wenn \(X_1,\ldots,X_n\) eine einfache Stichprobe aus \(X\) ist und \(g\) eine reellwertige Funktion mit \(n\) Argumenten, dann heißt die Zufallsvariable \[ Z=g(X_1,\ldots,X_n) \] Statistik (engl. statistic).

Eine Statistik im Sinne dieser Definition ist also eine Funktion einer Stichprobe. Da die Stichprobenelemente Zufallsvariablen sind, ist auch die Statistik \(Z\) eine Zufallsvariable. Daher hat die Statistik - wie jede Zufallsvariable - eine Verteilung, einen Erwartungswert, eine Varianz etc. Um die Verteilung der Statistik herzuleiten, muss man die Verteilung der Population bzw. der Stichprobenelemente kennen. In realen Anwendungen kennt man die Verteilung der Population natürlich nicht, sonst würde man ja keine statistische Inferenz betreiben wollen! Trotzdem ist es für das tiefere Verständnis der Inferenzverfahren sinnvoll, sich zu überlegen, wie eine Statistik verteilt ist, wenn die Populationsverteilung (also die Verteilung von \(X\)) bekannt ist. In einigen Spezialfällen kann man das analytisch tun Wenn eine analytische Lösung nicht möglich oder zu umständlich ist, bieten sich Monte-Carlo-Simulationen (Kapitel 8.2) an. Sie sind praktisch immer relativ leicht umzusetzen, sie haben nur den Nachteil, dass sie für eine hohe Genauigkeit sehr viele Simulationsdurchläufe brauchen und daher relativ langsam sind.

Die mit Abstand wichtigste Statistik ist das Stichprobenmittel (das gewöhnlich nicht mit \(Z\), sondern mit \(\bar X\) bezeichnet wird), \[ \bar X=\frac{1}{n}\sum_{i=1}^n X_i. \] Das Stichprobenmittel ist eine Zufallsvariable, weil es eine Funktion der Stichprobe ist. Wie wir bereits hergeleitet haben (in Kapitel 8.1), gilt \(E(\bar X)=\mu\) und \(Var(\bar X)=\sigma^2/n\), wobei \(\mu=E(X)\) und \(\sigma^2=Var(X)\) sind. Wenn die Population einer Normalverteilung folgt, d.h. wenn \(X\sim N(\mu,\sigma^2)\), dann folgt aus den Eigenschaften der Normalverteilung, dass \[ \bar X\sim N\left(\mu,\frac{\sigma^2}{n}\right). \] Bei einer normalverteilten Population kennt man also nicht nur Erwartungswert und Varianz des Stichprobenmittels, sondern auch die exakte Verteilung.

Die Stichprobenstandardabweichung \[ S=\sqrt{\frac{1}{n-1}\sum_{i=1}^n (X_i-\bar X)^2} \] ist eine Statistik, da sie aus den \(n\) Stichprobenelementen errechnet wird. Es handelt sich bei \(S\) folglich um eine Zufallsvariable. Wie ist \(S\) verteilt, wenn die Population \(X\) einer Paretoverteilung mit den Parametern \(x_{min}=1\) und \(k=5\) folgt und wenn eine Stichprobe vom Umfang \(n=50\) gezogen wird? Das lässt sich leicht durch eine Monte-Carlo-Simulation herausfinden. Die Dichte von \(S\) kann durch ein Histogramm sehr vieler Realisationen von \(S\) ermittelt werden, z.B. \(R=10000\). In jedem Simulationsdurchlauf wird eine Stichprobe x vom Umfang \(n=50\) aus der Paretoverteilung (mit den gegebenen Parametern) gezogen und die Stichprobenstandardabweichung sd(x) für diese Stichprobe berechnet und in einen Vektor S geschrieben. Der Vektor wird vor dem Schleifenstart initialisiert, z.B. durch die rep-Funktion. Für die Ziehung einer Stichprobe aus der Paretoverteilung aktivieren wir das Paket distributionsrd. Das Paket stellt die Funktion rpareto zur Vefügung.

library(distributionsrd)

R <- 10000
S <- rep(0,R)

n <- 50
xmin <- 1
k <- 5

for(r in 1:R){
  
  x <- rpareto(n, xmin=xmin, k=k)
  S[r] <- sd(x)
  
}
hist(S, breaks=50, xlim=c(0,2),
     main="Verteilung der Stichproben-Standardabweichung")

Die Stichprobenstandardabweichung liegt also in den allermeisten Fällen unterhalb von 0.5, es gibt aber Ausreißer, die teilweise deutlich größer sind. Das 0.999-Quantil ist

quantile(S, prob=0.999)
  99.9% 
1.17307 

Als Mittelwert des Vektors smpl_sd ergibt sich

mean(S)
[1] 0.3028698

Der Erwartungswert \(E(S)\) der Stichprobenstandardabweichung einer Stichprobe vom Umfang \(n=50\) aus einer Paretoverteilung mit den Parametern \(x_{min}=1\) und \(k=5\) beträgt also (ungefähr) 0.303.

Im restlichen Verlauf dieses Kurses lernen Sie die drei wichtigsten Arten von Statistiken kennen:

  • Statistiken, die dazu dienen aus der Stichprobe eine Schätzung für einen Parameter der Population zu gewinnen. Zum Beispiel kann man den Erwartungswert durch das Stichprobenmittel schätzen oder die Standardabweichung durch die Stichprobenstandardabweichung. Solche Statistiken nennt man Punktschätzer. Sie werden in Kapitel 10 behandelt.

  • Statistiken, die eine Unter- oder Obergrenze für ein Intervall darstellen, in dem ein unbekannter Parameter einer Population mit großer Wahrscheinlichkeit liegt. Solche Intervalle nennt man Konfidenzintervalle. Sie werden in Kapitel 11 behandelt.

  • Statistiken, die als Entscheidungsgrundlage für eine empirische Überprüfung von Hypothesen über Populationsparameter dienen. Sie heißen Teststatistik und werden in Kapitel 12 bis Kapitel 15 behandelt.