12 Hypothesentests

Bevor die grundlegende Idee (die “Philosophie”) und das Vokabular der Hypothesentests vorgestellt werden, gehen wir einmal durch, wie ein Strafprozess abläuft. Zwischen einem Prozess und einem Hypothesentest gibt es nämlich viele Analogien, die für das Verständnis hilfreich sind. Die Darstellung eines Prozesses ist sehr holzschnittartig und soll in keiner Weise ein Abbild der Realität eines echten Strafverfahrens in einem deutschen (oder anderen) Gericht sein, sondern nur die Grundideen eines Prozesses aufzeigen.

12.1 Prozesse

Am Beginn des Strafverfahrens steht die Anklage. Dem Angeklagten wird ein Vergehen vorgeworfen. Ob die Anklage wahr oder falsch ist, d.h. ob der Angeklagte die Tat wirklich begangen hat oder nicht, weiß die Richterin nicht. Die Anwältin des Angeklagten behauptet, dass er unschuldig ist. Der Staatsanwalt behauptet hingegen, dass der Angeklagte schuldig ist. Damit die Richterin ein Urteil fällen kann, braucht sie Zeugenaussagen und Beweise.

Im Allgemeinen hilft die Beweisaufnahme, ein genaueres Bild der möglichen Tat zu gewinnen. Auf Grundlage der Beweise fällt die Richterin ihr Urteil. Sie kann den Angeklagten verurteilen oder freisprechen. Natürlich wäre es wünschenswert, wenn der Angeklagte verurteilt wird, sofern er schuldig ist, und freigesprochen wird, sofern er unschuldig ist. Aber selbst mit den Beweisen bleibt immer noch eine gewisse Restunsicherheit, ob der Angeklagte die Tat wirklich begangen hat. Es kann also passieren, dass die Richterin den Angeklagten verurteilt, obwohl er unschuldig ist. Es kann passieren, dass er freigesprochen wird, obwohl er schuldig ist. In beiden Fällen liegt ein Irrtum vor und es kommt zu einem Fehlurteil.

Welches Art von Fehlurteil ist schlimmer? Ist es schlimmer, wenn ein Schuldiger freigesprochen wird? Oder ist es schlimmer, wenn ein Unschuldiger verurteilt wird? Bei dieser Abwägung handelt es sich um ein Werturteil. In unserem Rechtssystem ist die Antwort klar: Unschuldige sollen nicht verurteilt werden. Damit das soweit wie möglich sichergestellt ist, nimmt man in Kauf, dass auch Schuldige freigesprochen werden: In dubio pro reo - im Zweifel für den Angeklagten. Diese Asymmetrie führt dazu, dass Justizirrtümer, bei denen jemand irrtümlich verurteilt wird, selten vorkommen. Der Preis dafür ist, dass es relativ leicht passieren kann, dass Schuldige freigesprochen werden.

Die Asymmetrie ist also durchaus gewollt. Man erreicht sie, indem Angeklagte nur dann verurteilt werden, wenn die Beweise sehr deutlich für ihre Schuld sprechen. Es reicht nicht aus, wenn die Beweise nur “ein wenig” oder “eher” für die Schuld sprechen.

Die Asymmetrie hat auch Konsequenzen für die Einschätzung der Schuld nach einem Urteil. Wenn der Angeklagte freigesprochen wird, heißt das nur, dass die Beweise nicht für eine Verurteilung ausreichen. Ein Freispruch ist keine wirklich belastbare Aussage über die Unschuld des Angeklagten. Man wäre nicht sehr überrascht, wenn sich herausstellt, dass ein freigesprochener Angeklagter in Wirklichkeit schuldig ist. Umgekehrt ist eine Verurteilung jedoch ein belastbares Ergebnis. Man kann zwar nicht hundertprozentig, aber doch ziemlich sicher sein, dass der Angeklagte tatsächlich schuldig ist, wenn er verurteilt wird. Die Beweislage wiegt so schwer, dass es trotz der Unschuldsvermutung zu einer Verurteilung kommt.

12.2 Vokabular

Ein statistischer Hypothesentest läuft in etwa analog zu einem Strafverfahren ab. Am Beginn steht anstelle der Anklage eine ökonomische Theorie oder Hypothese. Die Hypothese bezieht sich auf einen (unbekannten) Parameter einer Zufallsvariable $X$ , der allgemein mit $θ$ bezeichnet sei. In diesem Kurs betrachten wir ausführlich eine relativ einfache, aber besonders wichtige Art von Hypothesen, nämlich Hypothesen über Erwartungswerte (Kapitel 13). Anschließend behandeln wird zwei weitere Klassen von Tests, nämlich Unabhängigkeitstests und Anpassungstests (Kapitel 14). Schließlich wird in Kapitel 15 eine computer- bzw. simulationsbasierte Herangehensweise an Hypothesentests vorgestellt. Zunächst wird jedoch die grundsätzliche Vorgehensweise der statistischen Hypothesentests in allgemeiner Form Schritt für Schritt erläutert In dem Bachelor-Wahlpflichtmodul Econometrics und in dem VWL-Pflichtmodul Empirical Economics lernen Sie, wie man mit Hypothesen über Koeffizienten in multiplen Regressionsmodellen umgeht. Die prinzipielle Vorgehensweise ist jedoch sehr ähnlich.

Die Gegenstücke zu den Behauptungen von Rechtsanwältin und Staatsanwalt heißen Nullhypothese und Alternativhypothese (engl. null hypothesis, alternative hypothesis; der Plural von hypothesis ist hypotheses). Sie werden mit $H_{0}$ und $H_{1}$ abgekürzt. Typischerweise besagt die Nullhypothese, dass der unbekannte Parameter $θ$ einen bestimmten Wert vorgegebenen Wert $θ_{0}$ annimmt, während die typische Alternative behauptet, dass das nicht so ist.

$\begin{aligned} H_{0} : θ & = θ_{0} \\ H_{1} : θ & \neq θ_{0} . \end{aligned}$

Die Nullhypothese entspricht der Unschuldsbehauptung der Rechtsanwältin, wohingegen die Alternativhypothese wie der Staatsanwalt auf “schuldig” plädiert.

Wenn in der Nullhypothese eine Gleichheit behauptet wird, spricht man von einem zweiseitigen Test. Es ist auch möglich, eine Ungleichung in der Nullhypothese zu formulieren. Dann spricht man von einem einseitigen Test. Einseitige Tests sind also

$\begin{aligned} H_{0} : θ & \geq θ_{0} \\ H_{1} : θ & < θ_{0} \end{aligned}$

oder

$\begin{aligned} H_{0} : θ & \leq θ_{0} \\ H_{1} : θ & > θ_{0} . \end{aligned}$

Einseitige Tests sind ein klein wenig schwieriger zu verstehen, daher konzentrieren wir uns zunächst auf zweiseitige Tests.

Der Beweisaufnahme entspricht bei einem Hypothesentest die Stichprobenerhebung. Die einfache Stichprobe $X_{1}, \dots, X_{n}$ besteht aus Zufallsvariablen. Aus der Stichprobe errechnet man eine Testsstatistik (engl. test statistic) $T = T (X_{1}, \dots, X_{n}) .$ Die Teststatistik ist eine Statistik im Sinne von Abschnitt 9.2 und somit eine Zufallsvariable. Die Teststatistik wird so gewählt, dass sie die “Beweislage” möglichst gut zusammenfasst.

Da die Teststatistik eine Zufallsvariable ist, hat sie eine Verteilung. Man leitet nun her, wie die Verteilung der Teststatistik unter Gültigkeit der Nullhypothese aussieht. Manchmal ist das exakt möglich, häufig nur approximativ. Die Herleitung der (approximativen) Verteilung ist gewöhnlich der schwierigste Schritt der Testentwickung. Die Verteilung unter der Nullhypothese gibt an, in welchem Bereich die Teststatistik typischerweise liegt, wenn die Nullhypothese stimmt. Umgekehrt folgt aus der Verteilung auch, in welchem Bereich die Teststatistik eher nicht liegen wird, wenn die Nullhypothese stimmt. Diesen Bereich nennt man den kritischen Bereich (engl. critical region). Wir gehen später ausführlicher darauf ein, wie man den kritischen Bereich bestimmt, und nehmen an dieser Stelle erst einmal einfach an, dass der kritische Bereich gegeben ist.

Wenn die Teststatistik im kritischen Bereich liegt, wird die Nullhypothese abgelehnt. Das Analogon in einem Strafverfahren ist eine Beweislage, die deutlich für die Schuld des Angeklagten spricht. Deshalb verurteilt die Richterin den Angeklagten. Wenn die Teststatistik nicht im kritischen Bereich liegt, wird die Nullhypothese nicht abgelehnt. Der Angeklagte wird mangels Beweisen nicht verurteilt.

Wie in einem Prozess kann es auch bei einem Hypothesentest zu einem Fehlurteil kommen. Man spricht von einem Fehler erster Art (engl. error of the first kind), wenn die Nullhypothese verworfen wird, obwohl sie wahr ist. Ein Unschuldiger wird verurteilt. Ein Fehler zweiter Art (engl. error of the second kind) tritt auf, wenn die Nullhypothese nicht abgelehnt wird, obwohl sie falsch ist. Ein Schuldiger wird freigesprochen.

Bei einem Strafprozess will man sicherstellen, dass Unschuldige möglichst nicht verurteilt werden. Dafür nimmt man in Kauf, dass einige Schuldige freigesprochen werden. Welche Art von Fehler ist in der Wissenschaft schlimmer? Auch hier handelt es sich um ein Werturteil, das sich aus dem wissenschaftlichen Verfahren heraus ergibt: Ein Fehler erster Art ist schlimmer als ein Fehler zweiter Art, weil eine abgelehnt Hypothese quasi aus dem wissenschaftlichen “Rennen” aussortiert wird. Dagegen wird eine Hypothese, die nicht als falsch gilt, auch nicht als gesichert wahr angesehen. Sie bleibt “im Rennen”, wird aber möglicherweise irgendwann in Zukunft als falsch erkannt werden.

Wenn ein Fehler erster Art in der wissenschaftlichen Community für schlimmer gehalten wird als ein Fehler zweiter Art, dann sollte der kritische Bereich so festgelegt werden, dass ein Fehler erster Art nur mit einer kleinen (vorgegebenen) Wahrscheinlichkeit auftritt. Diese Wahrscheinlichkeit nennt man das Signifikanzniveau (engl. significance level) des Tests, sie wird mit $α$ bezeichnet. In den Wirtschaftswissenschaften setzt man fast immer $α = 0.05$ , manchmal auch $α = 0.01$ oder $α = 0.1$ .

Die Wahrscheinlichkeit, dass der Test eine falsche Nullhypothese tatsächlich auch als falsch erkennt, nennt man die Power oder Güte (engl. power) des Tests.

Sobald die Stichprobe realisiert wurde, wird aus der Stichprobe $X_{1}, \dots, X_{n}$ die konkrete Stichprobe $x_{1}, \dots, x_{n}$ . In der Folge realisiert sich auch die Teststatistik $T$ , $t = T (x_{1}, \dots, x_{n}) .$ Die Realisation nennt man Wert der Teststatistik.

Für die Testentscheidung untersucht man, ob der Wert der Teststatistik $t$ in den kritischen Bereich fällt:

Wenn das der Fall ist, wird die Nullhypothese abgelehnt. In diesem Fall sagt man, dass die Daten auf einem Signifikanzniveau von $α$ statistisch signifikant gegen die Nullhypothese sprechen.
Wenn der Wert der Teststatistik nicht im kritischen Bereich liegt, wird die Nullhypothese nicht verworfen. Der Parameter $θ$ weicht in diesem Fall nicht signifikant von $θ_{0}$ ab.

Ähnlich wie das Urteil in einem Prozess, sind die beiden Testergebnisse unterschiedlich stark belastbar. Es gibt eine ausgeprägte Asymmetrie in der Interpretation: Eine Ablehnung der Nullhypothese entspricht einer Verurteilung. Dieses Ergebnis ist belastbar. Es ist zwar kein Beweis dafür, dass die Nullhypothese tatsächlich falsch ist, aber ein deutlicher Hinweis, denn die Daten sind kaum mit der Gültigkeit der Nullhypothese vereinbar. Praktisch gesehen kann man davon ausgehen, dass die Nullhypothese falsch ist, auch wenn man immer im Hinterkopf behalten sollte, dass eine Testentscheidung (wie ein Gerichtsurteil) falsch sein kann.

Wenn die Nullhypothese nicht abgelehnt wird, ist die Testentscheidung wenig belastbar. Denn eine Nichtablehnung bedeutet nur, dass die Daten nicht klar genug gegen die Nullhypothese sprechen, so wie bei einem Freispruch die Beweise nicht klar genug für die Schuld sprechen. Die Nullhypothese kann durchaus falsch sein, es liegt nur nicht ausreichend starke empirische Evidenz vor, dass es wirklich so ist. Es wäre fahrlässig, die Nullhypothese als wahr anzusehen, nur weil sie nicht abgelehnt wird. Aus diesem Grund sagt man nie, dass die Nullhypothese “angenommen” wird, sondern nur, dass sie “nicht abgelehnt” wird. Das mag wie eine sprachliche Spitzfindigkeit erscheinen, ist aber sinnvoll, um die Asymmetrie in der Bewertung der Testentscheidungen zu verdeutlichen.

12.3 p-Wert

Die Testentscheidung (also die Ablehnung oder Nichtablehnung der Nullhypothese) hängt vom Signifikanzniveau ab. Das liegt daran, dass der kritische Bereich umso kleiner ist, je niedriger das Signifikanzniveau $α$ ist. Das ist plausibel: Wenn die Fehlerwahrscheinlichkeit erster Art sehr klein sein soll, dann darf man die Nullhypothese nur verwerfen, wenn die Teststatistik einen wirklich extremen Wert annimmt. Es kann also passieren, dass der Test auf einem Signifikanzniveau von 0.05 die Nullhypothese ablehnt, auf einem Signifikanzniveau von 0.01 jedoch nicht.

Die Wahl des Signifikanzniveaus kann man jedoch auch den Lesern einer empirischen Untersuchung überlassen. Dann kann jeder selbst entscheiden, ob der Wert der Teststatistik zu einer Ablehnung der Nullhypothese führen soll oder nicht. Person A möchte vielleicht ein Signifikanzniveau von $α = 0.05$ , Person B möchte hingegen $α = 0.01$ . Hier kommt der sogenannte p-Wert ins Spiel.

Definition: p-Wert

Der p-Wert (engl. p-value) ist das kleinste Signifikanzniveau, auf dem die Nullhypothese gerade noch abgelehnt wird.

Eine andere Interpretation des p-Werts ist: Der p-Wert gibt die Wahrscheinlichkeit an, dass die (zufällige) Teststatistik einen Wert annimmt, der mindestens so stark gegen die Nullhypothese spricht wie der tatsächlich realisierte Wert der Teststatistik. Falsch ist hingegen die Interpretation des p-Werts als “Wahrscheinlichkeit, dass die Nullhypothese stimmt”.

Anstelle einer Testentscheidung für ein vorgegebenes Signifikanzniveau wird bei der Verwendung des p-Werts zur Kommunikation der p-Wert mitgeteilt. Wenn der p-Wert niedriger ist als das Signifikanzniveau, das man als Leser gern hätte, lehnt man die Nullhypothese ab. Wenn der p-Wert größer ist als das Signifikanzniveau, lehnt man die Nullhypothese nicht ab. Bei sehr großen p-Werten (z.B. größer als 10 Prozent) würde vermutlich niemand die Nullhypothese verwerfen, bei sehr kleinen Werten von weniger als 1 Prozent würde vermutlich jeder die Nullhypothese verwerfen.