Signifikanztest

Statistik: Texte/Ausarbeitungen

Author
Affiliation

Prof. Dr. Armin Eichinger

TH Deggendorf

Published

04.05.2024

James Randi (1928-2020) war Zauberkünstler und Mitglied der Skeptiker, einer Organisation, die sich zum Ziel gesetzt hat, wissenschaftliches Denken zu fördern und pseudowissenschaftliche Phänomene zu widerlegen. Vor allem ist James Randi bekannt, weil er denjenigen, die ihm paranormale Fähigkeiten unter objektiven Bedingungen belegen könnten, eine Million Dollar geboten hatte.
Bildquelle: AP

Einführung

Das Pro7-Magazin Galileo war 2010 Gastgeber eines weiteren Versuchs, die von James Randi ausgelobte Summe zu gewinnen. Es galt für einen Wünschelrutengeher (WRG), unter zehn gleichartigen Abdeckungen einen Eimer Wasser zu finden.

Überlegen wir uns vorab: Was müsste passieren, damit wir dem WRG seine Begabung abnehmen würden? Reicht es, dass er einmal den Eimer Wasser findet? Wohl nicht – das könnte doch auch Zufall gewesen sein! Würden uns zwei, drei oder vier Treffer bei zwei, drei oder vier Versuchen mit jeweils zehn Eimern überzeugen? Vielleicht – vielleicht nicht. Sie sehen: Es ist nicht trivial, hier ein Kriterium zu bestimmen.

Randi einigte sich mit dem WRG auf folgende Bedingungen: Er sollte bei 13 Versuchen sieben Mal den Eimer unter den zehn Abdeckungen finden.

Der Versuch wurde durchgeführt: Zwei Versuchsleiter positionierten den Eimer zufällig unter einer der zehn Abdeckungen und verließen für den „Rutengang” das Zimmer. Damit vermieden sie sogenannte Versuchsleitereffekte; das sind Effekte, die das Versuchsergebnis verzerren können und die, evtl. auch nicht wissentlich, durch Verhalten, Mimik, Äußerungen, … des Versuchsleiters entstehen. Aus dem gleichen Grund gibt es in medizinischen Studien auch sog. Doppel-Blind-Studien: Wird beispielsweise die Wirksamkeit von konkurrierenden Medikamenten untersucht, weiß weder der Patient noch der das Medikament verabreichende Arzt, welche Variante im konkreten Fall verabreicht wird. Dadurch wird ausgeschlossen, dass der Arzt die Wirksamkeit irgendwie beeinflussen kann, indem er dem Patienten ungewollt Hinweise gibt. Außerdem wird so ein verzerrter, nur auf eine bestimmte Variante beschränkter Placebo-Effekt vermieden.

Obwohl der WRG nach dem Absolvieren der 13 Durchgänge recht zuversichtlich war, das Kriterium erfüllt zu haben, zeigte die Auswertung, dass er nur bei drei der 13 Durchgänge richtig lag. 1 Nachdem Randi sich 2015 ins Privatleben zurückgezogen hat, wurde die “One Million Dollar Paranormal Challenge” eingestellt.

Versuchen wir, den Versuch mit Hilfe von Wahrscheinlichkeiten zu beschreiben. Wie groß war die Wahrscheinlichkeit für den WRG, den Test zu bestehen? Das können wir mit Hilfe der Binomialverteilung berechnen, die Sie vielleicht noch aus der Schule kennen. Das Beispiel dient zur Illustration. Versuchen Sie, der Argumentation zu folgen. Die W’kt, bei n=13 Durchgängen mindestens sieben Erfolge k zu haben, setzt sich so zusammen:

\(P(k>6 | n=13) = 1 - [P(k=0) + P(k=1) + \dots + P(k=6)]\)

Mehr als sechs Treffer zu haben ist also das Gegenereignis zu NICHT mehr als sechs, also weniger als sieben Treffer zu haben. Jeden einzelnen der sechs Summanden können wir folgendermaßen ermitteln:

\[f(X=k|n) = {n\choose k}\cdot p^k \cdot q^{n-k}\]

Daraus ergibt sich:

\(P(k>6 | n=13)\) = 1 - (0.254186583 + 0.367158397 + 0.244772265 + 0.099722034 + 0.027700565 + 0.005540113 + 0.000820757) = 1 - 0.99990071 = 0.000099285 %

Die Wahrscheinlichkeit von mehr als sechs Treffern liegt demnach etwa bei 0.01 %. An dieser Stelle möchte ich etwas genauer werden. Was wir eben berechnet haben, ist die Wahrscheinlichkeit, mehr als sechs Treffer zu haben, unter der Annahme, dass der WRG seine Antworten nur rät. Unter dieser Annahme liegt das langfristige Mittel für Treffer bei 0.1 \(\cdot\) n – bei unendlich vielen Versuchen der beschriebenen Art beispielsweise bei durchschnittlich 1.3 (= 0.1 \(\cdot\) 13) je Test; bei 900 leeren und 100 vollen Eimern liegt die Anzahl der erwarteten Treffer bei 100 (=0.1 \(\cdot\) 1000). Das können wir leicht über die Formel des Erwartungswerts von Binomialverteilungen ermitteln: EW = n \(\cdot\) p, wobei n die Anzahl der Versuche und p die Trefferwahrscheinlichkeit ist.

Mir geht es um die Annahme, die wir vorab formulieren. Was wäre denn, wenn wir annehmen, dass der WRG tatsächlich eine besondere Fähigkeit hat und damit seine langfristigen Erfolgsaussichten von 0.1 \(\cdot\) n erhöht? Auf wie viel erhöht – 0.3 \(\cdot\) n, 0.4 \(\cdot\) n oder 0.5 \(\cdot\) n? Wir sehen, dass diese Annahme schwieriger zu formulieren ist als die Annahme, dass keine besonderen Fähigkeiten vorliegen. Es liegt sicher nicht zuletzt daran, dass die statistische Untersuchung von Fragestellungen den indirekten Weg über die Ablehnung eine Hypothese geht, die erstmal behauptet: „Es gibt nichts Neues unter der Sonne”.

H0 & H1: Nullhypothese und Alternativhypothese

Unter Gültigkeit der Annahme, dass der WRG rät, erwarten wir, dass das Ereignis von mehr als sechs Treffern äußerst unwahrscheinlich ist – 0.01 %, siehe oben. Wenn es aber trotzdem eintreten sollte, dann ist James Randi bereit, dem WRG seine Fähigkeiten zu attestieren und ihn um eine Million Dollar reicher zu machen.

In statistische Begriffe gepackt: Wir haben zwei Hypothesen: die Nullhypothese (oder kurz H0), dass der WRG nur raten kann und die Alternativhypothese (oder kurz: H1), dass er tatsächlich besondere Fähigkeiten hat. Unter Gültigkeit der Nullhypothese erwarten wir ein bestimmtes Ergebnis, und wir setzen ein Kriterium, dessen Eintreten unter Gültigkeit der Nullhypothese unwahrscheinlich ist. Wenn das Kriterium eintritt oder ein Wert jenseits des Kriteriums, der also noch unwahrscheinlicher ist, dann sind wir bereit, die Nullhypothese zu verwerfen und stattdessen die Alternativhypothese anzunehmen.

Null- und Alternativhypothese bilden ein Paar von Aussagen, die sich gegenseitig ausschließen. Das erlaubt es, von der (wahrscheinlichen) Ungültigkeit der einen auf die (wahrscheinliche) Gültigkeit der anderen schließen zu können. Wenn der WRG sieben oder mehr Treffer hat, bekommt er das Geld, bei weniger als sieben Treffern geht er leer aus.

Dem Kriterium aus unserem Beispiel entspricht eine Wahrscheinlichkeit: 0.01 %. Das ist starker Tobak! Allerdings geht es auch um viel Geld. Daher ist dieses Kriterium vermutlich auch sehr strikt gewählt. Randi hätte ja auch verlangen können, dass der WRG alle Eimer findet. Schließlich ist Begabung Begabung! Im wissenschaftlichen Diskurs ist man weniger streng. Hier wird üblicherweise mit einem Kriterium von 5 %, manchmal auch 1 % gearbeitet. Je nach Forschungsrichtung und der Bedeutung der Ergebnisse kann ein anderer Wert verwendet werden. Für unsere Zwecke können wir uns einigen, dass ein Wert von 5 % angenommen wird, wenn wir nicht ausdrücklich auf einen anderen Wert hinweisen.

Signifikanz und Entscheidungsfehler 1. und 2. Art

Hinweis: Behalten Sie beim Lesen im Hinterkopf, dass die H0 die Annahme beinhaltet, die wir eigentlich widerlegen wollen. Die eigentlich interessante Annahme steckt in der H1.

Was bedeutet nun dieser Wert von (üblicherweise) 5 %? Für ein bestimmtes Ereignis, das wir als Kriterium oder Schranke verwenden, ist 5 % die Wahrscheinlichkeit, dass es eintritt, wenn die Nullhypothese gilt. Für ein Ereignis, das – unter Gültigkeit der Nullhypothese – mit geringerer Wahrscheinlichkeit eintritt, sind wir bereit, die Nullhypothese anzuzweifeln und abzulehnen und stattdessen die Alternativhypothese anzunehmen. Wenn das Ergebnis diese Schranke passiert, bezeichnen wir das Ergebnis als statistisch signifikant.

Die Wahrscheinlichkeit, dass ein Ergebnis auftritt, wenn in der Population die Nullhypothese gilt, wird als Irrtumswahrscheinlichkeit bezeichnet1. Warum Irrtum? Es besteht immer die Möglichkeit, dass ein relativ extremes Ergebnis auch unter Gültigkeit der Nullhypothese auftritt. Der WRG könnte theoretisch 13 Mal richtig raten, ohne dass er eine besondere Begabung hat. Dann wäre zwar in Wirklichkeit die Nullhypothese gültig. Nach unserem Kriterium von 5 % – und auch dem von Randi: 0.01 % – würden wir sie aber zugunsten der Alternativhypothese ablehnen. Wir würden uns also falsch entscheiden. Der Irrtum bestünde darin, die Alternativhypothese anzunehmen, obwohl in der Population die Nullhypothese gilt. Diesen Irrtum gilt es zu vermeiden. Dafür werden bestimmte Schutzmechanismen definiert.

Das Kriterium α (von 5 % oder 1 %) für die Irrtumswahrscheinlichkeit nennt man Signifikanzniveau. Den Fehler, die Nullhypothese zugunsten der Alternativhypothese abzulehnen, obwohl sie gilt, nennt man α-Fehler oder auch Fehler erster Art. Es gibt auch einen Fehler zweiter Art, den β-Fehler. Die folgende Tabelle hilft, die Fehler einzuordnen:

Entscheidungstafel für statistische Entscheidungen

Wir haben hier eine Vier-Felder-Tafel, die unsere Entscheidungssituation beschreibt. Es gibt potenziell zwei richtige und zwei falsche Entscheidungen. Bezogen auf unser Wünschelruten-Beispiel: Wenn der WRG tatsächlich keine besondere Begabung hat, dann fällt die Entscheidung von James Randi in Zelle 1. Sollte der WRG doch besonders begabt sein, hätte Randi einen β-Fehler oder auch Fehler zweiter Art begangen (Zelle 2). Er hätte zugunsten der Nullhypothese entschieden, obwohl in der Population die Alternativhypothese gilt. Hätte der WRG ein Ergebnis von mehr als sechs Treffern produziert, hätte Randi zugunsten der Alternativhypothese entschieden. Mit dieser Entscheidung läge er richtig, wenn der WRG tatsächlich besonders begabt wäre (Zelle 4). Die Entscheidung wäre falsch, wenn der WRG nicht besonders begabt wäre. Randi hätte dann einen α-Fehler oder Fehler erster Art begangen (Zelle 3). Salopp formuliert stellt der Fehler 1. Art eine Art Leichtgläubigkeit dar, der Fehler 2. Art eine Art Blindheit für Effekte.

Unter Gültigkeit der H0 ist die Welt häufig relativ exakt beschreibbar, wie wir am Beispiel des WRGs gesehen haben. Die H1 ist meist schwerer zu fassen, weil man häufig einen neuartigen Effekt beschreiben muss, über den noch nicht viele Informationen vorliegen, für den man also genaue Verteilungseigenschaften in der Population nicht formulieren kann.

Signifikanztest und verschiedene Arten von Hypothesen

Als Forscher:innen, Evaluator:innen oder einfach als neugierige Menschen stellen wir uns Fragen, die wir vielleicht gerne untersuchen möchten, indem wir statistische Untersuchungswerkzeuge verwenden:

  • Behandlung A ist wirkungsvoller als Behandlung B.
  • Eine Benutzerschnittstelle (BS) ist mit Touchscreen ist zeiteffizienter zu bedienen als mit der Maus. Dafür werden mit der Maus weniger Fehler gemacht.
  • Mit steigendem Alter sinkt die Anzahl von Nachtunfällen.

All das sind Fragestellungen, die wir potenziell statistisch untersuchen können, wenn die beteiligten Variablen geeignet operationalisiert, also geeignet messbar gemacht worden sind.

Es hat sich eingebürgert, die eigentlich untersuchte Fragestellung oder Forschungshypothese als Alternativhypothese zu formulieren. Das inhaltlich eher langweilige Gegenstück kommt in die Nullhypothese. Für einige der angesprochenen Beispiele heißt das:

  • H0: Behandlungen A und B unterscheiden sich nicht voneinander. H1: Die Behandlungen unterscheiden sich voneinander.
  • H0: Die Bedienung von BS mit TS ist nicht zeiteffizienter als mit der Maus. H1: Die Bedienung von BS mit TS ist zeiteffizienter als mit der Maus.
  • H0: Das Alter hat keinen reduzierenden Einfluss auf die Anzahl von Nachtunfällen. H1: Mit steigendem Alter sinkt die Anzahl von Nachtunfällen.

Die formulierten Hypothesen sind Behauptungen, die sich evtl. aus einem größeren theoretischen Zusammenhang ableiten lassen, vielleicht aber auch nur interessante Fragestellungen, die es wert erscheinen, untersucht zu werden.

Einige dieser Fragestellungen machen es leicht, sie zu operationalisieren, andere weniger. Wann ist eine Lernmethode besser als eine andere? Vermutlich dann, wenn die Leistung der Lernenden besser ist; aber vielleicht geht es auch um die Freude am Lernen und die dadurch resultierende höhere Ausdauer. Auf jeden Fall muss die Aussage stark konkretisiert und in messbare Variable übersetzt werden, über die wir dann zahlenmäßige Aussagen treffen können. So könnte ein operationales Hypothesenpaar lauten, das mit messbaren Variablen argumentiert:

H0: Unter Einsatz der Lernmethode A ist die Abschlussnote nicht besser als unter Einsatz von B. H1: Unter Einsatz der Lernmethode A ist die Abschlussnote besser als unter Einsatz von B.

Wir stellen mit diesen Aussagen einen Vergleich von zwei Populationen an: Die Grundgesamtheit aller möglichen Abschlussnoten mit Methode A und die mit B. Speziell geht es um einen Kennwert der Population, den Mittelwert μ. Spätestens bei der sauberen, formalen Formulierung der Hypothesen sollten wir berücksichtigen, dass sich H0 und H1 gegenseitig ausschließen und den gesamten Ergebnisraum abdecken sollen. Obwohl wir also nicht daran interessiert sind, ob B besser als A ist, wird auch dieser Fall berücksichtigt.

Angenommen, die Abschlussnote wird in Punkten angegeben, lassen sich die Hypothesen umformulieren:

  • H0: μA ≤ μB
  • H1: μA > μB

Bortz & Döring (2006/15): „Die Nullhypothese drückt inhaltlich immer aus, dass Unterschiede, Zusammenhänge, Veränderungen oder besondere Effekte in der interessierenden Population überhaupt nicht und/oder nicht in der erwarteten Richtung auftreten.” (S. 24)

Versuchen wir nun, unser Wünschelrutenbeispiel in Hypothesen zu packen. Wir haben nicht wirklich ein Theoriegebäude bei der Hand, aus dessen Gefüge wir hypothetische Zusammenhänge, Veränderungen oder Unterschiede ableiten können. Wir haben nur die Behauptung des WRGs, dass er mit seiner Wünschelrute Wasser aufspüren kann. Um diese Behauptung prüfen zu können, wurde sie in Variable übersetzt, die messbar sind.

Das Wasser wird in Eimern angeboten, die versteckt werden. Die möglichen Verstecke sind bekannt. Die Häufigkeit von Wassereimern in der Grundgesamtheit ist bekannt. Die Begabung des Wasser-Erkennens wird übersetzt in die Häufigkeit der korrekten Identifizierung eines Wassereimers. Die Anzahl von Durchgängen wird festgelegt. Damit können wir die Verteilung des Merkmals „korrekte Identifizierung der Wassereimern bei n Durchgängen” angeben. Sie entspricht der Binomialverteilung der k Treffer mit Trefferwahrscheinlichkeit p bei n Durchgängen.

Randi glaubt dem WRG seine Begabung nicht. Seine Meinung steckt in der Nullhypothese. Das Neue, Interessante, eigentlich Untersuchte kommt in die Alternativhypothese. Bezeichnen wir den erwarteten Wert für die Binomialverteilung als μBinom und den Wert des WRG als μWRG. Damit lautet unser Hypothesenpaar:

  • H0: μWRG ≤ μBinom
  • H1: μWRG > μBinom

Ein derartig formuliertes und formalisiertes Hypothesenpaar wird als statistische Hypothese bezeichnet. In der Alternativhypothese steckt dabei der postulierte Effekt, den die Nullhypothese verneint.

Rekapitulieren wir: Ausgangspunkt ist eine Forschungshypothese oder Fragestellung, die wir messbar machen und damit in eine operationale Hypothese überführen. Die operationale Hypothese gestattet uns, Aussagen über Zahlen, Häufigkeiten, Kennwerte zu formulieren und in eine statistische Hypothese zu überführen, die aus dem Hypothesenpaar Nullhypothese H0 und Alternativhypothese H1 besteht. H0 und H1 schließen sich gegenseitig aus und decken den gesamten Ergebnisbereich ab.

Das 0.01 %-Kriterium von Randi besagt: Wenn das Ergebnis unter Gültigkeit der H0 äußerst unwahrscheinlich ist – also nur in 0.01 % der Fälle oder seltener auftritt – dann ist er bereit, die H0 abzulehnen und stattdessen die H1 anzunehmen. Über das Wahrscheinlichkeitskriterium lassen sich hinsichtlich der Teststatistik (oder auch Prüfgröße) somit ein Annahmebereich und ein Ablehnungsbereich für die Hypothesen definieren. Dabei ist der Annahmebereich der H0 der Ablehnungsbereich der H1 und andersrum. Konkret für unser Beispiel (k: Anzahl Treffer):

  • H0 : Annahmebereich k={0,1,2,3,4,5,6}; Ablehnungsbereich H0: k={7,8,9,10,11,12,13}
  • H1 : Annahmebereich k={7,8,9,10,11,12,13}; Ablehnungsbereich k={0,1,2,3,4,5,6}

Das beschriebene Vorgehen ist typisch für einen Signifikanztest. Begriff und Vorgehen werden uns von nun an ständig begleiten. Alle Erfahrungen mit t-Tests, Varianz-, Korrelations-, Regressionsanalysen machen wir im Rahmen von Signifikanztests.

Einige Bemerkungen dazu:

  • Ein signifikantes Ergebnis bedeutet, dass die relevante Teststatistik (oder auch Prüfgröße) in den Ablehnungsbereich der H0 fällt. Wie bereits angesprochen, kann das rein zufällig geschehen. Ein signifikantes Ergebnis bedeutet daher nicht, dass die Nullhypothese falsch ist.

  • Ein signifikantes Ergebnis ist eine Entscheidungsgrundlage für die vorläufige Annahme oder Ablehnung der Forschungshypothese. Endgültige Bestätigungen oder Widerlegungen können mit dieser Vorgehensweise nicht getroffen werden.

  • Unser Beispiel verwendet eine sogenannte gerichtete (Alternativ-)Hypothese; wir machen Annahmen über die Richtung des Effekts. Wenn wir beispielsweise bei einer Maßnahme eine Veränderung erwarten, aber keine Annahmen über die Richtung der Veränderung treffen, müssten wir eine ungerichtete Alternativhypothese formulieren (z.B. H1: μvorher ≠ μnachher; die zugehörige H0: μvorher = μnachher). Wir werden die Konsequenzen gerichteter Hypothesen im Zusammenhang mit ein- und zweiseitigen Tests diskutieren.

Beispiel

Versetzen wir uns in folgende Situation: Wir haben ein neues Trainingsverfahren für Reaktionsfähigkeit entwickelt. Wir glauben, dass durch dieses Training die Reaktionsfähigkeit verbessert wird (Forschungshypothese). Unsere operationale Hypothese ist, dass die Reaktionszeiten bei einem Test mit dem Training niedriger sind als ohne Training. Reaktionsfähigkeit operationalisieren wir somit durch die Reaktionszeit bei einem bestimmten Test.

Angenommen, wir wissen auf Grund vorliegender Daten früherer Testversuche, dass folgende Werte (ohne Training) gelten: μ=4200 ms, σ=600 ms.

Unsere Stichprobe von 50 Probanden hat das Training absolviert und kommt zu diesen Ergebnissen: M = 3889.54 ms, SD = 464.51 ms.

Machen wir eine statistische Hypothesen daraus:

  • H0: μTraining ≥ μohne
  • H1: μTraining < μohne

Uns interessiert der Mittelwert in der Stichprobe und die Wahrscheinlichkeit, dass dieser – oder ein (in Richtung der H1) noch extremerer – unter Gültigkeit der Nullhypothese zustande kommt.

Der Stichprobenmittelwert ist 3889.54 ms. Wie wahrscheinlich aber ist ein solcher Wert, wenn wir annehmen, dass unser Training tatsächlich keinen Effekt hat? Wir wissen, dass die Mittelwerte von Stichproben ab einer gewissen Größe normalverteilt sind (n>30, zentrales Grenzwerttheorem): μ=4200, \(\sigma_{\bar{x}}\) = σ/\(\sqrt{50}\) = 600/7.07 = 84,87.

Achtung: Hier brauchen wir den Standardfehler! Er ist die Standardabweichung für die Mittelwerteverteilung und die berechnet sich als Standardabweichung der Verteilung der Rohwerte (nicht der Mittelwerte) geteilt durch Wurzel von n.

Aber denken wir ans WRG-Beispiel: Ab wann sind wir bereit, die Nullhypothese zugunsten der Alternativhypothese abzulehnen? Zum Glück können wir uns an Konventionen orientieren. Es ist für derartige Fragestellungen üblich, als Wahrscheinlichkeitskriterium oder Signifikanzniveau 5 % festzulegen (s. o.). Oft liest man in Veröffentlichungen dazu folgenden Satz „Das Signifikanzniveau für die statistischen Auswertungen wird auf α=0.05 (o. 5 %) festgelegt.” Das ist damit gemeint!

Wenn also unter Annahme der H0 ein Ergebnis für die Teststatistik zustande kommt, das nur in 5 % der Fälle oder seltener zu erwarten wäre, lehnen wir die H0 zugunsten der H1 ab. Wenn wir ein weniger unwahrscheinliches Ergebnis erhalten, behalten wir die H0 bei.

Wenn wir den MW unserer Stichprobe standardisieren, erhalten wir \(z_{MW} = \frac{MW-μ}{\sigma_{\bar{x}}}\). Wir tun so, als ob der MW aus der Verteilung stammte, die durch μ und \(\sigma_{\bar{x}}\) beschrieben wird – genau das dürfen wir ja, wenn wir die Nullhypothese annehmen (was wir ja gerade machen).

\(z_{MW} = \frac{MW-μ}{\sigma_{\bar{x}}}\) = (3889.54 – 4200)/ 84.87 = -3.6582

Wir wissen damit, dass der MW unserer Stichprobe um 3.66 Standardabweichungen links vom Mittelwert der Kennwerteverteilung liegt. Diesen Wert können wir in der Tabelle der Standardnormalverteilung nachschlagen. Wir suchen nach dem positiven Wert z=3.66, der etwa 99.988% der Fläche abschneidet. Eine durchschnittliche Bearbeitungszeit von 3889.54 ms ist damit kürzer als die von etwa 99.988% der Grundgesamthei2. Die Wahrscheinlichkeit, ein derartiges oder ein (in Richtung H1) noch extremeres Ergebnis zu erhalten, wenn die H0 gilt, beträgt 0.012%.

Der Wert, den wir mit unserem Signifikanzniveau von α=5 % vergleichen müssen, ist 100% – 99.988% = 0.012% < 5 %. Daher lehnen wir die Nullhypothese ab und können folgern, dass unser neues Training die Reaktionszeit signifikant verringert. Die Reaktionsfähigkeit kann signifikant verbessert werden.

Um vielleicht etwas Ordnung in unseren Denkapparaten herzustellen: Das beschriebene Beispiel unterscheidet sich von den bisher behandelten Beispielen der Art: „Wie viele Personen sind größer als 2,10 m, wenn sie aus einer normalverteilten Population mit dem Mittelwert von 1,75 m und der Standardabweichung 12 cm gezogen werden”.

Worin besteht der Unterschied? – Das Größenbeispiel nimmt einen einzigen Wert und vergleicht den mit der Verteilung der Rohdaten in der Population. Im Trainingsbeispiel oben hantieren wir mit dem Mittelwert einer Stichprobe und wollen prüfen, ob der innerhalb bestimmter Grenzen der Kennwerteverteilung (und nicht der Rohwerte) liegt. Von der Kennwerteverteilung (der Mittelwerte von Stichproben aus der Grundgesamtheit) wissen wir, dass sie ab einer bestimmten Größe (n>30) normal ist.

Literatur

Bortz, J. & Döring, (2006/15). Forschungsmethoden und Evaluation. Springer.

Footnotes

  1. Bei diesem Begriff sind sich die Gelehrten nicht ganz einig. Einige verwenden ihn, um damit das Signifikanzniveau α zu bezeichnen (s. u.). Meine Erklärung weicht davon ab. Wir werden dem Begriff daher möglichst aus dem Weg gehen. Unstrittig ist, dass die beschriebene Wahrscheinlichkeit für statistische Tests abgekürzt als p-Wert bezeichnet wird.↩︎

  2. Achtung: Die Grundgesamtheit hier sind nicht die normalverteilten Werte einzelner Merkmalsträger, sondern die normalverteilten Mittelwerte der Stichproben!↩︎