04.12.2023

Übersicht

  • Urteile
  • Fehler: Bias und Noise
  • Bias und Noise messen
  • Noise ist ein Problem
  • Beispiele
  • Analyse & Arten von Noise
  • Zerlegungen von Noise
  • Die Psychologie von Urteilen und Noise
  • Noise ist verborgen aber nicht unsichtbar
  • Wie sich Noise (und auch Bias) verringern lassen - Noise Audit - Grundsätze der Entscheidungshygiene
  • Wie viel Noise sollte es sein?

Vorbemerkungen

Die folgenden Folien basieren vorwiegend auf Kahneman et al. (2021).

Wenn nicht gesondert erwähnt sind Zitate im Folgenden aus Kahneman et al. (2021).

Anzusiedeln eher auf der Ebene einer Organisation (als “Fabrik von Entscheidungen”; i. V. z. Individuum, Gesellschaft).

Urteile (engl. judgments)

  • Urteilen ≠ Denken

  • Urteile sind Messungen mit unserem Verstand als Messinstrument

  • Arten von Urteilen

    • prädiktiv vs. evaluativ (z. B. fiktive Bewertung, Gemälde, …) – kein Unterschied im Urteilsverhalten
    • überprüfbar vs. nicht überprüfbar
    • Qualität nicht überprüfbarer Urteile lässt sich nur anhand der Qualität des Denkprozesses beurteilen, der sie hervorbringt.
    • Ermessensentscheidungen: zwischen Geschmacksfragen – berechenbaren Probleme; begrenzte Uneinigkeit
  • Beziehung zu Entscheidungen: Jede Entscheidung hat Urteilsanteile

  • Wessen Urteile haben Einfluss?

    • Richter:in
    • Ärzt:in
    • TÜV-Gutachter:in

Fehler: Bias und Noise

Urteilsfehler haben zwei Gesichter: Bias und Noise

Bias ist die Abweichung von einer Norm.

Noise ist die Streuung von Urteilen, die gleich sein sollten.

System-Noise ist Streuung von Urteilen austauschbarer Fachkräfte (v. a. in Organisationen; z. B. Ärzte in der Notaufnahme, Richterinnen, …)

Noise kann gemessen werden, ohne die Zielscheiben zu sehen

Schwerpunkt der Ausführungen ist System-Noise

Ziel: Bias und Noise minimieren

*Illustration von Bias und Noise als Fehlerquelle für Urteile*

Illustration von Bias und Noise als Fehlerquelle für Urteile

Bias und Noise messen

Fehlermaß Mittlerer quadratischer Fehlermean squared error (MSE):

  • positive und negative Abweichungen analog
  • durch Quadrierung Betonung größerer Abweichungen
  • kennen wir von der Regressionsanalyse (Kriterium der kleinsten Quadrate)

Bias und Noise sind unabhängig und additiv in ihrer Wirkung auf den MSE

Bias und Noise messen (2)

Bias:

  • = Abweichung des Mittelwerts von Urteilen vom wahren Wert
  • Bestimmung unmöglich, wenn der wahre Wert nicht bekannt ist (nicht überprüfbare Urteile)
  • Bsp: Festlegen eines Strafmaßes
  • Annahme: Mittelwerte vieler Urteilender liefert guten Schätzer für wahren Wert

Noise:

  • Messbar über Noise Audit
  • Noise ohne Kenntnis des wahren Wertes messbar
  • Urteilende begutachten dieselben Fälle
  • Wenn Mittelwert(Fehler) = SD(Fehler) liefern Bias und Noise denselben Beitrag für den MSE
  • Bias ≙ Noise, wenn 84% der Urteile über/unter dem wahren Wert liegen (vgl. nächste Folie)
  • Wenn Bias < 1 SD, dann Noise > Bias (“dann ist Noise die größere Quelle für den Gesamtfehler MSE”)

Bias und Noise messen (3)

*Fehlerverteilung, in der Bias = Noise [@kahneman2021noise]*

Fehlerverteilung, in der Bias = Noise (Kahneman et al., 2021)

Bias und Noise messen (4)

*Halbierung von Bias (li.) oder Noise (re.) [@kahneman2021noise]*

Halbierung von Bias (li.) oder Noise (re.) (Kahneman et al., 2021)

Bias und Noise messen (5)

*Beide Verteilungen haben die gleiche Genauigkeit (MSE); Quelle: [YT-Video](https://www.youtube.com/watch?v=dtoLT4ds4bM&t=2435s#t=19m30s)*

Beide Verteilungen haben die gleiche Genauigkeit (MSE); Quelle: YT-Video

Noise ist ein Problem

Noise tritt überall auf, wo geurteilt wird und ist größer als angenommen (Bsp. Justiz, Versicherungen).

Zufallsabhängige Fehler (Noise) heben sich nicht gegenseitig auf (vgl. Metapher Zielscheibe).

Wenn Urteile schwanken, sind sie fehlerbehaftet; auch ohne Kenntnis des wahren Werts.

Biases lassen sich leicht in der Rückschau finden; haben eine “charismatische Erklärungskraft”.

Zur Erkennung von Noise ist statistische Sicht erforderlich, die uns schwer fällt.

Fachkräfte haben Vertrauen in die eigenen Urteile und erwarten, dass Kolleg:innen mit ihnen übereinstimmen. Diese Annahme bleibt meist ungeprüft.

Tatsächlich widersprechen unsere Urteile häufig denen anderer und auch unseren eigenen.

Beispiele für Noise: Strafjustizsystem

1970er USA: Richter Marvin Frankel (1973) prangert ungerechtfertigte Variabilität (= Noise) in Urteilssprüchen an.

“Zwei Männer, bislang beide nicht straffällig, wurden wegen Einlösung gefälschter Schecks über 58,40 beziehungsweise 35,20 Dollar verurteilt: der erste zu 15 Jahren, der zweite zu 30 Tagen.” – S. 20

Systematische Untersuchung anhand konkreter, realistisch detaillierter Fallbeschreibungen

Beispiele:

  • Heroindealer: 1 bis 10 Jahre Freiheitsstrafe
  • Bankräuber: 5 bis 18 Jahre Freiheitsstrafe
  • Erpressung: 3 Jahre Haft bis 20 Jahre Haft + 65.000 Dollar Geldstrafe

Weitere Untersuchungen kommen zum selben Ergebnis: Ausmaß an Noise “schockierend”

Strafzumessung als eine Art Glücksspiel

Ausmaß an Noise wird – auch in diesen Studien – unterschätzt. Reale Urteile erfolgen unter deutlich weniger kontrollierten Bedingungen.

Strafjustizsystem (2)

Studie über Strafzumessung (n=208 Richter:innen): Matrix-Struktur von Urteilen (S. 80)

Studie über Strafzumessung (n=208 Richter:innen): Matrix-Struktur von Urteilen (S. 80)

Strafjustizsystem (3)

  • Bezug zum 2. Semester Statistik

  • Design mit Messwiederholung

  • Messwiederholungsfaktor Fälle

  • Personenfaktor

  • Interaktion Personen x Fälle

Strafjustizsystem (4)

Entwicklung und Verabschiedung von Leitlinien (Online verfügbar)

Breite Basis: 10.000 Strafverfahren

Festlegung eines Strafrahmens (6 Monate bzw. 25 % Spielraum)

Ergebnis:

- Richtlinien sind wirksam; sie reduzieren Noise 
- 1986/87: 17 % bzw. 4,9 Monate 
- 1988-93: 11 % bzw. 3,9 Monate

Aber: massive Kritik

- Richtlinien wurden 2005 für ungültig erklärt 
- Argument: Richtlinien werden Komplexität des Einzelfalls nicht gerecht

Folge: Durchschnittlicher Unterschied zwischen strengen und durchschnittlichen Richtern steigt von 2,8 auf 5,6 Monate

Beispiel: Versicherungen

Austauschbare menschliche Messsysteme:

  • Underwriter legen Prämien fest
  • Schadensregulierer im Schadensfall; verhandeln Auszahlung

Zufallsstreuung von Urteilen kann zu Ertragseinbußen führen

Übereinstimmung der Urteile wünschenswert

Führungsebene bezweifelt die Größe des Problems Noise

“Goldilocks”-Zone; Fehler in beide Richtungen kostspielig

Auswahl des Underwriters/Regulierers ist Lotterie

Versicherungen (2)

Methodischer Ansatz: Noise Audit

Stellen wir uns diese Frage: »Wenn Sie in einer gut geführten Versicherungsgesellschaft zwei sachkundige Underwriter oder Schadensregulierer nach dem Zufallsprinzip auswählen würden, wie weit lägen deren Schätzungen für denselben Fall Ihres Erachtens wohl auseinander?«

Noch konkreter: »Wie groß wäre die Differenz zwischen beiden Schätzungen in Prozent ihres Durchschnittswerts?«

Befragung der Führungsebene (n=828 CEOs und Topmanager:innen)

Homogenes Ergebnis der Befragung: 10 %

Ergebnisse des Noise Audits (Mediane):

  • Underwriter: 55 %
  • Schadensregulierer: 43 %

Eine typische Abweichung liegt also nicht bei 9.500 und 10.500 sondern bei 9.500 und 16.700 Dollar.

Wichtig: Fehler heben sich nicht gegenseitig auf; sie addieren sich

Versicherungen (3)

Ursachenforschung: Warum bleiben so viele Fehler unentdeckt?

Naiver Realismus: Wir nehmen die Welt so wahr, wie sie tatsächlich ist.

Illusion der Übereinstimmung: Andere nehmen die Welt so wahr, wie wir das tun.

u. v. a. m.: Kontrafaktisches Denken wird vermieden; Erfahrung führt zu kognitiver Leichtigkeit; Selbstvertrauen in die eigenen Urteile steigt; Feedback bleibt aus; …

Problem sind nicht einzelne schlechte Urteile, sondern das Rauschen des Systems: System-Noise.

“Überall, wo Urteile getroffen werden, gibt es Noise, und zwar mehr, als man denkt.” (S. 40)

Arten & Analyse von Noise

Anmerkung: Die folgenden Definitionen basieren vorwiegend auf dem Glossar von Kahneman et al. (2021).

Noise

Noise ist die zufällige Streuung und Schwankung, Rauschen und Störgeräusche – kurz der Faktor Zufall bei der Urteilsbildung und Entscheidungsfindung.

Noise ist eine Standardabweichung → Noise² ist eine Varianz

Definition Varianz: “Mittelwert der Quadrate minus Quadrat des Mittelwerts”

Mittelwert der Quadrate ≙ MSE

Mittelwert der Fehler ≙ Bias → Quadrat des Mittelwerts = Bias²

Daher: Noise² = MSE - Bias² oder MSE = Bias² + Noise²

MSE = Bias² + (System-)Noise²

System Noise ist die unerwünschte Streuung von Urteilen mehrerer Individuen in demselben Fall oder über denselben Sachverhalt.

MSE = Bias² + (System-)Noise²

System Noise² = Level Noise² + Pattern Noise²

Level-Noise ist das personenspezifische Rauschen aufgrund der individuellen Grundeinstellung.

Pattern Noise ist die Streuung der personenspezifischen Urteile in Einzelfällen.

System Noise² = Level Noise² + Pattern Noise²

Pattern Noise² = Stable Pattern Noise² + Occasion Noise²

Stabiles Pattern-Noise (auch Urteiler-Fall-Interaktion) ist das von der individuellen Grundeinstellung im Einzelfall systematisch (“musterhaft”) abweichende Urteilsverhalten, z. B. ein grundsätzlich strenger Richter, der aber bei bestimmten Delikten oder Tätergruppen nachsichtig urteilt.

Occasion-Noise ist situatives Rauschen; individuelle Streuung aufgrund flüchtiger äußerer Einflüsse (die eigentlichen Residuen)

Pattern Noise² = Stable Pattern Noise² + Occasion Noise²

Alle Zerlegungen in der Übersicht

Relevanz der Noise-Komponenten

Drei aufeinanderfolgende Aufschlüsselungen von Fehlern (in Urteilen):

  • Fehler in Bias und System-Noise
  • System-Noise in Level-Noise und Pattern-Noise
  • Pattern-Noise in stabiles Pattern-Noise und Occasion-Noise

“Da jeder Teilnehmer jeden Fall nur einmal beurteilte, gibt es andererseits keine Möglichkeit, festzustellen, ob der verbleibende Fehler, den wir Pattern-Fehler genannt haben, vorübergehend oder stabil ist. Im konservativen Geist der statistischen Analyse wird dieser Restfehler üblicherweise als ein Fehlerterm bezeichnet und als zufallsabhängig behandelt. Mit anderen Worten, laut der Standardinterpretation besteht Pattern-Noise gänzlich aus Occasion-Noise.” – S. 234-235; Hervorhebungen von mir

Relevanz der Noise-Komponenten (2)

Pattern-Noise > Level-Noise (meist)

  • Versicherungsgesellschaft: 80 % Pattern-Noise, 20 % Level-Noise
  • Studie zu Strafschadenersatz: ca. 60 % Pattern-Noise
  • aber: Asylrichter etwas mehr Level-Noise

Level-Noise ist überraschend groß – aber meist kleiner als der Rest

Pattern-Noise wird nicht gemessen – bleibt also unerkannt

Um genauer zu quantifizieren, wie viel Pattern-Noise stabil ist und wie viel davon Occasion-Noise ist, brauchen wir Studien, in denen dieselben [Urteiler:innen] zwei unabhängige Beurteilungen jedes Falls vornehmen. – S. 237; Hervorhebung von mir

→ Stichwörter: Intra-Rater-Reliabilität; Konsistenz

Studienergebnisse:

  • Beurteilung von Gesichtern zu (u. a.) Vertrauenswürdigkeit: Stabiles Pattern-Noise > Level-Noise > Occasion Noise (→ “Konsistenz ohne Konsens”)
  • Kautionsrichter: Stabiles Pattern-Noise ≈ 4 x Level-Noise [26 % : 7 %]

Relevanz der Noise-Komponenten (3)

Stabiles Pattern-Noise ist die wichtigste Komponente von System-Noise

“Noise ist überwiegend ein Produkt nicht von Unterschieden in der individuellen Urteilsgrundeinstellung (Level), sondern von Interaktionen: davon, wie verschiedene Richter mit bestimmten Beschuldigten umgehen, wie verschiedene Lehrer mit bestimmten Schülern umgehen, wie verschiedene Sozialarbeiter mit bestimmten Familien umgehen und wie verschiedene Führungskräfte mit bestimmten Zukunftsvisionen umgehen. Noise ist überwiegend ein Nebenprodukt unserer Einzigartigkeit, unserer »Urteilspersönlichkeit«.” – S. 240; Hervorhebungen von mir

“Die Unsichtbarkeit von Noise ist eine direkte Folge des kausalen Denkens. Noise ist grundsätzlich ein statistisches Phänomen: Es wird nur dann sichtbar, wenn wir eine Gesamtheit ähnlicher Urteile statistisch betrachten. Tatsächlich lässt es sich dann kaum übersehen: Es ist die Variabilität in den zurückblickenden Statistiken über Strafurteile und Versicherungsprämien. Es ist die Ungewissheit in der vorausblickenden Vorhersage, die wir über ein bestimmtes Ergebnis machen. Es ist die Streuung der Treffer auf der Zielscheibe. Kausal betrachtet, ist Noise nirgendwo; statistisch gesehen, ist es überall.” – S. 242-244; Hervorhebungen von mir

Die Psychologie von Urteilen und Noise

Objektive Unwissenheit wird unterschätzt.

Wir sind mit unseren Urteilen i. A. zufrieden: internes Signal zur Belohnung, sobald Fakten und Urteil zusammen passen

Übungen:

  • Wie viele Einwohner:innen hat Deggendorf? Versuchen Sie, einen möglichst genauen Zahlenwert anzugeben.
  • Wie gut geht es Ihnen gerade? Versuchen Sie, einen möglichst genauen Zahlenwert zwischen 1 und 100 anzugeben.
  • CEO-Beurteilung
  • Julie

Dieses interne Signal hängt nur schwach mit objektiver Genauigkeit zusammen.

Bei prädiktiven Urteilen sind einfache Formeln (z. B. lineare Modelle) meist genauer als individuelle Urteile. Hauptgrund: Sie sind frei von Noise.

Die Psychologie von Urteilen und Noise (2)

Psychologische/kognitive Verzerrungen (Biases) sind die Quelle statistischer Biases UND von Noise,

  • wenn äußere Umstände die Wirkung beeinflussen (z. B. durch Reihenfolgeneffekte),
  • wenn der kog. Bias nicht für alle in die gleiche Richtung wirkt und
  • wenn das Ausmaß der Wirkung variiert.

Kleine individuelle Unterschiede treten auf, wenn die Zahl der Hinweise klein ist und in dieselbe Richtung weisen. (Julie las flüssig, als sie vier Jahre alt war. Welche Abiturnote hat sie?)

Große individuelle Unterschiede treten auf, wenn ein Urteil die Gewichtung mehrerer, sich widersprechender Hinweise erfordert. Das erzeugt Pattern Noise

Noise ist verborgen aber nicht unsichtbar

Kognitive Verzerrungen als kausale Erklärungen für negative Konsequenzen von Entscheidungen sind befriedigend.

Noise als Erklärung ist nicht befriedigend.

Noise erfordert statistische Betrachtungsweise. Wir ziehen kausale Geschichten vor.

Fachkräfte müssen sich nicht mit den Urteilen anderer – nicht mal mit den eigenen – auseinandersetzen. Mögliche Widerspüche bleiben unentdeckt.

Ungeprüfte Erwartung: “Andere urteilen ähnlich”

Wie sich Bias & Noise verringern lassen

Ansatzpunkt Person: Kompetenz, Intelligenz, Kognitiver Stil: aktiv selbsthinterfragend; vgl. Phil Tetlock zu Superforecasting; Tetlock & Gardner (2015) und Friedman et al. (2018)

Ansatzpunkt Bias: Entscheidungsbeobachter:in prüft Entscheidungssituationen während des Prozesses basierend auf Bias-Checkliste (vgl. Kahneman et al., 2021, Anhang B)

Ansatzpunkt Noise: Entscheidungshygiene (Analogie Händewaschen)

  • Strukturiertes Entscheidungsprotokoll
  • Noise Audit

Strukturiertes Entscheidungsprotokoll

Noise Audit

(vgl. Kahneman et al., 2021, Anhang A)

Zur Sicherung der Qualität von Entscheidungen einer Organisation

Ableiten von Maßnahmen: Schulung, Werkzeuge, Kontrolle/Evaluation

Kritik voraussehen – Ergebnisse werden angezweifelt werden; daher potenzielle Kritiker:innen einbinden

Akteure:

  • Projektteam:
    • Kern sollte intern sein (“to own the project”)
    • Entscheidungsexperetise und Fachexpertise auf hohem Reputationsniveau
  • Kunde = Führungsspitze der Organisation
  • Beurteilende: zu auditierende Einheiten, Abteilungen; einzelne Personen sollten austauschbar sein
  • Projektmanager:in; hoch in der Leiter, um administrative Hüden zu überwinden und Signal für Commitment

Noise Audit (2)

Für ein Noise Audit wählt man am besten eine Urteilsaufgabe aus, die (1) auf der Grundlage schriftlicher Informationen bearbeitet und (2) numerisch formuliert werden kann (z. B. in Dollar, Wahrscheinlichkeiten oder Ratings).

[…]

Das Team muss die folgende Frage beantworten: Wenn die Ergebnisse unserer Simulation auf ein hohes Ausmaß an Noise hindeuten, werden Mitarbeiter der Organisation akzeptieren, dass die Urteilsbildung in der auditierten Einheit tatsächlich verrauscht ist? Es lohnt sich nur dann, ein Noise Audit durchzuführen, wenn die Antwort ein klares Ja ist.

Kahneman et al. (2021), S. 419-420

Fragebogen nach den Urteilen, um die folgenden Punkte zu ermitteln:

  • Schlüsselfaktoren für die Antwort
  • Gewichtung der Fakten des Falles
  • Referenzkategorie an ähnlichen Fällen; Positionierung in dieser Kategorie
  • Kosten von Urteilsfehlern (in beide Richtungen) um einen fixen Prozentsatz (z. B. 15 %)

Noise Audit (3)

Pre-Launch Meeting mit der Organisationsleitung; deren Commitment absichern

Fragen:

  • Welches Maß an Uneinigkeit wird erwartet?
  • Welches Maß an Uneinigkeit wird noch toleriert?
  • Kosten von Urteilsfehlern (in beide Richtungen) um einen fixen Prozentsatz (z. B. 15 %)

Durchführung:

  • Begriffe wie “Noise”, “Rauschen” etc. vermeiden – besser: “Studie zum Entscheidungsverhalten”
  • Information für Urteilende allgemein halten: “Die Organisation ist daran interessiert, wie Sie Ihre Entscheidungen treffen”
  • Glaubwürdig Anonymität zusichern (und gewährleisen)
  • Keine Konsequenzen für Abteilung
  • Zeitlich parallele aber räumlich getrennte Durchführung

Grundsätze der Entscheidungshygiene

  1. Bei Urteilen geht es um Genauigkeit, nicht um Ausdruck der eigenen Persönlichkeit.

  2. Denken Sie statistisch und betrachten Sie den Fall aus einer Außenperspektive.

  3. Gliedern Sie Urteile in mehrere unabhängige Aufgaben auf.

  4. Widerstehen Sie voreiligen intuitiven Schlussfolgerungen.

  5. Bemühen Sie sich um unabhängige Urteile von mehreren Beurteiler:innen, und erwägen Sie dann, diese Urteile zusammenzuführen.

(6. Nutzen Sie vorzugsweise relative Urteile und relative Skalen.)

Wie viel Noise sollte es sein?

Mögliche Nachteile der Verringerung von Noise:

  • Urteilende fühlen sich als Rädchen in einem Getriebe
  • Bürokratisierung von Entscheidungen
  • Sinkende Motivation

Mögliche Vorteile von Noise:

  • Noise kann Wertewandel widerspiegeln und zu Debatten führen
  • Allgemein: Noise kann Freiraum für nötige Veränderung schaffen

Wichtig: Kosten-Nutzen-Abwägung

Ein optimales Ausmaß an Noise muss nicht null sein.

Aufgaben

Finden Sie Beispiele für Noise. Überlegen Sie sich zuerst Gebiete, in denen Noise ein Problem sein könnte. Suchen Sie an Stellen, die wir noch nicht thematisiert haben.

Hinweis: Das Beispiel Strafjustiz ist stark USA-lastig. Wie ist die Situation in Deutschland (oder einem beliebigen anderen Land)?

Gibt es Veröffentlichungen zum Rauschen in diesem Themenbereich? Wurde das Problem erkannt? Wurden Maßnahmen dagegen ergriffen?

Was würden Sie den Verantwortlichen raten? Machen Sie möglichst konkrete Empfehlungen.

Übung “CEO Gambardi”

Übung “Julie”

Literatur

Friedman, J. A., Baker, J. D., Mellers, B. A., Tetlock, P. E., & Zeckhauser, R. (2018). The value of precision in probability assessment: Evidence from a large-scale geopolitical forecasting tournament. International Studies Quarterly, 62(2), 410–422.

Kahneman, D., Sibony, O., & Sunstein, C. (2021). Noise. HarperCollins.

Tetlock, P. E., & Gardner, D. (2015). Superforecasting: The art and science of prediction. Random House.