2.2 Grundlegendes zur visuellen Wahrnehmung

Die Wahrscheinlichkeit ist groß, dass Sie dieses Video schon kennen. Sollte das nicht der Fall sein: wunderbar! Tun Sie sich den Gefallen und sehen Sie es sich hier kurz an¹. Folgen Sie dabei unbedingt den Anweisungen der Autoren. Das ganze dauert keine zwei Minuten.

Bitte erst weiterlesen, wenn Sie das Video gesehen haben!

Das Video illustriert ein Phänomen aus der Wahrnehmungspsychologie, die Aufmerksamkeitsblindheit (engl. inattentional blindness). Was ist damit gemeint?

Wahrscheinlich haben Sie den Gorilla gesehen, der durchs Bild gelaufen ist. Das liegt vermutlich auch an den Umständen, unter denen Sie das Video betrachtet haben. Sie lesen gerade einen Text zur visuellen Wahrnehmung, in dem auch schon von Aufmerksamkeit die Rede war. Trotzdem könnte es sein, dass Sie – wie etwa die Hälfte aller Versuchspersonen, die das Video unvoreingenommen betrachten – den Gorilla nicht gesehen haben.

Aber auch in diesem Fall wurden auf Ihrer Retina (also der Netzhaut) die Informationen zum Gorilla durch Ihre Sinneszellen registriert. In einem physiologischen Sinn haben Sie den Gorilla also gesehen. Sie haben ihn aber trotzdem nicht wahrgenommen. Auf eine gewisse Art und Weise waren Sie ihm gegenüber blind. Wir wissen natürlich, woher diese Blindheit kommt: Sie waren intensiv mit einer anderen Aufgabe beschäftigt. Sie haben die Pässe des weißen Teams gezählt. Das war nicht allzu schwer. Sie mussten sich dabei aber konzentrieren. Aspekte der visuellen Szenerie, die mit dieser Aufgabe nichts zu tun hatten, haben Sie ausgeblendet. Dieser Vorgang hat unbewusst stattgefunden.

Sie haben also den Gorilla nicht gesehen, weil Sie ihm keine Aufmerksamkeit zugewiesen haben. Die Blindheit wurde durch ein Aufmerksamkeitsdefizit erzeugt. Daher sprechen wir hier auch von Aufmerksamkeitsblindheit.

Mit dem Phänomen Aufmerksamkeit werden wir uns später noch ausführlicher auseinander setzen. Hier ist vor allem ein Aspekt wichtig: Für viele von uns, die wir den Gorilla nicht gesehen haben, ist die Auflösung völlig überraschend (deshalb auch dieses simulierte Rückspulen des Videos, damit wir auch wirklich glauben, dass da tatsächlich ein Gorilla war). Wenn uns vorher jemand das Video – ohne Zähl-Aufgabe – gezeigt und gesagt hätte, dass viele Menschen den Gorilla nicht wahrnehmen, wären wir vermutlich sehr skeptisch gewesen.

Das Phänomen der Aufmerksamkeitsblindheit ist für uns überraschend, weil wir von unserer visuellen Wahrnehmung eine andere Vorstellung haben, die in Stichpunkten vielleicht so zusammengefasst werden kann:

Wenn wir auf etwas unseren Blick richten, nehmen wir es wahr; vielleicht wie eine Art Videokamera.
Das so Registrierte wird nicht nur wahrgenommen, sondern in Teilen auch gleich abgespeichert.
Und wenn wir uns an etwas erinnern, dann holen wir das Video aus unserem Speicher dafür hervor.

Diese Vorstellung von unserem Wahrnehmungsprozess ist also eher einfach und recht mechanistisch.

Vor allem ist diese intuitive Sichtweise auf unsere Wahrnehmung nicht zutreffend. Anders formuliert: Wir nehmen die Welt nicht so wahr, wie wir glauben. Aufmerksamkeitsblindheit ist nur ein Phänomen, an dem diese Abweichung deutlich wird. Es gibt noch viele weitere. Wir werden uns im Weiteren mit einigen von ihnen beschäftigen. Wichtig ist für uns vor allem, dass wir dazu bereit sind, unser Selbstbild bezüglich unseres Wahrnehmungsapparats infrage zu stellen. Dann ist es auch sinnvoll, die visuelle Wahrnehmung zum Gegenstand wissenschaftlicher Untersuchung zu machen, da uns diese Versuche Erkenntnisse liefern, auf die wir selbst nicht gekommen wären.

Zum Gorilla-Experiment gibt es noch etwas ganz Wichtiges zu bemerken: Was würden Sie für ein Versuchsergebnis erwarten, wenn die Aufgabe darin bestanden hätte, die Pässe des schwarzen Teams zu zählen? Vielleicht denken Sie in die richtige Richtung: Es ist zu vermuten, dass die Wahrscheinlichkeit, den Gorilla dann zu entdecken, deutlich größer wäre. Aber warum?

Die Antwort liegt wiederum in den Einflüssen der Aufmerksamkeit. Wir werden das Phänomen später unter dem Namen Attentional Tuning kennen lernen. Soviel vorab: Die Aufgabe, die wir zu bearbeiten haben, hat etwas mit Farbe der T-Shirts zu tun schwarz (oder eben weiß). Aspekte der betrachteten Szene, die dieses Merkmal teilen, bekommen einen Bezug zur Aufgabe und werden eher wahrgenommen als Aspekte, die das nicht tun. Das schwarze Team und der schwarze Gorilla teilen sich den Aspekt der Farbe, der unsere Aufgabe mitbestimmt. Beim weißen Team ist das nicht der Fall. Hier ist kein Bezug zu unserer Aufgabe vorhanden. Die Wahrscheinlichkeit einer Wahrnehmung ist daher geringer.

2.2.1 Brain Pixel

Wenn unser Auge – genauer unsere Retina – wie eine Digitalkamera funktionieren würde, würden die Sensoren der Netzhaut (Sie erinnern sich: das sind die Stäbchen und Zapfen) gleichmäßig auf ihr verteilt sein. Das sind sie aber ganz und gar nicht. Die Sensoren für unser Farbsehen sind vor allem in einem kleinen Bereich der Retina – und damit auch des Sehfelds – konzentriert; der sog. Fovea (Centralis). Wenn wir Dinge fokussieren, landet ihr Abbild in diesem Bereich. Hier haben wir eine extrem gute Auflösung. Wir können auf eine Fläche von Größe eines Stecknadelkopfes, der 50 cm entfernt ist, ca. 100 Punkte unterscheiden. Hingegen können wir in unserem periphären Sichtfeld kaum Objekte unterscheiden, die so groß wie ein Handball sind. Und nicht mal deren Farbe können wir verlässlich sehen.

Auch hier ist der wichtigste Punkt: Wir sind uns dessen nicht bewusst. Wie haben subjektiv nicht den Eindruck, dass wir unsere Umgebung hochgradig verzerrt wahrnehmen.

Wenn wir das Konzept der Auflösung nach Pixel beibehalten, können wir unsere visuelle Warhnehmungsleistung mit Hilfe sog. Brain Pixel darstellen. Den Begriff hat Colin Ware geprägt. Wir sehen in der Darstellung, dass die Anzahl dieser Brain Pixel im Zentrum des Sehfelds hoch verdichtet sind, in der Peripherie aber deutlich seltener, dafür größer sind.

Der Begriff “Brain Pixel” soll darauf hinweisen, dass auch die kortikale (= “in der Gehirnrinde lokalisierte”) Verarbeitung entsprechend verzerrt ist. Konkret heißt das, dass für etwa 5 Prozent unseres Sehbereichs etwa 50 Prozent unserer visuellen Gehirnareale verantwortlich sind.

Die sog. Anstis-Karten illustrieren, wie schnell unsere Sehschärfe zur Peripherie hin abnimmt. Alle Buchstaben der Abbildung sollten einigermaßen gleich gut gelesen werden können, wenn wir den Mittelpunkt der Abbildung fixieren. Wir haben damit eine Visualisierung der relativen Größe von Brain Pixel.

2.2.2 Sakkaden

Die Ungleichverteilung der Verarbeitungsressourcen könnte ein großes Problem sein. Wenn wir nur in einem kleinen Bereich wirklich gut sehen, dann müsste das doch negative Folgen haben?! Damit das nicht der Fall ist, hat sich die Evolution eine Gegenmaßnahme ausgedacht: unsere hochgradig beweglichen Augäpfel.

Unsere Augen stehen nie still. Zumindest nicht über einen längeren Zeitraum hinweg. Im Durchschnitt bewegen wir unsere Augen drei Mal pro Sekunde. Warum? Damit wir permanent die aktuell für uns wichtigsten und relevantesten Aspekte der Umgebung auf der Fovea abbilden können. Das können Bereiche sein, die mit unserer aktuellen Aufgabe zu tun haben, Dinge, die unerwartet oder kontrastreich oder eben erschienen sind. Diese Dinge fokussieren wir ganz automatisch. Wir sprechen hier von einer Fixation.

Die schnellen Bewegungen der Augäpfel von Fixation zu Fixation (ca. 900°/s) werden als Sakkaden bezeichnet. Damit haben wir subjektiv den Eindruck, dass wir permanent ein recht exaktes und vor allem kohärentes Bild der Umgebung aufnehmen. Alles was wir betrachten, sehen wir gut – obwohl die zugrundeliegende Sensorik und kortikale Verarbeitungskapazität ungleich verteilt sind. Das gleichen aber die Sakkaden aus.

2.2.3 Adaptation an Kontextbedingungen: Beispiel Längenwahrnehmung

Mit den folgenden drei Folien möchte ich – vielleicht etwas umständlich – auf einen wichtigen grundlegenden Punkt hinweisen: Unsere Wahrnehmung ist nur unter Berücksichtigung unserer Umgebung zu verstehen. Nicht nur der aktuellen Umgebung, sondern vor allem der, in der sich unser visueller Apparat entwickelt hat.

In der Wahrnehmungspsychologie ist es seit über 100 Jahren eine etablierte Erkenntnis, dass wir die Länge von Linien unterschiedlich wahrnehmen, wen sie anders orientiert sind. Wenn eigentlich gleich lange Linien horizonal dargellt sind (also bei einer Neigung nahe 0° bzw. 180°), nehmen wir sie im Vergleich am kürzesten wahr. Dieselben Linien nehmen wir etwa 10% länger wahr, wenn sie vertikal (entspricht 90°) präsentiert werden.

Das Maximum der Längenschätzung ist etwa 30° von der Vertikalen entfernt und liegt bei etwa 60° bzw. 120°. So entsteht die dargestellte bimodale (=zweigipflige) Funktion. Warum hat diese Funktion diese eigentümliche Form? Vielleicht liegt das an bestimmten Eigenschaften unserer Physiologie oder Erfahrungswissen oder, oder, oder. Wir wissen es nicht – noch nicht.

Findige Wissenschaftler:innen (Howe & Purves, 2005) haben mit Hilfe eines Laserscanners unsere reale Umwelt vermessen. Fragen Sie mich bitte nicht nach Details, die muss ich Ihnen schuldig bleiben. Mit Hilfe dieses Scanners ist es offenbar möglich, die Häufigkeit von Linien bestimmter Länge im gescannten Gebiet zu erheben.

Die Ergebnisse sind erstaunlich. Auch hier werden wir nicht in die Tiefe gehen. Ganz im Gegenteil beobachten wir nur eine Kongruenz von zwei Dingen, die uns überrascht. Diese Kongruenz ist so stark, dass wir vermuten dürfen, dass hier eine kausale Beziehung besteht.

Aber lassen Sie uns zuerst die Beobachtung festhalten: Die Häufigkeitsverteilung der Linien, die der Laserscanner liefert, entspricht in ihrer Struktur ziemlich exakt den Längenschätzungen aus der obigen Darstellung.

Es scheint so zu sein, dass die eigentümliche Form der Verteilung nichts anderes ist, als eine Anpassung unseres visuellen Systems an die bestehende Struktur unserer Umgebung.

Die grundlegende Erkenntnis ist die folgende: Unsere Sinne und alle unsere kognitiven Prozesse haben sich im Zusammenspiel mit der Umgebung entwickelt, in der sich unsere Vorfahren über die letzten Millionen von Jahren bewegt haben. Unserer Kognition ist das Ergebnis eines adaptiven, evolutionären Prozesses. Ohne den Blickwinkel der Evolution, die in Kontexten mit bestimmten Eigenschaften stattgefunden hat, kann die Entwicklung der menschlichen Wahrnehmung und aller übrigen kognitiven Prozesse verstanden werden. Ein Verständnis der Kontexte ist wichtig, um die menschlichen Mechanismen zu verstehen.

Literatur

Howe, C. Q., & Purves, D. (2005). Perceiving geometry: Geometrical illusions explained by natural scene statistics. Springer Science & Business Media.

Falls der Link nicht funktionieren sollte, googeln Sie einfach ein Video mit den Schlagworten “Simon Chabris Attention Test”.↩︎