Zum Handwerk psychologischen Testens: Untersuchertendenzen und Untersucherfehler

Psychometrische Testverfahren sind standardisiert, das heißt sie sind so konstruiert, dass ihre Anwendung untersucherunabhängig erfolgen kann. Auf diese Weise wird die Objektivität einer Testung ermöglicht, im Idealfall sollte das Testergebnis einer untersuchten Person somit immer gleich ausfallen, unabhängig davon, welche Fachperson den Test anleitet. Die Standardisierung eines Tests, beispielsweise eines Entwicklungs- oder Intelligenztests, bezieht sich üblicherweise auf einen einheitlichen Materialsatz, auf feststehende Aspekte wie die Positionierung und zeitliche Dauer der Exposition des Testmaterials, auf exakte sprachliche Instruktionen durch den Untersucher sowie auf vorgegebene Bewertungskriterien, etwa welche Antwort als „richtig“ oder „falsch“ zu bewerten ist. Zusätzlich werden oft noch Erfordernisse an die Testumgebung formuliert, beispielsweise, wenn eine reizarme Umgebung oder eine bestimmte Körperhaltung der untersuchten Person notwendig ist, und auch das Verhalten des Untersuchers in Interaktion muss oft standardisiert erfolgen, beispielsweise, wenn ausschließlich bestimmte Rückmeldungen gegeben werden dürfen.

An dieser Stelle tut sich der Grenzbereich dessen auf, was durch eine Standarisierung in einem Testhandbuch gewährleistet werden kann und dem, was zusätzlich als fachlich begründetes Handeln in einer Testsituation grundsätzlich zu erwarten ist. Es besteht hier die Gefahr, dass ein Untersucher durch „zutiefst menschliches“ Verhalten die Aussagekraft eines Testergebnisses gefährdet, die Literatur spricht dann von Untersuchertendenzen oder Untersucherfehlern Im Folgenden sollen zwei wichtige Untersucherfehler aufgegriffen werden: (1) unerwünschte Signale, die Einfluss nehmen auf das Verhalten der untersuchten Person sowie (2) die Milde-Tendenz.

Beispiel 1: Ein untersuchtes Kind soll aus einer losen Menge von 20 Bildkarten diejenigen fünf Bildkarten heraussuchen, auf denen Tiere zu sehen sind, die Instruktion lautet: „Gib mir alle Bilder, auf denen Tiere zu sehen sind!“. Das Kind findet zügig vier der fünf Bildkarten, nimmt sie nacheinander auf, bildet in der Hand einen Stapel und reicht diesen Stapel dem Untersucher an. Der Untersucher beobachtet das Kind bei der Bearbeitung der Aufgabe, das heißt er richtet den Blick auf die lose Bildkartenmenge, prüft dabei die Positionen der Tier-Karten und registriert deren sukzessive Aufnahme. Nachdem das Kind die vierte Bildkarte aufgenommen hat, bleibt der Blick des Untersuchers an der fünften, noch liegenden Bildkarte hängen, weil er erwartet, dass das Kind diese Karte ja nun auch noch aufnehmen müsse. Das Kind registriert in dem Moment, als es für sich die Aufgabe abgeschlossen hat und also seine vier Bildkarten übergeben möchte, dass der Untersucher seinen Blick auf die noch auf dem Tisch liegenden Karten richtet und findet dadurch, dass es am Blick des Untersuchers „entlangfährt“, die noch fehlende Karte. Es erhält auf diese Weise eine Testaufgabe als „erfüllt“ bewertet, die es alleine nicht gelöst hätte. Solche Signale können noch viel feiner ausfallen, etwa durch angehaltenen Atem oder wahrnehmbare Spannungsveränderungen der Muskulatur, die eine spezifische Erwartungshaltung ausdrücken und so beträchtlichen Einfluss auf das Testverhalten einer untersuchten Person nehmen können. Im Extremfall können durch solcherlei Unterstützung Pferde sogar rechnen (vgl. Kluger Hans).

Beispiel 2: Ein Kind erhält zehn Würfel, aus denen es einen stehenden Turm herstellen soll. Die Testvorgabe sieht vor, dass das Kind aus günstiger Sitzposition auf stabiler Tischfläche agieren soll, insgesamt erhält es drei Versuche. Die Aufgabe ist nur dann erfüllt, wenn bei einem der drei Versuche ein stehender Turm aus zehn Würfeln hergestellt wurde. Im ersten Versuch des Kindes steht der Turm nach dem achten Würfel noch stabil, nach dem neunten Würfel schwankt er bereits leicht und nach dem Aufsetzen des zehnten Würfels neigt sich der ganze Turm langsam zur Seite und stürzt ein. Der zweite Versuch des Kindes verläuft identisch: Bis zum neunten Würfel steht der Turm, beim letzten Würfel kippt er jedoch um. Auch im dritten Versuch gelingt es dem Kind zwar, einen stehenden Turm aus neun Würfeln herzustellen, beim Aufsetzen des zehnten Würfels stürzt dann aber auch dieser Turm ein. Es ist eindeutig, wie die Leistung des Kindes gemäß der Testvorgaben zu bewerten ist: Die Aufgabe wurde nicht erfüllt. Und dennoch kann es manchem Untersucher starke Überwindung abverlangen, dieses Ergebnis zu Protokoll zu nehmen: Schließlich hat das Kind sich von der Zielsetzung der Aufgabe nicht weit entfernt, es hat die Testvorgabe lediglich haarscharf verfehlt. Es wäre eine sehr menschliche Regung zu sagen: „In diesem Fall ist für mich dreimal neun so viel wie einmal zehn“, die Aufgabe als „erfüllt“ zu notieren und somit einem unzulässigen Mildefehler aufzusitzen. Sollten sich solche einzelnen Mildefehler gar fortgesetzt zu einem Untersuchungsstil aufaddieren, sprechen wir von einer generellen Mildetendenz. Diese kommt in der Praxis häufig vor, die weit überwiegende Mehrzahl aller Untersucher weist eine grundsätzliche (und durchaus „humane“) Tendenz auf, beispielsweise einem Kind den Aufgabeneinstieg unzulässig erleichtern zu wollen (Abweichung von der Testinstruktion), begleitende Hinweise während der Aufgabenbearbeitung geben zu wollen oder Aufgaben-Ergebnisse nachsichtig zu bewerten. Hiermit wird jedoch die Objektivität eines Tests und somit auch zwangsläufig die Aussagekraft des Testergebnisses reduziert. Im schlimmsten Fall manipuliert ein „milder“ Untersucher somit das Testergebnis eines objektiv „auffälligen“ Kindes so weit in Richtung „unauffällig“, dass ein tatsächlich vorhandener Förder- oder Therapiebedarf aufgrund des zu guten Testergebnisses nicht mehr erkennbar wird und somit dem Kind eine Förderleistung oder eine Therapie vorenthalten bleibt.

Die Literatur beschreibt verschiedene Untersucherfehler, oft handelt es sich dabei um in der Psychologie allgemein bekannte Wahrnehmungs-, Beurteilungs- oder Verhaltenstendenzen. Solche Phänomene können in spezifischer Weise Testbefunde unbrauchbar machen, und oft geschieht dies in der Praxis, ohne dass es bemerkt wird. Zu nennen sind neben den direkten Signalen (bis hin zu Mikro-Signalen) und der Mildetendenz insbesondere

  • der Rosenthal-Effekt (auch Erwartungs-Effekt oder selbsterfüllende Prophezeiung),
  • der Halo-Effekt (auch Hof- oder Überstrahlungseffekt: unzulässiger Schluss von einer hervorstechenden Eigenschaft auf weitere Merkmale einer Person),
  • Positionseffekte (z.B. Reihenfolge-Effekte wie Primacy-Recency-Effekt: Ereignisse zu Beginn oder am Ende einer Situation prägen unsere Erinnerung an die Situation überproportional stark),
  • Die Neigung zu zentraler Tendenz (in der Beobachtung oder Bewertung werden extreme Ereignisse relativiert) oder ein
  • sozialer Konformitätsdruck (eigene Einschätzungen werden vermuteten Erwartungen der Umwelt angeglichen).

Ein objektiver Einsatz von Testverfahren erfordert somit neben testbezogenen Merkmalen (Standardisierung) auch untersucherbezogene Merkmale. Diese werden grundsätzlich in der Ausbildung von Psychologen vermittelt. Dort, wo auch andere Fachberufsgruppen Tests durchführen, ist eine angemesse Schulung und Supervision zu gewährleisten.

 

Exkurs:
Der Berufsverband Deutscher Psychologinnen und Psychologen (BDP) greift in einem „Merkblatt Psychologische Testverfahren“ aus dem Jahr 2002 die Frage auf, welche Fachpersonen und Fachberufsgruppen psychologische Tests durchführen sollten. Die Einschätzung lautet wie folgt

„Eine verantwortungsvolle Anwendung, Auswertung und Interpretation psychologischer Tests bleibt dem Psychologen vorbehalten… Wo Testverfahren durch psychologisch-technische Assistenten oder andere Personen durchgeführt werden, kann dies nur unter der Anleitung und Kontrolle eines Psychologen geschehen. Andernfalls können Nicht-Psychologen für die Anwendung psychologischer Tests haftbar gemacht werden. Werden Tests im Auftrag von Dritten durch Nicht-Psychologen durchgeführt und ausgewertet, gehen Auftraggeber und Nicht-Psychologen erhebliche Risiken dadurch ein, dass ihnen von vornherein mangelnde Sachkunde, somit grobe Fahrlässigkeit im haftungsrechtlichen Sinne zu unterstellen ist.“ (S. 2)

Zur Begründung führt der BDP zunächst die für eine Entscheidung auf der Grundlage von Testergebnissen notwendigen Kenntnisse der Testtheorie sowie die notwendige Einschätzung eines Verfahrens hinsichtlich seiner spezifischen Aussagemöglichkeiten (Validität) an. Dies ist originär psychologisches Wissen. Aber auch handwerkliche Erfordernisse der Testdurchführung sowie die Einschätzung situativer Rahmenbedingungen einer Testung stellen spezifische Kompetenzen von Psychologen dar.


Autor: Dr. phil. Thorsten Macha, Diplom-Psychologe
Zentrum für Klinische Psychologie und Rehabilitation der Universität Bremen