Nebengütekriterien

Neben den Hauptgütekriterien Objektivität, Reliabilität und Validität existieren eine Reihe von Nebengütekriterien zur Beurteilung psychologischer Testverfahren:

Skalierung: Unter Skalierung versteht man die Verrechnungsvorschrift eines Tests. Diese sollte dazu führen, dass das numerische Relativ (eine Zahlenmenge) das empirische Relativ (eine Menge von Eigenschaften bzw. Merkmalen von Objekten der "Realität") adäquat abbildet. Beispielsweise sollte eine intelligentere Person auch höhere Testwerte in einem IQ-Test erzielen als eine weniger intelligente Person und zwar entsprechend ihrer "tatsächlichen" IQ-Differenz.
Normierung: Das Gütekriterium Normierung bezieht sich auf die Referenzstichprobe (Eichstichprobe) des Tests. Diese wird als Vergleichsmaßstab zur Beurteilung der gemessenen Ergebnisse herangezogen. Beispielsweise deutet ein Rohwert von 17 Punkten bei einem IQ-Test - ohne weitere Informationen über den Test - zunächst weder auf eine hohe, noch eine niedrige IQ-Leistung hin. Erst im Bezug auf die Eichstichprobe kann diese Einschätzung vorgenommen werden. Die Referenzstichprobe sollte repräsentativ sein, ausführlich dargestellt werden und aktuell sein. Normwerte sollten alle acht Jahre auf ihre Gültigkeit überprüft werden (z.B. Moosbrugger & Höfling, 2007).
Testfairness: Wenn der Test keine systematische Benachteiligung bestimmter Personen vornimmt, spricht man von Testfairness. Diskriminierungen können im Hinblick auf die soziokulturelle, ethnische oder geschlechtsspezifische Zugehörigkeit einer Person entstehen. Beispielsweise verletzt ein Intelligenztest dieses Nebengütekriterium, wenn Personen mit niedriger Lesekompetenz den Test nicht bewältigen können, obwohl sie von ihren sonstigen kognitiven Fähigkeiten dazu in der Lage wären (z.B. Hartig et al., 2007).
Ökonomie: Ein weiteres wichtiges Nebengütekriterium stellt die Testökonomie dar. Dieses Kriterium bezieht sich auf Kosten und Dauer der Datenerhebung. Im Optimalfall sollte ein Test einen hohen Erkenntnisgewinn mit geringen finanziellen und zeitlichen Ressourcen erzielen. Nach Moosbrugger und Kelava (2007) entsteht der finanzielle Aufwand vor allem durch die Testmaterialien einschließlich der Lizenzgebühren für Testautoren und Verlage, sowie durch aufwändige Hardware und Software bei computergestützter Testung. Zeitliche Ressourcen resultieren durch die Vorbereitung, Durchführung, Auswertung und Ergebnisrückmeldung der Testung.
Nützlichkeit: Die Nützlichkeit eines Tests wird von vielen Forschern als wichtigstes Gütekriterium betrachtet. Es betrifft die praktische Relevanz des gemessenen Merkmals. Auf Basis des Tests sollte die Beantwortung der untersuchten Fragestellung ermöglicht werden. Zudem sollten die Entscheidungen, die aufgrund der Testergebnisse getroffen werden, mehr Nutzen als Schaden hervorbringen (Moosbrugger & Kelava, 2007).
Zumutbarkeit: Das Nebengütekriterium Zumutbarkeit umfasst die zeitliche, psychische und körperliche Belastung der Testpersonen. Die Belastbarkeit sollte die resultierende Nützlichkeit des Tests nicht übertreffen. Zumutbarkeit bezieht sich dabei ausschließlich auf die Testperson, während die Belastung des Testleiters das Gütekriterium Ökonomie betrifft (Moosbrugger & Kelava, 2007).
Vergleichbarkeit: Gelegentlich wird als Nebengütekriterium der Aspekt der Vergleichbarkeit aufgeführt. Damit ist gemeint, dass zu dem Test Paralleltestformen oder inhaltsähnliche Tests existieren. Häufig wird dieses Kriterium daher nicht als eigenständiger Aspekt erörtert, sondern im Rahmen der Hauptgütekriterien Reliabilität und Validität abgehandelt.
Unverfälschbarkeit: Hiermit ist gemeint, dass eine Person den eigenen Testwert nicht gezielt manipulieren können sollte. Verfälschungen können beispielsweise bei einem, in einer Bewerbungssituation eingesetzten Persönlichkeitsfragebogen auftreten, in dem sich Personen besonders vorteilhaft darstellen möchten (z.B. Vortäuschung sozial erwünschten Verhaltens). Kontrollfragen wie etwa die Frage, ob man schon mindestens ein einziges Mal in seinem Leben gelogen habe, dienen dazu, das Vortäuschen sozial erwünschten Verhaltens aufzudecken. Verneint der Proband diese Frage, so deutet dies auf sozial erwünschtes Verhalten hin, da vermutlich jeder Mensch bereits mindestens einmal in seinem Leben gelogen hat.
Transparenz: Dieses Nebengütekriterium umfasst eine verständliche Instruktion für die Testperson, bei Bedarf den Einsatz geeigneter Übungsitems im Vorfeld sowie ein angemessenes Feedback über den Test und dessen Ergebnisse.
Akzeptanz: Die Akzeptanz eines Tests bezieht sich auf den Eindruck, den der Test auf Laien macht. Sofern diese Personen den Test für angemessen und brauchbar zur Messung des jeweiligen Konstrukts erachten, liegt eine hohe Akzeptanz vor. Anstelle von Akzeptanz kann man auch von Augenscheinvalidität sprechen. Augenscheinvalidität wird leicht mit Inhaltsvalidität verwechselt, da inhaltlich validen Tests häufig auch Augenscheinvalidität zugesprochen wird (Moosbrugger & Kelava, 2007).
Äußere Gestaltung: Ein Test sollte sprachlich und optisch ansprechend gestaltet sowie auf die jeweilige Zielgruppe zugeschnitten sein. Bei der Datenerhebung von Kindern und Jugendlichen ist die äußere Testgestaltung besonders wichtig.