eJournals Psychologie in Erziehung und Unterricht73/Online-first

Psychologie in Erziehung und Unterricht
3
0342-183X
Ernst Reinhardt Verlag, GmbH & Co. KG München
10.2378/peu2026.art05d
3_073_2026_Online-first/3_073_2026_Online-first.pdf11
2026
73Online-first

Wie steht es um die psychometrische Qualität diagnostischer Testverfahren in der aktuellen Feststellungspraxis sonderpädagogischen Förderbedarfs?

11
2026
Rebecca Aissa
Elena M. Galeano Weber
Marcus Hasselhorn
Die Verwendung standardisierter Diagnostikverfahren dient der Qualitätssicherung der Feststellungspraxis sonderpädagogischen Förderbedarfs. Dies setzt allerdings voraus, dass die für die Feststellungsverfahren empfohlenen und eingesetzten Testverfahren einschlägigen psychometrischen Standards entsprechen. Wie ist die Qualität dieser Verfahren zu bewerten? Und gibt es Unterschiede in der Bewertung? Anhand von 34 empfohlenen und 12 tatsächlich verwendeten Testverfahren aus 20 sonderpädagogischen Gutachten für fünf Förderschwerpunkte – Lernen, Geistige Entwicklung, Sprache, Emotionale und soziale Entwicklung und Autismus – wird dies überprüft. Es zeigten sich insbesondere Schwächen bei der Reliabilität und der Normierung infolge veralteter bzw. unzureichender Normen vieler Testverfahren. Diskutiert werden Desiderate und Entwicklungsbedarfe für Testverfahren zur Qualitätssicherung zukünftiger Feststellungspraktiken sonderpädagogischen Förderbedarfs.
3_073_2026_Online-first_0001
Psychologie in Erziehung und Unterricht, 2026, 73, Preprint Online DOI 10.2378/ peu2026.art05d © Ernst Reinhardt Verlag Wie steht es um die psychometrische Qualität diagnostischer Testverfahren in der aktuellen Feststellungspraxis sonderpädagogischen Förderbedarfs? Rebecca Aissa a, b , Elena M. Galeano Weber a, b , Marcus Hasselhorn a, b a DIPF | Leibniz-Institut für Bildungsforschung und Bildungsinformation, Frankfurt am Main b IDeA-Zentrum - Individual Development and Adaptive Education, Frankfurt am Main Zusammenfassung: Die Verwendung standardisierter Diagnostikverfahren dient der Qualitätssicherung der Feststellungspraxis sonderpädagogischen Förderbedarfs. Dies setzt allerdings voraus, dass die für die Feststellungsverfahren empfohlenen und eingesetzten Testverfahren einschlägigen psychometrischen Standards entsprechen. Wie ist die Qualität dieser Verfahren zu bewerten? Und gibt es Unterschiede in der Bewertung? Anhand von 34 empfohlenen und 12 tatsächlich verwendeten Testverfahren aus 20 sonderpädagogischen Gutachten für fünf Förderschwerpunkte - Lernen, Geistige Entwicklung, Sprache, Emotionale und soziale Entwicklung und Autismus - wird dies überprüft. Es zeigten sich insbesondere Schwächen bei der Reliabilität und der Normierung infolge veralteter bzw. unzureichender Normen vieler Testverfahren. Diskutiert werden Desiderate und Entwicklungsbedarfe für Testverfahren zur Qualitätssicherung zukünftiger Feststellungspraktiken sonderpädagogischen Förderbedarfs. Schlüsselbegriffe: Sonderpädagogischer Förderbedarf, Qualität, Psychometrische Gütekriterien, sonderpädagogische Feststellungspraxis, sonderpädagogische Gutachten What is the Psychometric Quality of Diagnostic Test Procedures Currently Used in Special Educational Assessment Procedures in Germany? Summary: Standardized diagnostics serve to ensure the quality of the assessment procedure for identifying special educational needs. This raises the question of whether the test procedures recommended and used in assessment practice meet the usual psychometric standards. How should the quality of these procedures be assessed and are there differences in the rating? This is examined on the basis of 34 recommended and 12 actually used test procedures from 20 special educational assessments for five special educational needs - learning, intellectual development, language, emotional and social development and autism. In particular, weaknesses in reliability and standardization are identified as a result of outdated norms in many of the test under scrutiny. Thus, there seems to be a need for a bundle of further activities of test development to increase the quality of assessment procedures for identifying special educational needs. Keywords: Special educational needs, quality, psychometric quality criteria, special educational assessment practice, special educational assessments n Übersichtsartikel Danksagung Die Studie wurde als Teilprojekt am DIPF | Leibniz-Institut für Bildungsforschung und Bildungsinformation in Frankfurt im Rahmen des Verbundprojekts „FePrax“ des DIPF, der Goethe-Universität Frankfurt und der Humboldt-Universität Berlin durchgeführt. FePrax - „Diagnostische Praxis zur Feststellung sonderpädagogischen Förderbedarfs und Bundeslanddisparitäten im Kontext der UN-Behindertenrechtskonvention“, das vom Bundesministerium für Bildung und Forschung (BMBF; Förderkennzeichen 01NV2106C, 08/ 2021 - 07/ 2024) gefördert wird, hatte zum Ziel, Erkenntnisse über die Vielfalt der sonderpädagogischen Diagnostik zu gewinnen und Hinweise für eine verbesserte Beratungspraxis zu geben. Wir danken Vera Moser, Benjamin Haas, Nadja Althaus, Ellen Brodesser, Monique Rettschlag und einem Team von sehr engagierten studentischen Hilfskräften für ihre wichtige Rolle bei der Durchführung des FePrax-Projekts. 2 Rebecca Aissa, Elena M. Galeano Weber, Marcus Hasselhorn Die Zahl der Kinder und Jugendlichen mit festgestelltem sonderpädagogischen Förderbedarf ist im letzten Jahrzehnt deutlich angestiegen. Das befeuert den schon lange geführten kritischen Diskurs zur Feststellungspraxis (Gresch, Rjosk, Kocaj & Stanat, 2017). Erstmals wurde der Begriff „sonderpädagogischer Förderbedarf“ 1994 mit der Kultusministerkonferenz (KMK)-Empfehlung eingeführt und ersetzte den bis dahin gebräuchlichen Begriff der „Sonderschulbedürftigkeit“ (KMK, 1994), verbunden mit Empfehlungen zur Umsetzung der Feststellung sonderpädagogischen Förderbedarfs und damit auch für die Diagnostik. Da die Feststellung eines sonderpädagogischen Förderbedarfs Konsequenzen für das Leben eines jeden betroffenen Kindes hat, gelten hohe Qualitätsstandards für die Diagnostik und die dabei zum Einsatz kommenden Testverfahren als essenziell (Vossen, Hartung, Hecht & Sinner, 2022). Doch wie steht es um die Qualität dieser Testverfahren? Erfüllen sie die geforderten hohen Standards? Sonderpädagogische Gutachten In der Feststellungspraxis sonderpädagogischer Förderbedarfe werden verschiedene Informationsquellen herangezogen, zu denen auch Testverfahren gehören (Vossen et al., 2022). Einige Bundesländer empfehlen sogar explizit konkrete Testverfahren (z. B. Berlin, Brandenburg). Die Regelung des Verfahrens obliegt den Bundesländern, was eine Quelle großer Diskrepanzen ist (Autor: innengruppe Bildungsberichterstattung, 2014; Sälzer, Gebhardt, Müller & Pauly, 2015; Petermann & Petermann, 2006; Wolf & Dietze, 2022). Die regionalen Unterschiede und die individuelle Präferenz von Testverfahren der sonderpädagogischen Fachkräfte haben zur Folge, dass sehr unterschiedliche Testverfahren verwendet werden. Dies erschwert einen Vergleich der praktizierten Feststellungsverfahren (BMBF, 2019). Bereits im Nationalen Bildungsbericht von 2014 wurde auf die Bedeutung der Diagnostik und die besondere Geeignetheit standardisierter und normierter Verfahren hingewiesen: Die Testverfahren sollten für das Leistungsniveau angepasst sein und psychometrischen Gütekriterien genügen und somit objektive und valide Ergebnisse für die Empfehlung eines sonderpädagogischen Förderbedarfs liefern (Autor: innengruppe Bildungsberichterstattung, 2014; Kuhl, 2012; Vossen et al., 2022). Testdiagnostik in sonderpädagogischen Gutachten Die für psychologische Gutachten etablierten Qualitätskriterien werden auch für sonderpädagogische Gutachten reklamiert (Schuck, von Knebel, Lemke, Schwohl & Sturm, 2006). Darüber hinaus wird eine fachliche Auseinandersetzung mit den Defiziten und Ressourcen eines Kindes und seines Umfeldes gefordert - im Sinne einer Kind-Umfeld-Analyse (Schuck et al., 2006) - und dies auf Grundlage valider und objektiver Daten (Vossen et al., 2022). Um die Qualität von sonderpädagogischen Gutachten zu sichern, wird gefordert, dass die verwendeten Testverfahren den psychometrischen Gütekriterien genügen, auf dem aktuellen Stand der Forschung sind und über hinreichend aktuelle Normen verfügen (Joél, 2021). Für die Bewertung der Qualität der sonderpädagogischen Feststellungspraxis ist daher zu prüfen, ob die herangezogenen Testverfahren den einschlägigen psychometrischen Gütekriterien - Objektivität, Validität, Reliabilität - genügen (Schmidt-Atzert & Amelang, 2012). Außerdem ist von Bedeutung, ob die Testverfahren für die Ziele und die Zielgruppe geeignet sind (Geyer, Titz, Weber, Ropeter & Hasselhorn, 2018). Für die Diagnostik im sonderpädagogischen Rahmen müssen im Einzelfall bei der Auswahl und Durchführung von Testverfahren individuelle Voraussetzungen bedacht werden, wie das Sprachniveau, kognitive oder körperliche Vorausset- Testqualität in der Feststellungspraxis sonderpädagogischen Förderbedarfs 3 zungen sowie die Passung für den geprüften Förderschwerpunkt (Eigner, 2022; Geyer et al., 2018). Testverfahren müssen zudem in Randbereichen der Testwerteverteilung gut differenzieren können. Im Gegensatz zu anderen Ländern, wie den USA, der Schweiz oder Österreich, werden die standardisierten Testverfahren in Deutschland von sonderpädagogischen Fachkräften durchgeführt (Joél, 2021). In den USA dürfen lediglich besonders qualifizierte Fachkräfte Intelligenztestverfahren durchführen, die entweder einen Doktortitel besitzen oder regelmäßige Fortbildungen durchlaufen (Joél, 2021). Ebenso ist es sonderpädagogischen Fachkräften in Österreich und der Schweiz nicht erlaubt, Intelligenztestverfahren durchzuführen (Joél, 2021). In Österreich beispielsweise werden schulpsychologische Gutachten zur Feststellung des sonderpädagogischen Förderbedarfs herangezogen (Gasteiger-Klicpera et al., 2023). Doch Ergebnisse zeigen, dass Testergebnisse sowohl zwischen sonderpädagogischen Fachkräften als auch zwischen sonderpädagogischen Fachkräften und Schulpsycholog: innen unterschiedlich ausfallen können (Gasteiger-Klicpera et al., 2023). Qualität der Testdiagnostik in sonderpädagogischen Gutachten Bisherige Forschung zur Qualität von sonderpädagogischen Gutachten und eingesetzten diagnostischen Testverfahren fokussiert meist einen einzelnen Förderschwerpunkt (Breitenbach, 2014; Degenhardt et al., 2004, zitiert nach Schuck et al., 2006; Hoffmann, Böhme & Stanat, 2017) oder einzelne Verfahrenskategorien (Joél, 2021). Über die Förderschwerpunkte hinweg werden Intelligenztests am häufigsten eingesetzt (Joél, 2021). Auch finden sich Hinweise, dass die psychometrischen Standards oftmals nicht eingehalten werden (Breitenbach, 2014; Hennes et al., 2024; Schuck et al., 2006), und es besteht wenig Transparenz über die eingesetzten Testverfahren sowie den diagnostischen Prozess (Degenhardt et al., 2004, zitiert nach Schuck et al., 2006). Beklagt wird auch, dass die für die Interpretation wichtigen Normen oftmals fehlen bzw. - wenn sie vorliegen - bereits veraltet sind (Degenhardt et al., 2004, zitiert nach Schuck et al., 2006; Hoffmann et al., 2017). Degenhardt et al. (2004, zitiert nach Schuck et al., 2006) haben 720 sonderpädagogische Gutachten für die Förderschwerpunkte Lernen, Sprache und Sehen aus den Jahren 2000 bis 2002 in vier Bundesländern auf der Basis eines umfangreichen Kategoriensystems mithilfe eines Fragebogens für geschultes Personal untersucht. Es wurden unter anderem der diagnostische Prozess und die verwendeten diagnostischen Verfahren analysiert. Der diagnostische Prozess erwies sich als wenig nachvollziehbar; testdiagnostische Standards, wie etwa die angemessene Berücksichtigung von Vertrauensintervallen oder die Gültigkeit von Normen, fanden wenig Beachtung (Schuck et al., 2006). Hoffmann et al. (2017) untersuchten die diagnostischen Verfahren für den Förderschwerpunkt Sprache im Grundschulalter. Hierfür verwendeten sie Daten aus Befragungen von 1227 Schulleitungen. Zur Anwendung kamen sowohl standardisierte als auch nicht-standardisierte Verfahren sowie weitere Instrumente, die nicht für die Sprachdiagnostik entwickelt wurden. Nur für wenige Verfahren ließen sich Angaben zu den Gütekriterien der Objektivität, Reliabilität und Validität finden. Auch war es bei vielen der verwendeten Verfahren nicht gut um die Normen bestellt (Hoffmann et al., 2017). Joél (2021) untersuchte die Anwendung und den Nutzen sowie psychometrische Gütekriterien von Intelligenztestverfahren im sonderpädagogischen Kontext. Es zeigte sich, dass zwar das Gütekriterium der Objektivität weitestgehend erfüllt wird, oftmals jedoch nicht die Kriterien der Reliabilität und Validität. Auch ergab eine Befragung mit 1077 sonderpädagogischen Fachkräften, dass es bei der Anwendung von Intelligenztests eine Reihe von Schwierigkeiten gab. 4 Rebecca Aissa, Elena M. Galeano Weber, Marcus Hasselhorn Hennes et al. (2024) untersuchten die Qualität von 179 sonderpädagogischen Gutachten. Lediglich 12 (6,8 %) der Gutachten lieferten die notwendigen Informationen zu den eingesetzten Testverfahren. Immerhin 12,8 % der Gutachten setzten einzig Testverfahren ein, die den Gütekriterien entsprechen, die restlichen Testverfahren wiesen Schwächen in der Normierung oder Reliabilität auf. Die Geeignetheit der Testverfahren für die zu begutachtende Person war in 67,4 % der Fälle gegeben (Hennes et al., 2024). Zusammenfassend lässt sich sagen, dass bisherige Forschung zum Einsatz von Testverfahren in der sonderpädagogischen Feststellungspraxis beträchtliche Qualitätsmängel aufweist. In der einschlägigen Literatur fehlt es allerdings an aktuellen Studien zur psychometrischen Qualität diagnostischer Testverfahren, die in sonderpädagogischen Feststellungsverfahren genutzt werden. Die vorliegende Studie Die vorliegende Studie verfolgte daher das Ziel, die Qualität der in aktuellen sonderpädagogischen Gutachten verwendeten bzw. für das Feststellungsverfahren empfohlenen standardisierten Testverfahren zu überprüfen. Insbesondere wurden die folgenden Fragen adressiert: (a) Sind die Testverfahren theoretisch fundiert? (b) Wie gut erfüllen die empfohlenen sowie die in jüngst angefertigten Gutachten genutzten Testverfahren die psychometrischen Gütekriterien der Objektivität, Reliabilität und Validität? (c) Wie steht es um die Normierung der Verfahren? Methode Für die Analyse der (in Berlin und Brandenburg) empfohlenen sowie der in aktuellen Gutachten aus Feststellungsverfahren aufgeführten Testverfahren (vgl. Tabelle 1) wurde ein Bewertungssystem entwickelt, das sich an den psychometrischen Minimalstandards für diagnostische Tools orientiert (s. u.). Informelle Verfahren wurden in der umgesetzten Analyse nicht berücksichtigt. Es wurden fünf Förderschwerpunkte zur Analyse herangezogen: Lernen, Sprache, Geistige Entwicklung, Emotionale und soziale Entwicklung und Autismus. Stichprobe Eine Inspektion der Dokumente aus fünf Bundesländern (Berlin, Brandenburg, Bayern, Hessen und Nordrhein-Westfalen) ergab, dass lediglich Berlin und Brandenburg konkrete Testverfahren zur Überprüfung und Diagnostik empfehlen. In der „Handreichung zur Durchführung des sonderpädagogischen Feststellungsverfahrens“ in Brandenburg sind 10 verschiedene Testverfahren gelistet (https: / / mbjs.brandenburg.de/ sixcms/ media.php/ 140/ final_handreichung_2018.pdf ). Im „Leitfaden zur Feststellung sonderpädagogischen Förderbedarfs an Berliner Schulen“ werden 34 verschiedene Testverfahren für die fünf Förderschwerpunkte empfohlen (https: / / 3mal21gleich-down-syndrom.de/ wpcontent/ uploads/ 2019/ 05/ 2012_leitfaden_foerder bedarf.pdf ). Acht der zehn Testverfahren aus Brandenburg finden sich ebenfalls im Leitfaden von Berlin. Somit werden nur zwei Testverfahren in Brandenburg empfohlen, die nicht auch in Berlin angegeben werden. In den Leitfäden von Berlin und Brandenburg werden also insgesamt 36 verschiedene Testverfahren für die fünf Förderschwerpunkte empfohlen. Darunter können, wie in Tabelle 1 ersichtlich, zwölf Verfahren den Intelligenztests, elf Verfahren der Überprüfung der Sprache, sieben Tests der Überprüfung der Schulleistungen und sechs Fragebögen zum emotionalen und sozialen Verhalten bzw. Lernverhalten zugeordnet werden. Zwei der 36 Testverfahren konnten aufgrund mangelnder öffentlicher Zugänglichkeit nicht in die Analysen mit einbezogen werden. Dem Projekt wurden aktuell erstellte Gutachten aus diesen fünf Bundesländern zur Verfügung gestellt, 20 davon aus Berlin und Brandenburg (s. a. Galeano Weber, Aissa, Moser & Hasselhorn, 2025). Unter den dort berichteten Testverfahren befinden sich zwölf verschiedene eindeutig identifizierbare Verfahren, von denen 10 Verfahren auch zu den explizit empfohlenen (s. o.) gehören. Testqualität in der Feststellungspraxis sonderpädagogischen Förderbedarfs 5 Tab. 1: Empfohlene und/ oder eingesetzte Testverfahren nach Verfahrenskategorie (N = 40) und Bewertung des Normierungszeitraums Empfohlen (N = 36) Eingesetzt (N = 14) BN Intelligenztests ◾ Wechsler Intelligence Scale for Children - Fourth Edition (WISC-IV) (Wechsler, 2011) × - ◾ Non-verbaler Intelligenztest (SON-R 6-40) (Tellegen, Laros & Petermann, 2012) × × 0 ◾ Grundintelligenztest Skala 1 (CFT 1-R) (Weiß & Osterland, 2013) × × 0 ◾ Grundintelligenztest Skala 2 - Revision (CFT 20-R) mit Wortschatztest (WS) und Zahlenfolgentest (ZF) - Revision (WS/ ZF-R) (Weiß, 2019) × × - ◾ Kaufman Assessment Battery for children - Second Edition (KABC-II) (Kaufman & Kaufman, 2015) × × + ◾ Wechsler Nonverbal Scale of Ability (WNV) (Wechsler & Naglierie, 2014) × × + ◾ Wechsler Preschool and Primary Scale - III (WPPSI-III) (Petermann, Ricken, Fritz, Schuck & Preuß, 2014) × 0 ◾ Wechsler Preschool and Primary Scale of Intelligence - Fourth Edition (WPPSI-IV) (Petermann & Daseking, 2018) × + ◾ Wechsler Intelligence Scale of Children (WISC-V) (Wechsler, 2017) × × + ◾ Non-verbaler Intelligenztest (SON-R 2 ½ -7) (Tellegen, Laros & Petermann, 2007) × - ◾ Non-verbaler Intelligenztest (SON-R 5 ½-17) (Snijders, Tellegen & Laros, 2005) × - ◾ Non-verbaler Intelligenztest (SON-R 2-8) (Tellegen, Laros & Petermann, 2018) × + ◾ Grundintelligenztest Skala 1 (CFT 1) (Cattell, Weiß & Osterland, 1997) × × - ◾ Kaufman-Assessment Battery for Children (K-ABC) (Kaufman & Kaufman, 2009) × - Schulleistungstests ◾ Ein Leseverständnistest für Erstbis Siebtklässler - Version II (ELFE II) (Lenhard, Lenhard & Schneider, 2022) × + ◾ Hamburger Schreib-Probe 1 -10 (HSP 1-10) (May, Malitzky & Vieluf, 2018) × 0 ◾ Eggenberger Rechentest 1+ (ERT 1+) (Schaupp, Holzer & Lenart, 2007) × 0 ◾ Eggenberger Rechentest 2+ (ERT 2+) (Lenart, Holzer & Schaupp, 2008) × 0 ◾ Eggenberger Rechentest 3+ (ERT 3+) (Holzer, Schaupp & Lenart, 2010) × 0 ◾ Eggenberger Rechentest 4+ (ERT 4+) (Schaupp, Lenart & Holzer, 2020) × + ◾ Basisdiagnostik Umschriebener Entwicklungsstörungen im Grundschulalter (BUEGA) (Esser, Wyschkon & Ballaschk, 2008) × × - Sprachtests ◾ Intelligibility in Context Scale - German (ICS-G) (McLeod, Harisson & McCormack, 2012) × - ◾ Sprachstandserhebungstest für Kinder im Alter zwischen 5 und 10 Jahren (SET 5-10) (Petermann, 2018) × × - ◾ Potsdam-Illinois Test für Psycholinguistische Fähigkeiten (P-ITPA) (Esser & Wyschkon, 2010) × - ◾ Leipziger Testbatterie zur Messung des formal-sprachlichen Entwicklungsstandes bei Jugendlichen (LTB-J) (Berufsbildungswerk für Hör- und Sprachgeschädigte Leipzig, 2008) × - ◾ Psycholinguistische Analyse kindlicher Sprechstörungen (PLAKSS) (Fox-Boyer, 2005) × - ◾ Test zur Überprüfung des Grammatikverständnisses (TROG-D) (Fox-Boyer, 2023) × - ▶ 6 Rebecca Aissa, Elena M. Galeano Weber, Marcus Hasselhorn Bewertung der empfohlenen und verwendeten Verfahren Um die Qualität der empfohlenen und eingesetzten Testverfahren zur Feststellung von sonderpädagogischem Förderbedarf zu beurteilen, wurde ein Bewertungssystem genutzt, das sich an die Minimalstandards für diagnostische Tools anlehnt und das bereits bei der Erstellung der Tool-Datenbank für die Bund-Länder-Initiative „Bildung durch Sprache und Schrift (BiSS)“ genutzt wurde (BISS- Transfer, 2021). Grundlage für die Bewertung waren die Angaben in den Manualen der Testverfahren. Als geeignet wurden Testverfahren dann bezeichnet, wenn sie folgende fünf psychometrische Gütekriterien in hinreichendem Maße erfüllten: 1. Testgrundlage, 2. Objektivität, 3. Reliabilität, 4. Validität und 5. Normierung (vgl. Geyer et al., 2018). Zur Bewertung der Testgrundlage wurde geprüft, inwieweit das diagnostische Verfahren auf Grundlage einer wissenschaftlichen Theorie konzipiert wurde. War dies der Fall, wurde das Kriterium als erfüllt gewertet. Fehlte die theoretische Fundierung, wurde das Kriterium der Testgrundlage als nicht hinreichend erfüllt eingestuft. Die Objektivität wurde unterteilt in die Durchführungs- und Auswertungsobjektivität und bezog sich auf die Eindeutigkeit der Instruktionen für die Durchführung und Auswertung eines Verfahrens. Die Bewertung erfolgte auf drei Stufen und hing davon ab, ob die Hinweise zur Durchführung und Auswertung eindeutig im Manual des Testverfahrens beschrieben sind. Für die Reliabilität wurden Angaben zur Retest- Reliabilität, Paralleltest-Reliabilität und der internen Konsistenz geprüft. Fand sich ein zufriedenstellender Wert von ≥ .85 der Retest-Reliabilität oder der Anmerkungen: BN = Bewertung Normierungszeitraum; +: Normen jünger/ gleich 10 Jahre; 0: Normen zwischen 10 und 15 Jahre alt; -: Normen älter als 15 Jahre; NV = Nicht verfügbar; Einteilung der Testverfahren in die Verfahrenskategorie nach den Leitfäden aus Berlin und Brandenburg. Empfohlen (N = 36) Eingesetzt (N = 14) BN ◾ Wortschatz- und Wortfindungstest für 6bis 10-Jährige (WWT 6-10) (Glück, 2011) × - ◾ Checkliste für mögliches Poltern (Weber, 2002) × NV ◾ Evaluationsbogen für das sozialinteraktive Kommunikationsverhalten bei Mutismus (Hartmann & Lange, 2014) × NV ◾ Screening der Erstsprachfähigkeit bei Migrantenkindern (Russisch - Deutsch, Türkisch - Deutsch) (SCREEMIK 2) (Wagner, 2014) × 0 ◾ Sprachentwicklungstest für dreibis fünfjährige Kinder (3; 0 -5; 11 Jahre) (SET K 3-5) (Grimm, 2015) × - ◾ Stuttering Severity Instrument (SSI-4) (Sandrieser & Schneider, 2015) × NV Emotionale und soziale Verhaltenstests ◾ Elternfragebogen über das Verhalten von Kindern und Jugendlichen (CBCL/ 4-18) (Achenbach, Kinnen, Plück, Arbeitsgruppe Deutsche Child Behavior Checklist & Döpfner, 1998) × - ◾ Lehrerfragebogen über das Verhalten von Kindern und Jugendlichen (TRF/ 6-18R) (Döpfner, Plück & Kinnen, 2014) × × 0 ◾ Fragebogen für Jugendliche (YSR/ 11-18R) (Döpfner et al., 2014) × - ◾ Lehrereinschätzungsliste für Sozial- und Lernverhalten (LSL) (Petermann & Petermann, 2013) × - ◾ Schülereinschätzliste für Sozial- und Lernverhalten (SSL) (Petermann & Petermann, 2014) × + ◾ Fragebogen für Erzieher: innen von Klein- und Vorschulkindern (C-TRF) (Plück, Scholz, Döpfner & Arbeitsgruppe Deutsche Child Behavior Checklist, 2022) × - Motoriktest ◾ Bruininks-Osertzky Test der motorischen Fähigkeiten - 2. Ausgabe (Bruininks & Bruininks, 2014) × NV ▶ Testqualität in der Feststellungspraxis sonderpädagogischen Förderbedarfs 7 Paralleltest-Reliabilität, wurde das Kriterium als erfüllt angesehen. Wurde nur die interne Konsistenz angegeben, wurde die Reliabilität in Abhängigkeit von der beschriebenen internen Konsistenz als teils oder nicht erfüllt bewertet. Bei Werten zwischen .70 und .85 wurde das Reliabilitätskriterium als teils erfüllt bewertet. Die Inhaltsvalidität und die Kriteriumsvalidität wurden für das Kriterium der Validität bewertet. Lagen Angaben bzw. eine Beschreibung zur Inhalts- und Kriteriumsvalidität vor, wurde die Validität als erfüllt bewertet. Es wurde hierbei von einer Bewertung durch Cut-Off-Werte abgesehen, da die Validität für die Testverfahren unterschiedlich nachgewiesen wird. Zur Bewertung des Kriteriums der Normierung wurden drei Aspekte betrachtet: die Normierungsmethode, die Stichprobengröße und der Zeitpunkt der letzten Normierung. Die Normierungsmethode wurde als erfüllt bewertet, wenn ein Leistungstest Klassennormen beinhaltete, die Stichprobe, wenn die berichteten Normwerte auf einer Substichprobe von mindestens 250 basierten; oder teils erfüllt, wenn diese zwischen 120 und 250 lagen. Der Zeitraum der letzten Normierung durfte nicht länger als 15 Jahre zurückliegen. Als zum Teil erfüllt wurde es bewertet, wenn der Zeitraum zwischen 10 und 15 Jahren her war, und erfüllt wurde das Kriterium, wenn die Normen nicht älter als 10 Jahre alt waren. Nur wenn alle Kriterien erfüllt waren, galt auch die Normierung als uneingeschränkt angemessen. Als zum Teil angemessen wurde die Normierung eingestuft, wenn ein oder maximal zwei Punkte nicht vollständig, aber teilweise erfüllt waren. Jedes Gütekriterium wurde einzeln bewertet und zusätzlich zu einer Gesamtbewertung zusammengefasst. Erfüllte ein Testverfahren alle Gütekriterien, wurde es insgesamt mit drei Punkten bewertet. Wurden mindestens drei Gütekriterien voll erfüllt und die zwei anderen entweder zum Teil oder eines davon nicht, erhielt das Verfahren zwei Punkte. Waren zwei oder drei Kriterien nicht erfüllt, wurde ein Punkt vergeben. Keinen Punkt bekamen alle anderen Testverfahren, auch die, für die keine Informationen verfügbar waren. Jedes empfohlene und eingesetzte Testverfahren wurde von zwei qualifizierten Personen unabhängig voneinander bewertet. Die Interraterübereinstimmung für die Gesamtbewertung der Testverfahren wurde mit Cohen’s Kappa bestimmt und fiel zufriedenstellend aus (kappa empfohlen = 0.83; kappa eingesetzt = 0.82). Die Gütekriterien wurden darüber hinaus hierarchisch bewertet. Das Gütekriterium Objektivität ist die Voraussetzung für alle weiteren Gütekriterien. Darauf folgt die Reliabilität, denn eine hohe Validität kann nur erreicht werden, wenn auch eine hohe Objektivität und Reliabilität gegeben sind. Das Kriterium der Testgrundlage wird als Facette der Konstruktvalidität interpretiert; in der Hierarchiekette folgt sie daher anschließend. Die Normierung wird als hierarchieniedrigstes Gütekriterium angesehen. Nur wenn alle vorhergegangenen Gütekriterien erfüllt sind, können die Normen eine Aussagekraft der Ergebnisse liefern. Da das Kriterium der Objektivität bei allen empfohlenen und eingesetzten Testverfahren als erfüllt bewertet wurde und das Kriterium der Testgrundlage bei den 10 eingesetzten Testverfahren ebenfalls, wurden nur die anderen psychometrischen Gütekriterien für die Durchführung non-parametrischer McNemar-Tests eingeschlossen und die beiden Bewertungskategorien „zum Teil erfüllt“ und „vollständig erfüllt“ wurden gleichgesetzt. Alle Analysen wurden mit JAMOVI, Version 2.3.9, ausgewertet (The jamovi project, 2021). Ergebnisse Qualitätsergebnisse der empfohlenen Testverfahren Wie in Abbildung 1 zu entnehmen ist, waren 27 von 34 der bewerteten Verfahren (79,4 %) theoretisch fundiert (Forschungsfrage a). Hierbei ist beispielsweise die Theorie der Grundintelligenz nach Cattell (1963) oder das psycholinguistische Modell von Osgood (1957) zu nennen. Die Mehrheit der Testverfahren erfüllte somit das erste Gütekriterium. Für die 7 der 24 bewerteten Testverfahren, die das Kriterium nicht erfüllten, waren keine Angaben in den Manualen zu finden, welche theoretische Fundierung das Verfahren hat. Forschungsfrage b bezieht sich auf die Hauptgütekriterien Objektivität, Validität und Reliabilität. Alle Testverfahren erfüllten das Objektivitätskriterium. Bei 29 der 34 empfohlenen Testverfahren (85,3 %) gab es Angaben zur Validität in den Manualen. Anders verhält es sich in Bezug auf die Reliabilität. Lediglich 7 von 34 empfohlenen Test- 8 Rebecca Aissa, Elena M. Galeano Weber, Marcus Hasselhorn verfahren (20,6 %) erfüllten die vorgegebenen Reliabilitäts-Standards vollumfänglich (Retest- Reliabilität oder Paralleltest-Reliabilität von rel. ≥ .85), 17 Verfahren (50 %) zum Teil und 10 Tests (29,4 %) erfüllten sie nicht. Eher ernüchternd fielen die Ergebnisse zum Gütekriterium der Normierung aus, da 27 von 34 Testverfahren (79,4 %) den üblichen Standards hierfür nicht genügten (Forschungsfrage c). Nur zwei Verfahren (5,9 %) erfüllten die Kriterien vollständig und weitere fünf Verfahren (14,7 %) zum Teil. Dieses ernüchternde Ergebnis beruht vorrangig auf der Bewertung des Normierungszeitraums. Nur bei 18,2 % der Testverfahren lag die letzte Normierung nicht länger als 10 Jahre zurück und bei 45,5 % der Verfahren nicht länger als 15 Jahre. In etwas mehr als der Hälfte (54,5 %) der empfohlenen Testverfahren waren die Normen älter als 15 Jahre. Da sich vor allem bei Leistungstests die Mittelwerte und Verteilungen bei der gleichen Zielgruppe oftmals über die Zeit systematisch ändern (vgl. Geyer et al., 2018), ist bei veralteten Normen eine Interpretation der Daten erschwert. Die Ergebnisse der McNemar-Tests, die eingesetzt wurden, um zu prüfen, ob es systematische Qualitätsunterschiede zwischen den Bewertungen der psychometrischen Gütekriterien gibt, zeigten einen statistisch bedeutsamen Unterschied zwischen den Bewertungen zur Normierung und den Bewertungen zur Testgrundlage ( χ 2 = 20, df = 1, p < .001), zur Reliabilität ( χ 2 = 17, df = 1, p < .001) und zur Validität ( χ 2 = 22, df = 1, p < .001). Zwischen den Bewertungen der anderen Gütekriterien fanden sich keine signifikanten Unterschiede - Testgrundlage-Reliabilität ( χ 2 = 0.8, df = 1, p = .366), Testgrundlage-Validität ( χ 2 = 0.7, df = 1, p = .414), Validität-Reliabilität ( χ 2 = 2.27, df = 1, p = .132). Abbildung 1 veranschaulicht, dass das Gütekriterium der Normierung geringere Bewertungen erhielt als die anderen psychometrischen Gütekriterien. Abbildung 2 gibt einen Überblick darüber, wie viele Testverfahren die untersuchten Gütekriterien erfüllen und somit die Voraussetzung für das jeweils hierarchisch nächsthöhere Gütekriterium erreichen. Alle 34 empfohlenen Test- Testgrundlage Objektivität Reliabilität Validität Normierung 0 % 20 % 40 % 60 % 80 % 100 % n Nicht erfüllt n Zum Teil erfüllt n Erfüllt Anmerkung: Die dreistufige Bewertung in ‚nicht erfüllt‘, ‚zum Teil erfüllt‘ und ‚erfüllt‘ kam nur bei der Bewertung der Reliabilität und Normierung zur Anwendung. Abb. 1: Ergebnisse der Bewertung der psychometrischen Gütekriterien der empfohlenen Testverfahren in Prozent (N = 34) Testqualität in der Feststellungspraxis sonderpädagogischen Förderbedarfs 9 verfahren erfüllen das Gütekriterium der Objektivität, allerdings lediglich 24 von ihnen wenigstens teilweise das Kriterium der Reliabilität und von diesen 21 Verfahren auch das Kriterium der Validität. Als Teil der Validität wird hier die theoretische Fundierung der Verfahren eingestuft. 95 % der empfohlenen Testverfahren (20 der 21 Verfahren), die das Validitäts- Kriterium erfüllten, hatten auch eine explizite theoretische Fundierung. Eine angemessene Normierung lag nur bei 6 der 20 Verfahren vor. Das lag vorrangig an der mangelnden Aktualität der Normierung. Im Vergleich der fünf betrachteten Gütekriterien zeigten sich somit die größten Mängel bei der Normierung. Lediglich zwei Testverfahren (5,9 %; Schulleistungstests - ELFE II, ERT 4+) erfüllten alle bewerteten Kriterien und genügten demnach den üblichen psychometrischen Minimalstandards. Immerhin zeigte sich, dass 50 % der in die Bewertung einbezogenen Verfahren (17 von 34) nahezu alle Kriterien erfüllten, also die Standards bei nur einem Gütekriterium verfehlten oder maximal zweimal eine neutrale Bewertung erhielten. 15 der 34 empfohlenen Testverfahren (44,1 %) erfüllten zwei oder drei Gütekriterien nicht und wurden somit als psychometrisch unzureichend eingestuft. Bewertung der eingesetzten Testverfahren In sechs der 20 vorliegenden Gutachten fanden sich keine Hinweise auf den Einsatz eines Testverfahrens. Dabei handelte es sich um ein Gutachten für den Förderschwerpunkt geistige Entwicklung, ein Gutachten für den Förderschwerpunkt emotional-soziale Entwicklung, vier Gutachten für den Förderschwerpunkt Autismus. In diesen Gutachten wurden lediglich externe Berichte dargelegt und Verhaltensbeobachtungen durchgeführt. In den übrigen 14 kamen am häufigsten die Grundintelligenztest Skala 1 - Revision (CFT 1-R; Weiß & Osterland, 2012), der Non-verbale Intelligenztest (SON-R 6-40: Tellegen et al., 2012), die Wechsler Intelligence Scale of Children (WISC-V; Wechsler, 2017) und der Sprachstandserhebungstest für Kinder im Alter zwischen 5 und 10 Jahren (SET 5-10; Petermann, 2018) zum Einsatz (s. Abbildung 3). Positiv fiel dabei auf, dass mehrmals auf neuere Versionen von Testverfahren zurückgegriffen wurde. Insgesamt fanden sich drei Verfahren, die in den Leitfäden nicht enthalten sind, so etwa der Bruininks-Oseretzky Test der motorischen Fähigkeiten - 2. Ausgabe (BOT-2; Bruininks & Bruininks, 2014). Objektivität Reliabilität Validität Testgrundlage Normierung 34 24 21 20 6 Abb. 2: Bewertung der empfohlenen Testverfahren in Einbezug der Beziehung zwischen den psychometrischen Gütekriterien (N = 34) 10 Rebecca Aissa, Elena M. Galeano Weber, Marcus Hasselhorn Von den 12 eingesetzten Testverfahren wurden 10 in Berlin und Brandenburg empfohlen. Vergleicht man die psychometrische Qualität der 10 eingesetzten Testverfahren (vgl. Abbildung 4) mit allen empfohlenen Verfahren (Abbildung 2), lassen sich ähnliche Qualitätsprofile erkennen. CFT 1-R SET 5-10 SON-R 6-40 WISC-V WPPSI-IV WNV K-ABC II SON-R 2-8 CFT 20-R BUEGA BOT-2 TRF/ 6-18R CFT 1 SSI-4 0 1 2 3 4 5 6 7 Anzahl der verwendeten Testverfahren n Intelligenztests n Schulleistungstests n Sprachtests n Emotionale und soziale Verhaltenstests n Motoriktest Anmerkungen: SON-R 2-8 = Non-verbaler Intelligenztest (Tellegen, Laros & Petermann, 2018), SSI-4 = Stuttering Severity Instrument (Sandrieser & Schneider, 2015), BOT-2 = Bruininks-Oseretzky Test der motorischen Fähigkeiten - 2. Ausgabe (Bruininks & Bruininks, 2014) Abb. 3: Anzahl der verwendeten Testverfahren N = 37 und nach Verfahrenskategorie N = 5 Testgrundlage Objektivität Reliabilität Validität Normierung 0 % 20 % 40 % 60 % 80 % 100 % n Nicht erfüllt n Zum Teil erfüllt n Erfüllt Abb. 4: Ergebnisse der Bewertung der psychometrischen Gütekriterien der verwendeten Testverfahren (N = 10) Testqualität in der Feststellungspraxis sonderpädagogischen Förderbedarfs 11 Alle eingesetzten und empfohlenen Testverfahren erfüllten die Kriterien zur Testgrundlage (Forschungsfrage a), ebenso das Gütekriterium Objektivität. Vier Verfahren (40 %) erfüllten die Kriterien zur Reliabilität. In 9 der 10 Fälle (90 %) gab es Angaben zur Validität (Forschungsfrage b). Keines der verwendeten Testverfahren erfüllte die Kriterien zur Normierung, 20 % immerhin zum Teil (Forschungsfrage c). Hervorzuheben ist auch hier, dass 80 % der Verfahren die Kriterien nicht erfüllten, was hier zum einen an veralteten Normen (40 %), zum anderen auch am Fehlen von Klassennormen (55,6 %) lag. Betrachtet man auch hier die Zusammenhänge der Bewertungen zwischen den Gütekriterien, zeigte sich, dass die Bewertungen für das Kriterium der Normierung schlechter ausfielen als die für die Validität ( χ 2 = 7, df = 1, p = .008). Der Unterschied zwischen den Bewertungen der Normierung und Reliabilität wurde - im Vergleich zu allen empfohlenen Testverfahren - nicht signifikant ( χ 2 = 3.57, df = 1, p = .059). Dafür ergab der non-parametrische Test allerdings einen signifikanten Unterschied zwischen den Bewertungen der Validität und der Reliabilität ( χ 2 = 17.3, df = 3, p < .001). Somit wurde das Kriterium der Validität positiver bewertet als die Normierung und die Reliabilität. Keines der in den Gutachten dokumentierten, empfohlenen Testverfahren konnte alle Gütekriterien erfüllen. 7 der 10 Testverfahren (70 %) erfüllten die Minimalstandards zum Teil; drei Verfahren (30 %) erfüllten zwei oder mehr der Gütekriterien nicht und müssen somit als psychometrisch mangelhaft eingestuft werden. Die psychometrische Qualität der beiden Testverfahren (SON-R 2-8 und WPPSI-IV), die von den Gutachtenden darüber hinaus in den Gutachten eingesetzt wurden, ähnelte der Qualität sowohl der eingesetzten und empfohlenen als auch allen empfohlenen Testverfahren. Eines der beiden Testverfahren erfüllte die Kriterien der Testgrundlage und der Reliabilität. Beide Testverfahren erfüllten die Kriterien der Objektivität und der Validität. Die Kriterien der Normierung konnten von beiden Testverfahren nicht erfüllt werden. Allerdings lag dies nicht an der Aktualität der Normen, sondern am Fehlen von Klassennormen. Beide Testverfahren wiesen Normen auf, die jünger waren als 10 Jahre. Eines der beiden Verfahren wurde als psychometrisch ungenügend bewertet und das andere erfüllte zum Teil die Minimalstandards. Ausschlaggebend für diese Bewertung war das Kriterium der Normierung. Diskussion Vorgelegt wurde eine Bewertung von den in Berlin und Brandenburg für den sonderpädagogischen Feststellungsprozess empfohlenen und den in aktuellen Gutachten tatsächlich eingesetzten Testverfahren für fünf Förderschwerpunkte. Die psychometrischen Standards erwiesen sich dabei als nur teilweise erfüllt, was den Schlussfolgerungen älterer Arbeiten entspricht (Breitenbach, 2014; Joél, 2021; Schuck et al., 2006). Insgesamt erfüllten 44,1 % der empfohlenen Testverfahren die geprüften Qualitätsstandards nicht. Lediglich 5,9 % der empfohlenen Testverfahren erfüllten alle Gütekriterien. Vor allem konnten Schwächen insbesondere bezüglich der Normierung und - weniger ausgeprägt - der Reliabilität identifiziert werden, was zu den Ergebnissen von Joél (2021) passt. Die zehn in den Gutachten dokumentierten Testverfahren, die ebenfalls in Berlin und Brandenburg empfohlen wurden, schnitten im Mittel und im Besonderen in der Aktualität der Normen positiver ab als alle empfohlenen Testverfahren, worin wir einen Hinweis auf ein angemessenes Reflexionsniveau in der Feststellungspraxis sehen. Die beiden zusätzlich eingesetzten Testverfahren, die nicht in den Leitfäden empfohlen wurden, zeigten die gleichen Schwächen in der Reliabilität und der Normierung wie die empfohlenen und eingesetzten Testverfahren, wiesen aber Normen auf, die nicht länger als 10 Jahre zurücklagen. Limitationen In dieser Studie wurden 34 empfohlene und 12 tatsächlich eingesetzte Testverfahren hinsichtlich ihrer psychometrischen Qualität untersucht. 12 Rebecca Aissa, Elena M. Galeano Weber, Marcus Hasselhorn In zukünftigen Forschungen wäre eine größere Anzahl an Testverfahren, möglicherweise für alle Bundesländer gebündelt, empfehlenswert. Die Passung zwischen Förderschwerpunkt und Testverfahren sowie die Nutzung der Ergebnisse zur Entscheidungsfindung und Passung zwischen sonderpädagogischen Gutachten und Testverfahren war kein Teil dieser Arbeit, erscheint uns aber als lohnende Weiterführung der in dieser Arbeit vorgenommenen Qualitätsprüfungen. Ausblick und Implikationen Ein Vergleich der praktizierten Feststellungsverfahren wird durch die regionalen Unterschiede (Autor: innengruppe Bildungsberichterstattung, 2014; Sälzer et al., 2015; Petermann & Petermann, 2006; Wolf & Dietze, 2022), die individuelle Präferenz von Testverfahren und die gezeigten Schwächen in der Aktualität der Normierung erschwert (BMBF, 2019), weshalb zukünftige Studien sich mit der Weiterentwicklung und dem Einsatz von bestehenden Testverfahren beschäftigen sollten. Für die Weiterentwicklung der bestehenden Testverfahren bzw. Anpassung der Normen halten wir die bisweilen erhobene Forderung nach spezifischen Normen für Subpopulationen in den meisten Fällen aber für verfehlt, da Leistungs- und Verhaltenstests besonderer Bedarfe einen Vergleich zum altersgemäßen Entwicklungsstand bzw. schulungsgemäßen Bildungsstand erfordern. Dafür sollten besonders bei der Aktualisierung der Normierung fehlende Klassennormen bei Leistungstests ergänzt werden. Allgemein stellt sich die Frage, ob es eine Empfehlung von geeigneten Testverfahren über alle Bundesländer hinweg geben sollte und ob jedes Bundesland geeignete Testverfahren für den Einsatz für den sonderpädagogischen Feststellungsprozess in ihren Leitfäden oder Handbüchern integrieren sollte, um die Diskrepanzen zwischen den Bundesländern zu verringern und einen Vergleich zwischen Kindern und sonderpädagogischem Förderschwerpunkt möglich zu machen (BMBF, 2019). Die Ergebnisse dieser Studie bestätigen die Befunde früherer Studien, dass die psychometrischen Standards oftmals nicht eingehalten werden (Breitenbach, 2014; Hennes et al., 2024; Schuck et al., 2006) und besonders die Normen veraltet sind (Degenhardt et al., 2004, zitiert nach Schuck et al., 2006; Hoffmann et al., 2017). Unabhängig von der psychometrischen Qualität diagnostischer Testverfahren, die in sonderpädagogischen Gutachten eingesetzt oder für den sonderpädagogischen Feststellungsprozess empfohlen werden, sehen wir Diskurs- und Präzisierungsbedarf zu der Frage, wie die Ergebnisse von Testverfahren bei der Entscheidung für oder gegen eine sonderpädagogische Fördermaßnahme genutzt werden sollten. Ein weiterer Punkt ergibt sich aus den Herausforderungen der ständigen Weiterentwicklung diagnostischer Testverfahren: Wie kann in der Praxis sonderpädagogischer Feststellungsverfahren die regelmäßige Schulung von sonderpädagogischen Fachkräften für die Auswahl und Durchführung geeigneter diagnostischer Testverfahren gewährleistet werden? Literatur Achenbach, T. M., Kinnen C., Plück, J., Arbeitsgruppe Deutsche Child Behavior Checklist & Döpfner, M. (1998). CBCL 4 - 18. Elternfragebogen über das Verhalten von Kindern und Jugendlichen (2. Aufl.). Arbeitsgruppe Kinder-, Jugend- und Familiendiagnostik (KJFD). Autor: innengruppe Bildungsberichterstattung (2014). Bildung in Deutschland 2014: Ein indikatorengestützter Bericht mit einer Analyse zur Bildung von Menschen mit Behinderungen. W. Bertelsmann Verlag. https: / / doi.org/ 10.3278/ 6001820dw Berufsbildungswerk für Hör- und Sprachgeschädigte (Leipzig) (2008). LTB-J. Leipziger Testbatterie zur Messung des formal-sprachlichen Entwicklungsstandes bei Jugendlichen. BBW Leipzig, 2008. BiSS-Transfer (2021). Minimalstandards für diagnostische Tools. https: / / www.biss-sprachbildung.de/ angebotefuer-die-praxis/ tool-dokumentation/ empfohlene-dia gnostische-tools/ individualdiagnose-sprach-leseentwick lung/ minimalstandards-fuer-diagnostische-tools/ BMBF (2019). Bekanntmachung - Richtlinie zur Förderung von Projekten zum Thema „Förderbezogene Diagnostik in der inklusiven Bildung“, Bundesanzeiger vom 5. 12. 2019. https: / / www.bmbf.de/ bmbf/ shareddocs/ bekanntma chungen/ de/ 2019/ 12/ 2752_bekanntmachung.html Breitenbach, E. (2014). Psychologie in der Heil- und Sonderpädagogik. Kohlhammer GmbH. https: / / doi.org/ 10. 17433/ 978-3-17-025386-5 Testqualität in der Feststellungspraxis sonderpädagogischen Förderbedarfs 13 Breitenbach, E. (2021). Psychologie in der Heil- und Sonderpädagogik (2. Aufl.). Kohlhammer GmbH. https: / / doi. org/ 10.17433/ 978-3-17-036215-4 Bruininks, R. H. & Bruininks, B. D. (2014). Bruininks- Oseretzky Test der motorischen Fähigkeiten (2. Aufl.). Pearson. Cattell, R. B. (1963). Theory of fluid and crystallized intelligence: A critical experiment. Journal of Educational Psychology, 54, 1 - 22. http: / / doi.org/ 10.1037/ h0046743 Cattell, R. B., Weiß, R. H. & Osterland, J. (1997). CFT 1. Grundintelligenztest Skala 1 (5. Aufl.). Hogrefe. Döpfner, M., Plück, J. & Kinnen, C. (2014). CBCL/ 6-18R, TRF/ 6-18R, YSR/ 11-18R. Deutsche Schulalter-Formen der Child Behavior Checklist von Thomas M. Achenbach. Elternfragebogen über das Verhalten von Kindern und Jugendlichen (CBCL/ 6-18R), Lehrerfragebogen über das Verhalten von Kindern und Jugendlichen (TRF/ 6-18R), Fragebogen für Jugendliche (YSR/ 11-18R). Hogrefe. Eigner, B. (2022). Diagnostik im Kontext geistiger Behinderung: Komplexität, Herausforderungen, Strategien. In M. Gebhardt, D. Scheer & M. Schurig (Hrsg.), Handbuch der sonderpädagogischen Diagnostik. Grundlagen und Konzepte der Statusdiagnostik, Prozessdiagnostik und Förderplanung (S. 421 - 434). Regensburg: Universitätsbibliothek. https: / / doi.org/ 10.5283/ epub.53149 Esser, G. & Wyschkon, A. (2010). P-ITPA. Potsdam-Illinois Test für Psycholinguistische Fähigkeiten. Hogrefe. Esser, G. Wyschkon, A. & Ballaschk, K. (2008). BUEGA. Basisdiagnostik Umschriebener Entwicklungsstörungen im Grundschulalter. Hogrefe. Fox-Boyer, A. V. (2005). PLAKSS. Psycholinguistische Analyse kindlicher Sprechstörungen (2. Aufl.). Pearson. Fox-Boyer, A. V. (2023). TROG-D. Test zur Überprüfung des Grammatikverständnisses (9. Aufl.). Schulz-Kirchner Verlag. Galeano Weber, E. M., Aissa, R., Moser, V. & Hasselhorn, M. (2025). Determining Special Educational Needs in Germany: Current Status and the Coherence of the Rationale of Support Recommendations. European Journal of Special Educational Needs, 1 - 17. https: / / doi.org/ 10.1080/ 08856257.2025.2457258 Gasteiger-Klicpera, B., Buchner, T., Frank, E., Grubich, R. Hawelka, V., Hecht, P., Hoffmann, M., Hoffmann, T., Holzinger, A., Hölzl, C., Kahr, S., Kreilinger, M., Lüke, T., Proyer, M., Raich, K., Rümmele, K., Schuster, S., Steiner, M., Prammer, W., Pessl, G., Rauch, C., Schrammel, S., Wagner, J. & Wohlhart, D. (2023). Evaluierung der Vergabepraxis des sonderpädagogischen Förderbedarfs (SPF) in Österreich. Bundesministerium für Bildung, Wissenschaft und Forschung (Wien). Geyer, S., Titz, C., Weber, S., Ropeter, A. & Hasselhorn, M. (2018). Werkzeuge zur Umsetzung von Konzepten: Woran erkennt man gute Tools? In C. Titz, S. Weber, A. Ropeter, S. Geyer & M. Hasselhorn (Hrsg.), Konzepte zur Sprach- und Schriftsprachförderung umsetzen und überprüfen (S. 28 - 45). Kohlhammer. Glück, C. W. (2011). WWT 6-10. Wortschatz- und Wortfindungstest für 6bis 10-Jährige (2. Aufl.). Urban & Fischer. Gresch, C., Rjosk, C., Kocaj, A. & Stanat, P. (2017). Schülerinnen und Schüler mit sonderpädagogischem Förderbedarf in Deutschland. In P. Stanat, S. Schipolowski, C. Rjosk, S. Weirich, N. Haag (Hrsg.), IQB-Bildungstrend 2016 - Kompetenzen in den Fächern Deutsch und Mathematik am Ende der 4. Jahrgangsstufe im zweiten Ländervergleich (S. 277 - 281). Waxmann Verlag. Grimm, H. (2015). SETK 3-5. Sprachentwicklungstest für dreibis fünfjährige Kinder (3; 0 - 5; 11 Jahre) (3. Aufl.). Hogrefe. Hartmann, B. & Lange, M. (2014). Evaluationsbogen für das sozialinteraktive Kommunikationsverhalten. https: / / www. institut-hartmann.de/ _Resources/ Persistent/ 8d9bf9e7 687d55693a7db4a8f191fbdffec60b2e/ E-S-K-M.pdf Hennes, A.-K., Philippek, J., Dortants, L., Abel, M., Baysel, K., Dworschak, W., Fabel, L., Hövel, D., Jonas, K. Nideröst, M., Röösli, P., Schabmann, A., Stenneken, P., Wächter, J. & Schmidt B. M. (2024). Sonderpädagogische Diagnostik im Feststellungsprozess: Eine Ist-Stand-Analyse und der Blick nach vorn. Zeitschrift für Heilpädagogik, 75, 288 - 302. Hoffmann, L., Böhme, K. & Stanat, P. (2017). Mit welchen diagnostischen Verfahren wird in Grundschulen Sprachförderbedarf festgestellt? Frühe Bildung, 6 (3), 116-123. https: / / doi.org/ 10.1026/ 2191-9186/ a000313 Holzer, N., Schaupp, H. & Lenart, F. (2010). ERT 3+. Eggenberger Rechentest 3+. Hogrefe. Joél, T. (2021). Die Anwendung von Intelligenztests im sonderpädagogischen Kontext - Eine empirische Untersuchung unter besonderer Berücksichtigung der Durchführungs- und Auswertungsobjektivität. Beltz. Kaufman, A. S. & Kaufman, N. L. (2009). K-ABC. Kaufman- Assessment Battery for Children. Deutschsprachige Fassung von P. Melchers und U. Preuß (8. Aufl.). Pearson. Kaufman, A. S. & Kaufman, N. L. (2015). K-ABC-II. Kaufman Assessment Battery for Children - Second Edition. Deutschsprachige Fassung von P. Melchers und M. Melchers. AGS Publishing. KMK (1994). Empfehlung Sonderpädagogische Förderung in den Schulen in der Bundesrepublik Deutschland. https: / / www.kmk.org/ fileadmin/ veroeffentlichungen_beschlues se/ 1994/ 1994_05_06-Empfehl-Sonderpaedagogische- Foerderung.pdf Kuhl, J. (2012). Diagnostik im Förderschwerpunkt geistige Entwicklung. In J. Kuhl, A. Krizan, D. Sinner, H. Probst, C. Hofmann, M. Ennemoser (Hrsg.), von der sonderpädagogischen Diagnostik zur pädagogischpsychologischen Diagnostik im Dienst schulischer Prävention (S. 27 - 35). In V. Moser (Hrsg.), Enzyklopädie Erziehungswissenschaft Online. Behinderten- und Integrationspädagogik: Institutionelle Felder. Beltz Juventa. Lenart, F., Holzer, N. & Schaupp, H. (2008). ERT 2+. Eggenberger Rechentest 2+. Hogrefe. Lenhard, W., Lenhard, A. & Schneider, W. (2022). Ein Leseverständnistest für Erstbis Siebtklässler - Version II (5. Aufl.). Hogrefe. May, P., Malitzky, V. & Vieluf, U. (2018). Hamburger Schreib-Probe 1 - 10. Vpm. McLeod, S., Harisson, L. J. & McCormack, J. (2012). Skala zur Verständlichkeit im Kontext (Intelligibility in Context Scale). Deutschsprachige Fassung von S. Neumann. Journal of Speech, Language, and Hearing Research, 55 (2), 648 - 656. https: / / doi.org/ 10.2443/ skv-s-2020-53020 200404 Osgood, C. E. (1957). Motivational dynamics of language behaviour. In M. R. Jonas (Ed.). Nebraska symposium on motivation (S. 348 - 424). University of Nebraska Press. Petermann, F. & Daseking, M. (2018). Wechsler Preschool and Primary Scale of Intelligence - Fourth Edition. Deutschsprachige Adaption nach D. Wechsler. Pearson. Petermann, U. & Petermann, F. (2006). Zum Stellenwert sonderpädagogischer Förderdiagnostik. In F. Petermann & U. Petermann (Hrsg.), Diagnostik sonderpäd- 14 Rebecca Aissa, Elena M. Galeano Weber, Marcus Hasselhorn agogischen Förderbedarfs (Jahrbuch der pädagogischpsychologischen Diagnostik, Tests und Trends, Neue Folge Band 5, S. 1 - 15). Hogrefe. Petermann, U. & Petermann, F. (2014). Schülereinschätzliste für Sozial- und Lernverhalten. Hogrefe. Petermann, U. & Petermann, F. (2013). Lehrereinschätzliste für Sozial- und Lernverhalten (2. Aufl.). Hogrefe. Petermann, F., Ricken, G., Fritz, A., Schuck, K.-D. & Preuß, U. (Hrsg.) (2014). Wechsler Preschool and Primary Scale - Third edition. Deutschsprachige Adaption nach D. Wechsler (3. Aufl.). Pearson. Petermann, F. (2018). SET 5-10. Sprachstandserhebungstest für Kinder im Alter zwischen 5 und 10 Jahren (3. Aufl.). Hogrefe. Plück, J., Scholz, K.-K., Döpfner, M. & Arbeitsgruppe Deutsche Child Behavior Checklist (2022). CBCL/ 1½-5, C-TRF/ 1½-5. Deutsche Kleinkind- und Vorschulalter- Formen der Child Behavior Checklist von Thomas M. Achenbach und Leslie A. Rescorla. Elternfragebogen für Klein- und Vorschulkinder, Fragebogen für Erzieher: innen von Klein- und Vorschulkindern. Hogrefe. Sälzer, C., Gebhardt, M., Müller, K. & Pauly, E. (2015). Der Prozess der Feststellung sonderpädagogischen Förderbedarfs in Deutschland. In P. Kuhl, P. Stanat, B. Lütje-Klose, C. Gresch, H. A. Pant & M. Prenzel (Hrsg.), Inklusion von Schülerinnen und Schülern mit sonderpädagogischem Förderbedarf in Schulleistungserhebungen (S. 129 - 152). Springer. Sandrieser, P. & Schneider, P. (2015). SSI-4 - Stuttering Severity Instrument. In N. Lauer & D. Schrey-Dern (Hrsg.), Stottern im Kindesalter (4. Aufl.). Georg Thieme Verlag. https: / / doi.org/ 10.1055/ b-003-125855 Schaupp, H., Holzer, N. & Lenart, F. (2007). ERT 1+. Eggenberger Rechentest 1+. Hogrefe. Schaupp, H., Lenart, F. & Holzer, N. (2020). ERT 4+. Eggenberger Rechentest 4+ (2. Aufl.). Hogrefe. Schmidt-Atzert, L. & Amleang M. (2012). Psychologische Diagnostik (5. Aufl.). Springer. https: / / doi.org/ 10.10 07/ 978-3-642-17001-0 Schuck, K. D., von Knebel, U., Lemke, W., Schwohl, J. & Sturm, T. (2006). Rahmenbedingungen und diagnostische Umsetzung zur Feststellung sonderpädagogischen Förderbedarfs in Hamburg und Schleswig-Holstein. In F. Petermann & U. Petermann (Hrsg.), Diagnostik sonderpädagogischen Förderbedarfs. Hogrefe (Jahrbuch der pädagogisch-psychologischen Diagnostik, Tests und Trends, Neue Folge Band 5, S. 37 - 65). Hogrefe. Snijders, Tellegen, P. J. & Laros, J. A. (2005). SON-R 5 ½-17. Non-verbaler Intelligenztest (3. Aufl.). Hogrefe. Tellegen, P. J., Laros, J. A. & Petermann, F. (2007). SON-R 2 ½-7. Non-verbaler Intelligenztest. Hogrefe. Tellegen, P. J., Laros, J. A. & Petermann, F. (2012). SON-R 6-40. Non-verbaler Intelligenztest. Hogrefe. Tellegen, P. J., Laros, J. A. & Petermann, F. (2018). SON-R 2-8. Non-verbaler Intelligenztest. Hogrefe. The jamovi project (2021). jamovi (Version 2.3.9) [Computer Software]. https: / / www.jamovi.org Vossen, A., Hartung, N., Hecht, T. & Sinner, D. (2022). Das sonderpädagogische Gutachten (Status‐ und Feststellungsdiagnostik). In M. Gebhardt, D. Scheer & M. Schurig (Hrsg.), Handbuch der sonderpädagogischen Diagnostik. Grundlagen und Konzepte der Statusdiagnostik, Prozessdiagnostik und Förderplanung (S. 345 - 354). Regensburg: Universitätsbibliothek. https: / / doi.org/ 10. 5283/ epub.53149 Wagner, L. (2014). Screening der Erstsprachfähigkeit bei Migrantenkindern (Russisch - Deutsch, Türkisch - Deutsch) (2. Aufl.). Eugen Wagner Verlag. Weber, C. (2002). Poltern - eine vergessene Sprachbehinderung. Spiess. Wechsler, D. (2011). Wechsler Intelligence Scale for Children - Fourth Edition. Deutschsprachige Fassung von F. Petermann und U. Petermann. Pearson. Wechsler, D. (2017). Wechsler Intelligence Scale for Children - Fifth Edition. Deutschsprachige Fassung von F. Petermann. Pearson. Wechsler, D. & Naglieri, J. A. (2014). Wechsler Nonverbal Scale of Ability. Pearson. Weiß, R. H. (2019). Grundintelligenztest Skala 2 - Revision (CFT 20-R) mit Wortschatztest (WS) und Zahlenfolgentest (ZF) - Revision (WS / ZF-R) (2. Aufl.). Hogrefe. Weiß, R. H. & Osterland, J. (2013). Grundintelligenztest Skala 1 - Revision. Hogrefe. Wolf, L. & Dietze, T. (2022). Ein Überblick über die Organisation der Feststellung von sonderpädagogischen Förderbedarfen in Deutschland. In M. Gebhardt, D. Scheer & M. Schurig, (Hrsg.). Handbuch der sonderpädagogischen Diagnostik. Grundlagen und Konzepte der Statusdiagnostik, Prozessdiagnostik und Förderplanung (S. 325 - 344). Regensburg: Universitätsbibliothek. https: / / doi.org/ 10.5283/ epub.53149 Rebecca Aissa Elena M. Galeano Weber Marcus Hasselhorn DIPF | Leibniz-Institut für Bildungsforschung und Bildungsinformation Rostocker Str. 6 60323 Frankfurt E-Mail: r.aissa@dipf.de e.galeano-weber@dipf.de m.hasselhorn@dipf.de