eJournals Psychologie in Erziehung und Unterricht 69/1

Psychologie in Erziehung und Unterricht
3
0342-183X
Ernst Reinhardt Verlag, GmbH & Co. KG München
10.2378/peu2022.art04d
11
2022
691

Empirische Arbeit: "Hochbegabt" oder "Nicht Hochbegabt" - zur Übereinstimmung der Hochbegabtenidentifikation mit SPM, CFT 20-R und KFT-N

11
2022
Sonja Valerius
Christin Lotz
Jörn R. Sparfeldt
"Im Zuge einer Diagnostik intellektueller Hochbegabung werden zumeist Intelligenztests eingesetzt. Um abzuschätzen, inwieweit das diagnostische Fazit („hochbegabt“ vs. „nicht hochbegabt“) bei der Verwendung mehrerer Intelligenztests vom spezifisch eingesetzten Intelligenztest abhängt, wurden die korrelativen und klassifikatorischen Übereinstimmungen von drei konzeptionell ähnlichen Testverfahren zum figuralen reasoning (CFT?20-R, KFT-N, SPM) anhand einer größeren Stichprobe (N?=?562; 9. Klassenstufe) ermittelt. Trotz mindestens mittelhoher Testinterkorrelationen stimmte das diagnostische Fazit „hochbegabt“ nur zum Teil überein. Insbesondere die Implikationen für die diagnostische Praxis werden diskutiert."
3_069_2022_1_0005
n Empirische Arbeit Psychologie in Erziehung und Unterricht, 2022, 69, 38 -53 DOI 10.2378/ peu2022.art04d © Ernst Reinhardt Verlag „Hochbegabt“ oder „Nicht Hochbegabt“ - zur Übereinstimmung der Hochbegabtenidentifikation mit SPM, CFT 20-R und KFT-N Sonja Valerius 1 , Christin Lotz 2 & Jörn R. Sparfeldt 1 1 Universität des Saarlandes, Bildungswissenschaften, Campus A5 4, 66123 Saarbrücken ² Universität Leipzig, Erziehungswissenschaften, Dittrichring 5 -7, 04109 Leipzig Zusammenfassung: Im Zuge einer Diagnostik intellektueller Hochbegabung werden zumeist Intelligenztests eingesetzt. Um abzuschätzen, inwieweit das diagnostische Fazit („hochbegabt“ vs. „nicht hochbegabt“) bei der Verwendung mehrerer Intelligenztests vom spezifisch eingesetzten Intelligenztest abhängt, wurden die korrelativen und klassifikatorischen Übereinstimmungen von drei konzeptionell ähnlichen Testverfahren zum figuralen reasoning (CFT 20-R, KFT-N, SPM) anhand einer größeren Stichprobe (N = 562; 9. Klassenstufe) ermittelt. Trotz mindestens mittelhoher Testinterkorrelationen stimmte das diagnostische Fazit „hochbegabt“ nur zum Teil überein. Insbesondere die Implikationen für die diagnostische Praxis werden diskutiert. Schlüsselbegriffe: Hochbegabungsdiagnostik, Intelligenztest, SPM, CFT 20-R, KFT “gifted” or “not gifted” - The Consistencies of Identifying Gifted Adolescents with Three Intelligence Tests Summary: The assessment of intellectual giftedness is often based on intelligence tests. In order to estimate the consistencies of the identification of intellectually gifted adolescents with three different intelligence tests, a sample of 9 th graders (N = 562) worked on three conceptually similar intelligence tests assessing figural reasoning. The correlations of the three intelligence tests were of medium to high effect size. Regarding the interpretation of the diagnostic results, the diagnostic conclusion (“gifted” or “not-gifted”) based on the different test results was only partially consistent. The implications of the results are discussed regarding the relevance of test-specific diagnoses of intellectual giftedness. Keywords: Assessment of giftedness, intelligence test, SPM, CFT 20-R, CogAT Im Zuge einer Beschäftigung mit „Hochbegabung“ in Forschung (vgl. Preckel & Krampen, 2016) und Praxis (vgl. Konferenz der Kultusminister [KMK], 2009, 2015) begegnet man schnell der Frage, wie Hochbegabte gefunden bzw. identifiziert werden können. Trotz unterschiedlicher Modellvorstellungen (z. B. Preckel & Vock, 2013; Sternberg & Davidson, 2005) definiert die aus guten Gründen verbreitete intelligenzbasierte Hochbegabungskonzeption intellektuelle Hochbegabung als sehr hohe Ausprägung der allgemeinen Intelligenz (z. B. Rost, 2009 a). Auch in mehrdimensionalen Hochbegabungsmodellen bildet eine hohe allgemeine Intelligenz in aller Regel das oder zumindest ein Kernmerkmal. Folglich nehmen Intelligenztests im Rahmen einer Identifikation intellektuell Hochbegabter den oder zumindest einen zentralen Platz ein (vgl. Preckel, 2010; Preckel & Vock, 2013; Rost, 2009 a; Rost & Buch, 2018). Im Anschluss an die prinzipielle Entscheidung für eine Intelligenzdiagnostik ist dann ein zum Diagnosezweck passender, spezifischer Intelligenztest auszuwählen. In der Regel sollten Hochbegabungsdiagno- Übereinstimmung dreier Tests zur Hochbegabtenidentifikation 39 sen jedoch möglichst wenig vom spezifisch eingesetzten Intelligenztest (aus der Gruppe der zur Beantwortung der Fragestellung passenden Intelligenztests mit ähnlichem Messanspruch) abhängen. Somit werfen Nicht-Übereinstimmungen und ein testabhängig unterschiedliches, klassifikatorisch-diagnostisches Fazit („hochbegabt“ oder „nicht hochbegabt“) grundsätzlichere Fragen auf. Daher untersuchten wir, ob und inwieweit entsprechende Hochbegabungsdiagnosen intelligenztestabhängig sind. Zur Bestimmung der korrelativen und klassifikatorischen Übereinstimmung betrachteten wir drei verbreitete Intelligenztests mit Aufgaben zum figuralen reasoning. Intellektuelle Hochbegabung Hochbegabung wird allgemein als „weit überdurchschnittliche Ausprägung von Personenmerkmalen, die Individuen - verglichen mit Gleichaltrigen - zu reliablen Spitzenleistungen oder zu populationsstatistisch seltenen Handlungserfolgen befähigt“ (Langfeldt & Tent, 1999, S. 190), gefasst. Im Zuge einer Hochbegabtenidentifikation und Hochbegabungsdiagnostik sollten das diagnostische Vorgehen und die Instrumentenwahl zur Beantwortung der diagnostischen Fragestellung passen. Bedeutsam ist zudem die zugrunde liegende Hochbegabungskonzeption bzw. Modellvorstellung (vgl. z. B. Preckel & Vock, 2013; Rost, Sparfeldt & Schilling, 2006; Sternberg & Davidson, 2005), wobei man sich in aller Regel in Forschung und Praxis auf die eindimensionale, intelligenzbasierte Hochbegabungsdefinition und damit die allgemeine Intelligenz stützt (z. B. Rost & Buch, 2018). In mehrdimensionalen Hochbegabungskonzeptionen werden entweder verschiedene Leistungsbereiche aufgelistet, wobei eine hochbegabte Person in mindestens einem dieser Bereiche eine besondere Fähigkeit aufweist (z. B. Marland, 1972), oder als konstitutiv für Hochbegabung wird eine hohe Ausprägung der allgemeinen Intelligenz und weiterer Variablen wie bisherige Leistungen, Kreativität oder Motivation angesehen (z. B. Gagné, 1985; Renzulli, 1986). Im Gegensatz zur eindimensionalen, intelligenzbasierten Hochbegabungsdefinition bleiben in mehrdimensionalen Hochbegabungskonzeptionen häufig die Grenzsetzungen pro Variable sowie die Kombinationsregeln der zugrunde liegenden Variablen unklar (vgl. Preckel & Vock, 2013; Rost & Buch, 2018; Rost et al., 2006). Neben inhaltlich-psychologischen Gründen (u. a. Relevanz der allgemeinen Intelligenz g für Schul-, Ausbildungs-, Studien- und Berufserfolg; vgl. Gottfredson, 1997; Jensen, 1998; Rost, 2013) sprechen auch diagnostische Argumente für eine intelligenzbasierte, eindimensionale Konzeption intellektueller Hochbegabung: So liegen einige zur Hochbegabungsdiagnostik im Kindes- und Jugendalter gut geeignete Intelligenztests mit in der Regel als mindestens gut zu bewertenden Gütekriterien vor (vgl. z. B. Preckel & Vock, 2013, S. 104 - 116); dies gilt für die weiteren Variablen mehrdimensionaler Hochbegabungsmodelle nicht in gleicher Form (vgl. z. B. Rost et al., 2006). In Forschung und Praxis hat sich ein mindestens zwei Standardabweichungen über dem Mittelwert liegender Intelligenzgrenzwert eingebürgert (z. B. Rost et al., 2006): Somit gelten Personen mit einem IQ ab 130, was einem Prozentrang (PR) von 98 entspricht, als „hochbegabt“; Personen mit niedrigerer Intelligenz (IQ < 130 bzw. PR < 98) gelten entsprechend als „nicht hochbegabt“. Gelegentlich werden auch liberalere cut-off-Werte gewählt - z. B. IQ ≥ 125 (bzw. PR ≥ 95) oder IQ ≥ 120 (bzw. PR ≥ 90). Intelligenztests in der (Hoch-)Begabungsdiagnostik Wie erwähnt, gelten Intelligenztests im Zuge einer Hochbegabungsdiagnostik als Methode der Wahl. Dies ist für die eindimensionale, intelligenzbasierte Hochbegabungskonzeption offensichtlich. Da die allgemeine Intelligenz in nahezu sämtlichen mehrdimensionalen Hochbegabungskonzeptionen einen zumindest zentralen Stellenwert einnimmt, sind Intelligenztests auch hier besonders bedeutsam. 40 Sonja Valerius, Christin Lotz, Jörn R. Sparfeldt Doch unterscheiden sich gängige Intelligenztests, womit die Gefahr einer sogenannten testimmanenten Hochbegabungsdefinition (vgl. Preckel, 2010) verbunden sein könnte. Intelligenztests unterscheiden sich u. a. in Bezug auf (z. B. Schmidt-Atzert & Amelang, 2012, S. 203) (a) den zu erfassenden Intelligenzaspekt (z. B. allgemeine Intelligenz im Sinne eines Generalfaktors g vs. Intelligenzgruppenfaktor vs. Intelligenzstruktur; Aspekte des Aufgabenmaterials, z. B. sprachfrei/ kulturfair und Ausmaß der Schulbzw. Bildungsabhängigkeit), (b) Aspekte der Durchführung der Intelligenztestung (u. a. Einzelvs. Gruppentestung, speedvs. power-Test, Computervs. Papier-und-Stift-Test, Bearbeitungsdauer) sowie (c) die Zielgruppe (z. B. Eignung für den hohen Begabungsbereich bzw. spezifische [Sub-]Populationen und/ oder Altersbzw. Klassenstufen). Folglich sollten - vor dem Hintergrund einer Passung zur wissenschaftlichen und/ oder praktisch-diagnostischen Fragestellung - insbesondere theoretische, psychometrisch-diagnostische und (forschungs-) praktische Argumente bei der Entscheidung für einen konkreten Intelligenztest (oder mehrere) herangezogen und offengelegt werden. Für eine Hochbegabungsdiagnostik bei Kindern und Jugendlichen im Schulalter stehen, wie erwähnt, einige prinzipiell brauchbare Intelligenztests zur Verfügung (z. B. Preckel, 2010; Preckel & Vock, 2013). Für einen zur Hochbegabungsdiagnostik geeigneten Intelligenztest sollten über theoretische Gründe hinaus vor allem Hinweise zur überzeugenden Ausprägung der gängigen Gütekriterien (insbesondere Objektivität, Reliabilität sowie Validität), ausreichend viele schwierige Aufgaben zur Vermeidung von Deckeneffekten sowie eine angemessene und zeitnahe Normierung vorliegen (z. B. Rost, 2013). Bei einer Verwendung veralteter Normen kann es andernfalls zu einer teilweise deutlichen IQ-Überbzw. -Verschätzung kommen (vgl. Flynn, 1987; Rost, 2013; Pietschnig & Voracek, 2015). Vor dem Hintergrund der erwähnten quantitativen Abgrenzung Hochbegabter und Nicht-Hochbegabter sind zur Hochbegabungsdiagnostik häufig keine speziellen Hochbegabungs-Intelligenztests nötig, sondern prinzipiell gute herkömmliche Intelligenztests geeignet (eine sorgfältige Auswahl hinsichtlich relevanter Merkmale vorausgesetzt). Im Zuge einer Hochbegabungsdiagnostik in der Praxis werden häufig zwei oder mehr Tests eingesetzt oder sollten eingesetzt werden (z. B. Breuker, Brielmeier, Hanses, Rost & Schmuck, 2019; Preckel, 2010, S. 40; Rost, 2013, S. 235). Damit stellt sich die Frage, ob und inwieweit diese zu vergleichbaren Ergebnissen kommen. Korrelative Übereinstimmung zweier Intelligenztestverfahren Werden im Zuge einer Hochbegabungsdiagnostik mindestens zwei Intelligenztests eingesetzt, lässt sich deren korrelative Übereinstimmung bestimmen. Bezogen auf konkurrente Messungen mit zwei Intelligenztests beeinflusst u. a. die Ähnlichkeit beider Tests die Korrelationshöhe (vgl. die genannten Testmerkmale). So sind höhere Korrelationen zu erwarten, wenn sich beide Tests auf denselben Intelligenzfaktor beziehen, als wenn mit beiden Testverfahren unterschiedliche Intelligenzfaktoren erfasst werden. So könnten beide Intelligenztests auf den Intelligenzfaktor „figurales reasoning“ zielen, also - in der Terminologie des Berliner-Intelligenzstrukturmodells (Jäger, Süß & Beauducel, 1997) - auf einen identischen Inhaltsfaktor (nämlich „figural“) und auf einen identischen Operationenfaktor (nämlich „Verarbeitungskapazität“ bzw. reasoning). Dies gilt in ähnlicher Form für beispielsweise den Gruppenfaktor reasoning (im Sinne des Cattell-Horn-Carroll- Modells; McGrew, 2009) oder einen in beiden Tests vergleichbar zusammengesetzten Intelligenz-Generalfaktor g (z. B. Jensen, 1998; Rost, 2013). Empirisch beeinträchtigen zudem Objektivitäts-, Reliabilitäts- und Validitätseinschränkungen eines Tests oder beider Tests die Korrelationshöhe. Hinzu kommt noch - im oberen Begabungsbereich - die Gefahr von Varianzeinschränkungen aufgrund von Deckeneffekten. Übereinstimmung dreier Tests zur Hochbegabtenidentifikation 41 Die latenten g-Faktoren unterschiedlicher Intelligenztestbatterien korrelieren üblicherweise sehr hoch (r ≈ .90; z. B. Johnson, Bouchard, Krueger, McGue & Gottesman, 2004; Johnson, te Nijenhuis & Bouchard, 2008; Valerius & Sparfeldt, 2014). Die manifesten Korrelationen liegen in der Regel im Bereich von .50 ≤ r ≤ .60. So ermittelte Weiß (2006) an einer Stichprobe von N = 860 Viertklässlern eines Berliner Hochbegabtenprojekts Testinterkorrelationen von .44 ≤ r ≤ .55 zwischen dem Intelligenzwert des Strukturtests PSB-R 4-6 (Lukesch, Kormann & Mayrhofer, 2002) und der Kurzform des ausschließlich Aufgaben zum figuralen reasoning umfassenden CFT 20-R (Weiß, 2006). Außerdem korrelierten HAWIK- IV (Daseking, Petermann & Petermann, 2007) und IDS (Grob, Meyer & Hagmann-von Arx, 2009) in einer Begabten- und Normalbegabtenstichprobe (jeweils N = 77 Sechsbis Zehnjährige) zu r = .73 in der Normalbegabtenstichprobe bzw. zu r = .51 in der Begabtenstichprobe (Hagmann-von Arx, Meyer & Grob, 2008). Umfassen die Intelligenztestverfahren Aufgaben zum figuralen reasoning (also einen ähnlichen bzw. identischen Intelligenzfaktor), werden in der Regel Korrelationen mindestens gleicher Größenordnung berichtet: So korrelierten drei Testbatterien mit figuralen reasoning-Aufgaben (CogAT-N, Lohmann & Hagen, 2001; SPM, Raven, 1941; NNAT, Naglieri, 1997) bei N = 1198 US-amerikanischen Grundschulkindern zwischen .60 ≤ r ≤ .66 (Lohman, Korb & Lakin, 2008). Bei Jugendlichen aus Hochbegabtenklassen (N = 98; 9. und 10. Jahrgangsstufe) hingen APM (Raven, 1962) und der nonverbale Teil des KFT 4-13 (Heller, Gaedike & Weinländer, 1985) zu r = .51 zusammen (Heller et al., 1985). Bei Schülerinnen und Schülern der Sekundarstufe (N = 91) korrelierten SPM und CFT 20 zu r = .55 (Heller, Kratzmeier & Lengfelder, 1998). Bezogen auf nicht-gleichzeitige Testungen (vgl. Hanses, 2009; Lohman & Korb, 2006; Rost, 2010) ist vor allem der zeitliche Abstand beider Messungen und das Alter der Testpersonen beachtenswert. So berichteten Schneider, Niklas und Schmiedeler (2014) - nicht spezifisch auf den Hochbegabungsbereich bezogen - Korrelationen zwischen im Alter von 4, 5, 6, 7, 9, 12, 17 und 23 Jahren administrierten (verschiedenen) Intelligenz(sub)tests: Die mit 4 Jahren erfasste Intelligenz hing moderat mit der späteren Intelligenz (.36 ≤ r ≤ .59) zusammen; ab 7 Jahren ergaben sich mindestens mittelhohe Korrelationen (.52 ≤ r ≤ .79). In einer Luxemburger Studie (Brunner & Martin, 2011) zeigten sich nach einem 40-jährigen Zeitintervall im mit 12 und 52 Jahren administrierten Leistungsprüfsystem (Horn, 1983) Korrelationen von r = .70 für die allgemeine Intelligenz und r = .59 für schlussfolgerndes Denken (ähnlich reasoning). Deary, Whalley, Lemmon, Crawford und Starr (2000) ermittelten zwischen einem mit 11 und 77 Jahren administrierten identischen Intelligenztest eine beeindruckende Korrelation (r = .63, korrigiert um Varianzeinschränkung im hohen Alter: r = .73). Zusammengenommen verweisen diese Befunde auf eine sehr hohe (Rangreihen-) Stabilität der Intelligenz. Übereinstimmung der Hochbegabungsklassifikation in zwei Testverfahren Eine etwas andere Perspektive fokussiert die Übereinstimmung der klassifikatorisch-diagnostischen Ergebnisse zweier Intelligenzmessungen (hochbegabt vs. nicht hochbegabt; z. B. in zwei verschiedenen Intelligenztests zu einem Zeitpunkt oder in einem identischen, zu verschiedenen Zeitpunkten administrierten Test). Der erwartete Anteil derjenigen, die in zwei Intelligenztestungen konsistent als hochbegabt klassifiziert werden, kann mithilfe der Verteilungsfunktion der bivariaten Standardnormalverteilung berechnet werden (vgl. Hanses, 2009; Lohman & Korb, 2006). Hierbei variiert der Anteil übereinstimmend in beiden Tests als hochbegabt Klassifizierter in Abhängigkeit von der Testinterkorrelation und den Selektionsquoten (Grenzwertsetzung). Empirisch analy- 42 Sonja Valerius, Christin Lotz, Jörn R. Sparfeldt sierte Hanses (2009) im Rahmen des Marburger Hochbegabtenprojekts (Rost, 1993, 2009 b) die Klassifikationsübereinstimmungen anhand einer in der dritten und neunten Klassenstufe bearbeiteten, strukturell vergleichbaren Intelligenztestbatterie zur Erfassung der allgemeinen Intelligenz (3. Klassenstufe: ZVT, Oswald & Roth, 1987; CFT 20, Weiß, 1987; sprachliche Analogien, Portmann, 1974, ergänzt um schwierige Aufgaben; 9. Klassenstufe: ZVT, Oswald & Roth, 1987; Zahlenreihen und Sprachliche Analogien aus dem IST-70, Amthauer, 1970; Symbolreihen aus dem LPS, Horn, 1983). Dabei wurden 50 % der in der dritten Klassenstufe Hochbegabten (cut-off: IQ ≥ 130) in Klassenstufe 9 erneut als hochbegabt mit IQ ≥ 130 re-identifiziert; bei etwas liberalerer Grenzmarke in der 9. Klassenstufe (IQ ≥ 125) erreichte die Re-Identifikationsquote 71 %. Die über die Verteilungsfunktion der bivariaten Standardnormalverteilung a priori geschätzten Anteile lagen in ähnlicher Höhe (50 % bzw. 72 % bei r tt = .85). Dass statistisch eine Nicht-Übereinstimmung der Hochbegabungsklassifikation in zwei Testverfahren bei üblichen Testinterkorrelationen und Grenzwertsetzungen keinesfalls ungewöhnlich ist, zeigten u. a. Lohman und Korb (2006, S. 457; vgl. Lohman, 2009) eindrucksvoll: So ist bei einem cut-off-Wert in einer Testung von PR > 90/ 95/ 98 und einer Testinterkorrelation von r = .50 zu erwarten, dass 32 %/ 24 %/ 17 % auch in einer zweiten Testung einen Wert von PR > 90/ 95/ 98 erreichen (bzw. z. B. r = .70 und identische cut-off-Werte in beiden Testungen von PR > 90/ 95/ 98: 47 %/ 39 %/ 31 %). In einer größeren Stichprobe (Lohman et al., 2008) erreichten von den mit drei Testverfahren untersuchten N = 1064 Schülerinnen und Schülern n = 146 (Raven) bzw. n = 51 (NNAT) bzw. n = 26 (CogAT-N) Stanine-Werte von 9 im entsprechenden Test und n = 9 in allen drei Tests einen entsprechend hohen Wert. Beachtenswert ist zudem, dass - u. a. bei unterschiedlichen cut-off-Werten oder unterschiedlich „strengen“ Normen der Intelligenztests - die Anteile in Abhängigkeit von der Betrachtungsrichtung variieren können (z. B. könnten von den in Test 1 Hochbegabten 30 % auch in Test 2 hochbegabt sein, während von den in Test 2 Hochbegabten 10 % auch in Test 1 hochbegabt sind). Außerdem schlägt der Effekt des Messfehlers bzw. der Regression zur Mitte umso stärker zu Buche, je weiter der individuelle Testwert vom Mittelwert abweicht (vgl. Lohman & Korb, 2006; Lohman, 2009). Klassifikationsgüte und der RATZ-Index Grundlage der Beschreibung der klassifikatorischen Übereinstimmungsgüte von zwei Intelligenztests zur Hochbegabtenidentifikation sind die verschiedenen Klassifikationsfelder (Abb. 1). Schülerinnen und Schüler in Klassifikationsfeld „a“ erzielten in beiden Testverfahren Ergebnisse oberhalb des Grenzwerts (valide positiv). In Feld „d“ kommen die übereinstimmend als nicht hochbegabt Klassifizierten zu liegen (valide negativ). Schülerinnen und Schüler, die jeweils in einem, nicht jedoch dem anderen der beiden Tests ein Ergebnis im Hochbegabungsbereich erreichten, finden sich in den Feldern „b“ und „c“. Die Gesamttrefferquote (GQ) beschreibt den Anteil der valide positiv und negativ Klassifizierten an der Gesamtanzahl ([a+d]/ N). Die Selektionsraten (SR) bezeichnen jeweils den Anteil derjenigen, die mittels eines Tests als hochbegabt klassifiziert wurden (für Test 1: [a + b]/ N; für Test 2: [a + c]/ N). Die Maximaltrefferquote (MQ = 1 - [|b c|]/ N) beschreibt die Obergrenze der Gesamttrefferquote (GQ). Im Rahmen einer Hochbegabungsdiagnostik bedingen die sehr hohen Grenzmarken in üblichen Stichproben mit geringem Hochbegabtenanteil deutlich unproportionale Zellaufteilungen. In der Regel übersteigt dann die Anzahl der übereinstimmend als nicht hochbegabt Klassifizierten (d) die Anzahlen in den übrigen Zellen deutlich. Folglich fallen GQ dann zwar hoch aus, sagen jedoch eher etwas über die Güte der übereinstimmenden Klassifizierung Nicht-Hochbegabter als Hochbegabter aus. Übereinstimmung dreier Tests zur Hochbegabtenidentifikation 43 Zur Beschreibung der Klassifikationsgüte in der Hochbegabungsdiagnostik kann der RATZ- Index (Relativer Anstieg der Trefferquote gegenüber der Zufallstrefferquote) herangezogen werden (vgl. Beißert, Hasselhorn & Lösche, 2014); ursprünglich wurde der RATZ-Index (Marx, 1992; Marx, Jansen & Skowronek, 2000) zur Beschreibung der Güte der Vorhersage einer klassifikatorischen Kriteriumsvariable bei Verwendung einer klassifikatorischen Prädiktorvariable (z. B. Screening) entwickelt. Verglichen wird hier der relative Anstieg der Trefferquote gegenüber der (Zufalls-)Trefferquote (ZQ) im Verhältnis zum maximal möglichen Anstieg (ZQ=100×[[[a+b]×[a+c]]/ N²+[[b+d]×[c+d]]/ N²]; RATZ = [[GQ - ZQ]/ [MQ - ZQ]] × 100). Inferenzstatistische Verfahren zur Absicherung von Unterschieden der RATZ-Indices fehlen bislang. Marx und Lenhard (2010) schlugen in Analogie zur Interpretation von Effektstärken vor, den theoretischen Bereich des Indexes etwa zu dritteln: RATZ-Werte < 34 gelten damit als nicht zufriedenstellende, Werte zwischen 34 und 66 als gute und Werte > 66 als sehr gute Übereinstimmung. Der RATZ-Index kann also die klassifikatorische Übereinstimmung von Intelligenztests bei der Hochbegabungsdiagnostik quantifizieren. Uns ist keine Studie zur Hochbegabungsdiagnostik bekannt, in der der RATZ-Index berechnet wurde. Doch berichteten Schlagheck und Petermann (2006) für eine Inanspruchnahmestichprobe einer kinderpsychologischen Ambulanz, die zur Abklärung einer Hochbegabungsvermutung (N = 86) den HAWIK III (Tewes, Rossmann & Schallberger, 1999) und den AID 2 (Kubinger & Wurst, 2000) in unterschiedlicher Reihenfolge bearbeiteten (vgl. zur Kritik: Sparfeldt & Rost, 2008), Befunde, aus denen sich nachträglich der RATZ- Index berechnen ließ (RATZ = 69; sehr gute Übereinstimmung der Hochbegabungsdiagnose [IQ ≥ 125]). Fragestellungen Vor dem Hintergrund der in der Einleitung angesprochenen Inhalte und Fragen sollte in unserer Studie die korrelative und klassifikatorische Übereinstimmung verschiedener Intelligenztests im Zuge einer Hochbegabungsdiagnostik betrachtet werden. Bisherige Untersuchungen zur Übereinstimmung von Intelligenztests bezogen sich zumeist nur auf korrelative Zusammenhänge. Es mangelt jedoch an Studien, die empirisch die klassifikatorische Übereinstimmung von mindestens zwei Intelligenztests bei der Hochbegabtenidentifikation an einer größeren Stichprobe betrachten. Diese Forschungslücke nahmen wir in der vorliegenden Studie in den Blick und untersuchten die Übereinstimmung von drei weit verbreiteten und konzeptionell ähnlichen Intelligenztests bzw. Intelligenztestteilen (CFT 20-R, SPM, KFT-N), die sich auf einen identischen Intelligenzfaktor - nämlich figurales reasoning - beziehen; figurales reasoning gilt als sehr guter Proxi der allgemeinen Intelligenz g (Jensen, 1998). Die folgenden spezifischen Fragestellungen sollten beantwortet werden: (1) Wie hoch korrelieren die Ergebnisse in diesen drei konzeptionell ähnlichen Intelligenztests? (2) Wie viele Hochbegabte finden sich in diesen drei konzeptionell ähnlichen In- Test 2 HB nicht HB nicht HB HB Test 1 a b d c Abb. 1: Klassifikationsfelder der Hochbegabungsidentifikation mit zwei Testverfahren. In den vier Feldern liegen die konsistent als hochbegabt Klassifizierten (a), die konsistent als nicht hochbegabt Klassifizierten (d) sowie die jeweils in einem Test, aber nicht im anderen Test als hochbegabt Klassifizierten (b und c). HB = hochbegabt. 44 Sonja Valerius, Christin Lotz, Jörn R. Sparfeldt telligenztests in Abhängigkeit vom Grenzwert bei Verwendung der testspezifischen Normen (IQ ≥ 130/ 125/ 120)? (3) Wie gut stimmen die Klassifikationen als „hochbegabt“ bzw. „nicht hochbegabt“ in jeweils zwei konzeptionell ähnlichen Testverfahren überein, wenn man (a) die prozentualen Übereinstimmungen und (b) den RATZ-Index betrachtet? Methode Stichprobe und Ablauf Insgesamt nahmen N = 562 Schülerinnen (49,6 %) und Schüler (45,9 %; 4,5 % ohne Geschlechtsangabe) der 9. Klassenstufe von sechs rheinland-pfälzischen Gymnasien teil (23 Klassen; Alter: M = 15.6 Jahre, SD = 0.45). Wir wählten eine Gymnasialstichprobe mit entsprechend eingeschränkter Repräsentativität für die gesamte Schülerpopulation, um einen erwartungsgemäß höheren Anteil intelligenterer Schülerinnen und Schüler zur Beantwortung der vorliegenden Fragestellungen der Hochbegabungsklassifizierung zu nutzen. Die Teilnahmequote lag bei 91 %. Die drei Intelligenztests (s. u.) wurden von geschulten Testleiterinnen und Testleitern während der regulären Unterrichtszeit in klassenweise randomisierter Reihenfolge an drei verschiedenen Schultagen administriert. Nicht alle Schülerinnen und Schüler konnten an allen drei Erhebungstagen teilnehmen. Daher realisierten wir Zusatzgruppentestungen innerhalb der folgenden Tage der regulären Erhebung in den Schulen, sodass - bezogen auf die genannte Stichprobe - 87,5 % an allen drei Testungen, 11,7 % an zwei und 0,7 % an nur einer Testung teilnahmen. Instrumente Folgende drei Intelligenztests bzw. Intelligenztestteile zur Erfassung von figuralem reasoning kamen zum Einsatz: (1) Kurzform der Grundintelligenztestskala 2 (CFT 20-R; Weiß, 2006) mit vier figuralen Subtests (Reihenfortsetzen, Klassifikationen, Matrizen, Topologien), (2) Standard Progressive Matrices (SPM; Raven, 1941; Heller et al., 1998), (3) Kurzform des Kognitiven Fähigkeitstest für 4. bis 12. Klassen (KFT 4-12+R, Heller & Perleth, 2000) mit jeweils zwei verbalen, quantitativ-numerischen und nonverbal-figuralen Subtests; um eine möglichst hohe konzeptionelle Ähnlichkeit des Messanspruchs der drei Intelligenztests (figurales reasoning) zu gewährleisten, verwendeten wir für die Analysen ausschließlich die nonverbal-figuralen KFT-Subtests (KFT-N; Figurenklassifikation, Figurenanalogien). Datenanalyse Im Anschluss an die Darstellung deskriptiver Befunde berechneten wir zur Beantwortung der ersten Forschungsfrage nach den korrelativen Zusammenhängen die bivariaten Korrelationen der Rohwertsummen von CFT 20-R, SPM und KFT-N. 1 Die zweite Fragestellung bezog sich auf Anzahl bzw. Anteile Hochbegabter in den drei Intelligenztests in Abhängigkeit vom gesetzten Grenzwert. Hierfür bestimmten wir zunächst für jede Schülerin und jeden Schüler in jedem der drei Tests unter Verwendung der Testnormen die entsprechenden IQ-Werte (testnormspezifische Standardwerte) und dann die prozentualen Anteile Hochbegabter für verschiedene cut-off-Grenzwerte (IQ ≥ 130/ 125/ 120). Dabei griffen wir beim CFT 20-R auf die Klassenstufennormen aller Schularten (Weiß, 2006) zurück. Bei den SPM nutzten wir die Altersnormen (vgl. Heller et al., 1998). Beim KFT-N verwendeten wir die Normen der 9. Klassenstufe aller Schularten (Heller & Perleth, 2000). Zusätzlich zur Hochbegabungsklassifizierung anhand der testnormspezifischen Standardwerte (IQ) klassifizierten wir die Teilnehmenden anhand der Kennwerteverteilung der vorliegenden Stichprobe (stichprobenspezifische Grenzwerte). Dafür klassifizierten wir anhand des an unserer Stichprobe ermittelten Prozentrangs (PR) der testspezifischen Rohwertsummenverteilung die Teilnehmenden pro Test als „hochbegabt“ ( ≥ cut-off ) oder „nicht hochbegabt“ (< cut-off ). Bei diesem Vorgehen resultieren in den drei Testverfahren gleiche Anteile Hochbegabter; aufgrund der Gymnasialstichprobe dürfte dieses Vorgehen im Vergleich zu einer repräsentativen Stichprobe mit einer Unterschätzung der Anteile Hochbegabter einhergehen. In Anlehnung an häufig verwendete Grenzmarken intellektueller Hochbegabung wählten wir drei verschiedene cut-off-Werte auf der Prozentrangskala, die den erwähnten IQ-Grenzmarken entsprechen (PR ≥ 98 bzw. PR ≥ 95 bzw. PR ≥ 90). 1 Nicht bearbeitete Subtests und Intelligenztests bzw. Intelligenztestteile führten aufgrund des geringen Anteils (CFT 20-R: 2,5 %, SPM: 4,1 %, KFT-N: 5,7 %) zum fallweisen Ausschluss von den Analysen. Nicht bearbeitete Einzelitems wurden - der üblichen Auswertungspraxis von Intelligenztests folgend - mit keinem Gutpunkt bewertet. Übereinstimmung dreier Tests zur Hochbegabtenidentifikation 45 Zur Beantwortung der dritten Fragestellung bestimmten wir (a) die klassifikatorische Übereinstimmung einer Hochbegabungsdiagnose mit zwei Testverfahren. Dabei variierten wir die Vergleichsgruppe (testnormspezifische Standardisierung, stichprobenspezifische Grenzwerte), die Grenzwerte (IQ ≥ 130/ 125/ 120 bzw. PR ≥ 98/ 95/ 90) sowie die Testreihenfolge bzw. Betrachtungsrichtung (einerseits Anteil an Hochbegabten in Test A, die auch in Test B hochbegabt sind; andererseits Anteil an Hochbegabten in Test B, die auch in Test A hochbegabt sind). Zusätzlich schätzten wir den erwarteten Anteil als übereinstimmend hochbegabt Klassifizierter über die Verteilungsfunktion der bivariaten Normalverteilung unter Berücksichtigung der Testinterkorrelation (vgl. zur Formel z. B. Hanses, 2009, S. 98). Systematisch verglichen wir die prozentualen Anteile Hochbegabter miteinander - jeweils unter dem Aspekt der unterschiedlichen Vergleichsgruppen, der Grenzwerte und Testreihenfolgen bzw. Betrachtungsrichtungen sowie im Vergleich zu den berechneten erwarteten Hochbegabtenanteilen. Zur Einschätzung der Bedeutsamkeit der Anteilsdifferenzen orientierten wir uns an den von Cohen (1988) vorgeschlagenen Empfehlungen für die Effektstärke h (h ≥ 0.2/ .5/ .8 entspricht einem kleinen/ mittleren/ großen Effekt). Zusätzlich ging Fragestellung 3 (b) der Klassifikationsgüte bei der Verwendung von zwei Tests in der Hochbegabungsdiagnostik mittels RATZ-Index nach (vgl. Beißert et al., 2014). Wir ermittelten den RATZ-Index, indem wir jeweils paarweise zwei der drei Testverfahren betrachteten. Die Berechnung der RATZ-Indices sowie die Interpretation der Güte der Hochbegabtenklassifizierung orientierte sich an dem beschriebenen Vorgehen (vgl. Marx et al., 2000; Marx & Lenhard, 2010); dabei berücksichtigten wir für die Hochbegabungsklassifikation ebenfalls die erwähnten Grenzwerte und Testreihenfolgen bzw. Betrachtungsrichtungen für die beiden Vergleichsgruppen. Ergebnisse Deskriptive Kennwerte und korrelative Übereinstimmung der drei Testverfahren Erwartungsgemäß lagen die IQ-Mittelwerte (103 ≤ IQ ≤ 112) in den drei Verfahren für die vorliegende Gymnasialstichprobe jeweils numerisch oberhalb des Populationsmittelwerts und die Standardabweichungen (12,1 ≤ SD ≤ 13) numerisch unterhalb der Populationsstandardabweichung (Tabelle 1). In der vorliegenden Stichprobe erreichten 1,2 % der Schülerinnen und Schüler im SPM mit 59 Rohwertpunkten die Testdecke der theoretisch maximal möglichen Rohwertpunktsumme. Ähnlich viele Schülerinnen und Schüler (1,4 %) erzielten mit 50 Rohwertpunkten die Testdecke des KFT-N. Hingegen erreichte im CFT 20-R kein Proband die maximale Rohwertsumme von 56. Die zur Beantwortung von Fragestellung 1 nach der korrelativen Übereinstimmung berechneten Korrelationskoeffizienten waren - Cohen (1988) folgend - von mittlerer bis großer Effektgröße: r CFT 20-R/ KFT-N = .43, r CFT 20-R/ SPM = .35, r SPM/ KFT-N = .52. Anteile Hochbegabter in den drei Testverfahren Bezogen auf die zweite Fragestellung nach den Anteilen Hochbegabter ergaben sich bei Verwendung der testnormspezifischen Standardwerte und der Grenzwertsetzung „IQ ≥ 130“ im CFT 20-R (5,3 %) und KFT-N (4,5 %) ähnliche und numerisch höhere Anteile als im SPM (2,6 %). Bei Liberalisierung der Grenzmarke IQ ≥ 130 IQ ≥ 125 IQ ≥ 120 M SD r tt KFT-N CFT 20-R SPM 4.5 5.3 2.6 16.2 14.2 7.2 18.5 22 7.2 112.6 109.5 103.2 12.4 13.0 12.1 .86 .76 .80 Tab. 1: Prozentualer Anteil Hochbegabter bei Verwendung unterschiedlicher Hochbegabungs-Grenzmarken (IQ ≥ 130/ 125/ 120) in den drei Testverfahren, ergänzt um Stichproben- und Testkennwerte. Anmerkung: Häufigkeitsangaben in Prozent. r tt : split-half-Reliabiliät (Odd Even Split); verwendete Testnormen: KFT-N (Jahrgangsstufe 9 aller Schularten; Heller & Perleth, 2000); CFT 20-R (Jahrgangsstufe 9 aller Schularten; Weiß, 2006); SPM (Altersnormen; Heller et al., 1998). 46 Sonja Valerius, Christin Lotz, Jörn R. Sparfeldt stieg erwartungsgemäß der Hochbegabtenanteil im CFT 20-R (5,3 %/ 14,2 %/ 22,0 %) und KFT-N (4,5 %/ 16,2 %/ 18,5 %), hingegen im SPM nur zum Teil (2,6 %/ 7,2 %/ 7,2 %). Im SPM zeigte sich auch bei den Grenzmarken „IQ ≥ 125“ und „IQ ≥ 120“ ein geringerer Anteil Hochbegabter als im KFT-N und CFT 20-R. Klassifikatorische Übereinstimmung von Hochbegabungsdiagnosen Fragestellung 3 (a) zielte auf die klassifikatorische Übereinstimmung Hochbegabter mit verschiedenen Tests unter Berücksichtigung (1) verschiedener Grenzwerte und (2) Testreihenfolgen bzw. Betrachtungsrichtungen unter Verwendung der stichprobenspezifischen Grenzwerte (mittlerer Teil von Tabelle 2) sowie der testnormspezifischen Standardwerte (rechter Teil der Tabelle 2), ergänzt um Vergleiche mit den statistisch erwarteten Anteilen (linker Teil von Tabelle 2). Mit Fokus auf die Grenzwerte (1) zeigte sich für die klassifikatorische Hochbegabungs-Übereinstimmung in zwei Tests, dass sich die Übereinstimmungs-Anteile bei einer Absenkung der Grenzmarke von IQ ≥ 130 auf IQ ≥ 125 bzw. PR ≥ 98 auf PR ≥ 95 in beiden Standardisierungsgruppen nicht bedeutsam (|h| < .20) änderten (Ausnahme: testnormspezifischer Standardwert - von im KFT-N mit IQ ≥ 130 Hochbegabten waren 12 % auch im CFT 20-R mit IQ ≥ 130 hochbegabt, während von den im KFT-N mit IQ ≥ 125 Hochbegabten 30 % auch im CFT 20-R mit IQ ≥ 125 hochbegabt waren; h = .45). Mit der Liberalisierung der Hochbegabungs-Grenzmarke von IQ ≥ 125 auf IQ ≥ 120 bzw. PR ≥ 95 auf PR ≥ 90 erhöhte sich jedoch in beiden Standardisierungsgruppen in der Regel der Anteil der auch im „zweiten“ Test Hochbegabten (.20 ≤ h ≤ .53; zwei Ausnahmen: stichprobenspezifischer Grenzwert - von im SPM mit PR ≥ 95 Hochbegabten waren 33 % auch im KFT-N mit PR ≥ 95 hochbegabt, mit 32 % anteilig vergleich- Erwartet Stichprobenspezifischer Standardwert Testnormspezifischer Standardwert KFT-N CFT SPM KFT-N CFT SPM KFT-N CFT SPM IQ ≥130 bzw. PR ≥98 KFT-N CFT SPM .17 .19 .11 .20 .25 .20 .25 .27 .24 .35 .57 .12 .29 .13 .14 IQ ≥125 bzw. PR ≥95 KFT-N CFT SPM .23 .22 .16 .16 .33 .18 .21 .32 .17 .30 .60 .30 .33 .13 .09 IQ ≥120 bzw. PR ≥90 KFT-N CFT SPM .31 .33 .24 .24 .32 .42 .41 .54 .40 .43 .54 .45 .55 .21 .22 Tab. 2: Beobachteter und erwarteter Anteil (%) als übereinstimmend hochbegabt Klassifizierter unter Variation von Testreihenfolge (Betrachtungsrichtung), Grenzwertziehung (IQ ≥ 130/ 125/ 120 bzw. PR ≥ 98/ 95/ 90) und Standardisierungsgruppe (Stichprobenspezifischer Standardwert vs. testnormspezifischer Standardwert). Anmerkung: In den Zellen stehen die Anteile (%) der als hochbegabt Klassifizierten im ersten Test (zeilenweise), die im 2. Test (spaltenweise) ebenfalls als hochbegabt klassifiziert wurden. Ablesebeispiel: Bei einem cut-off-Wert von IQ ≥ 130 betrug der a priori erwartete Anteil der im KFT-N Hochbegabten, die im SPM ebenfalls als hochbegabt klassifiziert wurden (übereinstimmend als hochbegabt Klassifizierte) 19 %. 13 % derjenigen, die im KFT-N einen IQ ≥ 130 erreichten, erzielten auch im SPM einen IQ ≥ 130 unter Verwendung der testnormspezifischen Standardwerte. In umgekehrter Betrachtungsrichtung erzielten 57 % derjenigen, die im SPM einen IQ ≥ 130 erreichten, auch im KFT-N einen IQ ≥ 130. Übereinstimmung dreier Tests zur Hochbegabtenidentifikation 47 bar viele der im SPM mit PR ≥ 90 Hochbegabten waren auch im KFT-N mit PR ≥ 90 hochbegabt, h = .02; testnormspezifischer Standardwert - von im SPM mit IQ ≥ 125 Hochbegabten waren 60 % auch im KFT-N mit IQ ≥ 125 hochbegabt, mit 54 % waren anteilig vergleichbar viele der im SPM mit IQ ≥ 120 Hochbegabten auch im KFT-N mit IQ ≥ 120 hochbegabt, h = .12). Bezogen auf die klassifikatorische Hochbegabungs-Übereinstimmung in zwei Tests mit Fokus auf die Testreihenfolge bzw. Betrachtungsrichtung (2) ergaben sich unter Verwendung der stichprobenspezifischen Grenzwerte - abgesehen von zwei Ausnahmen - durchgängig vernachlässigbare Anteilsdifferenzen (|h| < .20): Während 24 % von denjenigen, die im CFT 20-R einen Wert von PR ≥ 90 erzielten, auch im KFT-N einen Wert von PR ≥ 90 erreichten, erzielten umgekehrt 42 % von denjenigen, die im KFT-N einen Wert von PR ≥ 90 erreichten, im CFT 20-R ebenfalls einen Wert von PR ≥ 90 (h = .39). Weiterhin erzielten 32 % von denjenigen, die im SPM einen Wert von PR ≥ 90 erreichten, auch im KFT-N einen Wert von PR ≥ 90; umgekehrt erzielten 54 % von denjenigen, die im KFT-N einen Wert von PR ≥ 90 erreichten, im SPM ebenfalls einen Wert von PR ≥ 90 (h = .45). Bei Verwendung der testnormspezifischen Standardwerte ergaben sich die folgenden Ergebnisse: Bei Grenzmarke IQ ≥ 130/ 125/ 120 erreichten 57 %/ 60 %/ 54 % derjenigen, die im SPM über der entsprechenden Grenzmarke lagen, im KFT-N ebenfalls ein Testergebnis im korrespondierenden Grenzwertbereich. Bei umgekehrter Betrachtung erreichten bei Grenzmarke IQ ≥ 130/ 125/ 120 nur 13 %/ 13 %/ 21 % der KFT-N-Hochbegabten im SPM ebenfalls ein Ergebnis im korrespondierenden Begabungsbereich (h = .97/ 1.03/ .70). Bei Grenzmarke IQ ≥ 130/ 125/ 120 erreichten 29 %/ 33 %/ 55 % derjenigen, die im SPM als hochbegabt klassifiziert wurden, im CFT 20-R ebenfalls ein Testergebnis im korrespondierenden Bereich; wurde der CFT 20-R vorangehend zur Klassifizierung herangezogen, erzielten im SPM bei Grenzmarken IQ ≥ 130/ 125/ 120 lediglich 14 %/ 9 %/ 22 % Werte im korrespondierenden Begabungsbereich (h = .37/ .61/ .69). Außerdem erzielten 35 % von denjenigen, die im CFT 20-R bei der strengsten Grenzmarke (IQ ≥ 130) ein Hochbegabungsergebnis erreichten, auch im KFT-N einen entsprechend hohen Wert; umgekehrt erzielten 12 % von denjenigen, die im KFT-N einen Wert von IQ ≥ 130 erreichten, im CFT 20-R ebenfalls einen Wert von IQ ≥ 130 (h = .56). Einen Überblick über die erwarteten - also anhand der bivariaten Verteilungsfunktion unter Berücksichtigung der jeweiligen Testinterkorrelation errechneten - Anteile Hochbegabter liefert Tabelle 2 (linker Teil). Auch diese Anteile fielen numerisch eher gering aus und lagen teilweise oberhalb und teilweise unterhalb der empirischen Anteile der drei Testverfahren (Tabelle 2, rechter Teil). Bezogen auf die Ergebnisse zum RATZ- Index (Fragestellung 3 b) differierten die Werte in Abhängigkeit von der Standardisierungsgruppe: Wurden testnormspezifische Standardwerte herangezogen, lagen die RATZ-Indices für die Testkombination SPM/ KFT-N jeweils im „guten“ Bereich (RATZ ≥ 45; vgl. Tab. 3). Wurde die Klassifizierung anhand der stichprobenspezifischen Grenzwerte vorgenommen, zeigte sich ausschließlich für die Testkombination SPM/ CFT 20-R bei PR ≥ 98 eine „gute“ Übereinstimmung (RATZ = 37). Alle weiteren RATZ- Indices lagen unterhalb der vorgeschlagenen Grenze von „RATZ = 34“. SPM CFT 20-R IQ ≥130 / PR ≥98 CFT 20-R KFT-N 25 / 37 50 / 26 24 / 29 IQ ≥125 / PR ≥95 CFT 20-R KFT-N 25/ 20 50 / 25 19 / 19 IQ ≥120 / PR ≥90 CFT 20-R KFT-N 51 / 28 45 / 33 29 / 30 Tab. 3: Relativer Anstieg der Trefferquote gegenüber der Zufallstrefferquote (RATZ-Index) für die eingesetzten Testverfahren unter Variation der Grenzmarke und Standardisierungsgruppe. Anmerkung: Der vordere Kennwert der Zellen beschreibt den RATZ-Index der Klassifizierungsübereinstimmung, der mittels der testnormspezifischen Standardwerte (IQ ≥ 130/ 125/ 120) gewonnen wurde. Der hintere RATZ- Indexwert unterliegt der Klassifizierung anhand der stichprobenspezifischen Grenzwerte (PR ≥ 98/ 95/ 90). 48 Sonja Valerius, Christin Lotz, Jörn R. Sparfeldt Diskussion Die vorliegende Untersuchung zielte auf die bislang weitgehend vernachlässigte, aber für Forschung und Praxis bedeutsame Frage nach der korrelativen und klassifikatorischen Übereinstimmung der Identifikation intellektuell Hochbegabter beim Einsatz dreier konzeptionell ähnlicher Intelligenztestverfahren ab. Die Testinterkorrelationen lagen erwartungsgemäß in mindestens mittlerer Höhe (Fragestellung 1). Im Vergleich zu den Normstichproben zeigte sich mit Ausnahme des SPM ein erwartungsgemäß höherer Anteil Hochbegabter für die vorliegende gymnasiale Stichprobe (Fragestellung 2). Die zentrale Frage nach der Übereinstimmungsgüte der Hochbegabtenidentifikation mit zwei konzeptionell ähnlichen Testverfahren (Fragestellung 3) ergab - bei insgesamt eher mäßiger Übereinstimmung - Folgendes: Erstens erhöhte sich mit wenigen Ausnahmen bei Liberalisierung der Grenzmarke in beiden Standardisierungsgruppen die Klassifizierungsübereinstimmung von der Grenzmarke IQ ≥ 125/ PR ≥ 95 hin zu IQ ≥ 120/ PR ≥ 90 bedeutsam. Zweitens war die Testreihenfolge bzw. Betrachtungsrichtung in Abhängigkeit von der Testnormstrenge (insbesondere des SPM) bedeutsam für die Hochbegabungsübereinstimmung. Die Inspektion der RATZ-Indices ergab, dass die klassifikatorische Güte unter Verwendung der Testnormen lediglich für die Testkombination von SPM und KFT-N über alle Grenzmarken als „gut“ bezeichnet werden kann, unter Verwendung der stichprobenspezifischen Grenzwerte nur für die Kombination von SPM und CFT 20-R (ausschließlich bei Grenzmarke PR ≥ 98). Testinterkorrelationen Bezogen auf die erste Fragestellung nach den korrelativen Übereinstimmungen der drei Testverfahren resultierten erwartungsgemäß Interkorrelationen in mindestens mittlerer Höhe. Numerisch korrelierten SPM und KFT-N am höchsten (r = .52), CFT 20-R und KFT-N etwas niedriger (r = .43) sowie SPM und CFT 20-R numerisch noch niedriger (r = .35). Bei der Interpretation der Höhe unserer Korrelationskoeffizienten ist zu beachten, dass die Standardabweichungen in der betrachteten Gymnasialstichprobe (mit für die Beantwortung der weiteren Fragestellungen sinnvollerweise höheren Hochbegabtenanteilen als in der Population) erwartungsgemäß etwas niedriger als die Populationsstreuungen ausgefallen sind. Berechnet man für die von uns ermittelten Korrelationskoeffizienten, wie diese ausfallen würden, wenn man für jeweils beide Intelligenztests die Populations- Standardabweichung von SD = 15 zugrunde legt (vgl. zur Formel z. B. Jensen, 1980, S. 459), lägen die Werte dieser adjustierten Korrelationskoeffizienten erwartungsgemäß etwas oberhalb der empirisch ermittelten Werte (r SPM/ KFT-N = .67, r CFT 20-R/ KFT-N = .55, r SPM/ CFT 20-R = .47). Insgesamt gesehen korrespondieren unsere Ergebnisse mit den im Theorieteil berichteten Befunden vorangehender Forschung bzw. liegen im unteren Bereich. Absolute Anteile Hochbegabter Die im Rahmen der zweiten Fragestellung betrachteten absoluten Hochbegabtenanteile fielen mit Ausnahme der SPM in der vorliegenden gymnasialen Stichprobe erwartungsgemäß insgesamt etwas höher als in heterogeneren Stichproben aus und stiegen erwartungsgemäß (nahezu durchgängig) mit einer Liberalisierung der Grenzmarke an. Ausmaß und Anstieg der Hochbegabtenanteile im CFT 20-R und KFT-N fielen im Gegensatz zum (strengeren) SPM ähnlich hoch aus. Die Hochbegabtenanteile lagen im SPM vergleichsweise niedriger. Die SPM-Normierung aus dem Jahr 1996/ 1997 (Heller et al., 1998) scheint somit den Anteil Hochbegabter für die Altersstufe 14bis 15-Jähriger eher zu unterschätzen, strenger in Bezug auf Hochbegabung zu testen sowie schlechter als die des KFT-N und des CFT 20-R im hohen Begabungsbereich zu differenzieren. Wünschenswert wäre für alle drei von uns betrachteten Verfahren u. a. eine überzeugende Neu-Normierung. Übereinstimmung dreier Tests zur Hochbegabtenidentifikation 49 Klassifikatorische Übereinstimmung Wie übereinstimmend die Identifikation intellektuell Hochbegabter mit konzeptionell ähnlichen Testverfahren gelingt, analysierten wir im Rahmen der zentralen, dritten Fragestellung. Bezogen auf die Grenzwertziehung veränderte sich die Hochbegabungsübereinstimmung beim Einsatz eines weiteren, konzeptionell ähnlichen Tests mit sehr wenigen Ausnahmen sowohl unter Verwendung der testnormspezifischen Standardwerte als auch der stichprobenspezifischen Grenzwerte von Grenzmarke IQ ≥ 130 bzw. PR ≥ 98 zu IQ ≥ 125 bzw. PR ≥ 95 nicht bedeutsam. Hingegen ließ sich mit Liberalisierung der Grenzmarke von IQ ≥ 125 bzw. PR ≥ 95 auf IQ ≥ 120 bzw. PR ≥ 90 ebenfalls in beiden Standardisierungsgruppen - mit wenigen Ausnahmen - ein bedeutsamer Anstieg der als übereinstimmend hochbegabt Klassifizierten finden. Im Rahmen des Marburger Hochbegabten-Projekts wurden im Zuge der Re-Testung (3. vs. 9. Klassenstufe) 50 % als hochbegabt re-identifiziert (IQ ≥ 130), jedoch 71 % bei Liberalisierung der Grenzmarke (IQ ≥ 125) in der 9. Klassenstufe (vgl. Hanses, 2009). Wir betrachteten nicht einen Vergleich über ein längeres Zeitintervall (dort: 6 Jahre), sondern verschiedene, konzeptionell ähnliche Testverfahren zu einem Zeitpunkt. Nichtsdestotrotz fanden wir ähnlich hohe Übereinstimmungsraten in der vorliegenden Untersuchung unter Verwendung der testspezifischen Standardwerte für die Testkombination SPM/ KFT-N (über alle Grenzmarken) und SPM/ CFT 20-R (bei Grenzwert IQ ≥ 120). Unter Verwendung der stichprobenspezifischen Grenzwerte erreichten in der vorliegenden Untersuchung nur KFT-N/ SPM (bei PR ≥ 90) entsprechend hohe Werte. Bezüglich der Testreihenfolge bzw. Betrachtungsrichtung war ein Reihenfolgeeffekt - mit wenigen Ausnahmen - vorrangig unter Verwendung der testnormspezifischen Standardwerte zu finden. Insbesondere für den SPM ließen sich über alle Grenzmarken hinweg mehr Hochbegabte sowohl im KFT-N als auch im CFT 20-R re-identifizieren, wenn die entsprechenden Schülerinnen und Schüler vorher die korrespondierende Grenzmarke im SPM überschritten hatten. Umgekehrt betrachtet, fanden sich deutlich weniger re-identifizierte Hochbegabte im SPM, wenn sie zuvor die korrespondierende Grenzmarke in KFT-N oder CFT 20-R überschritten hatten. Bei der Interpretation ist zu beachten, dass weniger Personen im SPM als hochbegabt klassifiziert wurden (s. Fragestellung 2); daher überrascht es kaum, dass diese wenigen im SPM Hochbegabten auch in einem zweiten Test mit höherer Wahrscheinlichkeit über der entsprechenden Grenzmarke lagen. Der Einfluss der Testreihenfolge bzw. Betrachtungsrichtung auf die Re-Identifikationsgüte von Hochbegabung unter Verwendung unterschiedlich „strenger“ Normen deckt sich mit den Befunden von Lohman et al. (2008). Die in der vorliegenden Untersuchung gefundenen Anteile in zwei Testverfahren als übereinstimmend hochbegabt Identifizierter entsprachen mit wenigen Ausnahmen den (unter Berücksichtigung von Testinterkorrelation und Verteilungsfunktion) erwarteten Anteilen. Die Ergebnisse der RATZ-Berechnung verweisen darauf, dass eine (in Anlehnung an Marx & Lenhard, 2010) als „gut“ zu bezeichnende, übereinstimmende „hochbegabt“-Klassifikation fast ausschließlich mittels SPM und KFT-N über alle Grenzmarken hinweg gelang (Ausnahmekombination SPM mit CFT 20-R bei Grenzmarke PR ≥ 98). Die Übereinstimmung gelang insgesamt besser, wenn die Klassifizierung anhand der testnormspezifischen Standardwerte vorgenommen wurde. Beachtenswert erscheint zudem, dass ein deutlicher Reihenfolgeeffekt insbesondere unter Verwendung der testspezifischen Normwerte (vor allem für den eher „strengeren“ SPM) gefunden wurde. Sowohl die von uns berichteten Übereinstimmungen als auch die RATZ-Werte fallen häufig niedrig aus. Grundsätzlich sind allein aus methodisch-statistischen Gründen auch bei mittelhohen bis hohen Korrelationen Mittelwertunterschiede in zwei Tests erwartungstreu, wie die folgenden Beispielwerte von Rost (2013, 50 Sonja Valerius, Christin Lotz, Jörn R. Sparfeldt S. 235) für zwei gleichskalierte Intelligenztests bei bivariater Normalverteilung veranschaulichen: Bei einer Testinterkorrelation von r = .60 ist ein Mittelwertunterschied von mindestens 5 bzw. mindestens 15 IQ-Punkten bei 71 % bzw. 26 % der Getesteten zu erwarten. Im Falle niedrigerer Testinterkorrelationen fielen diese erwarteten Anteile noch höher aus. Betrachtet man nun - im Gegensatz zu dieser Beispielrechnung für das gesamte Intelligenzspektrum - nur den für eine Hochbegabungsklassifikation besonders interessierenden oberen Extrembereich der Verteilung (vgl. auch Lohman & Korb, 2006), ist zu beachten, dass bei Personen, deren Intelligenz in der Nähe der cut-off-Grenze liegt, bereits geringe Unterschiede der Ergebnisse in den beiden jeweils betrachteten Tests häufig mit einem Gruppenwechsel einhergehen (bspw. „hochbegabt in Test 1“ und „nicht hochbegabt in Test 2“; vgl. Abb. 1). Einschränkungen und Ausblick Unsere Ergebnisse beschränken sich auf den Altersbereich der ca. 14- und 15-Jährigen. Zwar erschwert zudem unsere gymnasiale Stichprobe eine Verallgemeinerung auf z. B. hinsichtlich Bildungsgrad und Alter heterogenere Gruppen, ermöglicht jedoch die Betrachtung einer vergleichsweise größeren Gruppe von Hochbegabten. Die eingesetzten Tests erfassen einen vergleichbaren Intelligenzfaktor (figurales reasoning). Dieser Intelligenzfaktor bildet nicht das gesamte Intelligenztestspektrum oder einen Intelligenzgeneralfaktor im Sinne eines „guten g“ (Jensen & Weng, 1994) ab; diese Aufgabenarten laden jedoch hoch auf dem Intelligenz- Generalfaktor und ermöglichen somit eine gute Abschätzung der allgemeinen Intelligenz (z. B. Jensen, 1998). Auch wenn wir daher eine diesbezügliche Generalisierung unserer Befunde annehmen, erscheint im Rahmen künftiger Forschung die Betrachtung weiterer - konzeptionell ähnlicher sowie unähnlicher - Testverfahren lohnenswert. In Verbindung mit einer vertieften Betrachtung weiterer der eingangs genannten Testmerkmale, hinsichtlich derer sich auch die von uns betrachteten Tests teilweise unterscheiden (z. B. Anzahl der Aufgabentypen [SPM: 1, KFT-N: 2, CFT 20-R: 4], teils gleiche Aufgabentypen [vgl. Testbeschreibung in „Instrumente“], Zeitbegrenzung [SPM: kaum Begrenzung, KFT-N und CFT 20-R: mit Begrenzung]), ließe sich die absolute und relative Bedeutung dieser Testeigenschaften ergründen. Ebenso könnte eine Berücksichtigung anderer Altersgruppen und größerer Stichproben die Befunde im Hinblick auf eine Generalisierbarkeit weiten. Selbstverständlich sind bei der Interpretation diagnostischer Ergebnisse die jeweiligen Konfidenzintervalle zu berücksichtigen. Entsprechend könnte man ergänzend bei unseren Befunden Konfidenzintervalle bestimmen. Da für die Berechnung der Übereinstimmung weitere Entscheidungen (z. B. über die zur Berechnung heranzuziehende Reliabilitätsschätzung, das spezifisch zu verwendende Konfidenzintervall) nötig wären, die eine Ergebnisinterpretation erschwert hätten, verzichteten wir darauf. Implikationen für Forschung und Praxis Zusammenfassend fällt auf, dass eine übereinstimmende Diagnose als „hochbegabt“ sogar mit zwei konzeptionell ähnlichen Testverfahren nur eher mäßig gelingt (mit Ausnahme der Kombination SPM/ KFT-N). Dies ist theoretisch bedeutsam, da damit die relativ enge Verbindung des Konstrukts „Hochbegabung“ zum spezifisch eingesetzten Messinstrument bzw. Intelligenztest angesprochen ist (vgl. die bekannte Intelligenzdefinition von Boring, 1923). Die Übereinstimmungsgüte scheint stark von der Normierungsstichprobe bzw. Normierungsstrenge (vgl. Lohman et al., 2008) abzuhängen. Bei der Testauswahl sollte demnach neben einer sorgfältigen Auswahl hinsichtlich eines geeigneten Testkonzepts, überzeugenden Hinweisen zu den Gütekriterien, einer Vermeidung von Deckeneffekten vor allem auch auf eine ausreichend hohe Qualität der Normen geachtet werden. Übereinstimmung dreier Tests zur Hochbegabtenidentifikation 51 Besonders relevant erscheint uns für die Anwendungspraxis die unseren Ergebnissen zufolge häufig eher mäßige Generalisierbarkeit der Hochbegabungsklassifikation von einem auf einen weiteren Intelligenztest. Unsere Ergebnisse stützen die gängige Praxis, das Ergebnis einer Begabungsdiagnostik immer gemeinsam mit dem jeweils eingesetzten Intelligenztest zu berichten. Eher der Regel und dem Vorgehen einer soliden Hochbegabungsdiagnostik entspricht der Einsatz von zwei (oder mehr) Intelligenztests zur Hochbegabungsdiagnostik (z. B. Breuker et al., 2019). Nicht selten steht man als Diagnostikerin bzw. Diagnostiker dann allerdings vor der Herausforderung der Befundintegration und -interpretation dieser beiden mitunter unterschiedlich ausgefallenen Testergebnisse. Rost (2013, S. 235 - 237) schlägt daher vor, das diagnostische Fazit „hochbegabt“ oder „nicht hochbegabt“ über die Integration beider Testergebnisse zu einem Testwert (unter Berücksichtigung der Testinterkorrelation) zu ziehen. Zudem relativiert sich die erwähnte Problematik einer eher mäßigen Generalisierbarkeit der Hochbegabungsklassifikation von einem auf einen weiteren Intelligenztest, wenn man erstens - wie seit Langem gefordert und als Qualitätsmerkmal hochwertiger Diagnostik realisiert - die gemessenen IQ-Werte jeweils um geeignete Konfidenzintervalle ergänzt sowie zweitens und davon nicht unabhängig für die praktische Empfehlung weniger die Hochbegabungsklassifikation („hochbegabt“ vs. „nicht hochbegabt“), sondern eher den Intelligenzbereich (z. B. „Das Testergebnis liegt im überdurchschnittlichen Bereich intellektueller Leistungsfähigkeit“) heranzieht und berichtet. Hierfür sprechen zum einen das Ausmaß der Messgenauigkeit üblicher Intelligenztests sowie zum anderen die eher zu vernachlässigende Bedeutung weniger IQ-Punktunterschiede für viele praktische Förderempfehlungen. So wäre bspw. bei einer Schülerin oder einem Schüler die gemessene Intelligenz sowohl mit einem IQ von 129 als auch einem IQ von 131 (ergänzt um entsprechende Konfidenzintervalle, die sich bei üblichem Vorgehen und üblichen Tests hier überlappen würden) ausreichend für eine diesbezüglich günstige Prognose eines erfolgreichen Überspringens einer Klassenstufe. Selbstverständlich wären - für eine insgesamt günstige Prognose - weitere Voraussetzungen zu beachten (wie in der Vergangenheit mindestens überdurchschnittliche Schulleistungen, günstiges Lern- und Arbeitsverhalten; vgl. Rost & Buch, 2018, S. 235 - 236). Aus insbesondere diesen Gründen ist für die Beantwortung vieler praktischer Fragestellungen das diagnostische Fazit „hochbegabt“ oder „nicht hochbegabt“ - im Sinne von IQ ≥ 130 oder IQ < 130 (sowie ob das jeweilige Konfidenzintervall vollständig im Bereich IQ ≥ 130 liegt oder vollständig im Bereich IQ < 130 liegt oder die cut-off-Grenze inkludiert) - weniger zentral als die Nennung des IQ-Werts (samt Konfidenzintervall). Häufig ist die von uns empirisch adressierte Hochbegabungsfragestellung, die sich der verbreiteten eindimensionalen, intelligenzbasierten Hochbegabungskonzeption zufolge mit Intelligenztests angemessen beantworten lässt, eingebettet in eine umfassendere Fragestellung (wie im erwähnten Überspringen-Beispiel). Je nach Fragestellung wären dann - über die Intelligenzdiagnostik hinaus - weitere Variablen mit dafür jeweils geeigneten Verfahren (wie weitere psychologische Fragebögen, Verhaltensbeobachtungen, Arbeitsproben, Zeugnisse, Befragung zentraler Beteiligter) zusätzlich heranzuziehen, um beispielsweise eine Passung zur und eine Erfolgsprognose in der entsprechend spezifischen Fördermaßnahme abschätzen zu können. Je nach Fördermaßnahme variieren diese weiteren Variablen teilweise bedeutsam, da beispielsweise für ein erfolgreiches Überspringen einer Klassenstufe oder die Aufnahme in ein Begabtenförderprogramm teils verschiedene Voraussetzungen gelten. Mehrdimensionale Hochbegabungsmodelle könnten bei der Auswahl potenziell bedeutsamer und neben der Intelligenz zu betrachtender Variablen hilfreich sein, sind jedoch für die meisten praktischen Fragestellungen viel zu unspezifisch. Für eine professionelle psychologische Diagnostik zur Beantwortung entsprechend typischer Fragestellungen im praktischen Feld ist daher eine Intelligenzdiagnostik im Zuge einer Hochbegabungsdiagnostik zentral, sie wäre jedoch darüber hinaus in geeigneter Weise zu ergänzen. 52 Sonja Valerius, Christin Lotz, Jörn R. Sparfeldt Als Fazit kann festgehalten werden, dass einerseits die mit verschiedenen Intelligenztests erfasste Intelligenz zwar manifest mindestens mittelhoch korreliert. Doch zeigen die Ergebnisse darüber hinaus, dass eine übereinstimmende Hochbegabungsdiagnose in zwei konzeptionell ähnlichen Testverfahren nicht zwangsläufig ausreichend gut gelingt. Literatur Amthauer, R. (1970). Intelligenz-Struktur-Test (I-S-T 70). Göttingen: Hogrefe. Beißert, H., Hasselhorn, M. & Lösche, P. (2014). Möglichkeiten und Grenzen der Frühprognose von Hochbegabung. In M. Stamm (Hrsg.), Handbuch Talententwicklung (S. 415 - 425). Bern, Schweiz: Huber. Boring, E. G. (1923). Intelligence as the tests test it. New Republic, 36, 35 - 37. Breuker, J., Brielmeier, I., Hanses, P., Rost, D. H. & Schmuck, K. (2019). BRAIN - Begabungsdiagnostische Beratungsstelle - Jahresbericht 2018. Marburg: Philipps-Universität. Brunner, M. & Martin, R. (Hrsg.) (2011). Die MAGRIP- Studie (1968 - 2009). Wie beeinflussen sozio-kognitive Merkmale von Kindern im Grundschulalter und ihre Bildungswege ihr späteres Leben als Erwachsene in Luxemburg? Luxemburg: Universität Luxemburg, Forschungseinheit EMACS. Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences (2nd ed.). Hillsdale, NJ: Lawrence Erlbaum. Daseking, M., Petermann, U. & Petermann, F. (2007). Intelligenzdiagnostik mit dem HAWIK-IV. Kindheit und Entwicklung, 16, 205 - 259. https: / / doi.org/ 10.1026/ 0942-5403.16.4.250 Deary, I. J., Whalley, L. J., Lemmon, H., Crawford, J. R. & Starr, J. M. (2000). The stability of individual differences in mental ability from childhood to old age: Follow-up of the 1932 Scottish mental survey. Intelligence, 28, 49 - 55. https: / / doi.org/ 10.1016/ S0160- 2896(99)00031-8 Flynn, J. R. (1987). Massive IQ gains in 14 nations: What IQ tests really measure. Psychological Bulletin, 101, 171 - 191. https: / / doi.org/ 10.1037/ 0033-2909.101.2.171 Gagné, F. (1985). Giftedness and talent: Reexamining a reexamination of the definitions. Gifted Child Quarterly, 29, 103 - 112. https: / / doi.org/ 10.1177/ 001698628 502900302 Gottfredson, L. S. (1997). Why g Matters: The Complexity of Everyday life. Intelligence, 24, 79 - 132. https: / / doi.org/ 10.1016/ S0160-2896(97)90014-3 Grob, A., Meyer, C. S. & Hagmann-von Arx, P. (2009). Intelligence and development scales (IDS). Bern, Schweiz: Huber. Hanses, P. (2009). Stabilität von Hochbegabung. In D. H. Rost (Hrsg.), Hochbegabte und hochleistende Jugendliche. Befunde aus dem Marburger Hochbegabtenprojekt (2. Aufl., S. 93 - 159). Münster: Waxmann. Hagmann-von Arx, P., Meyer, C. S. & Grob, A. (2008). Assessing intellectual giftedness with the WISC-IV and the IDS. Zeitschrift für Psychologie, 216, 172 - 179. https: / / doi.org/ 10.1027/ 0044-3409.216.3.172 Heller, K. A., Gaedike, A. K. & Weinländer, H. (1985). Kognitiver Fähigkeitstest (KFT 4-13) (2. Aufl.). Weinheim: Beltz. Heller, K. A. & Perleth, C. (2000). Kognitiver Fähigkeitstest für 4. - 12. Klassen Revision (KFT 4-12+R). Weinheim: Beltz. Heller, K. A., Kratzmeier, H. & Lengfelder, A. (1998). Matrizen-Test-Manual Band 1 zu den Standard Progressive Matrices von J. C. Raven. Göttingen: Beltz-Test. Horn, W. (1983). Leistungsprüfsystem L-P-S. Göttingen: Hogrefe. Jäger, A. O., Süß, H.-M. & Beauducel, A. (1997). Berliner Intelligenzstruktur-Test. BIS-Test, Form 4. Göttingen: Hogrefe. Jensen, A. R. (1980). Bias in mental testing. New York: Free Press. Jensen, A. R. (1998). The g factor: The science of mental ability. Westport: Praeger. Jensen, A. R. & Weng, L.-J. (1994). What is a good g? Intelligence, 18, 231 - 258. https: / / doi.org/ 10.1016/ 0160- 2896(94)90029-9 Johnson, W., Bouchard, T. J., Krueger, F., McGue, M. & Gottesman, I. I. (2004). Just one g: Consistent results from three test batteries. Intelligence, 32, 95 - 107. https: / / doi.org/ 10.1016/ S0160-2896(03)00062-X Johnson, W., te Nijenhuis, J. & Bouchard, T. J. (2008). Still just 1 g: Consistent results from five test batteries. Intelligence, 36, 81 - 95. https: / / doi.org/ 10.1016/ j.intell. 2007.06.001 KMK (2009). Grundsatzposition der Länder zur begabungsgerechten Förderung. (Beschluss der Kultusministerkonferenz vom 10. 12. 2009). https: / / www.kmk.org/ filead min/ Dateien/ veroeffentlichungen_beschluesse/ 2009/ 2009_12_12-Begabungsgerechte-Foerderung.pdf [25. 6. 2019]. KMK (2015). Förderstrategie für leistungsstarke Schülerinnen und Schüler (Beschluss der Kultusministerkonferenz vom 11. 5. 2015). http: / / www.kmk.org/ fileadmin/ Da teien/ pdf/ 350-KMK-TOP-011-Fu-Leistungsstarke_-_ neu.pdf [10. 11. 2016]. Kubinger, K. D. & Wurst, E. (2000). Adaptives Intelligenz Diagnostikum - Version 2.1 (AID 2). Göttingen: Beltz. Langfeldt, H.-P. & Tent, L. (1999). Pädagogisch-psychologische Diagnostik (Anwendungsbereiche und Praxisfelder). Göttingen: Hogrefe. Lohman, D. F. (2009). Identifying academically talented students: Some general principles, two specific procedures. In L.V. Shavinina (Ed.), International Handbook on giftedness (pp. 971 - 998). Amsterdam: Elsevier. https: / / doi.org/ 10.1007/ 978-1-4020-6162-2_49 Lohman, D. F. & Hagen, E. P. (2001). Cognitive abilities test (Form 6): Research Handbook. Itasca, IL: Riverside. Lohman, D. F. & Korb, K. A. (2006). Gifted today but not tomorrow? Longitudinal changes in ITBS and CogAT scores during elementary school. Journal for the Education of the Gifted, 29, 451 - 484. https: / / doi.org/ 10. 4219/ jeg-2006-245 Lohman, D. F., Korb, K. A. & Lakin, J. M. (2008). Identifying academically gifted English-language learners using nonverbal tests - A comparison of the Raven, NNAT, and CogAT. Gifted Child Quarterly, 52, 275 - 296. https: / / doi.org/ 10.1177/ 0016986208321808 Lukesch, H., Kormann, A. & Mayrhofer, S. (2002). PSB-R 4 - 6. Prüfsystem für Schul- und Bildungsberatung für 4. bis 6. Klassen. Revidierte Fassung. Göttingen: Hogrefe. Übereinstimmung dreier Tests zur Hochbegabtenidentifikation 53 Marland, S. P. (1972). Education of the Gifted and Talented: Report to the Congress of the United States by the U. S. Commissioner of Education. Washington, DC: U. S. Government Printing Office. Marx, H. (1992). Methodische und inhaltliche Argumente für und wider eine frühe Identifikation und Prädiktion von Lese-Rechtschreibschwierigkeiten. Diagnostica, 38, 249 - 268. Marx, H., Jansen, H. & Skowronek, H. (2000). Prognostische, differentielle und konkurrente Validität des Bielefelder Screenings zur Früherkennung von Lese-Rechtschreibschwierigkeiten (BISC). In M. Hasselhorn, W. Schneider & H. Marx (Hrsg.), Diagnostik von Lese- Rechtschreibschwierigkeiten (S. 9 - 34). Göttingen: Hogrefe. Marx, H. & Lenhard, W. (2010). Diagnostische Merkmale von Screeningverfahren. In M. Hasselhorn & W. Schneider (Hrsg), Frühprognose schulischer Kompetenzen (S. 68 - 84). Göttingen: Hogrefe. McGrew, K. S. (2009). CHC theory and the human cognitive abilities project: Standing on the shoulders of the giants of psychometric intelligence research. Intelligence, 37, 1 - 10. https: / / doi.org/ 10.1016/ j.intell.20 08.08.004 Naglieri, J. A. (1997). Naglieri Nonverbal Ability Test: Multilevel technical manual. San Antonio, TX: Harcourt Brace Educational Measurement. Oswald, W. D. & Roth, E. (1987). Der Zahlen-Verbindungs-Test (ZVT) (2. Aufl.). Göttingen: Hogrefe. Pietschnig, J. & Voracek, M. (2015). One century of global IQ gains. A Formal meta-analysis of the Flynn effect (1909 - 2013). Perspectives on Psychological Science, 10, 282 - 306. https: / / doi.org/ 10.1177/ 1745691615577 701 Portmann, R. (1974). Stufentests. Sprachliche Analogien 3/ 4. Weinheim: Beltz. Preckel, F. (2010). Intelligenztests in der Hochbegabungsdiagnostik. In F. Preckel, W. Schneider & H. Holling (Hrsg.), Diagnostik von Hochbegabung (S. 19 - 44). Göttingen: Hogrefe. Preckel, F. & Krampen, G. (2016). Ergebnisse einer szientometrischen Analyse von Publikationen zwischen 1980 und 2014. Psychologische Rundschau, 67, 1 - 14. https: / / doi.org/ 10.1026/ 0033-3042/ a000289 Preckel, F. & Vock, M. (2013). Hochbegabung. Ein Lehrbuch zu Grundlagen, Diagnose und Fördermöglichkeiten. Göttingen: Hogrefe. Raven, J. C. (1941). Standardization of Progressive Matrices, 1938. British Journal of Medical Psychology, 19, 137 - 150. Raven, J. C. (1962). Advanced Progressive Matrices. London, UK: Lewis. Renzulli, J. S. (1986). The three-ring conception of giftedness: A developmental model for creative productivity. In R. J. Sternberg & J. E. Davidson (Eds.), Conceptions of Giftedness (pp. 53 - 92). New York, NY: Cambridge University Press. Rost, D. H. (Hrsg.) (1993). Lebensumweltanalyse hochbegabter Kinder. Göttingen: Hogrefe. Rost, D. H. (2009 a). Grundlagen, Fragestellung, Methode In D. H. Rost (Hrsg.), Hochbegabte und hochleistende Jugendliche (2. Aufl., S. 1 - 92). Münster: Waxmann. Rost, D. H. (Hrsg.). (2009 b). Hochbegabte und hochleistende Jugendliche. Befunde aus dem Marburger Hochbegabtenprojekt (2. Aufl.). Münster: Waxmann. Rost, D. H. (2010). Stabilität von Hochbegabung. In F. Preckel, W. Schneider & H. Holling (Hrsg.), Diagnostik von Hochbegabung (S. 233 - 265). Göttingen: Hogrefe. Rost, D. H. (2013). Handbuch Intelligenz. Weinheim: Beltz. Rost, D. H. & Buch, S. (2018). Hochbegabung. In D. H. Rost, J. R. Sparfeldt & S. R. Buch (Hrsg.), Handwörterbuch Pädagogische Psychologie (5. Aufl., S. 226 - 242). Weinheim: Beltz. Rost, D. H., Sparfeldt, J. R. & Schilling, S. R. (2006). Hochbegabung. In K. Schweizer (Hrsg.), Leistung und Leistungsdiagnostik (S. 187 - 222). Heidelberg: Springer. https: / / doi.org/ 10.1007/ 3-540-33020-8_12 Schlagheck, W. & Petermann, F. (2006). Hochbegabtendiagnostik mit dem HAWIK-III und AID 2. Kindheit und Entwicklung, 15, 93 - 99. https: / / doi.org/ 10.1026/ 09 42-5403.15.2.93 Schmidt-Atzert, L. & Amelang, M. (2012). Psychologische Diagnostik (5. Aufl.). Berlin: Springer. https: / / doi.org/ 10.1007/ 978-3-642-17001-0 Schneider, W., Niklas, F. & Schmiedeler, S. (2014). Intellectual development from early childhood to early adulthood: The impact of early IQ differences on stability and change over time. Learning and Individual Differences, 32, 156 - 162. https: / / doi.org/ 10.1016/ j. lindif.2014.02.001 Sparfeldt, J. R. & Rost, D. H. (2008). Leserbrief zu „Hochbegabtendiagnostik mit dem HAWIK-III und AID 2“ (Schlagheck & Petermann, 2006, Kindheit und Entwicklung, 15, 93 - 99). Kindheit und Entwicklung, 17, 68. Sternberg, R. J. & Davidson, J. E. (Eds.) (2005). Conceptions of giftedness (2 nd ed.). New York, NY: Cambridge University Press. https: / / doi.org/ 10.1017/ CBO9780 511610455 Tewes U., Rossmann, P. & Schallberger, U. (1999). Hamburg-Wechsler-Intelligenztest für Kinder (3. Aufl.). Bern, Schweiz: Huber. Valerius, S. & Sparfeldt, J. R. (2014). Consistent gas well as consistent verbal-, numericaland figural-factors in nested factor models? Confirmatory factor analyses using three test batteries. Intelligence, 44, 120 - 133 https: / / doi.org/ 10.1016/ j.intell.2014.04.003 Weiß, R. H. (1987). Grundintelligenztest Skala 2 (CFT 20). Göttingen: Hogrefe. Weiß, R. H. (2006). Grundintelligenztestskala 2 Revision (CFT 20-R). Göttingen: Hogrefe. Korrespondenz zum Artikel bitte über: Sonja Valerius Christin Lotz Jörn R. Sparfeldt Universität des Saarlandes Bildungswissenschaften (Diagnostik, Beratung, Intervention) Campus A 5 4 D-66123 Saarbrücken E-Mail: j.sparfeldt@mx.uni-saarland.de Phone: + 49 6 81 30 25 74 90 Fax: + 49 6 81 30 25 74 88