eJournals Psychologie in Erziehung und Unterricht 59/3

Psychologie in Erziehung und Unterricht
3
0342-183X
Ernst Reinhardt Verlag, GmbH & Co. KG München
10.2378/peu2012.art13d
71
2012
593

Diagnostik Standard-basierter mathematischer Kompetenzen im Primarbereich: Ein Überblick

71
2012
Olaf Köller
Kristina Reiss
Petra Stanat
Hans Anand Pant
In diesem Überblicksbeitrag skizzieren wir aktuelle Arbeiten im Bereich der Standard-basierten Diagnostik mathematischer Kompetenzen im Primarbereich. In Abgrenzung von eher traditionellen psychologischen Ansätzen, in denen Testinstrumente oft zur Identifikation spezifischer Leistungsschwächen entwickelt werden, fokussieren wir auf solche Instrumente, deren konzeptionelle Grundlagen stärker in mathematikdidaktischen Ansätzen liegen und die oftmals zum Bildungsmonitoring ohne expliziten individualdiagnostischen Anlass eingesetzt werden. Instrumente aus internationalen und nationalen Large-Scale-Assessments werden vorgestellt, hinsichtlich ihrer theoretischen Grundlagen diskutiert und von generellen kognitiven Merkmalen wie der psychometrischen Intelligenz abgegrenzt. Darüber hinaus werden generelle Aspekte der Validität mathematischer Leistungstests in der Grundschule diskutiert und Ideen für zukünftige Forschung abgeleitet.
3_059_2012_3_0002
Psychologie in Erziehung und Unterricht, 2012, 59, 163 - 176 DOI 10.2378/ peu2012.art13d © Ernst Reinhardt Verlag München Basel n Übersichtsartikel Assessment of Standard-based Mathematics Competencies in Primary School: An Overview Summary: In this overview we present recent work on standard-based assessments of mathematical competencies in primary school. In contrast to traditional psychology-driven instruments on testing mathematics skills that often provide domain-specific information on individual deficits, we focus on assessment measures that are stronger grounded in the tradition of mathematics education and are used in large-scale assessments in which classes or schools represent the units of analysis. Tests from national and international assessments and their theoretical background are presented. Furthermore we provide arguments why these tests measure different constructs than psychometric intelligence tests and discuss more general validity aspects of standard-based mathematics tests. We end with some suggestions for future research on the assessment of mathematics competencies in primary education. Keywords: Educational Standards, Primary Education, Assessment, Mathematics Achievement Zusammenfassung: In diesem Überblicksbeitrag skizzieren wir aktuelle Arbeiten im Bereich der Standard-basierten Diagnostik mathematischer Kompetenzen im Primarbereich. In Abgrenzung von eher traditionellen psychologischen Ansätzen, in denen Testinstrumente oft zur Identifikation spezifischer Leistungsschwächen entwickelt werden, fokussieren wir auf solche Instrumente, deren konzeptionelle Grundlagen stärker in mathematikdidaktischen Ansätzen liegen und die oftmals zum Bildungsmonitoring ohne expliziten individualdiagnostischen Anlass eingesetzt werden. Instrumente aus internationalen und nationalen Large-Scale-Assessments werden vorgestellt, hinsichtlich ihrer theoretischen Grundlagen diskutiert und von generellen kognitiven Merkmalen wie der psychometrischen Intelligenz abgegrenzt. Darüber hinaus werden generelle Aspekte der Validität mathematischer Leistungstests in der Grundschule diskutiert und Ideen für zukünftige Forschung abgeleitet. Schlüsselbegriffe: Bildungsstandards, Primarstufe, Diagnostik, mathematische Kompetenzen Die reliable und valide Feststellung schulischer Leistungen gehört traditionell zu den Kernaufgaben der Pädagogisch-Psychologischen Diagnostik, sei es in Fragen der Schullaufbahnberatung, der Diagnose allgemeiner Lernstörungen oder der Identifikation von Teilleistungsstörungen (vgl. Wilhelm & Kunina, 2009). Im Feld der Diagnostik mathematischer Schulleistungen existieren daher viele Arbeiten zur Feststellung von Rechenstörungen (im Überblick Hasselhorn, Marx & Schneider, 2005), die sich vor allem auf den Vor- und Grundschulbereich beziehen. Diagnostische Leistungstests in Kombination mit weiteren Datenquellen dienen hier zur Identifikation individueller Förderbedarfe. Diagnostik Standard-basierter mathematischer Kompetenzen im Primarbereich: Ein Überblick Olaf Köller 1 , Kristina Reiss 2 , Petra Stanat 3 , Hans Anand Pant 3 1 Leibniz-Institut für die Pädagogik der Naturwissenschaften und Mathematik (IPN) 2 Technische Universität München 3 Humboldt-Universität zu Berlin 164 Olaf Köller et al. Seit Beginn der 1990er Jahre hat sich darüber hinaus mit der empirischen Wende in der Erziehungswissenschaft eine Testkultur entwickelt, in der schulische Leistungsmaße, die in enger Kooperation mit Vertretern der Fachdidaktiken entwickelt werden, vor allem zur Feststellung der Effizienz von Bildungsstrukturen bzw. Bildungssystemen verwendet werden (sogenanntes Bildungsmonitoring; vgl. Drechsel, Prenzel & Seidel, 2009). Diese Entwicklung findet ihren besonderen Ausdruck im Programme for International Student Assessment (PISA; vgl. u. a. Klieme, Artelt, Hartig et al., 2010). Quer- und Längsschnittstudien in diesem Paradigma werden ergänzend durchgeführt, um individuelle, familiäre und institutionelle Determinanten von Schulleistungen zu untersuchen (vgl. z. B. Köller, Baumert, Cortina & Trautwein, 2010). Als Konsequenz dieser Entwicklung sind in Deutschland vielfältige Aktivitäten der Testentwicklung entstanden, die ihre Manifestation im Institut zur Qualitätsentwicklung im Bildungswesen (IQB) an der Humboldt-Universität zu Berlin finden. Die Basis für die Itementwicklungsarbeiten am IQB bieten die länderübergreifenden Bildungsstandards für die Primarstufe und das Ende der Sekundarstufe I, die von der Kultusministerkonferenz (KMK) in den Jahren 2003 und 2004 verabschiedet wurden (KMK, 2003; 2004). Die Standards für die Grundschule beschreiben in groben Zügen, welche Leistungen Kinder in unterschiedlichen Kompetenzbereichen am Ende der 4. Jahrgangsstufe in den Fächern Deutsch und Mathematik erbringen sollen. In Abgrenzung von pädagogisch-psychologischen Schulleistungstests (für die Mathematik s. im Überblick Hasselhorn et al., 2005) verorten sich die Standards und die am IQB entwickelten Items sehr viel stärker in didaktischen und erziehungswissenschaftlichen Traditionen. Im Rahmen dieses Beitrags werden die Standard-basierten Tests im Fach Mathematik für die Grundschule genauer vorgestellt und es wird der Versuch unternommen, empirisch zu zeigen, dass die Testkonstruktionen letztendlich in ähnlichen Ergebnissen mit vergleichbaren psychometrischen Kennwerten wie stärker psychologisch orientierte Tests münden. Wir illustrieren dies an mehreren Stellen durch eine Gegenüberstellung von Standard-basierten Instrumenten und dem Deutschen Mathematiktest DEMAT 4 (Gölitz, Roick & Hasselhorn, 2006). Ferner sollen Fragen der Validität, hier insbesondere der Abgrenzbarkeit gegenüber psychometrischer Intelligenz, diskutiert werden. Schließlich wird auf die kriteriale Interpretation von Standardbasierten Instrumenten mit Hilfe von Kompetenzstufenmodellen eingegangen. Dimensionen mathematischer Kompetenz im Grundschulalter Traditionell werden die mathematischen Inhalte der Primarstufe in die Gebiete Arithmetik, Sachrechnen und Geometrie aufgeteilt. Die Arithmetik hat dabei in den Lehrplänen den größten, die Geometrie den kleinsten Anteil. Der Deutsche Mathematiktest in den Versionen DEMAT 3+ (Roick, Gölitz & Hasselhorn, 2004) und DEMAT 4 (Gölitz et al., 2006) basiert explizit auf diesen drei Inhalten und unterscheidet entsprechende Subskalen, die zumindest für die Dimensionen Sachrechnen und Arithmetik auch hinreichend reliabel sind. Üblicherweise korrelieren diese drei Bereiche sehr hoch miteinander (zwischen .60 und .86, vgl. Gölitz et al., 2006). Allerdings bewirkt die konkrete Konzeption der Tests, dass in den drei Gebieten Inhalte (Arithmetik, Geometrie) und Operationen (Sachrechnen) vermischt und neuere kompetenzorientierte Ansätze (vgl. Granzer, Köller, Bremerich-Vos et al., 2009; Fleischer, Leutner & Klieme, 2012) nicht explizit berücksichtigt werden. Einen Schritt weiter geht die Trends in International Mathematics and Science Study (TIMSS) der International Association for the Evaluation of Educational Achievement (IEA). Dort wird eine zweidimensionale Struktur vorgeschlagen, die sich an Bloom (1976) anlehnt und in einer 3 x 3-Matrix aus Inhalten und kognitiven Operationen abgebildet werden kann (vgl. Mullis et al., 2009; Walther, Selter, Bonsen Diagnostik mathematischer Kompetenzen 165 & Bos, 2008). Die Zeilen dieser Matrix werden durch die drei Inhaltsgebiete Arithmetik (Number), Geometrie/ Messen (Geometric Shapes and Measures) und Daten (Data Display) definiert, die Spalten durch die Bereiche (1) Reproduzieren von Wissen, Fertigkeiten und Grundvorstellungen (Knowing), (2) Anwenden von Wissen, Fertigkeiten und Grundvorstellungen beim Bearbeiten von Standardaufgaben (Applying) und (3) Lösung komplexer Berechnungs-, Anwendungs- und Begründungsprobleme (Reasoning). Korrelationen zwischen den inhaltlichen und kognitiven Faktoren werden üblicherweise nicht berichtet, die Analysen bei Walther et al. (2008) zeigen allerdings, dass sich auf der Ebene von Staaten durchaus differenzielle Befunde je nach inhaltlicher oder kognitiver Dimension ergeben. Beispielsweise schneiden deutsche Viertklässler im Bereich Reproduzieren relativ besser ab als im Bereich Anwenden (Deutsche Mittelwerte: Reproduzieren: M = 531; Anwenden: M = 514; Internationale Mittelwerte bei M = 481 bzw. M = 480). Die von der KMK im Jahre 2004 verabschiedeten Bildungsstandards im Fach Mathematik für die Primarstufe begreifen zum einen Schulleistungen als fachspezifische Kompetenzen (Sekretariat der Ständigen Konferenz der Kultusminister der Länder in der Bundesrepublik Deutschland, 2004). Diese kann man in Anlehnung an Weinert (2001) als beim Schüler verfügbare oder von ihm erlernbare kognitive Fähigkeiten und Fertigkeiten definieren, die notwendig sind, um bestimmte domänenspezifische Probleme zu lösen. Zum anderen gehen die Standards hinsichtlich der Trennung von Inhalten und Operationen deutlich über das IEA-Framework hinaus. Die theoretische Basis dieser Trennung bilden vor allem die Arbeiten von Winter (1995), Freudenthal (1983) und der amerikanischen Vereinigung der Mathematiklehrkräfte (National Council of Teachers of Mathematics, NCTM, 2000). Fachliche Leistungen im Fach Mathematik können mit Hilfe prozessbezogener und inhaltlicher Facetten beschrieben werden, die in Abbildung 1 dargestellt sind (vgl. auch Köller, 2010). Die prozessbezogenen Kompetenzen beschreiben kognitive Operationen, die Schülerinnen und Schüler in allen Inhaltsbereichen der Mathematik anwenden müssen. Inhaltliche Kompetenzen (Leitideen) beschreiben nach Freudenthal (1983) die Phänomene, „die man sieht, wenn man die Welt mit mathematischen Augen betrachtet. Man sieht z. B. Quantifizierungen aller Art (Zahl), oder man sieht ebene und räumliche Figuren, Formen, Gebilde, Muster (Raum und Form)“ (vgl. Blum, Drüke-Noe, Hartung & Köller, 2006, S. 20). Aus den Leitideen heraus haben sich die mathematischen Stoffgebiete entwickelt, d. h. Arithmetik konstituiert sich aus den Leitideen Zahlen und Operationen sowie Größen und Messen, die Geometrie entsteht aus der Leitidee Raum und Form, die Leitidee Muster und Strukturen ist Grundlage der Algebra und schließlich basiert die Stochastik auf der Leitidee Daten, Häufigkeit und Wahrscheinlichkeit. Aufseiten der prozessbezogenen Kompetenzen beschreibt mathematisches Argumentieren das Hinterfragen von mathematischen Aussagen, das Erkennen von mathematischen Zusammenhängen, das Generieren von Vermutungen über Gesetz- und Regelmäßigkeiten, das Be- Abb. 1: Ein Modell mathematischer Kompetenzen im Grundschulbereich, das prozessbezogene und inhaltliche Kompetenzen unterscheidet (vgl. auch Köller, 2010) 166 Olaf Köller et al. gründen und das Nachvollziehen (Verstehen) von vorgegebenen Begründungen. Mathematisches Problemlösen umfasst vor allem die Verfügbarkeit über geeignete Strategien zur Auffindung von mathematischen Lösungsideen/ -wegen. Beim mathematischen Modellieren geht es darum, eine realitätsbezogene Situation durch den Einsatz mathematischer Mittel zu verstehen, zu strukturieren und einer Lösung zuzuführen sowie Mathematik in der Realität zu erkennen und zu beurteilen. Der Kompetenzbereich mathematische Darstellungen verwenden beschreibt sowohl die Fähigkeit, mathematische Darstellungen zu generieren als auch das verständige Umgehen und Bewerten bereits vorhandener Darstellungen. Dies kann sich beispielsweise auf die Interpretation eines Balkendiagramms oder einer Tabelle beziehen. Technisches Arbeiten umfasst die Verfügbarkeit mathematischer Fakten im Sinne deklarativer Wissenskomponenten und mathematischer Fertigkeiten in Form von automatisierten Algorithmen (Routinen). Konkret geht es beispielsweise um das Wissen und Anwenden mathematischer Formeln, Regeln, Algorithmen und Definitionen. Schließlich umfasst das mathematische Kommunizieren zum einen das Verstehen von Texten oder mündlichen Äußerungen zur Mathematik, zum anderen das verständliche (auch fachsprachenadäquate) schriftliche oder mündliche Darstellen und Präsentieren von Überlegungen, Lösungswegen und Ergebnissen. Zur Illustration des Kompetenzmodells zeigt die Abbildung 2 eine Aufgabe, die sich der Leitidee Daten, Häufigkeit und Wahrscheinlichkeit und den prozessbezogenen Kompetenzen Modellieren und Kommunizieren zuordnen lässt. In den Bildungsstandards sind zusätzlich zu Inhalten und Prozessen noch Anforderungsniveaus (I bis III) definiert, welche eine gewisse Ähnlichkeit zu den Operationen in TIMSS aufweisen und die Komplexität/ Verknüpfung der beim Lösen von mathematischen Aufgaben notwendigen Kompetenzen beschreiben. Aufgaben auf Anforderungniveau I (Reproduzieren) verlangen mathematisches Grundwissen und das Ausführen von Routinetätigkeiten. Mathematikaufgaben des Anforderungsniveaus II (Zusammenhänge herstellen) erfordern das Erkennen und Nutzen von Zusammenhängen. Schließlich gilt für Aufgaben des Anforderungsniveaus III (Verallgemeinern und Reflektieren), dass sie von den Schülerinnen und Schülern komplexe Tätigkeiten wie Strukturieren, Entwickeln von Strategien, Beurteilen und Verallgemeinern verlangen. Der Anforderungsbereich einer Aufgabe ist teilweise mit ihrer Schwierigkeit assoziiert, stellt also ein grobes Modell schwierigkeitsgenerierender Merkmale quer zu den inhaltlichen und prozessbezogenen Kompetenzen dar. Bei aller Unterschiedlichkeit der hier vorgestellten Konzeptionen über das, was im Fach Mathematik in der Grundschule gelernt werden soll, muss konzidiert werden, dass sich typische Testaufgaben jeder der drei Konzepte zuordnen lassen. Beispielsweise zeigen Walther et al. (2008), dass die Mathematikaufgaben in TIMSS einfach den fünf Leitideen der Bildungsstandards zugewiesen werden können (Zahlen und Operationen: 34 %; Raum und Form: 33 %; Größen und Messen: 13 %; Muster und Strukturen: 5 %; Daten, Häufigkeit und Wahrscheinlichkeit: 15 %). Gölitz et al. (2006) zeigen, dass sich in den Subtests des DEMAT 4 im Wesentlichen die Leitideen Zahlen und Operationen, Größen und Messen sowie Raum und Form abbilden. Solche Ergeb- Daten, Häufigkeit und Wahrscheinlichkeit Tina und Paul bauen Glücksräder für das nächste Schulfest. Sie legen fest, dass immer die 2 gewinnt. Für welches Glücksrad werden sich die meisten Kinder entscheiden, wenn sie gewinnen wollen? Begründe. Abb. 2: Beispiel für eine Mathematikaufgabe, die sich im Kompetenzmodell der Bildungsstandards verorten lässt Diagnostik mathematischer Kompetenzen 167 nisse machen deutlich, dass sich die mit den Bildungsstandards verbundene Trennung von Leistungen und Kompetenzen zumindest auf der Ebene konkreter Items kaum durchhalten lässt. Tests zur Erfassung von Mathematikleistungen im Primarbereich Ein sehr guter Überblick über verfügbare deutschsprachige Tests zur Diagnostik mathematischer Leistungen/ Kompetenzen findet sich in Hasselhorn et al. (2005). Viele der dort referierten Tests für den Grundschulbereich legen einen Schwerpunkt auf Rechenfertigkeiten (Leididee Zahlen und Operationen bzw. Stoffgebiet Arithmetik) und differenzieren eher im unteren Leistungsbereich. Dies gilt im Übrigen auch für neuere Tests wie den Eggenberger Rechentest 4+ (ERT 4+; Schaup, Holzer & Lenart, 2010), die Basisdiagnostik Mathematik für die Klassen 4 - 8 (BASIS-MATH 4 - 8, Moser Opitz et al., 2010), das Diagnostische Inventar zu Rechenfertigkeiten im Grundschulalter (DIRG; Grube, Weberschock, Blum, Hasselhorn & Gölitz, 2010) und den Kettenrechner für dritte und vierte Klassen (KR 3 - 4, Roick, Gölitz& Hasselhorn, 2011). Durch die Fokussierung auf Fertigkeiten im unteren Leistungsbereich und Hinweise zur Fehleranalyse (vgl. hierzu auch Jacobs & Petermann, 2005) können diese Instrumente in der Individualdiagnostik sehr gut zur Identifikation von Rechenschwächen bzw. Rechenstörungen bei Schülerinnen und Schülern verwendet werden, weitgehend ungeeignet sind sie hingegen, um die Kompetenzstrukturen des Modells der KMK (2004) abzubilden (siehe Abbildung 1). Ansatzweise gelingt dies mit dem DEMAT 4, in dem sich substanzielle Itemzahlen drei Leitideen zuordnen lassen (s.o.). Normen werden dort allerdings nur für die Dimensionen Arithmetik, Sachrechnen und Geometrie angegeben. Große Itempools, die explizit auf dem Modell in Abbildung 1 basieren, sind seit 2005 am IQB entwickelt, kalibriert und validiert worden (vgl. im Detail Granzer et al., 2009; Winkelmann, Robitzsch, Stanat & Köller, 2012). Dazu wurden Grundschul-Mathematiklehrkräfte aus allen 16 Bundesländern von Fachdidaktikern und Psychometrikern darin trainiert, Items für den Einsatz in dritten und 4. Klassen zu schreiben und diese anschließend den elf Dimensionen zuzuordnen. Dem Strukturmodell folgend musste sich jedes Item wenigstens einer inhaltsbezogenen und einer allgemeinen Dimension mathematischer Kompetenz zuordnen lassen. Um die Komplexität der Items zu limitieren, wurden die Aufgabenentwickler gebeten, Items zu generieren, die sich nicht mehr als zwei inhaltsbezogenen und drei allgemeinen Kompetenzen zuordnen lassen. Die Zuordnung der Aufgaben zu den inhaltsbezogenen und allgemeinen Kompetenzen fand konsensuell statt. Diese Zuordnung wurde noch einmal durch unabhängige Fachdidaktiker und Psychometriker validiert oder (in Einzelfällen) auch verworfen. In einer ersten Phase wurden so ca. 650 Mathematikitems generiert (Beispiel in Abbildung 2) und im Jahre 2006 pilotiert, d. h. an großen Schülerstichproben erprobt. Die Items, die sich in der Pilotierung psychometrisch bewährt hatten, wurden im Jahre 2007 auf der Basis probabilistischer Testmodelle (Item-Response- Theory IRT; vgl. Rost, 2004) kalibriert und bildeten die Basis für eine nationale Leistungsskala mit einem Mittelwert von M = 500 und einer Streuung SD = 100 in der 4. Jahrgangsstufe (vgl. Granzer et al., 2009). Seit 2007 setzt sich der Prozess der Itementwicklung permanent fort. Anders als in der klassischen psychologischen Testentwicklung wird somit nicht eine finale, auf sozialen Normen basierende Testversion mit einer festen Itemzahl angestrebt. Vielmehr ist das Ziel die Schaffung eines großen, sich permanent erweiternden IRT-skalierten Itempools, aus dem beliebige Teilmengen von Items zu Tests zusammengestellt werden können, die alle geeignet sind, Leistungen von Schülerinnen und Schülern auf der nationalen Skala (s. o.) abzubilden. Die Leistungsfeststellung 168 Olaf Köller et al. soll dabei aber weniger individualdiagnostischen Zwecken dienen, vielmehr steht das Bestreben im Vordergrund, auf der Basis von repräsentativen Stichproben aus den 16 Ländern festzustellen, wie hoch die prozentualen Anteile der Schülerinnen und Schüler am Ende der 4. Jahrgangsstufe sind, welche die Kompetenzerwartungen der Standards erfüllen. Konkrete Ergebnisse hierzu sollen im Herbst 2012 anhand des ersten Standard-basierten Ländervergleichs vorgestellt werden. Zur Validität Standard-basierter Testinstrumente Oben wurde bereits diskutiert, dass Items bzw. Testinstrumente ganz unterschiedlichen fachlichen Traditionen bzw. Modellannahmen entstammen können, ohne dass sie sich in ihrer konkreten Formulierung unterscheiden müssen. Daran schließt sich in der Tat die Frage nach der Validität von Tests bzw. Testwerten an. Aktuelle Arbeiten zur Validität der Standard-basierten Aufgabenpools in der Grundschule (z. B. Granzer et al., 2009; Winkelmann et al., 2012) adressieren in diesem Sinne wenigstens vier Fragen: (1) Lässt sich das in Abbildung 1 präsentierte Modell mit fünf inhaltlichen und sechs prozessbezogenen Kompetenzen mithilfe mehrdimensionaler IRT-Modelle statistisch anpassen? (2) Welche Zusammenhänge bestehen zwischen den Standard-basierten Instrumenten und solchen, die im Kontext psychologischer Diagnostik entwickelt wurden? (3) Welche Zusammenhänge zeigen sich zwischen den Standard-basierten Instrumenten und Schulnoten? (4) Welche Zusammenhänge zeigen sich mit Leistungen in psychometrischen Intelligenztests? Auswertungen zur letzten Fragestellung gehen dem Argument nach, dass sich in Kompetenztestleistungen in erster Linie Intelligenzunterschiede manifestieren (vgl. Rindermann, 2006, 2007). Wir wollen im Folgenden Befunde zu allen vier Fragen zusammentragen. Frage 1: Lässt sich das Strukturmodell der Bildungsstandards statistisch bestätigen? Die Frage nach der Dimensionalität von fachspezifischen Schulleistungstests ist aus einer psychologischen wie fachdidaktischen Perspektive interessant. Psychologisch stellt sich für ganz unterschiedliche Teilbereiche und Anforderungen eines Schulfachs die Frage, ob es eine gemeinsame Dimension ist, welche die Leistungen in diesen verschiedenen Bereichen determiniert, oder ob es differenzielle kognitive Faktoren sind, die das Lösungsverhalten steuern. Für Mathematikleistungen im Grundschulbereich zeigen die vorliegenden Ergebnisse erhebliche Korrelationen zwischen Subtests, die auf die Existenz einer generellen mathematischen Fähigkeit bzw. Kompetenz hinweisen. Gölitz et al. (2006) berichten für den DEMAT 4 Korrelationen zwischen den drei Subtests (Arithmetik, Sachrechnen und Geometrie), die zwischen .59 und .86 liegen. Faktorenanalysen 2. Ordnung der Autoren weisen auf einen starken Second-Order-Factor hin (standardisierte Ladungen auf den Faktoren 1. Ordnung zwischen .72 und .96). Winkelmann und Robitzsch (2009) widmen sich der Frage, wie hoch bei Bildungsstandard-basierten Tests die Korrelationen zwischen den inhaltlichen und zwischen den prozessbezogenen Kompetenzen ausfallen. Drei Modelle wurden dort geschätzt, zunächst ein eindimensionales, das einen globalen Faktor mathematischer Kompetenz unterstellte. Es folgte ein fünfdimensionales mit korrelierenden Faktoren, das die inhaltsbezogenen Kompetenzen aus Abbildung 1 spezifizierte. Items konnten hier entsprechend ihren A-priori-Klassifikationen auf bis zu zwei Dimensionen laden. Schließlich wurde ein sechsdimensionales Modell mit korrelierenden Faktoren geschätzt, das die prozessbezogenen Kompetenzen der Abbildung 1 umfasste. Items konnten hier entsprechend ihrer Klassifikation auf bis zu drei Faktoren laden. Das kombinierte, elfdimensionale Modell war aufgrund seiner hohen Komplexität nicht schätzbar - vergleichbare Beobachtungen Diagnostik mathematischer Kompetenzen 169 hinsichtlich von Problemen der Anpassung hochdimensionaler IRT-Modelle berichten Carstensen und Rost (2007). Mehrdimensionale IRT-Modelle (2-Parameter-Modell, Annahme von Within-Item-Dimensionality und damit Mehrfachladungen der Items; zu Details Winkelmann & Robitzsch, 2009) ergaben das in Tabelle 1 dargestellte Zusammenhangsgefüge der Leitideen, hier aufgebrochen nach Jahrgangsstufen (3. vs. 4. Jahrgangsstufe). Die Korrelationen sind durchgängig signifikant und substanziell, liegen aber gleichzeitig deutlich unter 1. Dasselbe gilt im Übrigen für die Interkorrelationen der prozessbezogenen Kompetenzen, die von Winkelmann und Robitzsch (2009) gemeinsamen für Dritt- und Viertklässler ermittelt wurden und sich in Tabelle 2 wiederfinden. Modellvergleiche bei Winkelmann und Robitzsch (2009) wie auch in einem aktuelleren Papier (Winkelmann et al., 2012) zeigen, dass die beste Modellanpassung für das Modell mit fünf inhaltlichen Faktoren erreicht wird. Insgesamt sprechen diese Befunde dafür, dass sich die postulierten Dimensionen analytisch trennen lassen und man erhebliche Zahlen von Schülerinnen und Schülern identifizieren kann, die in einzelnen Subdimensionen eher niedrige, in anderen eher hohe Leistungen erreichen. Die substanziellen Korrelationen (vgl. Tabellen 1 und 2) implizieren aber auch, dass alle Subdimensionen erhebliche Anteile gemeinsamer Varianz haben, die sich möglicherweise auf einen Faktor genereller mathematischer Kompetenz zurückführen lassen. Man muss hier allerdings sehen, dass alle Analysen zur Überprüfung der Struktur in Abbildung 1 die (vermutlich kaum haltbare) Annahme machen, dass die A-priori-Klassifikationen der Aufgaben zu Dimensionen fehlerfrei gelingen. Frage 2: Wie hoch fallen die Korrelationen mit anderen standardisierten Mathematiktests aus? In bisherigen Studien zur Validität Bildungsstandard-basierter Mathematiktests wurde lediglich der Zusammenhang mit dem DEMAT 3+ und dem DEMAT 4 analysiert. Winkelmann et al. (2012) ordneten die Aufgaben aus beiden Zahlen und Operationen Raum und Form Muster und Strukturen Größen und Messen Klassenstufe 3 4 3 4 3 4 3 4 Raum und Form .62 .65 Muster und Strukturen .41 .53 .32 .48 Größen und Messen .74 .61 .56 .54 .39 .52 Daten, Häufigkeit und Wahrscheinlichkeit .61 .58 .50 .53 .43 .40 .47 .44 Tab. 1: Korrelationen (messfehlerkorrigiert) zwischen inhaltsbezogenen Kompetenzen der Bildungsstandards, getrennt für die 3. und 4. Jahrgangsstufe (aus Winkelmann & Robitzsch, 2009, S. 187) Grundfertigkeiten Problemlösen Argumentieren Modellieren Problemlösen .76 Argumentieren .56 .53 Modellieren .79 .76 .58 Darstellen .48 .52 .36 .51 Tab. 2: Korrelationen (messfehlerkorrigiert) zwischen prozessbezogenen mathematischen Kompetenzen der Bildungsstandards (aus Winkelmann & Robitzsch, 2009, S. 191) 170 Olaf Köller et al. DEMAT-Versionen den inhaltsbezogenen mathematischen Kompetenzen Zahlen und Operationen, Raum und Form sowie Größen und Messen zu. Eine Stichprobe von über 6.500 Schülerinnen und Schülern der 3. und 4. Jahrgangsstufe bearbeiteten dann Items aus einer der DEMAT-Versionen und Standard-basierte Items. Die messfehlerbereinigten Korrelationen lagen zwischen r = .66 (Größen und Messen, 3. Jahrgangsstufe) und r = .97 (Raum und Form, 3. Jahrgangsstufe). Schließlich wurden auch die Globalskalen des DEMAT 3+ und 4 mit dem Globalmaß der Bildungsstandarditems korreliert. Hierbei ergaben sich Koeffizienten von r = .69 (mit dem DEMAT 3+) und r = .67 (mit dem DEMAT 4). Die Korrelationen liegen insgesamt in einer Höhe, die darauf hinweist, dass auch mit Tests wie dem DEMAT, denen kein Standard-basiertes Konzept zugrunde liegt, Teile der in den Bildungsstandards definierten Kompetenzen valide erfasst werden können. Die unter 1 liegenden Korrelationen machen aber auch deutlich, dass die unterschiedlichen Tests offensichtlich auch eigene, auf Konzeptionsunterschieden beruhende Leistungsvarianz binden. Frage 3: Wie hoch fallen die Korrelationen mit Schulnoten aus? Sofern schulischer Unterricht mathematische Kompetenzen im Sinne des in Abbildung 1 präsentierten Kompetenzstrukturmodells fördert, sollte sich dies in substanziellen Korrelationen zwischen Testleitungen und Zeugnisnoten im Fach Mathematik in der Grundschule ausdrücken. Studien (vgl. Tent, 2006) zeigen hier, dass Schulleistungstests und Noten Korrelationen zwischen -.60 und -.70 aufweisen, Korrelationen eines Tests mit Noten in anderen Fächern sollten niedriger ausfallen. Naiv wäre hier natürlich der Glaube an eine Nullkorrelation. So zeigen viele Untersuchungen (vgl. z. B. Tent, 2006), dass die Deutsch- und Mathematiknote im Zeugnis im Mittel eine Korrelation von r = .65 aufweisen. Dementsprechend ist zu erwarten, dass die Deutschnote auch substanziell mit einem Mathematiktest korreliert und ebenso ein Deutschtest (z. B. im Lesen) substanziell mit der Mathematiknote korreliert. Empirische Befunde für die Standard-basierten Maße des IQB und den DEMAT 4 zeigt die Tabelle 3. Dort finden sich Korrelationen mit der Deutsch- und Mathematiknote in der 4. Jahrgangsstufe. Insgesamt zeigen sich für die Standard-basierten Subdimensionen, welche die inhaltlichen Kompetenzen abbilden, Korrelationen zwischen -.62 und -.72, die durchgängig höher als die Zusammenhänge mit der Deutschnote liegen (zwischen -.53 und -.60). Für den DEMAT 4 (ebenfalls Tabelle 3) ergibt sich ein vergleichbares Muster. Die niedrigeren Korrelationen sind in erster Linie dem Umstand geschuldet, dass die Testergebnisse hier nicht um ihre Messfehler korrigiert wurden. Mathematiknote Deutschnote Bildungsstandards Zahlen und Operationen -.71 -.56 Raum und Form -.64 -.50 Muster und Struktur -.72 -.60 Größen und Messen -.68 -.53 Daten, Häufigkeit und Wahrscheinlichkeit -.62 -.59 DEMAT 4 Arithmetik -.61 -.51 Sachrechnen -.61 -.50 Geometrie -.33 -.29 Tab. 3: Korrelationen zwischen inhaltlichen Kompetenzen der Bildungsstandards, Untertests des DEMAT 4 und Schulnoten am Ende der 4. Jahrgangsstufe (vgl. Winkelmann et al., 2012, S. 23; Gölitz et al., 2006, S. 45) Diagnostik mathematischer Kompetenzen 171 Insgesamt belegen die Befunde in Tabelle 3 den engen Bezug der Bildungsstandard-basierten Tests zu den Leistungsbeurteilungen im schulischen Mathematikunterricht und unterstreichen die hohe Validität der Instrumente. Frage 4: Welche Zusammenhänge zeigen sich mit Leistungen in psychometrischen Intelligenztests? Schulleistungsstudien sind wiederholt der Kritik ausgesetzt gewesen, dass die in den Leistungstests auftretende Varianz bis auf marginale Residualanteile durch einen g-Faktor aufgeklärt wird und die entsprechenden mehrdimensionalen Modelle überkomplex sind. Aber selbst wenn Schulleistungsmaße für unterschiedliche Fächer zueinander in Beziehung gesetzt werden, lässt sich häufig nur schwache Evidenz für Mehrdimensionalität finden - so korrelieren etwa die Leseleistungen mit den Mathematikleistungen in PISA um .80 (vgl. Deutsches PISA-Konsortium, 2001, 2004). Nicht selten wird daher argumentiert, dass die Testleistungen im Wesentlichen durch eine allgemeine kognitive Fähigkeit (g-Faktor) erklärt werden können - es wird also wie ursprünglich bei Spearman (1904, 1927) davon ausgegangen, dass ein Faktor kognitiver Fähigkeit existiert, der an verschiedenen intellektuellen Aktivitäten beteiligt ist, wobei die Varianzanteile der spezifischen Fähigkeiten als eher schwach betrachtet werden. Entsprechend wurden die in Re-Analysen der internationalen Schulleistungsstudien gefundenen hohen Kovarianzen zwischen verschiedenen Leistungsdimensionen dahingehend interpretiert, dass interindividuelle Unterschiede auf ähnliche oder identische Ursachen zurückzuführen seien (Rindermann, 2006, 2007). Dagegen steht die Argumentation, dass die Validität bereichsspezifischer Leistungsmessungen durch den substanziellen Anteil domänenspezifischer Wissenserwerbsprozesse zur Erklärung von Schülerleistung belegt wird (z. B. Baumert, Brunner, Lüdtke & Trautwein, 2007). Brunner (2006) hat vorgeschlagen, die Frage nach dem Zusammenspiel von Fachleistungen/ Fachkompetenzen und Intelligenz mithilfe von geschachtelten Faktorenanalysen (Nested Factor Models, Gustafsson & Balke, 1993) zu beantworten, in denen neben den erfassten bereichsspezifischen mathematischen Kompetenzen eine hierarchisch übergeordnete Dimension der allgemeinen kognitiven Fähigkeit (Intelligenz) berücksichtigt wird. Daraus resultiert die Annahme einer multiplen Bedingtheit der fachspezifischen Maße mathematischer Kompetenz, wie sie auch beispielsweise in Carrolls (1993) Drei-Stratum-Theorie formuliert wird. Winkelmann et al. (2012) haben für die Standard-basierten Mathematikaufgaben hierarchische Faktorenanalysen durchgeführt und kommen zu den in Tabelle 4 dargestellten Varianzzerlegungen für die fünf inhaltlichen Kompetenzen. Varianzquelle Intelligenz Generelle Mathematische Kompetenz Spezifische Kompetenz Zahlen und Operationen 41 % 34 % 25 % Raum und Form 64 % 10 % 26 % Muster und Struktur 53 % 42 % 5 % Größen und Messen 49 % 41 % 10 % Daten, Häufigkeit und Wahrscheinlichkeit 55 % 20 % 25 % Tab. 4: Varianzzerlegung (aufgeklärte Varianz in %) der inhaltsbezogenen Skalen der Bildungsstandards: Schätzungen aus hierarchischen Faktorenanalysen (vgl. Winkelmann et al., 2012) 172 Olaf Köller et al. Dort zeigt sich cum grano salis, dass rund 50 Prozent der Leistungsvarianz in der Tat durch einen Faktor genereller kognitiver Grundfähigkeiten (Intelligenz) erklärt werden können. Es bleiben aber substanzielle Anteile für einen Faktor mathematischer Kompetenz sowie spezifische Anteile der inhaltlichen Kompetenzen. Aus einer unterrichtspsychologischen Perspektive wird man hier argumentieren, dass die mathematikspezifischen Varianzanteile vor allem das Resultat differenzieller Lerngelegenheiten sein dürften (vgl. hierzu Köller & Baumert, 2012). Kriteriale Interpretation von Standard-basierten Testwerten auf der Basis von Kompetenzstufenmodellen Bildungsstandard-basierte Testinstrumente werden wie auch viele internationale Instrumente aus Large-Scale-Assessments in Kalibrierungsstudien IRT-skaliert, sodass die Item- und Personenparameter auf einem gemeinsamen nationalen Maßstab abgetragen werden können. Üblicherweise wird dieser Maßstab in der jeweiligen Zielpopulation mit einem Mittelwert von M = 500 und einer Standardabweichung von SD = 100 definiert. Unter der Annahme der Normalverteilung der Testwerte lassen sich diese Eigenschaften natürlich für die Interpretation mithilfe von Sozialnormen nutzen. Werte über 600 (M + 1 SD) können dann beispielsweise als überdurchschnittlich, solche unter 400 (M - 1 SD) als unterdurchschnittlich interpretiert werden. Im Sinne einer Kompetenzdiagnostik entlang den Bildungsstandards ist dieses Vorgehen aber nicht zielführend. Vielmehr ist es im Sinne kriterialen Testens wünschenswert festzulegen, ab welchem Wert auf der nationalen Skala die Erwartungen der Bildungsstandards erfüllt werden. Für solch eine kriteriale Interpretation der Skalenwerte ist es bedeutsam, dass sich auch die Items mit ihrer Schwierigkeit auf derselben Skala abbilden lassen. Sehr leichte Items liegen bei Schwierigkeitswerten von 400 und niedriger, sehr schwierige Items bei Werten von 600 und höher. Hat ein Item eine Schwierigkeit von exakt 600 Punkten, so bedeutet dies, dass Personen mit einer Fähigkeit von 600 und mehr Punkten dieses Item mit einer hinreichenden Sicherheit (Response Probability RP > .625) lösen, Personen mit einem Fähigkeitswert unter 600 Punkten lösen es mit einer geringeren Wahrscheinlichkeit. Die Eigenschaft, dass Personen und Items auf einer gemeinsamen Skala verortet werden können, nutzt man bei der Definition von Kompetenzstufen. Wenn ein Item beispielsweise einen Schwierigkeitswert von 550 hat, kann analysiert werden, welche kognitiven Operationen zur Lösung dieses Items erforderlich sind. Dies lässt Rückschlüsse auf die Fähigkeiten von Personen zu, die bei Werten von 550 oder höher liegen. Erweitert man diese Idee, so kann man viele Items mit ihren Schwierigkeiten betrachten und Punktwerte (Grenzen) auf der Skala definieren, bei denen sich die Items hinsichtlich ihrer kognitiven Anforderungen verändern, das heißt oftmals komplexer werden. Die Definition solcher Kriterien erfolgt im Zuge einer Kompetenzstufensetzung, die im englischsprachigen Raum als Standard-Setting bezeichnet wird (Cizek, 2006, S. 226). Kontinuierliche Skalen werden dabei in Abschnitte eingeteilt, es müssen also Skalenwerte (Cut Scores) als Grenzen zwischen nicht nur quantitativ unterschiedlichen, sondern auch qualitativ unterscheidbaren Anforderungen definiert werden. Die Abbildung 3 zeigt, wie eine Cut-Score-Festlegung bei der Überprüfung der Erreichung von Bildungsstandards im einfachsten Fall aussehen kann. Man legt auf dem Kontinuum fest, welche Aufgaben so leicht bzw. welche Schülerkompetenzen so gering sind, dass damit die in den Bildungsstandards vorgegebenen Ziele nicht erreicht werden. Die Grenze markiert den Übergang in den Bereich der Skala, in dem Aufgaben liegen, welche die Erwartungen der Standards abbilden, sowie Personen, deren Kompetenzstände vermuten lassen, dass sie die Erwartungen der Standards erfüllen. Schließlich ist noch eine weitere Grenze festgelegt, jenseits derer Aufgaben liegen die hinsichtlich ihrer Schwierigkeit bereits über den Erwartungen der Standards liegen, und die nur von besonders kompetenten Schülerinnen und Schülern gelöst werden. Diagnostik mathematischer Kompetenzen 173 Für die Festlegung der Kompetenzstufen stehen zahlreiche Verfahren zur Verfügung, die unterschiedliche Vor- und Nachteile aufweisen und teilweise verschiedene Zielstellungen verfolgen. Am prominentesten sind die Angoffsowie die Bookmark-Methode (vgl. für einen Überblick Cizek, 2006; Harsch, Pant & Köller, 2010). Unabhängig von der Art des Vorgehens ist es wichtig, treffende Stufenbezeichnungen und -beschreibungen zu wählen, sodass nachvollziehbar wird, über welche konkreten Kompetenzen Schülerinnen und Schüler auf den Stufen verfügen. Für die Standard-basierten Items im Fach Mathematik für die Primarstufe ist ein entsprechendes Standard-Setting durchgeführt worden, in dessen Rahmen fünf Kompetenzstufen auf der Skala mit M = 500 und SD = 100 festgelegt wurden. Die Stufen sind detailliert bei Reiss und Winkelmann (2009) beschrieben und im Anhang zum Artikel von Köller, Eßel-Ullmann und Paasch (in diesem Heft) aufgeführt. Köller et al. (in diesem Heft) berichten ebenfalls die Verteilung von Schülerinnen und Schülern der 4. Jahrgangsstufe auf die fünf Kompetenzstufen. Mindest-, Regel- und Optimalstandards Die Erarbeitung eines solchen Standard-basierten Kompetenzstufenmodells kann sich daher nicht damit zufriedengeben, einen Cut Score auf dem Kompetenzkontinuum zu definieren, unterhalb dessen die Standards verfehlt und oberhalb dessen die Standards erreicht sind (s. auch Abbildung 3). Vielmehr muss ein Kompetenzstufenmodell im Sinne der von Klieme et al. (2003) eingeforderten Differenzierung verschiedene Niveaus beschreiben und die Diskussion um Mindest-, Regel- und Optimalbzw. Maximalstandards führen. Im Sinne dieser Differenzierung wurden die folgenden Definitionen für die Grundschule (Ende der 4. Jahrgangsstufe) vorgeschlagen (vgl. Reiss & Winkelmann, 2009): - Mindeststandards beziehen sich auf ein definiertes Minimum an Kompetenzen, das alle Schülerinnen und Schüler bis zu einem bestimmten Bildungsabschnitt erreicht haben sollten. Dieses unterschreitet die von der KMK festgelegten Kompetenzerwartungen, beschreibt aber ein Niveau, von dem angenommen werden kann, dass Schülerinnen und Schüler, die am Ende der 4. Jahrgangsstufe ein Bildungsminimum erreichen, vermutlich mit entsprechender Unterstützung den Übergang in die Sekundarstufe I erfolgreich bewältigen können. - Regelstandards beziehen sich auf Kompetenzen, die im Durchschnitt von den Schülerinnen und Schülern bis zum Ende der 4. Jahrgangsstufe erreicht werden sollen, und im Einklang mit den entsprechenden Veröffentlichungen der KMK stehen. - Will man Schulen in einem System der Weiterentwicklung von Unterricht Ziele anbieten, die über Regelstandards hinausgehen, so kann es sinnvoll sein, einen Leistungsbereich zu definieren, der über den Regelstandards liegt und als Regelstandard plus bezeichnet wird. - Optimalbzw. Maximalstandards beziehen sich auf Leistungserwartungen, die unter sehr günstigen individuellen Lernvoraussetzungen und der Bereitstellung sehr guter Kontinuierliche Kompetenzskala Cut Score 1 Cut Score 2 Standards verfehlt Standards erreicht Standards überschritten Abb. 3: Illustration eines Standard-Settings 174 Olaf Köller et al. Lerngelegenheiten innerhalb und außerhalb der Schule erreicht werden und bei Weitem die Erwartungen der KMK-Bildungsstandards übertreffen. Für die Standard-basierte Diagnostik ergeben sich unter der Berücksichtigung solcher kriterial definierter Stufen wichtige Implikationen. Auf der Ebene des Schulsystems gibt die Verteilung auf die Stufen an, wie hoch die Anteile der Schülerinnen und Schüler sind, die ein Bildungsminimum verpassen (Stufe I) oder die Erwartungen der KMK nicht erfüllen (Stufen I und II). Gleiches gilt für die Ebenen der Schulen und Schulklassen. Hohe Anteile von Schülerinnen und Schülern auf den Stufen I und II werden dementsprechend die Frage notwendiger breitflächiger Interventionen/ Fördermaßnahmen aufwerfen. Auf der Individualebene ergeben sich bei der Interpretation der Stufenzugehörigkeit allerdings Unschärfen, die der Unreliabilität der Instrumente geschuldet sind. Hier muss damit gerechnet werden, dass sich die Vertrauensintervalle für Schülerinnen und Schüler über drei Kompetenzstufen erstrecken und die Gefahr individueller Fehlklassifikationen hoch ist (vgl. Bos & Voss, 2008; Köller et al., in diesem Heft). Insbesondere ist eine Zuweisung zu Stufen eher im Sinne eines Grob-Screenings zu verstehen, dessen Belastbarkeit durch weitere diagnostische Informationen gesteigert werden muss. Auf den höheren Ebenen (insbesondere Schule und System) ist dieses Problem zu vernachlässigen, da die Unreliabilität durch die Aggregation der Daten weitgehend verschwindet. Zusammenfassung und Ausblick Im Rahmen dieses Überblicksbeitrags wurden die Bildungsstandard-basierten Instrumente zur Diagnostik mathematischer Kompetenzen in der Primarstufe vorgestellt. Dabei wurde versucht, die Gemeinsamkeiten mit und Unterschiede zu den üblichen, in der psychologischen Diagnostik eingesetzten Mathematiktests herauszuarbeiten. Große Unterschiede zeigten sich dabei in der Tat in den theoretischen Grundlagen, weniger in Fragen der Validität und der konkreten Formulierung der Items. Als weiterer Unterschied wurden die diagnostischen Anlässe herausgearbeitet: Standard-basierte Tests dienen eher dem Monitoring auf der Schul- oder Systemebene, eher psychologisch orientierte Tests sind für die Einzelfalldiagnostik geeignet und können Förderbedarf identifizieren. Allerdings bieten auch Standard-basierte Instrumente Möglichkeiten zur Individualdiagnostik, zumal über die Kompetenzstufen eine kriteriale Einordnung der Testergebnisse möglich wird. Hier liegen allerdings bislang keine dokumentierten Erfahrungen vor. Auch mangelt es an Validierungsstudien, in denen Standard-basierte Instrumente mit etablierten Mathematiktests gemeinsam eingesetzt werden, um Konstruktähnlichkeiten und -unterschiede analysieren zu können. Bislang gibt es lediglich Erfahrungen mit den Tests DEMAT 3+ und DEMAT 4, worauf oben eingegangen wurde. Solche Untersuchungen könnten auch dafür genutzt werden zu eruieren, inwieweit Mathematiktests, die ursprünglich nicht zur Standardbasierten Testung entwickelt wurden, sich nachträglich gemeinsam mit den Items des IQB auf dem nationalen Maßstab skalieren lassen. Für Instrumente wie den DEMAT ließen sich so möglicherweise zusätzliche kriteriale Interpretationshinweise gewinnen. Insgesamt ergibt sich demnach der Eindruck, dass sich mit der Entwicklung Standard-basierter Instrumente viele zusätzliche Möglichkeiten der Diagnostik mathematischer Kompetenzen in der Grundschule ergeben haben. Literatur Baumert, J., Brunner, M., Lüdtke, O. & Trautwein, U. (2007). Was messen internationale Schulleistungsstudien? - Resultate kumulativer Wissenserwerbsprozesse. Eine Antwort auf Heiner Rindermann. Psychologische Rundschau, 58, 118 - 127. Bloom, B. S. (1976). Taxonomie von Lernzielen im kognitiven Bereich (5. Aufl.). Weinheim: Beltz: Weinheim. Diagnostik mathematischer Kompetenzen 175 Blum, W., Drüke-Noe, C., Hartung, R. & Köller, O. (Hrsg.) (2006). Bildungsstandards Mathematik konkret. Sekundarstufe I: Aufgabenbeispiele, Unterrichtsideen und Fortbildungsmöglichkeiten. Berlin: Cornelsen/ Scriptor. Brunner, M. (2006). Mathematische Schülerleistung: Struktur, Schulformunterschiede und Validität. Doktorarbeit, Humboldt-Universität zu Berlin. Bos, W. & Voss, A. (2008). Empirische Schulentwicklung auf Grundlage von Lernstandserhebung - Ein Plädoyer für einen reflektierten Umgang mit Ergebnissen aus Leistungstests. Die Deutsche Schule, 100. 449 - 458. Carroll, J. B. (1993). Human cognitive abilities: A survey of factoranalytic studies. New York: Cambridge University Press. Carstensen, C. H. & Rost, J. (2007). Multidimensional three-mode Rasch models. In M. von Davier & C. H. Carstensen (Hrsg.), Multivariate and mixture distribution Rasch models - Extensions and applications (S. 157 - 175). New York: Springer. Cizek, G. J. (2006). Standard setting. In S. M. Downing & T. M. Haladyna (Hrsg.), Handbook of test development (S. 225 - 258). Mahwah, NJ: Erlbaum. Deutsches PISA-Konsortium (Hrsg.) (2001): PISA 2000. Basiskompetenzen von Schülerinnen und Schülern im internationalen Vergleich. Opladen: Leske + Budrich. Deutsches PISA-Konsortium (Hrsg.) (2004): PISA 2003: Der Bildungsstand der Jugendlichen in Deutschland - Ergebnisse des zweiten internationalen Vergleichs. Münster: Waxmann. Drechsel, B., Prenzel, M. & Seidel, T. (2009). Nationale und Internationale Schulleistungsstudien. In E. Wild & J. Möller (Hrsg.), Pädagogische Psychologie (S. 353 - 380). Berlin: Springer. Fleischer, J., Leutner, D. & Klieme, E. (Hrsg.) (2012). Modellierung von Kompetenzen im Bereich der Bildung: Eine psychologische Perspektive [Themenheft]. Psychologische Rundschau, 63, (1). Freudenthal, H. (1983). Didactical phenomenology of mathematical structures. Dordrecht: Reidel. Gölitz, D., Roick, T. & Hasselhorn, M. (2005). Deutsche Mathematiktests für dritte und vierte Klassen (DE- MAT 3+ und DEMAT 4). In M. Hasselhorn, W. Schneider & H. Marx (Hrsg.), Diagnostik von Mathematikleistungen. Jahrbuch der pädagogisch-psychologischen Diagnostik, N. F. Band 4 (S. 167 - 186). Göttingen: Hogrefe. Gölitz, D., Roick, T. & Hasselhorn, M. (2006). DEMAT 4 : Deutscher Mathematiktest für vierte Klassen. Göttingen: Hogrefe. Granzer, D., Köller, O., Bremerich-Vos, A., van den Heuvel-Panhuizen, M., Reiss, K. & Walther, G. (Hrsg.) (2009). Bildungsstandards Deutsch und Mathematik. Leistungsmessung in der Grundschule. Weinheim: Beltz. Grube, D., Weberschock, U., Blum, M., Hasselhorn, M. & Gölitz, D. (2010). DIRG: Diagnostisches Inventar zu Rechenfertigkeiten im Grundschulalter. Göttingen: Hogrefe. Gustafsson, J.-E. & Balke, G. (1993). General and specific abilities as predictors of school achievement. Multivariate Behavioral Research 28, 407 - 434. Harsch, C., Pant, H. A. & Köller, O. (Hrsg.). (2010). Calibrating standards-based assessment tasks for English as a first foreign language. Standard-setting procedures in Germany. Münster: Waxmann. Hasselhorn, M., Marx, H. & Schneider, W. (Hrsg.) (2005). Diagnostik von Mathematikleistungen. Göttingen: Hogrefe. Jacobs, C. & Petermann, F. (2005). Diagnostik von Rechenstörungen. In M. Hasselhorn, H. Marx & W. Schneider (Hrsg.), Diagnostik von Mathematikleistungen (S. 71 - 104). Göttingen: Hogrefe. Klieme, E., Artelt, C., Hartig, J., Jude, N., Köller, O., Prenzel, M., Schneider, W. & Stanat, P. (Hrsg.) (2010). PISA 2009. Bilanz nach einem Jahrzehnt. Münster: Waxmann. Klieme, E., Avenarius, H., Blum, W., Döbrich, P., Gruber, H., Prenzel, M., Reiss, K., Riquarts, K., Rost, J., Tenorth, H.-E. & Vollmer, H. J. (2003). Zur Entwicklung nationaler Bildungsstandards: Eine Expertise. Berlin: Bundesministerium für Bildung und Forschung. KMK (2004). Bildungsstandards im Fach Mathematik für den Primarbereich. Beschluss der Kultusministerkonferenz vom 15. 10. 2004. München: Luchterhand. Köller, O. (2010). Bildungsstandards. In D. H. Rost (Hrsg.), Handwörterbuch Pädagogische Psychologie (4. Aufl., S. 77 - 83). Weinheim: Beltz/ PVU. Köller, O. & Baumert, J. (2012). Schulische Leistungen und ihre Messung. In W. Schneider & U. Lindenberger (Hrsg.), Entwicklungspsychologie (7. Auflage, S. 639 - 655). Weinheim: Beltz/ PVU. Köller, O., Baumert, J., Cortina, K. S. & Trautwein, U. (2010). Bildungsverläufe und psychosoziale Entwicklung im Jugendalter und jungen Erwachsenenalter. In C. Spiel, B. Schober, P. Wagner & R. Reimann (Hrsg.), Bildungspsychologie (S. 245 - 252). Göttingen: Hogrefe. Köller, O., Knigge, M. & Tesch, B. (Hrsg.) (2010). Sprachliche Kompetenzen im Ländervergleich. Münster: Waxmann. Krajewski, K., Renner, A., Nieding, G. & Schneider, W. (2009). Frühe Förderung von mathematischen Kompetenzen im Vorschulalter. Zeitschrift für Erziehungswissenschaft, 11, 91 - 103. Moser Opitz, E., Reusser, L., Moeri Müller, M., Anliker, B., Wittich, C., Freesemann, O. & Rammseier, E. (2010). BASIS-MATH 4 - 8: Basisdiagnostik Mathematik für die Klassen 4 - 8. Göttingen: Hogrefe. Mullis, I. V. S., Martin, M. O., Ruddock, G. J., O’Sullivan, C. Y. & Preuschoff, C. (2009). TIMSS 2011 assessment frameworks. Boston: TIMSS & PIRLS International Study Center. National Council of Teachers of Mathematics (NCTM) (2000). Professional standards for school mathematics. Reston, VA: NCTM. Pant, H. A., Tiffin-Richards, S. P. & Köller, O. (2010). Standard-Setting für Kompetenztests im Large-Scale- Assessment. Zeitschrift für Pädagogik, Beiheft 56, 175 - 188. Reiss, K. & Winkelmann, H. (2009). Kompetenzstufenmodelle für das Fach Mathematik im Primarbereich. In D. Granzer, O. Köller, A. Bremerich-Vos et al. (Hrsg.), Bildungsstandards Deutsch und Mathematik. Leistungsmessung in der Grundschule (S. 120 - 141). Weinheim: Beltz. Rindermann, H. (2006). Was messen internationale Schulleistungsstudien? Schulleistungen, Schülerfähigkeiten, kognitive Fähigkeiten, Wissen oder allgemeine Intelligenz? Psychologische Rundschau, 57, 69 - 86. Rindermann, H. (2007). The g-factor of international cognitive ability comparisons: The homogeneity of results in PISA, TIMSS, PIRLS and IQ-tests across nations. European Journal of Personality, 21, 667 - 706. 176 Olaf Köller et al. Roick, T., Gölitz, D. & Hasselhorn, M. (2004). DEMAT 3+: Deutscher Mathematiktest für dritte Klassen. Göttingen: Hogrefe. Roick, T., Gölitz, D. & Hasselhorn, M. (2011). KR 3 - 4: Kettenrechner für dritte und vierte Klassen. Göttingen: Hogrefe. Rost, J. (2004). Lehrbuch Testtheorie, Testkonstruktion. Bern: Huber. Schaup, H., Holzer, N. & Lenart, F. (2010). ERT 4+: Eggenberger Rechentest 4+. Göttingen: Hogrefe. Spearman, C. (1904). „General Intelligence“ objectively determined and measured. American Journal of Psychology, 15, 201 - 293. Spearman, C. (1927). The abilities of man. New York: Macmillan. Tent, L. (2006). Zensuren. In D. H. Rost (Hrsg.), Handwörterbuch Pädagogische Psychologie (3. Auflage, S. 873 - 880). Weinheim: Beltz/ PVU. Walther, G., Selter, C., Bonsen, M & Bos, W. (2008). Mathematische Kompetenzen im internationalen Vergleich: Testkonzeption und Ergebnisse. In W. Bos, M. Bonsen, J. Bauert, M. Prenzel, C. Selter & G. Walther (Hrsg.), TIMSS 2007. Mathematische und naturwissenschaftliche Kompetenzen von Grundschulkindern in Deutschland im internationalen Vergleich (S. 49 - 85). Münster: Waxmann. Weinert, F. E. (2001). Vergleichende Leistungsmessung in Schulen - Eine umstrittene Selbstverständlichkeit. In F. E. Weinert (Hrsg.), Leistungsmessungen in Schulen (S. 17 - 31). Weinheim: Beltz. Wilhelm, O. & Kunina, O. (2009). Pädagogisch-psychologische Diagnostik. In E. Wild & J. Möller (Hrsg.), Pädagogische Psychologie (S. 307 - 331). Berlin: Springer. Winkelmann, H. & Robitzsch, A. (2009). Modelle mathematischer Kompetenzen: Empirische Befunde zur Dimensionalität. In D. Granzer, O. Köller, A. Bremerich-Vos, M. van den Heuvel-Panhuizen, K. Reiss & G. Walther (Hrsg.), Bildungsstandards Deutsch und Mathematik. Leistungsmessung in der Grundschule (S. 169 - 196). Weinheim: Beltz. Winkelmann, H., Robitzsch, A., Stanat, P. & Köller, O. (2012). Mathematische Kompetenzen in der Grundschule: Struktur, Validierung und Zusammenspiel mit allgemeinen kognitiven Fähigkeiten. Diagnostica, 58, 15 - 30. Winter, H. (1995). Mathematikunterricht und Allgemeinbildung. Mitteilungen der Gesellschaft für Didaktik der Mathematik, 61, 37 - 46. Prof. Dr. Olaf Köller Leibniz-Institut für die Pädagogik der Naturwissenschaften und Mathematik (IPN) Olshausenstr. 62 24118 Kiel Tel.: (04 31) 8 80 31 11 E-Mail: koeller@ipn.uni-kiel.de Prof. Dr. Kristina Reiss Technische Universität München School of Education Heinz Nixdorf-Stiftungslehrstuhl für Didaktik der Mathematik Schellingstraße 33 80799 München Tel.: (0 89) 28 92 53 99 E-Mail: kristina.reiss@tum.de Prof. Dr. Petra Stanat Humboldt-Universität zu Berlin Institut zur Qualitätsentwicklung im Bildungswesen (IQB) Unter den Linden 6 10099 Berlin Tel.: (0 30) 2 09 34 65 00 E-Mail: petra.stanat@iqb.hu-berlin.de Prof. Dr. Hans Anand Pant Humboldt-Universität zu Berlin Institut zur Qualitätsentwicklung im Bildungswesen (IQB) Unter den Linden 6 10099 Berlin Tel.: (0 30) 2 09 34 65 00 Email: hansanand.pant@iqb.hu-berlin.de