Psychologie in Erziehung und Unterricht
3
0342-183X
Ernst Reinhardt Verlag, GmbH & Co. KG München
10.2378/peu2012.art14d
71
2012
593
Validierung eines Instruments zur Erfassung Standard-basierter mathematischer Kompetenzen in der Grundschule
71
2012
Olaf Köller
Gertraud Eßel-Ullmann
Daniel Paasch
Im vorliegenden Aufsatz werden Befunde (N = 687 Schülerinnen und Schüler zu Beginn der 5. Jahrgangsstufe) zu einem Instrument berichtet, das Einzelschulen die Verortung auf den Kompetenzstufen der Bildungsstandards im Fach Mathematik am Ende der 4. Jahrgangsstufe ermöglicht. Der Test, der in zwei getrennten Versionen vorliegt, erwies sich als hinreichend reliabel (Version A: KR-20 = .86, Version B: KR-20 = .80) und valide. So zeigten sich u. a. hohe Zusammenhänge mit der Mathematikzeugnisnote (Version 1: r = -.648; Version 2: r = -.623; beide ps < .001), mit psychometrischer Intelligenz (Version 1: r = .592, Version 2: r = .615; beide ps < .001) und der besuchten Schulform (Gymnasium vs. Nicht-Gymnasium, punkt-biseriale Korrelation; Version 1: r = .529; Version 2: r = .545, beide ps < .001). Die Befunde werden mit Blick auf die diag-nostischen Einsatzmöglichkeiten des Instruments in Schulen diskutiert.
3_059_2012_3_0003
Psychologie in Erziehung und Unterricht, 2012, 59, 177 - 190 DOI 10.2378/ peu2012.art14d © Ernst Reinhardt Verlag München Basel Mit der Verabschiedung der länderübergreifenden Bildungsstandards für die Primarstufe und das Ende der Sekundarstufe I in den Jahren 2003 und 2004 hat in Deutschland eine Welle der Testentwicklung (vgl. Granzer, Köller, Bremerich-Vos et al., 2009), gekoppelt mit Forschungen zu Kompetenzstruktur- und Kompetenzstufenmodellen (vgl. Klieme, Leutner & Kenk, 2010), eingesetzt. Die Testentwicklung zur Überprüfung der Einhaltung der in den Standards festgeschriebenen Leistungserwartungen wurde dabei vor allem durch das Insti- Anmerkung Die vorliegende Arbeit wurde durch die Bremer Senatorin für Bildung und Wissenschaft sowie aus dem Europäischen Fonds für regionale Entwicklung (EFRE) gefördert. Den Zuwendungsgebern sei an dieser Stelle dafür gedankt. n Tests und Programme Validierung eines Instruments zur Erfassung Standardbasierter mathematischer Kompetenzen in der Grundschule Olaf Köller 1 , Gertraud Eßel-Ullmann 2 , Daniel Paasch 3 1 Leibniz-Institut für die Pädagogik der Naturwissenschaften und Mathematik (IPN) 2 Volksschule Lipprichhausen-Gollhofen 3 Universität Augsburg Validation of an Instrument on Standard-based Mathematical Competencies in Primary School Summary: The present article reports findings from a study (n = 687 5th graders) that was carried out to investigate the psychometric characteristics of a standard-based mathematics test. The instrument contains two different versions and was developed to provide primary schools with information on how their students perform with respect to educational standards in mathematics at the end of grade 4. Psychometric analyses revealed that both versions of the instrument were sufficiently reliable (Version 1: KR - 20 = .86, Version 2: KR - 20 = .80). Correlation analyses with final marks in mathematics (Version 1: r = -.648; Version 2: r = -.623; both ps < .001), psychometric intelligence (Version 1: r = .592; Version 2: r = .615; both ps < .001), and grammar school attended after primary school education (point-biserial correlation, Version 1; r = .529; Version 2: r = .545, both ps < .001) underline the high validity of the instrument. Educational implications for standard-based assessments in individual schools are discussed. Keywords: Educational Standards, Assessment of Competencies, Validity, Mathematics Achievement Zusammenfassung: Im vorliegenden Aufsatz werden Befunde (N = 687 Schülerinnen und Schüler zu Beginn der 5. Jahrgangsstufe) zu einem Instrument berichtet, das Einzelschulen die Verortung auf den Kompetenzstufen der Bildungsstandards im Fach Mathematik am Ende der 4. Jahrgangsstufe ermöglicht. Der Test, der in zwei getrennten Versionen vorliegt, erwies sich als hinreichend reliabel (Version A: KR-20 = .86, Version B: KR-20 = .80) und valide. So zeigten sich u. a. hohe Zusammenhänge mit der Mathematikzeugnisnote (Version 1: r = -.648; Version 2: r = -.623; beide ps < .001), mit psychometrischer Intelligenz (Version 1: r = .592, Version 2: r = .615; beide ps < .001) und der besuchten Schulform (Gymnasium vs. Nicht-Gymnasium, punkt-biseriale Korrelation; Version 1: r = .529; Version 2: r = .545, beide ps < .001). Die Befunde werden mit Blick auf die diagnostischen Einsatzmöglichkeiten des Instruments in Schulen diskutiert. Schlüsselbegriffe: Bildungsstandards, Kompetenzmessung, Validität, mathematische Kompetenzen 178 Olaf Köller et al. tut zur Qualitätsentwicklung im Bildungswesen (IQB) vorangetrieben. Dort sind inzwischen für den Primar- und Sekundarbereich I große Itempools entstanden, die in den Fächern Deutsch, Mathematik, der 1. Fremdsprache (Englisch/ Französisch) und den drei Naturwissenschaften (Biologie, Chemie und Physik) eingesetzt werden können, um in der 4. (Primarstufe bzw. Grundschule; vgl. Granzer et al., 2009) oder 9. Jahrgangsstufe (Sekundarstufe I; vgl. Köller, Knigge & Tesch, 2009) die Erreichung der in den Standards formulierten Leistungserwartungen zu überprüfen. Für den Grundschulbereich, auf den wir uns im Folgenden konzentrieren wollen, wurden am IQB auf der Basis sehr großer Stichproben umfangreiche Validierungsstudien durchgeführt, die insgesamt überzeugende Hinweise zur psychometrischen Qualität der Aufgabenpools für die Fächer Deutsch und Mathematik liefern (vgl. u. a. Granzer et al., 2009; Winkelmann, Robitzsch, Stanat & Köller, 2012). Damit liegen große Mengen validierter Items zur standardbasierten Diagnose von mathematischen Kompetenzen im Grundschulbereich vor, allerdings sind entsprechende Instrumente im Schulalltag nicht nutzbar: Teilmengen der Items werden geheim gehalten, um sie für die standardbasierten Ländervergleiche einsetzen zu können, in denen die 16 Länder der Bundesrepublik Deutschland stichprobenbasiert feststellen können, ob ihre Schülerinnen und Schüler die Anforderungen der Standards erfüllen. Andere Items des IQB werden für die Vergleichsarbeiten (VERA 3, VERA 8; vgl. Hosenfeld & Zimmer-Müller, 2009) den Ländern zur Verfügung gestellt, um zu einem festen Zeitpunkt alle Schülerinnen und Schüler in bestimmten Fächern, in den Grundschulen sind dies die Fächer Deutsch und Mathematik, zu testen. Da in VERA oftmals die Ergebnisse der Klassen bzw. Schulen an die Schulaufsicht gemeldet werden, besteht die Gefahr, von den schulseitig Beteiligten als High Stakes Test, dessen Ergebnis mit bedeutenden Konsequenzen für das Kollegium oder die Einzellehrkraft verbunden ist, wahrgenommen zu werden. Vor allem Koretz (z. B. 2005) hat darauf hingewiesen, dass High Stakes Tests Schulen häufig dazu animieren, ein Teaching to the Test, mit dem Einüben von Aufgaben, die denen der Vergleichsarbeiten ähneln, bis hin zum systematischen Betrügen zu realisieren. Die Folge ist das Phänomen der Test Score Inflation, bei dem die Testleistungen bei High Stakes Tests in Schulen von Jahr zu Jahr steigen, wiewohl Leistungen in Low Stake Tests unverändert bleiben. Für die pädagogischen und förderpsychologischen Erwägungen von Einzelschulen sind dementsprechend Werkzeuge wie VERA eher ungeeignet. Die Nutzung diagnostischer Instrumente vor Ort kann dann attraktiv werden, wenn jede Schule selbst entscheiden kann, wann und zu welchem Zweck sie Tests, die auf den Bildungsstandards basieren, einsetzt, ohne die Ergebnisse gleich an die Schulaufsicht melden zu müssen. Im Rahmen dieses Beitrags soll daher ein Instrument mit relevanten Befunden aus einer Validierungsstudie vorgestellt werden, das Einzelschulen die Standard-basierte Testung im Fach Mathematik eröffnet. Ein Test zur Standard-basierten Diagnostik mathematischer Kompetenzen in der Primarstufe (Klassen 3 und 4) Granzer, Walther, Winkelmann, Robitzsch und Köller (2008) haben auf der Basis der am IQB kalibrierten Items im Fach Mathematik für die Primarstufe einen Test zusammengestellt und publiziert, der es erlaubt, Schülerinnen und Schüler anhand ihrer Testergebnisse auf der nationalen Metrik der Bildungsstandards (M = 500, SD = 100) und den dazugehörigen fünf Kompetenzstufen abzubilden. Das Instrument soll Schulen die Möglichkeit geben, sich jenseits von verpflichtenden Vergleichsarbeiten über die Leistungsstände ihrer Schülerinnen und Schüler am Ende der 3. und 4. Klasse zu vergewissern. Zudem kann der Test zu Beginn der 5. Jahrgangsstufe als Instrument zur Lernausgangslagenerhebung der in die Sekundarstufe I übergetretenen Schülerinnen und Schüler Validierung eines Instruments zur Erfassung mathematischer Kompetenzen 179 genutzt werden. Die aufnehmenden Schulen erhalten so diagnostische Informationen, ob die Schülerinnen und Schüler die Kompetenzerwartungen der Grundschule erreicht haben und so ein Leistungsniveau besteht, auf das der Unterricht der Sekundarstufe I aufbauen kann. Der Test besteht aus zwei Heften (Version 1 mit 34 Items und Version 2 mit 25 Items). Da die Items beider Hefte aus einem raschskalierten Itempool stammen, können die Tests trotz unterschiedlicher Itemzahlen im Sinne paralleler Tests verwendet werden, um die Leistungen auf einem gemeinsamen Maßstab abzutragen. Neben Multiple-Choice (MC)-Aufgaben werden folgende weitere Antwortformate verwendet: Kurzantwort-Format, bei dem ein Ergebnis aufgeschrieben werden muss; ausführliche Antwort, z. B. „Begründe Deine Lösung.“; ja/ nein-Format: „Stimmt die folgende Aussage? “ Die Items beider Versionen decken alle fünf inhaltlichen Kompetenzen (Zahlen und Operationen; Größen und Messen; Muster und Strukturen; Raum und Form; Daten, Häufigkeit und Wahrscheinlichkeit) und alle sechs prozessbezogenen Kompetenzen (Problemlösen; Modellieren; Argumentieren; Kommunizieren; Darstellen; Technisches Arbeiten) des Strukturmodells mathematischer Kompetenzen für die Primarstufe ab (Reiss & Winkelmann, 2009; vgl. den Überblickbeitrag von Köller, Reiss, Pant & Stanat, in diesem Heft). Da die Itemzahlen für die Einzeldimensionen allerdings sehr gering sind, kann pro Testheft nur ein reliabler Gesamtwert berechnet werden. Ein Testheft kann in einer Schulstunde bearbeitet werden, nach 20 Minuten wird jeweils eine fünfminütige Pause eingelegt. Für jedes Testheft stehen Tabellen zur Verfügung, die zeigen, wie die Rohwerte (Zahl gelöster Aufgaben) auf die nationale Metrik übertragen werden können. Für den Fall, dass Schülerinnen und Schüler beide Hefte bearbeiten, liegen ebenfalls Tabellen zur Übertragung der Rohwerte in Werte des nationalen Maßstabs vor. Als Unterstützung bei der Auswertung erhalten Lehrkräfte auf einer CD, die dem Handbuch beiliegt, eine Excel-Anwendung, welche die Erfassung der Testergebnisse unterstützt, die individuellen Rohpunkte in die Werte der nationalen Metrik transformiert und jede Schülerin/ jeden Schüler einer Kompetenzstufe zuweist. Kriteriale Verankerung der Testwerte auf Kompetenzstufen Im Rahmen der Kalibrierungsstudien des IQB wurden auch theorie- und datengestützt Standard-Settings (Cizek, 2006; im Überblick Pant, Tiffin-Richards & Köller, 2010) durchgeführt, um Kompetenzstufen definieren zu können. Experten (Fachdidaktiker, Psychometriker und Lehrkräfte) identifizieren dabei anhand von Aufgabenanalysen Bereiche (Kompetenzstufen) auf dem Leistungskontinuum, für die sich relativ trennscharf unterschiedliche kognitive Anforderungen beschreiben lassen. Wichtig für das Verständnis ist dabei, dass Schülerinnen und Schüler, die auf höheren Stufen liegen, auch über die kognitiven Operationen verfügen, die auf niedrigeren Niveaus für die Aufgabenlösung eingesetzt werden müssen. Sie haben allein mit Aufgaben auf höheren Stufen Schwierigkeiten bzw. verfügen sie nicht über die zur Lösung notwendigen Operationen. Für das Fach Mathematik in der Primarstufe sind die Ergebnisse des Standard-Settings ausführlich bei Reiss und Winkelmann (2009) dargestellt. Auf der Basis einer systematischen Aufgabenanalyse und der empirischen Schwierigkeiten wurden fünf Kompetenzstufen definiert, die folgendermaßen bezeichnet wurden (ausführliche Beschreibungen der Kompetenzstufen finden sich in Anhang 1): - Stufe I: Technische Grundlagen (Routineprozeduren auf der Grundlage einfachen begrifflichen Wissens); Punktwerte unter 390. - Stufe II: Einfache Anwendungen von Grundlagenwissen (Routineprozeduren in einem klar strukturierten Kontext); Punktwerte von 390 bis 459. 180 Olaf Köller et al. - Stufe III: Erkennen und Nutzen von Zusammenhängen in einem vertrauten (mathematischen und sachbezogenen) Kontext; Punktwerte von 460 bis 529. - Stufe IV: Sicheres und flexibles Anwenden von begrifflichem Wissen und Prozeduren im curricularen Umfang; Punktwerte von 530 bis 599. - Stufe V: Modellierung komplexer Probleme unter selbstständiger Entwicklung geeigneter Strategien; Punktwerte ab 600. Im Hinblick auf die in den Bildungsstandards der KMK (2004) festgelegten Leistungserwartungen für das Ende der 4. Jahrgangsstufe kommen Reiss und Winkelmann (2009) zum Ergebnis, dass Schülerinnen und Schüler mit Leistungen auf der Stufe III und höher die Erwartungen erfüllen. Leistungen auf Stufe V werden von den Autoren als Maximalstandards beschrieben, die nur unter optimalen individuellen und schulischen Bedingungen erreicht werden können. Schülerinnen und Schüler auf Stufe II erreichen dagegen lediglich ein Bildungsminimum im Sinne von Mindeststandards, Kinder auf Stufe I verfehlen dagegen jegliche Leistungserwartungen am Ende der 4. Jahrgangsstufe und stellen im Hinblick auf den erfolgreichen Übergang in die Sekundarstufe I eine Risikogruppe dar (zu weiteren Details bei der Definition der Stufen vgl. Köller, 2010). Mit dieser Verankerung erhalten Schulen in der Tat die Information, welche Schülerinnen und Schüler im Sinne kriterial gesetzter Standards diese erreichen oder verfehlen. Zu beachten ist dabei allerdings, dass die Zuweisung zu Kompetenzstufen aufgrund von Unreliabilitäten mit Unsicherheit verbunden ist. Dies gilt insbesondere für Schülerinnen und Schüler, die sich mit ihren Werten im Grenzbereich zweier Stufen befinden (vgl. Tiffin-Richards, 2011). Ziele der vorliegenden Untersuchung Wiewohl der Itempool des IQB zur Messung mathematischer Kompetenzen mittlerweile breit validiert ist (s. o.), liegen für den soeben beschriebenen Test von Granzer et al. (2008) keine Studien zur psychometrischen Qualität vor. Dementsprechend führten wir eine empirische Studie durch, um Hinweise auf die Reliabilität und Validität des Tests zu gewinnen. Die Untersuchung wurde zu Beginn der 5. Jahrgangsstufe in Bremer Schulen gestartet, um Informationen über die Lernausgangslagen der getesteten Schülerinnen und Schüler nach dem Übertritt in die Sekundarstufe I zu erhalten. Folgende Fragestellungen sollten anhand der empirischen Daten überprüft werden: 1. Lassen sich die Items beider Testversionen eindimensional auf der Basis des Raschmodells skalieren? 2. Welche Messgenauigkeit (Reliabilität) erreichen beide Hefte? 3. Führen beide Testversionen trotz unterschiedlicher Testlängen zu identischen Leistungskennwerten der getesteten Kinder auf dem nationalen Maßstab der Bildungsstandards? 4. Finden sich höhere Korrelationen mit der letzten Zeugnisnote im Fach Mathematik als mit der Note im Fach Deutsch (kriteriale und diskriminante Validität)? 5. Liegen die Korrelationen mit anderen Leistungsmaßen (u. a. Intelligenz) deutlich höher als mit dem sozioökonomischen Status der Familien, aus denen die getesteten Schülerinnen und Schüler stammen? 6. Mit welcher Präzision kann aus den Testergebnissen auf den Besuch eines Gymnasiums geschlossen werden? Methode In der vorliegenden Untersuchung wurden N = 687 Schülerinnen und Schüler (49.4 % weiblich) aus Bremer Sekundarschulen (24.9 %), Gesamtschulen (43.4 %) und Gymnasien (31.7 %) der 5. Jahrgangsstufe zu Beginn des Schuljahres 2008/ 2009 getestet. Das Alter betrug im Mittel M = 10.79 Jahre (SD = .55). Insgesamt 48 % der Schülerinnen und Schüler gaben an, dass wenigstens ein Elternteil im Ausland geboren wurde. Darüber hinaus äußerten 42 %, dass zu Hause normalerweise nicht Deutsch Validierung eines Instruments zur Erfassung mathematischer Kompetenzen 181 gesprochen wird. Diese Zahlen machen deutlich, dass es sich insgesamt um eine sozial und kulturell benachteiligte Gruppe von Schülerinnen und Schülern handelte. Die Datenerhebung erfolgte an zwei aufeinander folgenden Tagen in jeweils zwei Schulstunden. Neben dem Standard-basierten Mathematiktest wurden weitere Schulleistungsmaße (s. u.) und Intelligenzleistungen erhoben. Abschließend bearbeiteten die Schülerinnen und Schüler einen Fragebogen, der neben soziodemografischen auch motivationale Variablen und Persönlichkeitsmerkmale enthielt. Die Test- und Fragebogenadministration erfolgte durch zuvor geschulte Lehrkräfte. Die Hefte waren so gestaltet, dass nach jeder Schulstunde (45 Minuten) eine Pause eingelegt werden konnte. Die beiden Versionen des Standard-basierten Mathematiktests wurden innerhalb der Klassen zufällig variiert. Die Auswertung erfolgte durch trainierte studentische Hilfskräfte. Die Testergebnisse, die direkt nach dem Übertritt in die Sekundarstufe I gewonnen wurden, bilden die Lernergebnisse der vierjährigen Grundschule ab. Bei den nachfolgenden Analysen wurden nur die Daten von solchen Schülerinnen und Schülern berücksichtigt, die mindestens ein Drittel der Mathematikitems bearbeitet hatten. Dadurch sollte gewährleistet werden, dass pro Schülerin/ Schüler ein hinreichendes Maß an Information aus dem Mathematiktest vorlag. Dies resultierte in einer auswertbaren Stichprobengröße von 612 Schülerinnen und Schülern (Version 1: N 1 = 313; Version 2: N 2 = 299). Instrumente Im Folgenden werden nur die Instrumente beschrieben, die in die Validierungsanalysen eingingen. Die psychometrischen Eigenschaften des Mathematiktests werden im Ergebnisteil berichtet. Intelligenz: Zur Feststellung der Intelligenz der Schülerinnen und Schüler wurde die erste Hälfte des Grundintelligenztests CFT 20 (Weiß, 1997) eingesetzt. Diese umfasst vier Subtests mit insgesamt 46 sprachfreien MC-Items. Die Reliabilität des Tests lag in der vorliegenden Stichprobe bei .79 (KR-20). Auf der Basis der 46 Items lässt sich der individuelle IQ bestimmen. Sprachliche Kompetenzen: Diese wurden mit zwei Instrumenten aus der Hamburger Lernausgangslagenuntersuchung (LAU 5; Lehmann & Peek, 1997) erhoben. Der erste Test enthält 14 MC-Items zur Synonymfindung, es folgen darauf vier Lesetexte mit insgesamt 27 MC-Items. Beide Teile lassen sich zu einem Gesamtwert des Leseverstehens zusammenfassen (vgl. hierzu Lehmann & Peek, 1997). In der vorliegenden Untersuchung lag die Reliabilität bei .87 (KR-20). Zur Erfassung orthografischer Fertigkeiten wurde ebenfalls ein Test aus LAU 5 („Die Geheimniße unserer Schule“) eingesetzt. Es handelt sich um einen fortlaufenden Text, bei dem sich unter jedem Wort ein kleines Kästchen befindet, das anzukreuzen ist, sofern das darüber stehende Wort falsch geschrieben ist. Der Text besteht insgesamt aus 307 Wörtern, von denen 31 falsch geschrieben sind. Der Testwert ist definiert als Quotient aus der quadrierten Zahl richtig angekreuzter Fehler (Zähler) und der Zahl insgesamt angekreuzter Wörter (Nenner). Durch diese Operationalisierung werden die richtig identifizierten Fehler im Text an der Zahl der insgesamt angekreuzten Wörter relativiert. Kreuzt also eine Schülerin bzw. ein Schüler alle 31 falsch geschriebenen Wörter an und kein weiteres, so erhält er bzw. sie den Wert 31 (31 2 / 31 = 31). Kreuzt er oder sie viel mehr Wörter an, so sinkt der Wert entsprechend. Lehman und Peek (1997) weisen auf die hohe Zuverlässigkeit dieses Maßes hin. Schulnoten: Von den Lehrkräften wurden die Zeugnisnoten der Schülerinnen und Schüler in den Fächern Deutsch und Mathematik am Ende der 4. Jahrgangsstufe (Übertrittsnoten) erfragt. Sozialer Hintergrund: Der sozioökonomische Status der Schülerinnen und Schüler wurde mithilfe des International Socio-Economic Index of Occupational Status (ISEI; Ganzeboom, De Graaf, Treimann und De Leeuw, 1992) operationalisiert. Der ISEI ermöglicht es, die ökonomische Stellung der Familie auf der Basis der Angaben über die Elternberufe zu bestimmen. In den großen Schulleistungsstudien wie PISA (Klieme et al., 2010) wird üblicherweise die höhere der beiden von den Eltern vorhandenen Berufsangaben (der sogenannte HISEI) ausgewertet. In den national repräsentativen Stichproben der 15-Jährigen liegt der Mittelwert des HISEI bei Arbeitern bei M = 40, akademische Berufe erreichen im Mittel Werte etwas über 60. In der hier untersuchten Stichprobe lag der HISEI bei M = 39.05, was auf die soziale Benachteiligung der Schülerinnen und Schüler hinweist. 182 Olaf Köller et al. Statistische Analysen Item- und Skalenanalysen auf der Basis der klassischen Testtheorie wurden in SPSS Version 17.0 gerechnet. Hinzu kamen Itemanalysen auf der Basis des Raschmodells (vgl. Rost, 2004), die mit dem Programm ConQuest (Adams, Wilson & Wu, 2006) durchgeführt wurden. Alle Analysen zur Validität erfolgten in Mplus, Version 6.11 (Muthén & Muthén, 2010). Da insbesondere bei den Zeugnisnoten erhebliche Anteile fehlender Werte auftraten, wurden in Mplus mittels Multiple Imputation 20 vollständige Datensätze generiert (zur Behandlung von fehlenden Werten vgl. Lüdtke, Robitzsch, Trautwein & Köller, 2007). Die entsprechenden Analysen wurden dann für jeden der 20 Datensätze durchgeführt und die Ergebnisse entsprechend dem Vorgehen bei Rubin (1987) gemittelt. Für die Interpretation der unten berichteten Analysen bedeutet dies, dass die c 2 -Werte für die getesteten Modelle nicht auf Signifikanz getestet werden können, da die Verteilungseigenschaften des gemittelten c 2 -Wertes unbekannt sind. Aufgrund des hierarchischen Charakters der Daten (Schülerinnen und Schüler innerhalb von Klassen, Klassen innerhalb von Schulen und Schulen innerhalb von Schulformen) wurden für die verwendeten Leistungstests zunächst Intraklassen-Korrelationen bestimmt (Varianzen zwischen Klassen, bei denen die Ebenen Klasse, Schule und Schulform konfundiert sind). Diese lagen zwischen .19 (CFT) und .30 (in beiden Mathematiktests). Da bei derart hohen Intraklassen-Korrelationen Standardfehler erheblich unterschätzt werden können und die Gefahr von alpha-Fehlern deutlich zunimmt, wurde in Mplus die Option Type = Complex gewählt, die unverzerrte Standardfehler liefert. Ergebnisse Psychometrische Analysen Die Item- und Skalenanalysen ergaben Reliabilitäten (KR-20) von .86 (Version 1) und .80 (Version 2). Die Itemschwierigkeiten lagen für Version 1 im Mittel bei p = .41 (Streuung: .04 - .85) und für Version 2 bei p = .38 (Streuung: .04 - .84). Die Trennschärfen schwankten für Version 1 zwischen .06 und .60 bei einer mittleren Trennschärfe von r it = .36. Lediglich eine Trennschärfe lag unter .15. In Version 2 lag die mittlere Trennschärfe bei r it = .33 bei einer Schwankung zwischen .01 und .56. Hier lagen drei Items mit ihren Trennschärfen unter .15. Mit ConQuest wurde geprüft, ob sich die Items beider Tests eindimensional im Sinne des Raschmodells skalieren lassen. Die Modellkonformität der Items wurde dabei über den in ConQuest verfügbaren Weighted Fit Index festgestellt. In den großen Schulleistungsstudien wie PISA wird vorgeschlagen, dass dieser Index < 1.15 sein sollte. Für die Version 1 zeigte sich, dass alle 34 Items dieses Kriterium erfüllten. In Version 2 verletzte lediglich das erste Item (Fit = 1.32) dieses Kriterium. Für die in ConQuest ermittelten Personenparameter (Logits) wurden zusätzlich die Standardfehler berechnet, um die Messgenauigkeit der beiden Testversionen in unterschiedlichen Bereichen des Leistungskontinuums festzustellen. Die Abbildung 1 zeigt den Zusammenhang zwischen Personenparameter und individuellem Standardfehler. Für beide Versionen ergibt sich, dass sie im mittleren bis oberen Leistungsbereich besser diskriminieren (kleine Standardfehler) als im unteren Bereich. Da die Standardabweichung der logits bei SD = 1.04 (Version 1) bzw. SD = .98 (Version 2) liegt, entspricht ein Standardfehler von 0.5 annähernd einer halben Standardabweichung, die auf dem nationalen Maßstab 50 Punkten entspricht. Für die Version 1 liegen die Standardfehler durchgängig um 0.1 Einheiten niedriger, dies passt zu den oben berichteten höheren Trennschärfen der Version 1 und der höheren Reliabilität. Version 1 führt demnach insgesamt zu etwas präziseren Schätzungen. Deskriptive Analysen Für die weiteren Analysen wurden die Rohwerte aus beiden Versionen entsprechend den Tabellen im Handbuch auf die nationale Metrik der Bildungsstandards transformiert. In der Eichstichprobe des IQB (vgl. Granzer et al., 2009) wurde der Mittelwert auf M = 500 und Validierung eines Instruments zur Erfassung mathematischer Kompetenzen 183 die Streuung auf SD = 100 festgelegt. In Tabelle 1 sind Mittelwerte und Streuungen getrennt für die Gruppen mit unterschiedlichen Testversionen im Fach Mathematik aufgeführt. Da die Zuweisung zu beiden Versionen zufällig erfolgte, ergeben sich erwartungskonform keine Mittelwertsunterschiede (multivariate Testung mit Schätzung der Schwellenparameter für die ordinal behandelten Noten in Mplus; Gleichsetzung der Parameter in beiden Gruppen: c 2 = 10.46, df = 13; c 2 / df = 0.805; TLI = 1.000; RMSEA = .000). Dies gilt insbesondere für die beiden Versionen des Mathematiktests, die trotz unterschiedlicher Testlängen gleiche Mittelwerte ergeben. Verglichen mit der Eichstichprobe des IQB schneiden die Schülerinnen und Schüler in beiden Testversionen signifikant schlechter ab. Dies zeigt sich in Mplus im schlechten Fit eines Modells, in dem die Mittelwerte beider Versionen auf 500 fixiert werden: c 2 = 18.30, df = 2, c 2 / df = 9.15; TLI = .757; RMSEA = .163; d = .33. Der Befund ist aufgrund der sozialen und kulturellen Benachteiligung in der Stichprobe plausibel, in der Höhe aber bemerkenswert, zumal die Schülerinnen und Schüler im September des Jahres getestet wurden, wohingegen die Eichstichprobe des IQB bereits zwischen April und Juni getestet wurde und dementsprechend im Mittel jünger war. Version 1 Version 2 Abb. 1: Zusammenhang zwischen Personenfähigkeit (Logit) und Standardfehler der Personenfähigkeit in beiden Testversionen 184 Olaf Köller et al. Die Intelligenzwerte liegen ebenfalls signifikant unter der CFT-Eichstichprobe (M = 100), der Effekt fällt hier aber kleiner aus (Modell mit beiden Mittelwerten = 100: c 2 = 13.83, df = 2; c 2 / df = 6.92; TLI = .824; RMSEA = .139; d = .18). Validitätsanalysen Im Folgenden werden die Zusammenhänge der Mathematikleistungen mit den übrigen berücksichtigten Leistungsvariablen berichtet. Zusätzlich werden auch die Zusammenhänge mit der sozialen Herkunft vorgestellt. Die Tabelle 2 zeigt die Koeffizienten. Oberhalb der Diagonale sind Koeffizienten für die Version 1 des Mathematiktests aufgeführt, unterhalb für die Version 2. Um festzustellen, ob sich die Zusammenhangsmuster in beiden Gruppen signifikant unterscheiden, wurde in Mplus ein Zwei-Gruppen- Modell gerechnet, in dem sämtliche Kovarianzen, Varianzen und Mittelwerte gleichgesetzt wurden. Ergänzend zur Tabelle 2 wurden dabei die Zusammenhänge mit der Schulform mit modelliert (s. u.). Die Fit-Statistiken für dieses Modell ( c 2 = 46.33, df = 47, c 2 / df = 0.986, TLI = 1.000, RMSEA = .000) stützen die Hypothese identischer Zusammenhangsstrukturen. Dementsprechend verzichten wir im Folgenden darauf, kleinere Unterschiede, die sich in den Mustern ergeben, zu interpretieren. Insgesamt zeigt sich ein klares, die Validität des Mathematiktests stützendes Bild. Der Test korreliert mit der letzten Zeugnisnote im Fach Mathematik höher als mit der Deutschnote. Version 1 Version 2 N M SD N M SD Mathematik 313 467.1 104.6 299 467.1 101.4 Lesen 310 100.3 29.6 290 99.8 30.6 Intelligenz (IQ) 310 97.0 14.3 299 97.7 15.4 Orthographie 299 8.05 5.00 290 8.37 5.11 Deutschnote 147 2.86 0.99 147 2.77 0.96 Mathematiknote 147 2.89 1.12 147 2.81 1.08 Anmerkungen: N: Stichprobengröße; M: Mittelwert; SD: Standardabweichung; keine der Mittelwertsdifferenzen ist signifikant. Tab. 1: Deskriptive Statistiken für verschiedene Leistungsmaße in den beiden Gruppen, welche die unterschiedlichen Versionen des Mathematiktests bearbeiteten (1) (2) (3) (4) (5) (6) (7) Mathematik (1) 1.00 .592 .494 .581 -.648 -.499 .206 Intelligenz (2) .615 1.00 .371 .491 -.511 -.425 .191 Orthografie (3) .456 .362 1.00 .535 -.528 -.675 .178 Lesen (4) .645 .531 .455 1.00 -.508 -.551 .265 Mathematiknote (5) -.623 -.485 -.444 -.550 1.00 .742 -.295 Deutschnote (6) -.575 -.448 -.639 -.578 .767 1.00 -.262 HISEI (7) .257 .212 .088 .322 -.331 -.269 1.00 Anmerkung: Mit Ausnahme des Koeffizienten von r = .088 sind alle Korrelationen signifikant (p < .05); HISEI: höchster sozioökonomischer Index in der Familie Tab. 2: Korrelationen zwischen den Leistungsmaßen und dem sozialen Hintergrund aufgebrochen nach den beiden Versionen des Mathematiktests; Version 1 über der Diagonale; Version 2 unter der Diagonale Validierung eines Instruments zur Erfassung mathematischer Kompetenzen 185 Um zu überprüfen, ob sich diese Differenz statistisch absichern lässt, wurden die Korrelationen zwischen den Leistungen und beiden Noten in beiden Gruppen gleichgesetzt. Für dieses Modell ergaben sich folgende Fit-Statistiken: ( c 2 = 6.152, df = 3, c 2 / df = 2.051, TLI = .968, RMSEA = .057, was hier als substanzielle Modellverschlechterung gegenüber dem saturierten Modell interpretiert wird. Die Korrelationen des Mathematiktests mit den übrigen Leistungsbzw. Intelligenztests liegen alle zwischen .50 und .65, dagegen fällt die Korrelation mit dem sozioökonomischen Index (HISEI) deutlich niedriger aus. Im nächsten Schritt wurde der Frage nachgegangen, inwieweit sich Schülerinnen und Schüler aus Gymnasien, Sekundar- und Gesamtschulen unterscheiden. Zusammenhänge können hier im Sinne der prognostischen Validität interpretiert werden. Erwartet wurden deutlich höhere Leistungen an Gymnasien. Sekundar- und Gesamtschülerinnen und -schüler wurden zu einer nichtgymnasialen Gruppe zusammengefasst, da sich ihre Leistungen nicht unterschieden. In der Version 1 erreichten Schülerinnen und Schüler an Gymnasien einen Mittelwert von M = 528.9 (SD = 104.1), in den nichtgymnasialen Bildungsgängen lag der Mittelwert bei M = 434.5 (SD = 89.2). Die Differenz entspricht einer punkt-biserialen Korrelation von r = .529 und ist hoch signifikant (z = 8.240, p < .001). Für die Version 2 ergeben sich folgende Größen: Gymnasium, M = 528.6, SD = 98.3; Nicht-Gymnasium, M = 435.3, SD = 87.7; r = .545, z = 7.458, p < .001). Führt man in Mplus eine Probit-Regressionsanalyse mit dem Kriterium Schulform (Gymnasium = 1; übrige = 0) und dem Prädiktor Mathematikleistung durch, so ergibt sich ein Pseudo- R 2 = .29 (Version 1) bzw. .28 (Version 2). Ergänzt man auf der Prädiktorseite die übrigen Leistungstests, so steigt der Pseudo-R 2 -Wert auf .40. Wiederum sprechen die Befunde dafür, dass sich die unstandardisierten Regressionskoeffizienten in beiden Gruppen nicht signifikant unterscheiden ( c 2 = 3.261, df = 4, c 2 / df = 0.804, TLI = 1.000; RMSEA = .003). Die für beide Gruppen gemeinsam geschätzten Probit-Koeffizienten, die in ihrer absoluten Höhe aufgrund unterschiedlicher Skalen der Prädiktoren schwer zu interpretieren sind, fallen wie folgt aus: Orthografie: b = .076, z = 5.023, p < .001; Intelligenz: b = .038, z = 3.401, p < .001; Lesen: b = .005, z = 1.615, p = .106; Mathematik: b = .003, z = 3.066, p < .002). Trotz erheblicher Multikollinearität bleibt die Mathematikleistung in ihrer prädiktiven Kraft für die nach der Grundschule besuchte Schulform statistisch signifikant. Kriteriale Interpretation der Testwerte Oben wurde beschrieben, dass sich Leistungsbereiche auf der nationalen Metrik kriterial mithilfe von Kompetenzstufen beschreiben lassen. In diesem Sinne kontrastiert die Abbildung 2 die erreichten Leistungen der hier untersuchten Schülerinnen und Schüler mit der national repräsentativen Kalibrierungsstichprobe des IQB (Viertklässler des Schuljahres 2006/ 2007; vgl. Reiss & Winkelmann, 2009). Zeigte sich für die Kalibrierungsstichprobe, dass 69 % der untersuchten Viertklässler die Leistungserwartungen der Bildungsstandards im Fach Mathematik am Ende der Grundschule erreichten oder übertrafen (Stufen III, IV und V), so beträgt dieser Anteil in der von uns untersuchten Stichprobe lediglich 50 %. Bemerkenswert ist der deutlich höhere Anteil derer, die selbst Mindeststandards nicht erreichen (24.5 % vs. 10 %). Diese Befunde belegen, dass ein hoher Förderbedarf bei den untersuchten Jungen und Mädchen besteht, was allerdings auch aufgrund des sozialen und ethnischen Hintergrundes zu erwarten war. In Abbildung 3 ist schließlich aufgeführt, wie sich die Schülerinnen und Schüler an Gymnasien und Nicht-Gymnasien auf die Kompetenzstufen verteilen. Es zeigt sich, dass die Stufen IV und V quasi allein von Kindern, die auf ein Gymnasium übergetreten sind, belegt werden. Allerdings finden sich auf den unteren beiden Stufen auch 25.7 % Gymnasiastinnen und Gymnasiasten. 186 Olaf Köller et al. Diskussion In der vorliegenden Arbeit wurde ein Instrument vorgestellt, mit dessen Hilfe Schülerinnen und Schüler auf der Basis der Bildungsstandards im Fach Mathematik in der Primarstufe getestet werden können. Durch seine kriteriale Verankerung auf den Kompetenzstufen erlaubt es zudem die Beschreibung, ob Schülerinnen und Schüler die für das Ende der 4. Jahrgangsstufe gesetzten Ziele der Standards erreichen, unterschreiten oder übertreffen. Beide Heftversionen erreichten Reliabilitäten, wie sie für gängige Instrumente zur Mathematikleistungsdiagnostik wie DEMAT 3+ und DEMAT 4 (vgl. Gölitz, Roick & Hasselhorn, 2005, 2006) be- Abb. 2: Schülerinnen und Schüler nach Erhebung und erreichter Kompetenzstufe im Mathematiktest Abb. 3: Schülerinnen und Schüler nach Bildungsgang und Kompetenzstufe Validierung eines Instruments zur Erfassung mathematischer Kompetenzen 187 richtet werden. Erwartungskonform erwiesen sich beide Versionen als eindimensional im Sinne des Raschmodells, schließlich stammten die Items aus einem entsprechend kalibrierten Itempool des IQB. Beide Instrumente führten in der Tat zu identischen Kompetenzschätzungen in den getesteten Schülergruppen. Zudem zeigten Mehrgruppenanalysen, dass die Zusammenhangsstruktur mit anderen Leistungsmaßen und dem sozialen Hintergrund für beide Versionen gleich war. Die erwartungskonform großen Leistungsvorteile der Gymnasialgegenüber den nichtgymnasialen Schülerinnen und Schüler ergaben darüber hinaus Hinweise auf die potenzielle Eignung des Instruments für die Schullaufbahndiagnostik. Einzelne Items zeigten aber auch unbefriedigende psychometrische Kennwerte, sodass mögliche Neuauflagen des Tests teilweise Austauschaufgaben enthalten sollten. Wir wollen im Folgenden die Befunde unter zwei Gesichtspunkten diskutieren. Zum einen soll der Einsatz solcher Standard-basierten Instrumente für die Schullaufbahndiagnostik beleuchtet werden, zum anderen wollen wir das Potenzial reflektieren, das solche Tests für schulinterne Lernausgangslagenuntersuchungen und Fördermaßnahmen haben können. Implikationen für eine Standard-basierte Schullaufbahnberatung Die Items des hier verwendeten Instruments wurden ursprünglich für den Einsatz in sogenannten Large-scale Assessments (LSA) eingesetzt. Ziel dieser LSA ist die Überprüfung, inwieweit Schülerinnen und Schüler in den 16 Bundesländern die Leistungserwartungen der Standards erfüllen. Typischerweise werden die Testergebnisse hier hoch aggregiert (auf Länderebene) vorgestellt, sodass die Standardfehler nicht zuletzt durch die gesättigten Stichprobenumfänge sehr klein sind. Verschiedentlich ist darauf hingewiesen worden, dass solche Instrumente für die Individualdiagnostik ungeeignet seien, da es ihnen auf Individualebene an Messgenauigkeit mangelt (vgl. Bos & Vos, 2008). Die vorliegenden Analysen zeigen, dass das Instrument mit Reliabilitäten von ≥ .80 ein Maß an Zuverlässigkeit erreicht, das dem von Tests, die typischerweise zur Individualdiagnostik im Schulkontext genutzt werden (z. B. DE- MAT 4, Gölitz et al., 2006), entspricht. Im Übrigen gilt dies auch für die Validität. Bemerkenswert ist weiterhin das Ergebnis in Abbildung 3, wonach quasi nur Schülerinnen und Schüler des Gymnasiums die Stufen IV und V erreichen. Das Erreichen dieser hohen Stufe legt nahe, dass ein Schüler/ eine Schülerin das Potenzial für den Übertritt auf das Gymnasium hat. Umgekehrt weisen die 25.7 % der Gymnasiastinnen und Gymnasiasten auf den Stufen I und II auch deutlich auf mögliche Fehlklassifikationen von Kindern mit Gymnasialpotenzial hin. Mit Blick auf den diagnostischen Prozess bei Übergangsentscheidungen von der Grundschule in die Sekundarstufe I bedeutet dies, dass die beiden hier verwendeten Tests eine zusätzliche Datenquelle über eine Schülerin/ einen Schüler liefern können. Gleichzeitig muss man sich im diagnostischen Prozess dessen bewusst sein, dass die Zuweisung zu Kompetenzstufen mit erheblicher Unschärfe verbunden sein kann (vgl. Tiffin-Richards, 2011). Die individuellen Standardfehler in Abbildung 1 implizieren bei mittleren Leistungen individuelle Vertrauensintervalle, die auf dem nationalen Maßstab bei 160 bis 200 Punkten liegen (± 2 x Standardfehler) und damit mehr als der Breite zweier Kompetenzstufen entsprechen. Man wird die Genauigkeit steigern können, indem Schülerinnen und Schüler beide Tests bearbeiten. Aber selbst bei einer Reliabilität von .90 und fünf Kompetenzstufen sind nach Ercikan und Julian (2002) 30 % Fehlklassifikationen zu erwarten. Die Analysen bei Tiffin-Richards (2011) auf der Basis der Ländervergleichsergebnisse (vgl. Köller et al., 2010) können hier ein wenig trösten, da dort Fehlklassifikationen um mehr als eine Stufe seltene Ereignisse (< 1 %) sind. Dies bestätigt die grundsätzliche Eignung solcher Tests. Wir möchten hier aber auch argumentieren, dass eine seriöse Einzelfalldiagnostik sich ohnehin nicht auf ein isoliertes Datum verlassen darf. 188 Olaf Köller et al. Implikationen für die Arbeit von Einzelschulen In der vorliegenden Arbeit wurde der Bildungsstandards-basierte Test zur Lernausgangslagendiagnostik zu Beginn der 5. Jahrgangsstufe genutzt. Die Befunde in den Abbildungen 1 und 2 belegen eindrucksvoll, dass substanzielle Anteile der Schülerinnen und Schüler Kompetenzniveaus erreichen, die weit unter den Erwartungen der Grundschule liegen (Stufen I und II). Dies ist ohne Frage dem Umstand geschuldet, dass hier eine sozial und kulturell benachteiligte Schülerschaft (fast 50 % mit Migrationshintergrund, niedriger sozioökonomischer Status) getestet wurde, bei der es offenbar in der Grundschule nicht gelungen ist, Fördermaßnahmen zu etablieren, damit die in den Standards formulierten Erwartungen erfüllt werden. Für den Unterricht in der Sekundarstufe I implizieren die Befunde, dass in vielen Klassen prioritäre Anstrengungen des Anfangs- oder Zusatzunterrichts in der Wiederholung und Festigung der Grundschulmathematik liegen sollten. Hier gewinnen Schulen ohne Frage Informationen, die sie davor schützen können, Defizite, die von den Jungen und Mädchen aus dem Primarbereich mitgebracht werden, weiter zu kumulieren, indem individuell Fördermaßnahmen geplant werden. Die Herausforderung besteht allerdings darin, dass wir über wenige gut evaluierte Förderprogramme zu Beginn der Sekundarstufe I verfügen. Die vorliegenden Programme (z. B. Krajewski, Renner, Nieding & Schneider, 2009) beziehen sich überwiegend auf den Vorschulbereich bzw. den Übergang vom Elementarin den Primarbereich. Ein zentrales Desiderat der vorliegenden Untersuchung besteht demnach darin, die Forschungs- und Entwicklungsanstrengungen im Bereich erfolgreicher Förderprogramme für die Sekundarstufe I zu verstärken. Die hier verwendeten Hefte können aber auch bereits in der 3. und 4. Jahrgangsstufe eingesetzt werden. Da sie die Skalierung der Leistungen auf dem nationalen Maßstab der Bildungsstandards erlauben, können sie natürlich auch alternativ im Sine von „Frühwarnsystemen“ verwendet werden, um Schulen Hinweise auf Schülerdefizite am Ende der 3. Jahrgangsstufe zu geben. Man wird hier einwenden können, dass VERA 3 dies genau leistet. Auf der anderen Seite hatten wir oben schon argumentiert, dass durch die gängige Praxis, die VERA-Ergebnisse an die Schulaufsicht weiterzugeben, die Gefahr der Test Score Inflation durch Teaching to the Test oder auch durch die systematische Unterstützung der Schülerinnen und Schüler bei der Testbearbeitung (Cheating) sehr hoch ist. Die Chance, dass Schulen im Rahmen von VERA 3 wirklich valide Förderinformation sammeln, scheint demnach in vielen Fällen eher gering zu sein. Durch ihren wiederholten Einsatz können die von uns vorgestellten Testversionen schließlich Auskunft geben, ob sich Leistungsstände, beispielsweise infolge von Fördermaßnahmen, verbessert haben. Zusammenfassend sollte das große Potenzial deutlich geworden sein, dass ein wissenschaftlich fundiertes Standard-basiertes Testinstrument für die Diagnostik mathematischer Kompetenzen haben kann, sei es für die Schullaufbahn- oder die Förderdiagnostik. Literatur Adams, R., Wilson, M. & Wu, M. (2006). Acer Conquest 2.0 [Software Programm]. Melbourne: ACER. Bos, W. & Voss, A. (2008). Empirische Schulentwicklung auf Grundlage von Lernstandserhebung - Ein Plädoyer für einen reflektierten Umgang mit Ergebnissen aus Leistungstests. Die Deutsche Schule, 100. 449 - 458. Cizek, G. J. (2006). Standard Setting. In S. M. Downing & T. M. Haladyna (Hrsg.), Handbook of Test Development (pp. 225 - 258). Mahwah, NJ: Erlbaum. Ercikan, K., & Julian, M. (2002). Classification accuracy of assigning student performance to proficiency levels: Guidelines for assessment design. Applied Measurement in Education, 15, 269 - 294. Ganzeboom, H. B. G., De Graaf, P. M., Treimann, D. J. & De Leeuw, J. (1992). A standard international socioeconomic index of occupational status. Social Science Research, 25, 201 - 239. Gölitz, D., Roick, T. & Hasselhorn, M. (2005). Deutsche Mathematiktests für dritte und vierte Klassen (DEMAT 3+ und DEMAT 4). In M. Hasselhorn, W. Schneider & H. Marx (Hrsg.), Diagnostik von Mathematikleistungen. Jahrbuch der pädagogisch-psychologischen Diagnostik, N. F. Band 4 (S. 167 - 186). Göttingen: Hogrefe. Gölitz, D., Roick, T. & Hasselhorn, M. (2006). DEMAT 4: Deutscher Mathematiktest für vierte Klassen. Göttingen: Hogrefe. Granzer, D., Köller, O., Bremerich-Vos et al. (2009). Bildungsstandards Deutsch und Mathematik. Leistungsmessung in der Grundschule. Weinheim: Beltz. Validierung eines Instruments zur Erfassung mathematischer Kompetenzen 189 Granzer, D., Walther, G., Winkelmann, H., Robitzsch, A. & Köller, O. (2008). Bildungsstandards: Kompetenzen überprüfen, Mathematik, Grundschule, Klasse 3/ 4. Berlin: Cornelsen. Hosenfeld, I. & Zimmer-Müller, M. (2009). Was VERA Lehrern sagen kann. Schule im Blickpunkt, Heft 6, S. 8 - 10. Klieme, E., Artelt, C., Hartig, J., Jude, N., Köller, O., Prenzel, M., Schneider, W. & Stanat, P. (Hrsg.) (2010). PISA 2009. Bilanz nach einem Jahrzehnt. Münster: Waxmann. Klieme, E., Leutner, D. & Kenk, M. (Hrsg.) (2010). Kompetenzmodellierung. Zwischenbilanz des DFG- Schwerpunktprogramms und Perspektiven des Forschungsansatzes. Zeitschrift für Pädagogik, 56. Beiheft. Weinheim: Beltz. KMK (2004). Bildungsstandards im Fach Mathematik für den Primarbereich. Beschluss der Kultusministerkonferenz vom 15. 10. 2004. München: Luchterhand. Köller, O. (2010). Standardsetzung im Bildungssystem. In H. Reinders., H. Ditton, C. Gräsel & B. Gniewosz (Hrsg.), Empirische Bildungsforschung. Strukturen und Methoden (S. 179 - 192) Wiesbaden: VS Verlag. Köller, O., Knigge, M. & Tesch, B. (Hrsg.) (2010). Sprachliche Kompetenzen im Ländervergleich. Münster: Waxmann. Koretz, D. (2005): Alignment, high stakes, and the inflation of test scores. Yearbook of the National Society for the Study of Education, 104, 99 - 118. Krajewski, K., Renner, A., Nieding, G. & Schneider, W. (2009). Frühe Förderung von mathematischen Kompetenzen im Vorschulalter. Zeitschrift für Erziehungswissenschaft, 11, 91 - 103. Lehmann, R. H. & Peek, R. (1997). Aspekte der Lernausgangslage von Schülerinnen und Schülern der fünften Klassen an Hamburger Schulen. Hamburger Schulbehörde. Lüdtke, O., Robitzsch, A., Trautwein, U. & Köller, O. (2007). Umgang mit fehlenden Werten in der psychologischen Forschung: Probleme und Lösungen. Psychologische Rundschau, 58, 103 - 117. Muthén, L. K. & Muthén, B. (2010). Mplus. Statistical analysis with latent variables. User’s guide. Sixth Edition. Los Angeles, CA: Muthén & Muthén. Pant, H. A., Tiffin-Richards, S. P. & Köller, O. (2010). Standard-Setting für Kompetenztests im Large-Scale- Assessment. Zeitschrift für Pädagogik, Beiheft 56, 175 - 188. Reiss, K. & Winkelmann, H. (2009). Kompetenzstufenmodelle für das Fach Mathematik im Primarbereich. In D. Granzer, O. Köller, A. Bremerich-Vos et al. (Hrsg.), Bildungsstandards Deutsch und Mathematik. Leistungsmessung in der Grundschule (S. 120 - 141). Einheim: Beltz. Rost, J. (2004). Lehrbuch Testtheorie, Testkonstruktion. Bern: Huber. Rubin, D. B. (1987). Multiple imputation for nonresponse in surveys. New York: Wiley. Tiffin-Richards, S. P (2011). Setting standards for the assessment of English as a foreign language: Establishing validity evidence for criterion-referenced interpretations of test-scores. Dissertation. Berlin: Freie Universität. Weiß, H. (1997). Grundintelligenztext CFT 20. Göttingen: Hogrefe. Winkelmann, H., Robitzsch, A., Stanat, P. & Köller, O. (2012). Mathematische Kompetenzen in der Grundschule: Struktur, Validierung und Zusammenspiel mit allgemeinen kognitiven Fähigkeiten. Diagnostica, 58, 15 - 30. Prof. Dr. Olaf Köller Leibniz-Institut für die Pädagogik der Naturwissenschaften und Mathematik (IPN) Olshausenstr. 62 24118 Kiel Tel.: (04 31) 8 80 31 11 Fax: (04 31) 8 80 51 21 E-Mail: koeller@ipn.uni-kiel.de Dr. Getraud Eßel-Ullmann Volksschule Lipprichhausen-Gollhofen Grundschule Schulstr. 42 97258 Hemmersheim Tel.: (0 98 48) 5 14 Fax: (0 98 48) 18 41 E-Mail: vs.lipprichhausen@t-online.de Dr. Daniel Paasch Universität Augsburg Zentralinstitut für didaktische Forschung und Lehre Universitätsstraße 10 86159 Augsburg Tel.: (08 21) 5 98 55 27 Fax: (08 21) 5 98 14 55 22 E-Mail: daniel.paasch@zdfl.uni-augsburg.de „Stufe I (Punktwerte unter 390) Einfache mathematische Begriffe und Prozeduren sind bekannt und können in einem innermathematischen Kontext bzw. in einem aus dem Alltag vertrauten oder gut geübten Kontext korrekt reproduziert werden. Insbesondere werden grundlegende Begriffe der ebenen Geometrie und gängige Repräsentanten standardisierter Einheiten richtig verwendet. Kleinere Zahlen können in Bezug auf ihre Größe verglichen werden, Zahldarstellungen in Anhang 1 Beschreibung der Kompetenzstufen im Fach Mathematik für die Primarstufe (4. Klasse); aus Reiss und Winkelmann (2009, S. 127f ) 190 Olaf Köller et al. Stellentafeln werden sicher gelesen. Die Grundaufgaben des kleinen Einspluseins und Einmaleins werden beherrscht und bei halbschriftlichen und schriftlichen Rechenverfahren genutzt, wenn die Aufgabenstellungen keine besonderen Schwierigkeiten aufweisen. Klar strukturierten Diagrammen, Schaubildern und Tabellen mit Bezug zur Lebenswirklichkeit können relevante Daten entnommen werden. Stufe II (Punktwerte von 390 -459) Die Struktur des Dezimalsystems wird genutzt, Gesetzmäßigkeiten werden erkannt und bei der Fortsetzung einfacher Zahlenfolgen, beim strukturierten Zählen und systematischen Probieren berücksichtigt. Aufgaben zur Addition, Subtraktion und Multiplikation werden halbschriftlich und schriftlich durchgeführt, Überschlagsrechnungen werden durchgeführt. Insbesondere können in diesem Zusammenhang einfache Sachaufgaben gelöst werden. Aus dem Alltag vertraute proportionale Zuordnungen werden erkannt und angewendet. Bei einfachem Zahlenmaterial wird das Umwandeln von Größen in gegebene Einheiten auch bei gemischten Größenangaben durchgeführt. Grundbegriffe der räumlichen Geometrie werden korrekt verwendet, wenn diese einen Bezug zum Alltag haben. Räumliche Beziehungen werden zur Lösung einfacher Probleme genutzt. Wesentliche Grundbegriffe aus dem Umfeld von Zufall und Wahrscheinlichkeit werden korrekt verwendet (,sicher‘, ,unmöglich‘, ,wahrscheinlich‘). Stufe III (Punktwerte von 460 -529) Das erlernte Wissen kann flexibel in unterschiedlichen Problemstellungen genutzt werden, die einem vertrauten Kontext zuzuordnen sind. Insbesondere wird mit Zahlen und Operationen im curricularen Umfang sicher umgegangen, Überschlagsrechnungen werden auch bei großen Zahlen sicher durchgeführt. Strukturelle Aspekte werden bei gut geübten Inhalten gesehen und können kommuniziert werden. Das betrifft auch Inhalte der Geometrie, wobei etwa zwischen verschiedenen Darstellungsformen einer Figur vermittelt werden kann. Einfache Sachsituationen werden modelliert und die damit verbundenen Problemstellungen gelöst. Daten und Informationen können in bekanntem Kontext flexibel dargestellt werden. Bei nicht allzu komplexen Zufallsexperimenten werden Gewinnchancen korrekt eingeschätzt und begründet. Stufe IV (Punktwerte von 530 -599) Auch in einem wenig vertrauten Kontext wird mathematisches Wissen sicher angewendet. Eigene Vorgehensweisen werden korrekt beschrieben, die Lösungswege anderer Kinder werden verstanden und reflektiert. Das Rechnen wird im curricularen Umfang in allen Varianten sicher beherrscht. Begriffe der ebenen und räumlichen Geometrie werden flexibel verwendet. Zahldarstellungen in Stellenwerttafeln können auch bei sehr großen Zahlen nach Vorschrift selbstständig manipuliert und systematisch verändert werden. Das Rechnen mit Größen ist sicher und flexibel und umfasst insbesondere Näherungsrechnungen und Überschlagsrechnungen. Informationen aus unterschiedlichen Quellen können in einen Zusammenhang gestellt und in Modellierungsaufgaben selbstständig verwendet und manipuliert werden. Stufe V (Punktwerte ab 600) Mathematische Problemstellungen werden auch in einem unbekannten Kontext angemessen, sicher und flexibel bearbeitet. Dabei werden geeignete Strategien, sinnvolle Bewertungen oder Verallgemeinerungen auf hohem Niveau geleistet. Umfangreiches curricular verankertes Wissen wird in ungewohnten Situationen flexibel genutzt. Das Vorgehen kann sicher und nachvollziehbar kommuniziert und begründet werden. Komplexe Sachsituationen werden modelliert und bearbeitet, wobei besondere Schwierigkeiten wie die Verwendung von Tabellen, der Umgang mit zusammengesetzten Größen oder das Rechnen mit Zahlen in Kommaschreibweise auftreten können. Es können auch ungewohnte funktionale Zusammenhänge analysiert und genutzt werden. Die Lösung von Aufgaben kann ein hohes Maß an räumlichem Denken oder entsprechende analytische Fähigkeiten voraussetzen.“
