Psychologie in Erziehung und Unterricht
3
0342-183X
Ernst Reinhardt Verlag, GmbH & Co. KG München
10.2378/peu2018.art31d
3_066_2019_4/3_066_2019_4.pdf101
2019
664
Empirische Arbeit: Zur Messgüte von geschlossenen und offenen Antwortformaten in Lernstandserhebungen
101
2019
Johannes Schult
Marlit Annalena Lindener
In schulischen Large-Scale-Assessments kommen häufig verschiedene Aufgabentypen zum Einsatz. Aufgaben mit geschlossenem Antwortformat haben gegenüber Aufgaben mit offenem Antwortformat große Vorteile hinsichtlich der Auswertungsobjektivität. Landesweite Lernstandserhebungen werden oft nicht zentral von geschultem Personal ausgewertet, sondern von Lehrkräften vor Ort. Die vorliegende Arbeit untersucht formatspezifische Validitätsunterschiede anhand eines Instruments zur Diagnose mathematischer Kompetenzen aus der Domäne Zahlen und Operationen. Die Analyse basiert auf Teilen der „Lernstand 5“-Pilotierungsstichprobe 2016 (n=1205 Viertklässlerinnen und Viertklässler). Aus den offenen und geschlossenen Testaufgaben wurden jeweils formatspezifische Skalen mit gleicher Aufgabenanzahl und vergleichbarer Reliabilität gebildet. Für beide Formate zeigten sich Validitätshinweise bezüglich der Mathematiknote (rgeschlossen=.57; roffen=.60). Der Validitätskoeffizient der (offenen) Kurzantwort-Skala unterschied sich dabei nicht signifikant von dem der geschlossenen Multiple-Choice-Skala (delta r=0.03, p=.15). Die Ergebnisse deuten darauf hin, dass die Auswertung von Lernstandserhebungen durch Lehrkräfte bei offenen und geschlossenen Aufgaben gleichermaßen zu validen Messungen führen kann.
3_066_2019_4_0003
n Empirische Arbeit Psychologie in Erziehung und Unterricht, 2019, 66, 260 -272 DOI 10.2378/ peu2018.art31d © Ernst Reinhardt Verlag München Basel Zur Messgüte von geschlossenen und offenen Antwortformaten in Lernstandserhebungen Johannes Schult 1 , Marlit Annalena Lindner 2 1 Landesinstitut für Schulentwicklung Stuttgart 2 Leibniz-Institut für die Pädagogik der Naturwissenschaften und Mathematik (IPN) Kiel Zusammenfassung: In schulischen Large-Scale-Assessments kommen häufig verschiedene Aufgabentypen zum Einsatz. Aufgaben mit geschlossenem Antwortformat haben gegenüber Aufgaben mit offenem Antwortformat große Vorteile hinsichtlich der Auswertungsobjektivität. Landesweite Lernstandserhebungen werden oft nicht zentral von geschultem Personal ausgewertet, sondern von Lehrkräften vor Ort. Die vorliegende Arbeit untersucht formatspezifische Validitätsunterschiede anhand eines Instruments zur Diagnose mathematischer Kompetenzen aus der Domäne Zahlen und Operationen. Die Analyse basiert auf Teilen der „Lernstand 5“-Pilotierungsstichprobe 2016 (n = 1205 Viertklässlerinnen und Viertklässler). Aus den offenen und geschlossenen Testaufgaben wurden jeweils formatspezifische Skalen mit gleicher Aufgabenanzahl und vergleichbarer Reliabilität gebildet. Für beide Formate zeigten sich Validitätshinweise bezüglich der Mathematiknote (r geschlossen = .57; r offen = .60). Der Validitätskoeffizient der (offenen) Kurzantwort-Skala unterschied sich dabei nicht signifikant von dem der geschlossenen Multiple-Choice-Skala ( Δ r = 0.03, p = .15). Die Ergebnisse deuten darauf hin, dass die Auswertung von Lernstandserhebungen durch Lehrkräfte bei offenen und geschlossenen Aufgaben gleichermaßen zu validen Messungen führen kann. Schlüsselbegriffe: Antwortformat, Multiple-Choice-Aufgaben, Mathematikkompetenz, Validität, Grundschule Psychometric Properties of Multiple-Choice and Constructed Response Formats in Proficiency Tests Summary: Educational large-scale assessments often employ various different response formats. Objective scoring rules are an advantage of multiple-choice (MC) items over constructed response (CR) items. State-wide educational assessments are often coded by the teachers on location rather than centrally by trained raters. The present study investigates format-specific differential validity, using a mathematics competency assessment in the domain of numbers and operations. The analysis is based on a subsample of the “Lernstand 5” pilot study 2016 (n = 1205 fourth-graders). Using MC items and short answer (CR) items respectively, format-specific scales were created with the same number of items per scale and comparable reliabilities. Both format-specific scales showed good criterion validity (r MC = .57; r CR = .60) with the Mathematics grade. The short answer scale’s validity did not differ significantly from the MC scale’s validity ( Δ r = 0.03, p = .15). These results support the conclusion that teacher-coded assessments with both response formats can yield a valid measurement in educational large-scale assessments. Keywords: Response format, multiple-choice items, mathematics proficiency, validity, elementary school Bei der Erfassung von Kompetenzen in schulischen Large-Scale Assessments wie beispielsweise der Trends in International Mathematics and Science Study (TIMSS; vgl. z. B. Martin, Mullis & Foy, 2013) werden typischerweise Testaufgaben mit verschiedenen Antwortformaten eingesetzt. Diese lassen sich in zwei übergeordnete Kategorien einteilen (vgl. Waugh & Zur Messgüte von geschlossenen und offenen Antwortformaten in Lernstandserhebungen 261 Gronlund, 2013): (a) geschlossene Antwortformate (bei denen Antwortoptionen vorgegeben sind, aus denen die Testperson die richtige[n] Antwort[en] auswählen soll; nachfolgend MC abgekürzt gemäß der gängigsten Variante multiple-choice) und (b) offene Antwortformate (bei denen die Testperson die Antwort selbst formulieren bzw. konstruieren muss; constructed response [CR]). Während es beispielsweise bei Lesekompetenzmessungen in sprachlichen Fächern oftmals CR-Aufgaben gibt, die ausführliche Erörterungen erfordern, die mehrere Sätze umfassen (Essay-Format), verlangen mathematische CR-Aufgaben in der Grundschulmathematik, wie sie in der vorliegenden Studie betrachtet werden, meistens Kurzantworten, die aus Antwortzahlen oder notierten Rechnungen bestehen. Ein essenzieller Vorteil geschlossener Formate liegt darin, dass sich diese sehr effizient und objektiv auswerten lassen, wodurch wertvolle Zeit aufseiten des pädagogischen Personals an Schulen sowie von Kodierern im Rahmen von Schulleistungsstudien eingespart werden kann. Ein oft benannter Nachteil des MC-Formates bezieht sich dagegen auf die Gefahr, durch Raten zu besseren Punktwerten zu kommen, was jedoch durch sorgfältig konstruierte Aufgaben mit attraktiven falschen Antworten (Distraktoren), durch Maßnahmen im Rahmen der Skalierung oder durch anderweitige statistische Prozeduren effektiv ausgeschlossen werden kann (vgl. z. B. Lukas, Melzer, Much & Eisentraut 2017). Faktische Nachteile des MC-Formates liegen in der vergleichsweise aufwendigen und schwierigen Konstruktion guter Aufgaben sowie einer inhaltlichen Grenze, was die Erfassung von kreativen und schöpferischen Leistungen - jedoch nicht von höheren kognitiven Lernzielen per se - angeht (Lindner, Strobel & Köller, 2015). Aufgaben mit offenem Antwortformat können im Gegensatz zu MC-Aufgaben bei mangelndem Wissen typischerweise nicht zufällig durch (systematisches) Raten gelöst werden. Sie scheinen daher gerade im schulischen Bereich eine höhere Akzeptanz seitens der Beteiligten (u. a. Schulkinder, Lehrkräfte, Schulleitung, Eltern, Kultusverwaltung, Fachdidaktik) zu genießen. Ein großer Vorteil von CR-Aufgaben liegt in der Möglichkeit, diese Aufgaben besonders effizient erstellen zu können. Bei der Durchführung liefern Aufgaben im CR-Format allerdings nicht zuletzt aufgrund des zusätzlichen Schritts der Antwortformulierung durch die testbearbeitenden Personen weniger diagnostische Information pro Testzeiteinheit. So waren beispielsweise in einem Naturwissenschaftstest für fünfte Klassen CR-Aufgaben mit Kurzantwort weniger als halb so effizient wie MC-Aufgaben. Die Effizienz (d. h. die Information pro Testminute) betrug konkret 0.11 für MC-Aufgaben, 0.04 für die Kurzantwort-CR-Aufgaben und 0.07 für Essay-CR-Aufgaben (n = 1185; Wan & Henly, 2012). Ein weiterer potenzieller Nachteil von CR-Aufgaben liegt darin, dass die Kompetenzerfassung im Rahmen der Bewertung von Testergebnissen anfälliger für Verzerrungen ist, da die Kodierung offener Aufgaben viel Erfahrung und Sorgfalt erfordert (vgl. Waugh & Gronlund, 2013). Dies wird im Rahmen großer Bildungsstudien durch professionell geschultes Kodierpersonal sichergestellt, kann im alltäglichen Schulgeschehen oder an Universitäten wohl aber nicht immer gewährleistet werden. Trotz dieser teilweise gegensätzlichen Eigenschaften von MC- und CR-Formaten ähneln sich die Aufgabentypen dennoch hinsichtlich ihrer Messgüte in vielen Aspekten, sofern von einer sorgfältigen Konstruktion insbesondere der schwieriger zu erstellenden geschlossenen Aufgabenformate ausgegangen werden kann (vgl. Lindner et al., 2015). Formatspezifische Skalen korrelieren gewöhnlich hoch miteinander und können häufig auch durch einen gemeinsamen latenten Faktor modelliert werden (Hohensinn & Kubinger, 2011; Rodriguez, 2003). Gegenüber Außenkriterien finden sich zudem ähnliche Validitätskoeffizienten. So zeigte sich zwar beispielsweise bei Analysen der Aufgaben aus TIMSS 2006 eine signifikant höhere Validität bezüglich der Mathematiknoten für MC-Aufgaben als für CR-Aufgaben; diese differenzielle Validität wies jedoch nur eine sehr kleine Effektgröße auf, die in der Praxis kaum relevant sein 262 Johannes Schult, Marlit Annalena Lindner dürfte (r MC = -.55, r CR = -.53; Δ r = -0.02, q = -0.03, p = .017 bei n = 5111 Kindern der vierten Klassenstufe; Schult & Sparfeldt, 2018). Bei den CR-Aufgaben in TIMSS mussten teilweise Antwortzahlen oder Rechnungen notiert, teilweise aber auch Schaubilder gemalt werden 1 . Wie schon in ähnlicher Art und Weise im angloamerikanischen Sprachraum gezeigt (Lee, Liu & Linn, 2011), fiel auch bei den deutschen TIMSS- Aufgaben die Reliabilität für MC-Aufgaben im mittelhohen Leistungsbereich höher aus, wohingegen an den beiden Enden des Leistungsspektrums die CR-Aufgaben genauere Messungen lieferten (Schult & Sparfeldt, 2018). Während allerdings bei der TIMS-Studie geschultes und von den testbearbeitenden Schülerinnen und Schülern unabhängiges, externes Personal die Antworten kodierte, werden Klassenarbeiten sowie diverse schulübergreifende Vergleichsarbeiten üblicherweise von den jeweils unterrichtenden Lehrkräften vor Ort ausgewertet (vgl. Lorenz, 2005). Die Kodierung von MC-Antworten ist in diesem Kontext für gewöhnlich unproblematisch, da das Vorgehen bei der Eingabe sowie die richtige(n) Antwort(en) unter den vorgegebenen Optionen eindeutig in der Auswertungsanleitung festgeschrieben sind. Dagegen ist die Auswertung von CR-Aufgaben aufgrund einer höheren Ambiguität der von den Schülerinnen und Schülern frei verfassten Antworten potenziell anfälliger für Beurteilungsfehler, was auch im Falle schulübergreifender Leistungsstudien zutreffen könnte. Verschiedene Beurteilungsfehler könnten hierbei eine Rolle spielen, wenn beispielsweise basierend auf dem Ökonomieprinzip bestimmte Urteilsheuristiken angewendet werden, um zu schnelleren Einschätzungen zu gelangen oder um nicht eindeutige Informationen zu bewerten bzw. zu kategorisieren (vgl. Tversky & Kahneman, 1974). Beispielsweise könnte eine Lehrkraft im Sinne des Halo-Effekts (d. h. ein überstrahlendes Personenmerkmal beeinflusst andere zu beurteilende, davon unabhängige Attribute; vgl. z. B. Nisbett & Wilson, 1977) eine uneindeutige Antwort in Abhängigkeit vom allgemeinen Leistungsniveau des Schulkindes deuten (vgl. Waugh & Gronlund, 2013). Eine mangelnde Auswertungsobjektivität bei CR-Aufgaben kann durch situative irrelevante Konstrukte bedingt sein. Uneinheitliche Auswertungen wiederum führen gewöhnlich zu einer verminderten Reliabilität. Dadurch sinkt zwangsläufig die Validität. Ein Konstrukt kann nur präzise gemessen werden, wenn die Messung reliabel ist (Carmines & Zeller, 1979). Durch eine verminderte Reliabilität kann sich zudem die Skalierung der Aufgaben verschieben. Bereits bekannt ist, dass Abweichungen in der Lehrkraftkodierung gegenüber einer strikt Manual-getreuen Auswertung von schulischen Vergleichsarbeiten im Fach Mathematik eher zu erhöhten Kompetenzschätzungen führen (Spoden, Fleischer & Leutner, 2014). Zudem zeigte sich bei der Auswertung und Benotung einer Mathematikarbeit der vierten Klasse durch n = 131 Grundschullehrkräfte eine substanzielle Streuung, die bis zu 2.75 Notenstufen umfasste (Birkel, 2005). Dabei enthielt das Aufgabenmaterial sowohl reine Rechenaufgaben als auch Sachaufgaben (z. B. „Frau Moser hat für 20 Knäuel Wolle 110 DM bezahlt. Sie braucht für den Pullover aber nur 16 Knäuel. Die restlichen gibt sie zurück. Wie viel Geld erhält sie dafür? “; Birkel, 2005, S. 48). Der Befund verdeutlicht, dass die Auswertungsobjektivität bei offenen Aufgaben nicht nur in sprachlichen Fächern teils problematisch ist, sondern auch in der vermeintlich eindeutigen Grundschulmathematik. Bei CR-Aufgaben kann zudem die Lesbarkeit der Handschrift oder der schriftliche Ausdruck die Bewertung der Antwort in unerwünschter Art und Weise beeinflussen und Konstrukt-irrelevante Varianz erzeugen (vgl. Haladyna; 2006; Haladyna & Downing, 2004), da diese Fähigkeiten im Regelfall nicht Teil des zu messenden Konstruktes sind. Gerade die Leserlichkeit der notierten Ergebnisse ist bei numerischen Kurzantworten eine potenzielle Störvarianzquelle, wenn undeutlich geschriebene Ziffern im Wissen um die korrekte Antwortzahl zu kodieren sind. 1 Beispielaufgaben siehe https: / / timssandpirls.bc.edu/ TIMSS2007/ PDF/ T07_AF_appendixB.pdf, Abruf am 13. 12. 2018. Zur Messgüte von geschlossenen und offenen Antwortformaten in Lernstandserhebungen 263 Ziele und Fragestellungen Basierend auf den vorgestellten theoretischen Annahmen und empirischen Befunden geht die vorliegende Arbeit der Forschungsfrage nach, wie groß mögliche formatspezifische Validitätsunterschiede zwischen MC- und CR-Aufgaben ausfallen, wenn Lehrkräfte die Testaufgaben im Rahmen von schulvergleichenden Kompetenztestungen selbstverantwortlich auswerten. Wir erwarten hierbei grundsätzlich, dass sowohl MCals auch CR-Aufgabenformate (hier konkret Aufgaben mit Kurzantworten) im Rahmen eines mathematischen Kompetenztests bezogen auf die Schulnoten im Fach Mathematik valide sind. Dies sollte sich in einer großen Effektstärke nach Cohen (1988) mit einer Korrelation von |r| > .50 des Testwertes im Leistungstest mit der fachspezifischen Schulnote ausdrücken. Möglicherweise verzerren jedoch die oben genannten Beurteilungseffekte die Auswertung der offenen Aufgaben systematisch aufgrund größerer Spielräume bei der Interpretation und Bewertung der von den Schülerinnen und Schülern selbst geschriebenen Antworten gegenüber standardisierten, anzukreuzenden MC-Antworten, wodurch die Messgüte von Aufgaben mit offenem Antwortformat gegenüber Aufgaben mit geschlossenem Antwortformat reduziert sein könnte. Konkret wäre in diesem Fall ein CR-Vorteil bei der notenbezogenen Validität zu erwarten (d. h. ein höherer Korrelationskoeffizient von Testwert und Note), da die Kodierung des Kompetenztests und die fachspezifische Notengebung von derselben Person stammen, nämlich von der unterrichtenden Fachlehrkraft. Zudem sollte unter Annahme einer formatspezifischen Verzerrung die Korrelation zwischen der CR-Skala und der (gegen Kodierungsfehler besser geschützten) MC-Skala deutlich kleiner ausfallen im Vergleich zu dem von Rodriguez (2003, S. 178) berichteten meta-analytischen Mittel einer (korrigierten) Korrelation in Höhe von r = .84 für den Fall inhaltlich kohärenter, aber nicht exakt äquivalent formulierter Skalen im MC- und CR-Format. Methode Stichprobe „Lernstand 5“ ist ein Verfahren des Landes Baden- Württemberg, an dem landesweit alle weiterführenden Schulen zu Beginn der fünften Klasse teilnehmen. Ein zentraler Bestandteil ist dabei die Erfassung von ausgewählten Kompetenzen der Bildungsstandards in Mathematik 2 . Zur Beantwortung unserer Forschungsfrage wurde die Kompetenzmessung im Rahmen der „Lernstand 5“-Pilotierung aus dem Jahr 2016 verwendet. Die Pilotierungsstichprobe wurde am Ende der vierten Klasse erhoben, um das Aufgabenmaterial für die 14 Monate später folgende Haupterhebung zu Beginn der fünften Klasse zu erproben. Die an der Pilotierung teilnehmenden Grundschulen wurden computerbasiert zufällig aus allen öffentlichen, allgemeinbildenden Grundschulen des Landes gezogen. Sie waren verpflichtet, mit jeweils einer vorab spezifizierten Klasse teilzunehmen, um Selbstselektionseffekten vorzubeugen. Die Erhebung fand während der regulären Unterrichtszeit statt. Insgesamt gab es 12 verschiedene Testheftversionen. Jeder Klasse wurde eine dieser Versionen randomisiert zugeteilt. Die Testhefte bestanden jeweils aus 40 Aufgaben (14 Aufgaben zum Zahlverständnis, 14 Aufgaben zum Operationsverständnis und 12 Rechenaufgaben; Letztere nur im CR-Format). Die Reihenfolge der drei Aufgabenbereiche variierte zwischen den Testheftversionen. Pro Aufgabenbereich standen den Kindern 20 Minuten Bearbeitungszeit zur Verfügung. Zwischen den zu bearbeitenden Teilbereichen gab es jeweils eine fünfminütige Pause. Für die vorliegende Studie wurde eine Teilstichprobe von n = 1209 Kindern (49,3 % Mädchen) aus der Pilotierungsstudie 2016 analysiert (N = 4900 Kinder). Im Jahr 2016 war der Anteil der pilotierten MC-Aufgaben im Vergleich zu allen Vorjahren am höchsten (39 von 168 Aufgaben), weshalb sich diese Aufgabenstichprobe besonders gut für die Beantwortung der aktuellen Fragestellung eignete. Konkret gab es in 3 der 12 Testhefte hinreichend viele MC-Aufgaben, um daraus eine neue formatspezifische „MC-Skala“, bestehend aus acht Aufgaben, zu bilden, die zu gleichen Teilen den Bereichen Zahl- 2 „Lernstand 5“ wird vom Landesinstitut für Schulentwicklung entwickelt und durchgeführt. Neben der kompetenzbezogenen Lernstandsdiagnose (Ebene I) werden bei dem Verfahren Förderangebote für das gesamte Leistungsspektrum bereitgestellt (Ebene II; vgl. http: / / www.lernstand5-bw.de, Abruf am 13. 12. 2018). 264 Johannes Schult, Marlit Annalena Lindner und Operationsverständnis zuzuordnen sind. Daher sind in unseren Analysen nur Kinder eingeschlossen, die eines der drei geeigneten Testhefte bearbeiteten. Die Zusammenstellung der betreffenden Blöcke in den drei analysierten Testheften ist in Abbildung 1 illustriert. Durch das Multimatrix-Design der 12 Pilotierungshefte, welches eine hohe Ähnlichkeit zu den in TIMSS verwendeten Erhebungsdesigns aufweist (vgl. Martin et al., 2013), sind alle Aufgabenblöcke in jeweils 2 der 12 Testhefte enthalten (vgl. z. B. die Überlappungen von Block 1 und 4 in Abb. 1). Dies ermöglicht eine gemeinsame Skalierung der Testhefte. Erfassung mathematischer Kompetenzen Die Konzeption der beiden Kompetenzbereiche Zahlverständnis (ZV) und Operationsverständnis (OV) im „Lernstand 5“ orientiert sich an dem Bereich Zahlen und Operationen des Kompetenzstufenmodells zu den Bildungsstandards der Kultusministerkonferenz (KMK, 2013). Dabei handelt es sich um zentrale inhaltsbezogene mathematische Kompetenzen, die sich gewöhnlich bis zum Ende der vierten Klasse ausbilden sollten. Sie sind grundlegend für die weiteren mathematischen Lernprozesse in der Sekundarstufe I (Schulz, Leuders & Rangel, 2017). Der Kompetenzbereich Zahlverständnis bezieht sich auf den Teilbereich Zahldarstellungen und Zahlbeziehungen verstehen. Dabei geht es darum, flexibel zwischen verschiedenen Zahldarstellungen zu wechseln, sicher mit dem Stellenwertsystem umzugehen sowie Zahlbeziehungen zu erkennen und korrekt zu nutzen (d. h. mathematische Aufgabenstellungen nicht nur schematisch zu bearbeiten, sondern bestimmte Zahleigenschaften zu nutzen, um beispielsweise Berechnungen zu erleichtern). Das Operationsverständnis orientiert sich am Teilbereich Rechenoperationen verstehen und beherrschen. Dabei geht es darum, alltagsnah beschriebene Situationen in passende Rechenoperationen zu übersetzen und umgekehrt Alltagssituationen zu benennen, die zu spezifischen Operationen passen. ZV und OV werden im „Lernstand 5“ separat skaliert und rückgemeldet, da es für beide Bereiche spezifische Förderangebote gibt 3 . Im Gegensatz dazu wurden in der vorliegenden Studie beide Teilbereiche gemeinsam skaliert, um eine hinreichend große Anzahl an MC- und CR-Aufgaben für die Bildung formatspezifischer Skalen zu erhalten. Inhaltlich ist eine gemeinsame Skalierung durchaus vertretbar, da ZV und OV sich konzeptuell überlappen und aufeinander aufbauen (Rasch & Schütte, 2007). 3 Details zur Konzeption sowie weitere Aufgabenbeispiele finden sich bei Schulz et al. (2017). Heft 5 (n = 401) Block 1 (ZV) - 2 MC-Items - 5 CR-Items Block 2 (ZV) - 2 MC-Items - 5 CR-Items Block 3 (OV) - 1 MC-Item - 6 CR-Items Block 4 (OV) - 3 MC-Items - 4 CR-Items Heft 9 (n = 380) Block 5 (OV) - 2 MC-Items - 5 CR-Items Block 4 (OV) - 3 MC-Items - 4 CR-Items Block 6 (ZV) - 2 MC-Items - 5 CR-Items Block 7 (ZV) - 2 MC-Items - 5 CR-Items Heft 11 (n = 428) Block 1 (ZV) - 2 MC-Items - 5 CR-Items Block 8 (ZV) - 4 MC-Items - 3 CR-Items Block 9 (OV) - 3 MC-Items - 4 CR-Items Block 10 (OV) - 1 MC-Item - 6 CR-Items Abb. 1: Ursprüngliche Verteilung der „Zahlen und Operationen“-Aufgaben auf die drei Testhefte (überlappendes Matrix-Design, bei dem Block 1 und Block 4 jeweils in zwei Testheften enthalten sind); die ebenfalls bearbeiteten Aufgaben zu Rechenverfahren (alle CR-Format) sind aus Gründen der Übersichtlichkeit nicht dargestellt (ZV = Zahlverständnis, OV = Operationsverständnis, MC = geschlossenes Antwortformat, CR = offenes Antwortformat). Zur Messgüte von geschlossenen und offenen Antwortformaten in Lernstandserhebungen 265 Formatspezifische Skalenzusammenstellung Im „Lernstand 5“ bestehen die beiden Leistungsbereiche ZV und OV sowohl aus offenen als auch aus geschlossenen Sachaufgaben. Die MC-Aufgaben im Single-Choice-Format („1 aus 4“) wurden mit den Buchstaben „a“, „b“, „c“ und „d“ für die vier Antwortoptionen kodiert und in Form dieser Buchstaben von den Lehrkräften in eine computerbasierte Eingabemaske eingetippt. Bei den CR-Aufgaben sollten die Schülerinnen und Schüler entweder Zahlen oder Rechnungen als Antwort schreiben oder Markierungen einzeichnen. Diese Kurzantworten wurden von den Lehrkräften zunächst gemäß einer Kodieranleitung als falsch oder gar nicht (= 0) beziehungsweise als korrekt gelöst (= 1) bewertet und gemäß dieser dichotomen Bewertung in die Eingabemaske eingegeben. Pro Testheft wurden für die vorliegende Studie je acht MC-Aufgaben (vier ZV, vier OV) zu einer neuen MC-Skala zusammengefasst. Da es insgesamt 22 verschiedene MC-Aufgaben in den betrachteten Testheften gab, wurden zwei der OV-Aufgaben doppelt verwendet (aber bei der Skalierung und Reliabilitätsbestimmung natürlich jeweils als eine Aufgabe betrachtet) 4 . Um vergleichbare formatspezifische Skalen zu entwickeln, wurden die 22 benötigten CR-Aufgaben ausgewählt (pro Testheft vier ZV und vier OV), indem für jede MC-Aufgabe diejenige CR-Aufgabe in die Aufgabenstichprobe aufgenommen wurde, deren Schwierigkeit am wenigsten von der Schwierigkeit der MC-Aufgabe abwich. Da sich in Testheft 9 (vgl. Abb. 1) ein Ungleichgewicht der Schwierigkeiten von MC- und CR-Aufgaben abzeichnete, wurde in diesem Fall ausgleichend die schwerste CR-Aufgabe durch eine leichtere CR- Aufgabe aus demselben Testheft und -bereich ersetzt, um im Dienste der Fragestellung möglichst homogene formatspezifische Skalen zu erhalten. Um zu verhindern, dass Validitätsunterschiede alleine durch systematische Unterschiede bei den Aufgabeninhalten entstehen, mussten zusätzlich beide formatspezifischen Skalen eine vergleichbare Breite der erfassten Teilkompetenzen haben. Die MC-Aufgaben deckten 13 Teilkompetenzen ab (z. B. Differenz zwischen neuer und alter Zahl nach Stellenwertveränderung angeben). Die CR-Aufgaben deckten 16 Teilkompetenzen ab (z. B. vorgegebene einschrittige Veränderung eines Stellenwertes in der Stellenwerttafel in Veränderung einer Zahl übersetzen). Zwei der Aufgaben mit mittlerer Schwierigkeit sind in Abbildung 2 dargestellt. Bei 14 der CR-Aufgaben musste eine Antwortzahl als Lösung notiert werden. Bei vier Aufgaben mussten mehrere Lücken mit Zahlen gefüllt werden, bei drei Aufgaben bestand die richtige Lösung aus einer Rechnung (vgl. Abb. 2) und bei einer Aufgabe musste eine Markierung in ein Schaubild eingezeichnet werden. Zudem gab es bei einer Aufgabe die explizite Anweisung, sie auch dann als richtig zu werten, „wenn das Ergebnis nicht eingetragen, jedoch in einer Rechnung erkennbar ist“. Insgesamt ähnelt die Aufgabenauswahl dadurch in dieser Hinsicht den TIMSS-Aufgaben wie auch Aufgaben, die bei Birkel (2005) verwendet wurden. Validitätskriterium (Mathematiknote) Die letzte Halbjahresnote in Mathematik wurde von den unterrichtenden Lehrkräften für jede bzw. jeden der teilnehmenden Schülerinnen und Schüler im Rahmen der Ergebniseingabe angegeben. Die Schulnote diente in der vorliegenden Arbeit als Kriterium für die Validitätsfragestellung, wobei die wenigen Fälle mit fehlender Notenangabe (n = 4; 0,3 %) ausgeschlossen wurden. Skalierung und Auswertungsstrategie Zur Skalierung der Kompetenzaufgaben wurde wie bei anderen Lernstandserhebungen üblich das Rasch-Modell verwendet (vgl. de Ayala, 2009; Groß Ophoff, Isaac, Hosenfeld & Eichler, 2008). Für die vorliegende Studie wurden die Itemparameter mit der marginal maximum likelihood-Methode (MML) unter Berücksichtigung der Testheftvariable anhand der ausgewählten Teilstichprobe geschätzt. Die Reliabilität wurde anhand des Verhältnisses der Testinformationskurven I ( θ ) verglichen (relative Effizienz: RE = I ( θ MC-Skala )/ I ( θ CR-Skala ); de Ayala, 2009). Die Testinformation ist beim Raschmodell eine Funktion des Standardmessfehlers (I ( θ ) = 1/ SE ( θ )²). Zur Beantwortung der Validitätsfragestellung wurden die Korrelationen zwischen den EAP-Scores der formatspezifisch 4 Konkret wurden aus Testheft 5 alle MC-Aufgaben für die testheftspezifische MC-Skala verwendet. Aus Testheft 9 wurden neben den MC-Aufgaben aus den Blöcken 5, 6 und 7 auch zwei Aufgaben aus Block 4 für die MC-Skala verwendet. Aus Testheft 11 wurden die MC-Aufgaben aus den Blöcken 8, 9 und 10 für die testheftspezifische MC-Skala herangezogen; die MC- Aufgaben aus Block 1 wurden nicht verwendet, weil sie bereits in Heft 5 vorkamen. 266 Johannes Schult, Marlit Annalena Lindner gebildeten Skalen und der Mathematiknote verglichen. Unterschiede in den Validitätskoeffizienten der MC- und CR-Skala wurden gemäß der Formel von Williams (1959) statistisch verglichen. Als Effektgröße diente hierbei q nach Cohen (1988; 0.10 klein, 0.30 mittelgroß, 0.50 groß), wobei bereits ein kleiner Effekt angesichts des standardisierten Testmaterials von uns als Zeichen für differenzielle Validität betrachtet wurde. Weiterhin wurden die Korrelationen korrigiert für die EAP-bezogene Unreliabilität als Schätzer der wahren Validitäten berichtet. Die Intraklassenkorrelation (ICC) der Mathematiknote wurde berechnet, um eventuell vorliegende Schulunterschiede bei der Notenvergabe zu erfassen. Um die Robustheit der Ergeb- Beispielaufgabe MC Auf dem Bauernhof werden die eingesammelten Eier in 6er-Schachteln verpackt. Es bleiben 2 Eier übrig. Wie viele Eier wurden eingesammelt? ■ 22 ■ 20 ■ 18 ■ 12 richtig, wenn Multiple-Choice-Aufgabe Bitte hier den Buchstaben (a, b, c, d) vor der jeweils angekreuzten Antwort eingeben (auch dann, wenn das Kreuz nicht bei der richtigen Antwort gesetzt ist); falls kein Kreuz oder mehr als ein Kreuz gesetzt ist, bitte „0“ eintragen. (Lediglich zur Information: richtig ist hier Antwort b) a ■ 22 b ■ 20 c ■ 18 d ■ 12 Beispielaufgabe CR Ein Gemüsebeet wird bepflanzt. Die Pflanzen sollen immer den gleichen Abstand haben. Wie viele Pflanzen passen in das Beet? Schreibe deine Rechnung auf. Rechnung: ________________________ richtig, wenn 5 · 7 oder 7 · 5 (nur Rechnung entscheidend) Abb. 2: Zwei der untersuchten „Lernstand 5“-Aufgaben aus dem Bereich Operationsverständnis mit den dazugehörigen Auswertungshinweisen (oben geschlossenes Antwortformat [MC], Teilkompetenz Umkehrung zur Division mit Rest, Lösungshäufigkeit: 56 %; unten offenes Kurzantwortformat [CR], Teilkompetenz Multiplikation: räumlich-simultan unter Konstruktion der bildlichen Ausgangssituation, Lösungshäufigkeit: 60 %). Zur Messgüte von geschlossenen und offenen Antwortformaten in Lernstandserhebungen 267 nisse gegenüber einer erwarteten Heterogenität bei der Notenvergabe in verschiedenen Klassen abzusichern, wurden zudem die Determinationskoeffizienten 5 von Mehrebenenregressionen mit der Note als abhängige Variable, dem jeweiligen formatspezifischen Score als Prädiktorvariable und einem random intercept für die Schulklassen berechnet. Die Regressionskoeffizienten wurden mit dem Verfahren von Paternoster, Brame, Mazerolle und Piquero (1998) auf Gleichheit getestet. Die Analyse fand in R (R Core Team, 2017) mit den Paketen car (Fox & Weisberg, 2011), cocor (Diedenhofen & Musch, 2015), multilevel (Bliese, 2016), MuMIn (Barton, 2017), TAM (Kiefer, Robitzsch & Wu, 2017) und zoo (Zeileis & Grothendieck, 2005) statt. Als Signifikanzniveau wurde α = .01 gewählt. Ergebnisse Die Schwierigkeitsparameter der ausgewählten CR-Aufgaben wiesen eine sehr ähnliche Verteilung wie die Schwierigkeitsparameter der ausgewählten MC-Aufgaben auf, was sich anhand der in Tabelle 1 dargestellten Verteilungsmaße sowie in den formatspezifischen Histogrammen in Abbildung 3 nachvollziehen lässt. Die MC- und die CR-Skala hatten keine signifikant verschiedenen Varianzen (F(1,42) = 0.01, p = .93) und unterschieden sich auch erwartungskonform nicht signifikant in ihrer mittleren Schwierigkeit (t(42) = 0.28, p = .78). Der Reliabilitätsvergleich der neu gebildeten Skalen zeigte nahezu identische Iteminformationskurven (siehe Abb. 4, oben). Die offenen Aufgaben lieferten im Schnitt die gleiche Messgenauigkeit wie die geschlossenen Aufgaben: Die relative Effizienz lag über die gesamte Leistungsskala hinweg bei RE = 1.00 (siehe Abb. 4, unten). Das bedeutet, dass die hier betrachteten MC- und CR-Skalen also jeweils nahezu denselben Standardmessfehler besitzen. Beide formatspezifischen Skalen messen somit gleichermaßen genau. Dies war angesichts der gleichen Testlänge, der vergleichbar gewählten Aufgabenschwierigkeiten der MC- und CR-Aufgaben und der Homoskedastizität der Skalen zu erwarten. Die Zusammenstellung zweier formatspezifischer Skalen für MC-Aufgaben und CR-Aufgaben mit vergleichbarer Messgenauigkeit erscheint somit - als zentrale Voraussetzung für den in dieser Studie angestrebten formatspezifischen Validitätsvergleich - angemessen gelungen zu sein. 5 Konkret wird als Validitätskoeffizient die Wurzel aus R² GLMM(m) berechnet (Nakagawa & Schielzeth, 2013). Dieses R² kann bei der Mehrebenenregression als Varianz interpretiert werden, die durch den fixed effect- Prädiktor „Testscore“ erklärt wird. MC-Items (k = 22) Häufigkeit 5 4 3 2 1 0 -2 -1 0 1 2 CR-Items (k = 22) Häufigkeit 5 4 3 2 1 0 -2 -1 0 1 2 Abb. 3: Histogramme der Aufgabenschwierigkeiten σ der neu gebildeten formatspezifischen Skalen (MC = geschlossenes Antwortformat, CR = offenes Antwortformat). MC CR CR (alle Items) Aufgabenanzahl 22 22 48 M (σ) Median(σ) SD σ Min (σ) Max (σ) -0.25 -0.17 1.04 -2.00 1.60 -0.16 -0.32 1.06 -2.11 1.58 -0.63 -0.53 1.52 -4.21 2.64 Anmerkungen: MC = geschlossenes Antwortformat, CR = offenes Antwortformat. Tab. 1: Mittelwerte und Verteilungsmaße der Aufgabenschwierigkeiten σ für die ausgewählten Aufgaben sowie für alle CR-Items der drei Testhefte 268 Johannes Schult, Marlit Annalena Lindner Sowohl die MCals auch die CR-Skala zeigten hohe Validitätskoeffizienten bezogen auf die Mathematiknote der Kinder (r MC = -.57; r CR = -.60; vgl. Tab. 2). Dabei fand sich keine signifikante differenzielle Validität für die MC- und CR-Aufgaben ( Δ r = 0.03, q = 0.05, p = .15). Nach der Korrektur für die geschätzte Skalen- Unreliabilität zeigte sich ebenfalls keine differenzielle Validität für die beiden Aufgabenformate (r MC = -.76; r CR = -.77; Δ r = 0.01). Die Intraklassenkorrelation der Mathematiknote deutete jedoch auf systematische Unterschiede zwischen den Schulklassen bei der Notengebung hin (ICC = .10). Das bedeutet, dass etwa 10 % der Notenvarianz auf Unterschiede in der Beurteilung zwischen Klassen bzw. Lehrkräften 5 4 3 2 1 -1 Testinformation 2.0 1.5 1.0 0.5 0.0 I (θ) I (θ MC ) / I (θ CR ) -3 -2 -1 0 1 2 3 θ 0 0 MC CR Relative Effizienz (MC vs. CR) -3 -2 -1 0 1 2 3 θ Relative Effizienz Abb. 4: Formatspezifische Testinformationskurven, Boxplot der EAP-Gesamtscores (beides oben) und relative Effizienz der neu gebildeten formatspezifischen Mathematikskalen (unten) in Abhängigkeit von dem Personenfähigkeitsparameter θ ; bei der relativen Effizienz bedeuten Werte über 1 (gestrichelte Linie), dass in diesem Leistungsbereich die MC-Skala genauer misst als die CR-Skala, während Werte unter 1 eine genauere Messung der CR-Skala anzeigen (MC = geschlossenes Antwortformat, CR = offenes Antwortformat). Skala M (SD) Korrelationen MC CR MC CR Mathematiknote 0.15 (0.69) 0.15 (0.80) 2.44 (0.83) .55 -.57 -.60 Anmerkungen: MC = geschlossenes Antwortformat, CR = offenes Antwortformat. Tab. 2: Deskriptive Statistiken und Korrelationen für die Mathematikskalen und die Schulnoten Zur Messgüte von geschlossenen und offenen Antwortformaten in Lernstandserhebungen 269 zurückgehen. Die daraufhin berechnete Mehrebenenregression mit random intercept zur Berücksichtigung der Klassenunterschiede bei der Benotung lieferte für beide Formate ein ähnliches Validitätsmuster (R MC = .58; R CR = .62; | Δ R| = 0.05). Die Regressionskoeffizienten unterschieden sich nicht signifikant (z = 1.73, p = .084). Die MC- und CR-Skala korrelierten grundsätzlich hoch miteinander (r = .55). Die für die Skalen-Unreliabilität korrigierte Korrelation war dagegen deutlich höher (r = .96) und lag angesichts des zugrunde liegenden Kompetenzmodells im erwarteten Bereich. Zudem deckt sich diese mit Befunden von Rodriguez (2003) zur formatspezifischen Inter-Skalen-Korrelation. Diskussion Beim Vergleich der notenbezogenen Validität der „Lernstand 5“-Mathematikaufgaben zeichnete sich im Rahmen der untersuchten Pilotierungsstichprobe kein bedeutsamer Formatunterschied ab. Die Effektstärke bezogen auf die differenziellen Validitätskoeffizienten für die untersuchten MC- und CR-Aufgaben bewegte sich in einem ähnlich niedrigen Bereich wie in der deutschen TIMSS-Stichprobe von Kindern der vierten Klasse (Schult & Sparfeldt, 2018). Die eingangs beschriebenen möglichen Beurteilungsfehler (z. B. Halo-Effekt) deuten sich noch am ehesten bei dem numerisch höheren Validitätskoeffizienten der CR-Aufgaben an. Indirekt legt dies den Schluss nahe, dass formatspezifische Beurteilungsverzerrung im vorliegenden Kontext insgesamt höchstens eine sehr untergeordnete Rolle spielt. Zusammen mit der gleichzeitig sehr hohen Korrelation zwischen der MC- und CR-Skala sprechen die ähnlich großen Validitäten für die Qualität der standardisierten CR- Auswertungsanleitungen, für eine sorgfältige Anwendung durch die beteiligten Lehrkräfte sowie für ein hohes Potenzial der Messgüte von sowohl offenen als auch geschlossenen Aufgabenformaten bei Kompetenzmessungen. Das vorliegende Studiendesign erlaubt allerdings keinen direkten Vergleich der beurteilerbedingten Validitätsunterschiede und bezieht sich bei den CR-Aufgaben ausschließlich auf Kurzantworten. Die hier untersuchten, formatspezifischen Skalen umfassten aufgrund der fragestellungsbedingten Aufgabenselektion weniger Aufgaben, als man üblicherweise zur Kompetenzdiagnostik verwenden würde. Zusätzlich wurden systematisch leichte CR-Aufgaben bei der Skalenbildung ausgeschlossen. Für die Skala aus allen eingesetzten CR-Aufgaben wäre somit aufgrund der größeren Aufgabenzahl eine höhere Reliabilität insbesondere im unteren Leistungsbereich zu erwarteten. Allerdings konnten wir durch die Bildung von formatspezifischen MC- und CR-Skalen mit gleicher Aufgabenanzahl, sehr ähnlichen Reliabilitäten und vergleichbaren Verteilungen der Aufgabenschwierigkeiten potenzielle Störfaktoren ausschließen, die in anderen Studien mit Tests aus der Forschungspraxis möglicherweise zu systematischen Verzerrungen geführt haben könnten (z. B. Formatunterschiede bei den Streuungen der Aufgabenschwierigkeiten in TIMSS; Schult & Sparfeldt, 2018). Im Gegensatz zu Studien, in denen die experimentelle Variation des Aufgabenformates meist dazu führt, dass MC-Skalen leichter ausfallen als CR-Kurzantwort-Skalen (z. B. Hohensinn & Kubinger, 2011), ermöglichte die Skalenzusammenstellung in der vorliegenden Arbeit den Vergleich von ähnlich schwierigen formatspezifischen Skalen, welche zudem die verschiedenen Teilkompetenzbereiche ähnlich breit abdecken. Das Fehlen von Kontextinformationen zu den Lehrkräften und zu den Schülerinnen und Schülern ist eine Limitation unserer Studie. Aus Datenschutzgründen werden keine weiteren Informationen im Rahmen der Pilotierung erfasst, sodass keine genauen Angaben beispielsweise zum Durchschnittsalter gemacht werden können. Da es sich bei der Pilotierungsstichprobe aber um eine Zufallsstichprobe aus allen baden-württembergischen Grundschulen handelt und die Teilnahme verpflichtend ist, kann angenommen werden, dass die hier untersuchten Auswertungen (im Rahmen der berichteten inferenzstatistischen Unsicherheit) repräsentativ und entsprechend aussagekräftig sind. In einem nächsten Schritt wäre es interessant, 270 Johannes Schult, Marlit Annalena Lindner Lehrkraftauswertungen der Kurzantworten mit Beurteilungen von professionellem Kodierpersonal direkt zu vergleichen und noch weitere Validitätskriterien neben den Schulnoten zu betrachten, zum Beispiel zentral kodierte Kompetenztests oder motivationale Konstrukte. Dabei wäre es möglich, durch einen Abgleich mit unabhängig ausgewerteten Testleistungen eventuell auftretende verzerrende Effekte, die durch die selbstverantwortliche Auswertung und Eingabe der Testleitungen und Noten der Schülerinnen und Schüler durch die unterrichtende Lehrkraft entstehen könnten, genauer zu quantifizieren. In der vorliegenden Studie basieren dagegen sämtliche Daten auf Lehrkraftangaben. Es können deshalb keine Angaben über Umfang und Art vorgekommener Falschkodierungen und Eingabefehler gemacht werden. So lässt sich leider nicht sagen, ob Abweichungen häufiger bei schwer lesbaren Antworten vorkamen oder bei Aufgabenbearbeitungen, die laut Auswertungsanleitung als falsch zu werten sind, die von der Lehrkraft aber als korrekt gewertet wurden (z. B. notierter Rechenweg, aber keine Lösungszahl). Auch wenn eine sehr hohe Auswertungsobjektivität bei den MC-Aufgaben angesichts früherer Forschung (vgl. Haladyna, 2006) zu erwarten ist, kann diese aufgrund des Designs für die vorliegende Studie nicht beziffert werden, da kein direkter Abgleich der gegebenen Schülerantworten und der Lehrkraftkodierungen möglich war. Beim „Lernstand 5“ handelt es sich bei der Pilotierung wie auch beim Einsatz um eine Low-Stakes-Testsituation. Die Arbeiten werden nicht benotet und dienen auch nicht der Überprüfung der durch die Lehrkraft erreichten Unterrichtsleistungen. Eine spezifische Motivation, besonders kulant oder streng zu korrigieren, gibt es somit nicht. Eine Rückmeldung an die Schülerinnen und Schüler (z. B. über die Zahl der gelösten Aufgaben) ist allerdings möglich und hätte die eingangs beschriebenen Korrekturverzerrungen potenziell begünstigen können. In einer wahrgenommenen bzw. tatsächlichen High-Stakes-Testsituation, die etwa mit Sanktionen (z. B. Mittelkürzung für Schule) verknüpft ist, dürfte eine Kodierung durch (dann möglicherweise weniger objektive) Lehrkräfte stärker mit Interessenkonflikten behaftet sein. Die hier berichteten Ergebnisse lassen sich also nicht zwingend auf benotete zentrale Klassenarbeiten und ähnliche Kontexte übertragen. Die in dieser Studie gefundenen Validitäten sprechen jedenfalls dafür, dass die teilnehmenden Lehrkräfte die Testung und die Kodierung mit großer Sorgfalt durchgeführt haben. Auch wenn die vorliegenden Befunde drei Testhefte und verschiedene Aufgabeninhalte umfassen, bleibt eine weitere Limitation der Fokus auf das Fach Mathematik. Zahlen und Rechenwege sind hochstrukturierte und auf Grundschulniveau leicht vergleichbar einzuschätzende Kriterien, die zum „Gleichstand“ von MC und CR hinsichtlich der Validität beitragen dürften. Weiterhin erforderten die CR- Aufgaben im vorliegenden Testmaterial alle Kurzantworten. Bei Aufgaben im Essay-Format wären dagegen wohl - fachunabhängig, dafür mit steigender Länge und abnehmender Strukturiertheit der Antworten - größere Verzerrungen durch Lehrkraftauswertungen zu erwarten; so fiel bei Rodriguez (2003) die MC-CR-Korrelation mit Essay-CR-Fragen deutlich geringer aus als mit Kurzantworten. In mathematischen Large-Scale Assessments erfordern CR-Aufgaben zwar meist eher kurze Antworten, weil diese ökonomischer ausgewertet werden können als Antworten, die aus langen Rechnungen oder Texten bestehen. Dennoch ist ein zusätzlicher Vergleich von geschlossenen Aufgaben und Kurzantwort-Aufgaben mit Essay-Fragen in zukünftigen Studien wünschenswert. Die gefundenen Formatunterschiede waren trotz der nicht perfekten MC-CR-Korrelation sehr klein. Dies spricht dafür, dass Aufgaben, die sorgfältig nach etablierten Konstruktionsregeln entwickelt wurden (vgl. z. B. Waugh & Gronlund, 2013), in beiden Formatvarianten zu einer erfolgreichen, validen Kompetenzmessung beitragen (vgl. Lindner et al., 2015), insbesondere wenn die erwarteten Antworten in den CR-Aufgaben gut strukturiert sind und keine langen Antworten im Essay-Format vor- Zur Messgüte von geschlossenen und offenen Antwortformaten in Lernstandserhebungen 271 sehen. „Lernstand 5“ nutzt das harmonische Nebenbzw. Miteinander von geschlossenen und offenen Aufgabenformaten zur Lernstandsdiagnose am Übergang in die weiterführenden Schulen in Baden-Württemberg, was sich auch im Rahmen vieler anderer vergleichender Schulleistungsstudien wie beispielsweise TIMSS schon lange etabliert und bewährt hat. Die hier präsentierten Befunde sprechen jedenfalls dafür, dass Lehrkräfte die Auswertungen im Rahmen der vorgestellten Pilotierung der Lernstandserhebung „Lernstand 5“ und mutmaßlich auch in vergleichbaren Erhebungen in angemessener Art und Weise vornehmen. Daher scheint auch ohne das Mitwirken von speziell geschultem Kodierpersonal und unabhängig von dem verwendeten Aufgabenformat eine valide Erfassung der erbrachten Leistungen in mathematischen Kompetenztests basierend auf den Angaben von Lehrkräften möglich zu sein. Literatur Barton, K. (2017). MuMIn: Multi-Model Inference. R package version 1.40.0. Zugriff am 20. 12. 2017 unter https: / / CRAN.R-project.org/ package=MuMIn Birkel, P. (2005). Beurteilungsübereinstimmung bei Mathematikarbeiten. Journal für Mathematik-Didaktik, 26, 28 - 51. https: / / dx.doi.org/ 10.1007/ BF03339005 Bliese, P. (2016). Multilevel: Multilevel functions. R Package Version 2.6. Zugriff am 10. 10. 2017 unter http: / / CRAN.R-project.org/ package=multilevel Carmines, E. G. & Zeller, R. A. (1979). Reliability and validity assessment. Thousand Oaks, CA: Sage. https: / / dx. doi.org/ 10.4135/ 9781412985642 Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Hillsdale, NJ: Erlbaum. De Ayala, R. J. (2009). The theory and practice of item response theory. New York, NY: Guilford Press. Diedenhofen, B. & Musch, J. (2015). Cocor: A comprehensive solution for the statistical comparison of correlations. PloS ONE, 10 (4): e0121945. https: / / dx.doi. org/ 10.1371/ journal.pone.0121945 Fox, J. & Weisberg, S. (2011). An R companion to applied regression (2nd ed.). Thousand Oaks, CA: Sage. Groß Ophoff, J., Isaac, K., Hosenfeld, I. & Eichler, W. (2008). Erfassung von Leseverständnis im Projekt VE- RA. In B. Hofmann & R. Valtin (Hrsg.), Checkpoint Literacy: Tagungsband 2 zum 15. Europäischen Lesekongress 2007 in Berlin (S. 36 - 51). Berlin: Deutsche Gesellschaft für Lesen und Schreiben. Haladyna, T. M. (2006). Roles and importance of validity studies in test development. In S. M. Downing & T. M. Haladyna (Eds.), Handbook of test development (pp. 739-755). Mahwah, NJ: Lawrence Erlbaum Associates. https: / / dx.doi.org/ 10.4324/ 9780203874776.ch32 Haladyna, T. M. & Downing, S. M. (2004). Construct-irrelevant variance in high-stakes testing. Educational Measurement: Issues and Practice, 23 (1), 17 - 27. https: / / dx.doi.org/ 10.1111/ j.1745-3992.2004.tb00149.x Hohensinn, C. & Kubinger, K. D. (2011). Applying item response theory methods to examine the impact of different response formats. Educational and Psychological Measurement, 71, 732 - 746. https: / / dx.doi.org/ 10.1177/ 0013164410390032 Kiefer, T., Robitzsch, A. & Wu, M. (2017). TAM: Test analysis modules. R Package Version 2.6-2. Zugriff am 10. 10. 2017 unter http: / / cran.r-project.org/ package= TAM KMK (2013). Kompetenzstufenmodell zu den Bildungsstandards im Fach Mathematik für den Primarbereich (Jahrgangsstufe 4). Berlin: IQB. Zugriff am 20. 12. 2017 unter https: / / www.iqb.hu-berlin.de/ bista/ ksm/ KSM_ GS_Mathemati_4.pdf Lee, H. S., Liu, O. L. & Linn, M. C. (2011). Validating measurement of knowledge integration in science using multiple-choice and explanation items. Applied Measurement in Education, 24, 115 - 136. https: / / dx. doi.org/ 10.1080/ 08957347.2011.554604 Lindner, M. A., Strobel, B. & Köller, O. (2015). Multiple- Choice-Prüfungen an Hochschulen? Ein Literaturüberblick und Plädoyer für mehr praxisorientierte Forschung. Zeitschrift für Pädagogische Psychologie, 29, 133 - 149. https: / / dx.doi.org/ 10.1024/ 1010-0652/ a0 00156 Lorenz, J. H. (2005). Zentrale Lernstandsmessung in der Primarstufe - Vergleichsarbeiten Klasse 4 (VERA) in sieben Bundesländern. ZDM, 37, 317 - 323. https: / / dx.doi.org/ 10.1007/ BF02655818 Lukas, J., Melzer, A. & Much, S., unter Mitarbeit von S. Eisentraut (2017). Auswertung von Klausuren im Antwort-Wahl-Format. Zugriff am 26. 12. 2017 unter http: / / wiki.llz.uni-halle.de/ images/ 3/ 38/ Handbuch _-_PDF.pdf Martin, M. O., Mullis, I. V. S. & Foy, P. (2013). TIMSS 2015 assessment design. In I. V. S. Mullis & M. O. Martin (Eds.), TIMSS 2015 Assessment Framework (pp. 85 - 113). Chestnut Hill, MA: IEA. Nakagawa, S. & Schielzeth, H. (2013). A general and simple method for obtaining R² from generalized linear mixed-effects models. Methods in Ecology and Evolution, 4, 133 - 142. https: / / dx.doi.org/ 10.1111/ j.2041-210x. 2012.00261.x Nisbett, R. E. & Wilson, T. D. (1977). The halo effect: Evidence for unconscious alteration of judgments. Journal of Personality and Social Psychology, 35, 250 - 256. https: / / dx.doi.org/ 10.1037/ 0022-3514.35.4.2 50 Paternoster, R., Brame, R., Mazerolle, P. & Piquero, A. (1998). Using the correct statistical test for the equality of regression coefficients. Criminology, 36, 859 - 866. https: / / dx.doi.org/ 10.1111/ j.1745-9125.1998.tb012 68.x R Core Team (2017). R: A language and environment for statistical computing. Wien: R Foundation for Statistical Computing. Zugriff am 10.10.2017 unter https: / / www.R-project.org Rasch, R. & Schütte, S. (2007). Zahlen und Operationen. In G. Walther, M. van den Heuvel-Panhuizen, D. Granzer & O. Köller (Hrsg.), Bildungsstandards für die Grundschule: Mathematik konkret (S. 66 - 88). Berlin: Cornelsen Scriptor. 272 Johannes Schult, Marlit Annalena Lindner Rodriguez, M. C. (2003). Construct equivalence of multiplechoice and constructed-response items: A random effects synthesis of correlations. Journal of Educational Measurement, 40, 163 - 184. https: / / dx.doi.org/ 10.11 11/ j.1745-3984.2003.tb01102.x Schult, J. & Sparfeldt, J. R. (2018). Reliability and validity of PIRLS and TIMSS: Does the response format matter? European Journal of Psychological Assessment, 34, 258 - 269. https: / / dx.doi.org/ 10.1027/ 1015-5759/ a0 00338 Schulz, A., Leuders, T. & Rangel, U. (2017). Arithmetische Basiskompetenzen am Übergang zu Klasse 5 - eine empirie- und modellgestützte Diagnostik als Grundlage für spezifische Förderentscheidungen. In A. Fritz, S. Schmidt & G. Ricken (Hrsg.), Handbuch Rechenschwäche (3. Aufl., S. 396 - 417). Weinheim: Beltz. Spoden, C., Fleischer, J. & Leutner, D. (2014). Niedrige Testmodellpassung als Resultat mangelnder Auswertungsobjektivität bei der Kodierung landesweiter Vergleichsarbeiten durch Lehrkräfte. Journal für Mathematik-Didaktik, 35, 79 - 99. https: / / dx.doi.org/ 10.1007/ s13138-013-0056-z Tversky, A. & Kahneman, D. (1974). Judgment under uncertainty: Heuristics and biases. Science, 185, 1124 - 1131. https: / / dx.doi.org/ 10.1126/ science.185.4157. 1124 Veeravagu, J., Muthusamy, C., Marimuthu, R. & Michael, A. S. (2010). Using Bloom’s taxonomy to gauge students’ reading comprehension performance. Canadian Social Science, 6, 205 - 212. Wan, L. & Henly, G. A. (2012). Measurement properties of two innovative item formats in a computerbased test. Applied Measurement in Education, 25, 58 - 78. https: / / dx.doi.org/ 10.1080/ 08957347.2012.6355 07 Waugh, C. K. & Gronlund, N. E. (2013). Assessment of student achievement (10th ed.). Boston, MA: Pearson. Williams, E. J. (1959). The comparison of regression variables. Journal of the Royal Statistical Society. Series B (Methodological), 21, 396 - 399. Zeileis, A. & Grothendieck, G. (2005). Zoo: S3 Infrastructure for regular and irregular time series. Journal of Statistical Software, 14 (6), 1 - 27. https: / / dx.doi.org/ 10. 18637/ jss.v014.i06 Dr. Johannes Schult Landesinstitut für Schulentwicklung Heilbronner Straße 172 D-70191 Stuttgart E-Mail: Johannes.Schult@ls.kv.bwl.de Dr. Marlit Annalena Lindner Leibniz-Institut für die Pädagogik der Naturwissenschaften und Mathematik (IPN) Olshausenstraße 62 D-24118 Kiel E-Mail: mlindner@ipn.uni-kiel.de
