eJournals Psychologie in Erziehung und Unterricht 61/1

Psychologie in Erziehung und Unterricht
3
0342-183X
Ernst Reinhardt Verlag, GmbH & Co. KG München
11
2014
611

Wie gut können Grundschullehrkräfte die Schwierigkeit von Deutsch- und Mathematikaufgaben beurteilen?

11
2014
Lars Hoffmann
Katrin Böhme
In diesem Beitrag wird der Frage nachgegangen, inwieweit Lehrkräfte die Schwierigkeit von Aufgaben akkurat einschätzen. Die Ergebnisse basieren auf einer Stichprobe von 239 Deutsch- und 133 Mathematiklehrkräften aus 212 Grundschulen in ganz Deutschland. Diese sollten einschätzen, wie schwer bestimmte Aufgaben der Fächer Deutsch und Mathematik für die Kinder in ihren Klassen sind. Für die Rangkomponente der Schwierigkeitsurteile wurden im Mittel Koeffizienten in moderater Höhe identifiziert. Die Ausprägung der Differenzierungskomponente lässt darauf schließen, dass die Schwierigkeitseinschätzungen der Lehrkräfte durch eine Tendenz zur Mitte gekennzeichnet waren. Zwischen der Neigung zur Über- bzw. Unterschätzung der Schwierigkeit einerseits und der Erfahrung der Lehrkräfte (Dauer der Lehrtätigkeit, Kontaktdauer mit der jeweiligen Klasse) andererseits fanden sich nur geringe Zusammenhänge. Wurden ähnliche Aufgaben zu einem frühen Zeitpunkt in der Primarstufe behandelt, zeigte sich eine Tendenz zur Unterschätzung; eine Thematisierung ähnlicher Aufgaben zu einem späteren Zeitpunkt erhöhte hingegen die Wahrscheinlichkeit zur Überschätzung der Schwierigkeit.
3_061_2014_001_0042
n Empirische Arbeit Psychologie in Erziehung und Unterricht, 2014, 61, 42 -55 DOI 10.2378/ peu2014.art05d © Ernst Reinhardt Verlag München Basel Wie gut können Grundschullehrkräfte die Schwierigkeit von Deutsch- und Mathematikaufgaben beurteilen? Eine Untersuchung zur Genauigkeit aufgabenbezogener Lehrerurteile auf Klassenebene Lars Hoffmann, Katrin Böhme Institut zur Qualitätsentwicklung im Bildungswesen an der Humboldt-Universität Berlin Zusammenfassung: In diesem Beitrag wird der Frage nachgegangen, inwieweit Lehrkräfte die Schwierigkeit von Aufgaben akkurat einschätzen. Die Ergebnisse basieren auf einer Stichprobe von 239 Deutsch- und 133 Mathematiklehrkräften aus 212 Grundschulen in ganz Deutschland. Diese sollten einschätzen, wie schwer bestimmte Aufgaben der Fächer Deutsch und Mathematik für die Kinder in ihren Klassen sind. Für die Rangkomponente der Schwierigkeitsurteile wurden im Mittel Koeffizienten in moderater Höhe identifiziert. Die Ausprägung der Differenzierungskomponente lässt darauf schließen, dass die Schwierigkeitseinschätzungen der Lehrkräfte durch eine Tendenz zur Mitte gekennzeichnet waren. Zwischen der Neigung zur Überbzw. Unterschätzung der Schwierigkeit einerseits und der Erfahrung der Lehrkräfte (Dauer der Lehrtätigkeit, Kontaktdauer mit der jeweiligen Klasse) andererseits fanden sich nur geringe Zusammenhänge. Wurden ähnliche Aufgaben zu einem frühen Zeitpunkt in der Primarstufe behandelt, zeigte sich eine Tendenz zur Unterschätzung; eine Thematisierung ähnlicher Aufgaben zu einem späteren Zeitpunkt erhöhte hingegen die Wahrscheinlichkeit zur Überschätzung der Schwierigkeit. Schlüsselbegriffe: Diagnostische Kompetenz, diagnostische Fähigkeiten, Urteilsgenauigkeit, aufgabenbezogene Lehrerurteile How Elementary School Teachers Judge the Difficulty Levels of German Language and Mathematics Tasks: A Study on the Accuracy of Teacher Judgements Summary: This study investigates to what extent teachers are able to judge the difficulty of tasks accurately. A sample of 239 German language teachers and 133 mathematics teachers from 212 elementary schools throughout Germany were asked to judge the difficulty of German language and mathematics tasks for the pupils of their classes. Our results on average show moderately high coefficients for the rank component of the assessment of difficulty. The characteristics of the differentiation component suggest that the difficulty judgments of the teachers are characterized by an error of central tendency. We found only weak relationships between the tendencies to overor underestimate the task difficulty and the experiences of the teachers. If similar tasks were addressed early in elementary school, results showed a tendency to underestimate. However, a thematization of similar tasks at a later date increased the probability to overestimate task difficulty. Keywords: Diagnostic competence, diagnostic skills, teacher judgment accuracy, teacher judgments of tasks Ein zentrales Handlungsfeld gegenwärtiger Reformen zur Qualitätssicherung im Bildungswesen ist die Optimierung der Lehreraus-, -fort- und -weiterbildung. Ein bedeutsamer Aspekt ist dabei die diagnostische Kompetenz von Lehrkräften, die als Basiskompetenz für guten Unterricht (Weinert, 2000) bzw. als wichtiger Bestandteil von Lehrerexpertise (Baumert & Kun- Wie gut können Lehrkräfte Aufgabenschwierigkeiten beurteilen? 43 ter, 2006) gilt. Entsprechend wird ihre Stärkung auch in den Standards für die Lehrerbildung der Kultusministerkonferenz (KMK) betont (KMK, 2004). Einhergehend mit der hohen Relevanz, die der diagnostischen Kompetenz somit beigemessen wird, findet sich in jüngerer Zeit ein deutliches Interesse der Bildungsforschung an diesem Thema. Diagnostische Kompetenz wird dabei zumeist als die Fähigkeit definiert, „Personen oder Personengruppen (z. B. Schüler oder Schulklassen) zutreffend zu beurteilen bzw. genaue diagnostische Urteile abzugeben“ (Helmke, 2010, S. 121). Ein erweitertes Verständnis des Konzepts diagnostischer Kompetenz umfasst außerdem die Fähigkeit, Aufgabenmerkmale (d. h. insbesondere deren Schwierigkeit) korrekt einzuschätzen (Lorenz & Artelt, 2009). Dieser Fähigkeit, die auch Gegenstand der vorliegenden Forschungsarbeit ist, kommt eine hohe unterrichtspraktische Bedeutung zu: Ein zentrales Element zielorientierten, adaptiven Unterrichtens besteht darin, Aufgaben hinsichtlich ihrer Schwierigkeit mit dem Leistungsniveau der Schülerinnen und Schüler abzustimmen (Anders, Kunter, Brunner, Krauss & Baumert, 2010). Die Aufgaben sollten nicht zu leicht sein, um eine Unterforderung der Schülerschaft zu vermeiden (McElvany et al., 2009); sie sollten vielmehr am Vorwissen der Kinder anknüpfen und somit zu einem kognitiv aktivierenden Unterricht beitragen (Brunner, Anders, Hachfeld & Krauss, 2011). Sehr schwere Aufgaben sollten nur dann im Unterricht verwendet werden, wenn die für ihre Lösung notwendigen Kenntnisse und Fähigkeiten in der „Zone der nächsten Entwicklung“ der Kinder liegen und ein geeignetes „Gerüst“ (scaffolding) an Hilfestellungen bereitgestellt wird (Vygotskij, 1987). Die Auswahl von Aufgaben im optimalen Schwierigkeitsbereich erfordert, dass Lehrkräfte in der Lage sind, das Leistungsniveau ihrer Schülerinnen und Schüler hinreichend genau einzuschätzen. Dabei sollte die Aufgabenauswahl sowohl im Lernprozess als auch in der Phase der Leistungsüberprüfung idealiter an den individuellen Voraussetzungen bzw. Kompetenzständen der einzelnen Schülerinnen und Schüler orientiert sein (z. B. Helmke, 2010). Da aber Lernsituationen regelmäßig im Klassenverband gestaltet werden und auch die Leistungsüberprüfung, insbesondere in schriftlicher Form, für alle Kinder einer Klasse im Normalfall dieselben Aufgaben vorsieht und somit nicht zwischen unterschiedlichen Kompetenzniveaus der Schülerschaft differenziert, ist außerdem bedeutsam, dass Lehrkräfte auch das mittlere Leistungsniveau ihrer Klasse präzise beurteilen können. Urteilsgenauigkeit von Schwierigkeitseinschätzungen Um die Genauigkeit von Lehrerurteilen zu bestimmen, bedarf es eines geeigneten Vergleichskriteriums, zu dem sie in Beziehung gesetzt werden können. Bei Urteilen zu Schülermerkmalen werden hierfür meist die Schülerleistungen in einem standardisierten Test herangezogen. Im Fall von Urteilen zur Schwierigkeit von Aufgaben dient ihre empirisch ermittelte Schwierigkeit als Vergleichskriterium. Diese wird oft als relative Lösungshäufigkeit angegeben und berechnet sich aus dem Anteil an Schülerinnen und Schülern einer größeren Schülergruppe (z. B. der eigenen Klasse), die eine Aufgabe korrekt lösen konnte (vgl. McElvany et al., 2009). Beim Vergleich zwischen Lehrerurteil und Kriterium können unterschiedliche Facetten der Urteilsgenauigkeit fokussiert werden. Diese Facetten finden ihre Entsprechung in der vor allem in der deutschsprachigen Literatur etablierten Unterscheidung zwischen Rang-, Niveau- und Differenzierungskomponente (Schrader & Helmke, 1987): Die Rangkomponente beschreibt die Fähigkeit von Lehrkräften, Fähigkeitsbzw. Leistungsabstufungen zwischen Schülerinnen und Schülern akkurat einzuschätzen. Sie wird über die Korrelation zwischen Lehrerurteil und Kriterium ermittelt. Die Niveaukomponente bezieht sich auf die absolute Einschätzung der Ausprägung einer Schülerfähigkeit oder der Schülerleistung bei einer Aufgabe. Zu ihrer Bestimmung wird entweder der 44 Lars Hoffmann, Katrin Böhme Urteilsfehler (absoluter Betrag der Abweichung zwischen Lehrerurteil und Kriterium) oder die Urteilstendenz (Grad der Über- oder Unterschätzung des Kriteriums) ermittelt. Die Differenzierungskomponente fokussiert auf den Vergleich zwischen der Streuung von Fähigkeitsausprägungen bzw. Schülerleistungen und den entsprechenden Angaben der Lehrkräfte. Während die Genauigkeit von Lehrerurteilen zu Schülermerkmalen bereits verhältnismäßig häufig untersucht wurde (vgl. Südkamp, Kaiser & Möller, 2012), waren Lehrerurteile zur Schwierigkeit von Aufgaben für die Schülerinnen und Schüler der eigenen Klasse bislang selten Gegenstand von Forschungsarbeiten. In den wenigen Studien hierzu, denen, im Unterschied zur vorliegenden Untersuchung zur aufgabenbezogenen Urteilsgenauigkeit von Grundschullehrkräften, überwiegend Daten aus der Sekundarstufe I zugrunde lagen (Ausnahmen: z. B. Lorenz, 2011), wurden meist Schwierigkeitsurteile zu strukturell ähnlichen Aufgaben (z. B. Aufgaben zu Texten mit instruktionalen Bildern, McElvany et al., 2009) betrachtet oder es wurden Aufgaben in den Blick genommen, die sich auf die gleiche Kompetenz bezogen (z. B. Mathematikaufgaben: Anders et al., 2010; Hosenfeld, Helmke & Schrader, 2002; Lehmann et al., 2000). Dabei wurden für die Rangkomponente der Genauigkeit von Schwierigkeitseinschätzungen mehrheitlich geringe bis moderate Korrelationskoeffizienten im Bereich zwischen .35 < r < .55 berichtet. In Untersuchungen, in denen zusätzlich die Niveaukomponente bestimmt wurde, fand sich mehrheitlich ein Trend zur Überschätzung der Leistung - und somit eine Tendenz zur Unterschätzung der Aufgabenschwierigkeit (z. B. Anders et al., 2010; Hosenfeld et al., 2002; Lehmann et al., 2000). Vereinzelt wurden jedoch auch gegenteilige Befunde, d. h. eine Tendenz zur Überschätzung der Aufgabenschwierigkeit, berichtet (z. B. McElvany et al., 2009; Lintorf et al., 2011). In den seltenen Fällen, in denen die Differenzierungskomponente bestimmt wurde, neigten die Lehrkräfte zu einer Unterschätzung der Streuung der Aufgabenschwierigkeit (Lintorf et al., 2011). Kovariaten der Genauigkeiten von Schwierigkeitseinschätzungen In Studien zur diagnostischen Kompetenz finden sich konsistent große interindividuelle Unterschiede in der Urteilsgenauigkeit (z. B. Hosenfeld et al., 2002). Demnach scheint es Lehrkräften zum Beispiel unterschiedlich gut zu gelingen zu beurteilen, wie schwierig bestimmte Aufgaben für die Schülerinnen und Schüler der eigenen Klasse sind. Zur Erklärung dieser Unterschiede wurden Merkmale der Lehrkräfte bzw. der Aufgaben in den Blick genommen, für die aus theoretischen Modellen zum Prozess der Leistungsbeurteilung (vgl. Schrader & Helmke, 2001) ein Einfluss auf die Urteilsgenauigkeit abgeleitet werden kann. In Untersuchungen zur Bedeutung von Aufgabenmerkmalen wurden u. a. Zusammenhänge zwischen der Urteilsgenauigkeit und der psychometrisch bestimmten Schwierigkeit der Aufgaben gefunden: So waren beispielsweise Lehrkräfte, welche die Schwierigkeit psychometrisch schwerer Aufgaben akkurat beurteilen konnten, weniger gut darin, die Schwierigkeit psychometrisch leichter Aufgaben einzuschätzen (Lintorf et al., 2011). Ein Lehrermerkmal, für das Zusammenhänge mit der Genauigkeit von Schwierigkeitseinschätzungen untersucht wurden, ist die Berufserfahrung der Lehrkräfte. Unter Bezugnahme auf Erkenntnisse aus der Expertiseforschung wurde vermutet, dass Lehrkräfte mit größerer Berufserfahrung genauere diagnostische Urteile fällen können (z. B. Coladarci, 1986). Allerdings fanden sich meist nur geringe und nicht in jedem Fall statistisch signifikante Korrelationen zwischen der Dauer der Tätigkeit im Lehrerberuf und der Genauigkeit von Lehrerurteilen. Auch für die Dauer der Lehrtätigkeit in einer bestimmten Klasse (Kontaktdauer) und für die Ausprägung des fachdidaktischen Wissens der Lehrkräfte wurden nur geringe Zusammenhänge ermittelt (vgl. McElvany et al., 2009; Anders et al., 2010). Weitere Ansätze zur Erklärung interindividueller Unterschiede in der Urteilsgenauigkeit lassen sich aus Systematiken ableiten, die im Rahmen der Modellierung von Urteilsprozes- Wie gut können Lehrkräfte Aufgabenschwierigkeiten beurteilen? 45 sen in der Psychologischen Diagnostik Verwendung finden: Im Linsenmodell von Brunswik (1956) wird u. a. postuliert, dass ein distales, nicht beobachtbares Merkmal, auf das ein Urteil zielt, durch proximale, beobachtbare Merkmale abgebildet wird. Wenn etwa Lehrkräfte prognostizieren sollen, wie schwierig eine Aufgabe für die Schülerinnen und Schüler ihrer Klasse ist (distales Merkmal), dann werden sie ihr Urteil auf proximalen Merkmalen gründen, also zum Beispiel auf Informationen zu Schülerleistungen bei ähnlichen Aufgaben, auf bestimmte Charakteristika der einzuschätzenden Aufgabe oder auf Angaben aus Lehrplänen und Curricula. Interindividuelle Unterschiede in der Urteilsgüte können dabei zum einen aus Unterschieden in der Verarbeitung und Kombination dieser Informationen durch die Lehrkräfte, zum anderen aus Diskrepanzen in der Validität und in der bloßen Verfügbarkeit der proximalen Merkmale resultieren. Wurden zum Beispiel im Unterricht häufig Aufgaben behandelt, für deren Bearbeitung die gleichen Teilkompetenzen erforderlich sind wie für die Bewältigung der zu beurteilenden Aufgaben, sollten genauere Schwierigkeitsurteile möglich sein, als wenn diese Teilkompetenzen nicht oder nur selten thematisiert wurden. Eine hohe Urteilsgüte sollte außerdem dann erreicht werden können, wenn die Thematisierung relevanter Teilkompetenzen im Unterricht zeitnah zur Schwierigkeitseinschätzung erfolgte, sodass Informationen zur Leistung der eigenen Schülerinnen und Schüler bei der Bearbeitung ähnlicher Aufgaben verhältnismäßig aktuell und kognitiv leicht verfügbar sind. Fragestellungen und Hypothesen Die vorliegende Studie zielt darauf, den gegenwärtig noch unbefriedigenden Erkenntnisstand zur Genauigkeit von Lehrerurteilen zur Aufgabenschwierigkeit um weitere Forschungsergebnisse zu bereichern. Hierfür werden Schwierigkeitsurteile zu Aufgaben aus unterschiedlichen Kompetenzbereichen der Fächer Deutsch (Lesen; Orthografie; Sprache und Sprachgebrauch untersuchen) und Mathematik (Daten; Häufigkeit und Wahrscheinlichkeit; Raum und Form; Zahlen und Operationen) betrachtet, die an einer großen, repräsentativen Lehrerstichprobe erhoben wurden. Darüber hinaus soll untersucht werden, welche Faktoren mit der Genauigkeit von Schwierigkeitseinschätzungen zusammenhängen. Neben der psychometrischen Schwierigkeit der Aufgaben werden dabei insbesondere Lehrermerkmale und Angaben zur Thematisierung relevanter Teilkompetenzen im Unterricht in den Blick genommen. Dabei wird folgenden Forschungsfragen nachgegangen: Wie genau können Lehrkräfte beurteilen, wie schwierig einzelne Aufgaben für die Schülerinnen und Schüler ihrer Klasse sind? Im Einklang mit den oben skizzierten Ergebnissen anderer Untersuchungen werden für die Rangkomponente geringe bis moderate Korrelationen zwischen den Schwierigkeitseinschätzungen der Lehrkräfte einerseits und der psychometrischen Schwierigkeit der Aufgaben andererseits erwartet. Gleichzeitig werden große interindividuelle Unterschiede in der Höhe der berechneten Korrelationen angenommen. Mit Blick auf die Niveaukomponente wird eine Tendenz zur Unterschätzung der psychometrischen Aufgabenschwierigkeit vermutet. Für die Differenzierungskomponente wird erwartet, dass die Lehrkräfte zur Unterschätzung der Varianz der psychometrischen Aufgabenschwierigkeit neigen. Welche Faktoren stehen im Zusammenhang mit der Überbzw. Unterschätzung der Schwierigkeit der Aufgaben? Korrespondierend mit den Befunden anderer Studien wird ein Zusammenhang zwischen der psychometrischen Schwierigkeit der Aufgaben und der Über- oder Unterschätzung der Aufgabenschwierigkeit angenommen. Dabei ist angesichts der Vorhersage zur Ausprägung der Differenzierungskomponente zu vermuten, dass die 46 Lars Hoffmann, Katrin Böhme Schwierigkeit psychometrisch leichter Aufgaben - im Sinne einer Tendenz zur Mitte - eher über- und die Schwierigkeit psychometrisch schwerer Aufgaben eher unterschätzt wird. Es wird ferner erwartet, dass die Dauer der beruflichen Tätigkeit und die Kontaktdauer mit der Klasse in einem geringen, negativen Zusammenhang mit der Urteilstendenz stehen. Lehrkräfte mit einer längeren Berufserfahrung und längerem Kontakt zu ihrer Klasse sollten demnach in geringerem Umfang zu Verschätzungen der Aufgabenschwierigkeit neigen. Zudem werden Zusammenhänge zwischen der Urteilstendenz einerseits und Angaben zur Thematisierung (Häufigkeit, Zeitpunkt) relevanter Teilkompetenzen im Unterricht der jeweiligen Schulklasse andererseits vermutet. Dabei wird erwartet, dass eine häufige Thematisierung aufgabenrelevanter Inhalte im Unterricht zu einer geringeren Verschätzung der Aufgabenschwierigkeit führt. Ebenso sollte eine vor kurzer Zeit im Unterricht erfolgte Thematisierung relevanter Teilkompetenzen zu präziseren Schwierigkeitseinschätzungen führen. Methode Stichprobe Die vorliegende Untersuchung beruht auf Sekundäranalysen von Daten der Normierungsstudie zu den Bildungsstandards in den Fächern Deutsch und Mathematik für den Primarbereich (KMK, 2005 a, 2005 b), die im Frühjahr 2007 vom Institut zur Qualitätsentwicklung im Bildungswesen (IQB) in den Ländern der Bundesrepublik Deutschland durchgeführt wurde (vgl. Böhme, Richter, Stanat, Pant & Köller, 2012). Primäres Anliegen dieser Normierung, bei der Schülerinnen und Schüler der dritten und vierten Klassenstufe getestet wurden, war die Entwicklung von Kompetenzstufenmodellen und die Konstruktion von länderübergreifend gültigen Kompetenzskalen. Neben den bildungsstandardbasierten Testinstrumenten, die von den Schülerinnen und Schülern bearbeitet wurden, umfasste die Studie auch den zeitgleichen Einsatz von Lehrerfragebögen. In diesen wurden die Deutsch- und Mathematiklehrkräfte der an der Studie teilnehmenden Schülerinnen und Schüler u. a. gebeten, die Schwierigkeit einiger Testaufgaben zu beurteilen, die in den Testheften der Kinder zur Erhebung der Kompetenzstände in den Fächern Deutsch und Mathematik eingesetzt wurden. Die hier präsentierten Befunde basieren auf den Angaben einer Teilstichprobe von 239 Deutsch- und 133 Mathematiklehrkräften aus 212 Schulen in ganz Deutschland. Hierbei werden nur die Urteile derjenigen Lehrkräfte berücksichtigt, für deren Schulklassen (aufgrund des Testdesigns) eine Lösungswahrscheinlichkeit der jeweiligen Aufgaben ermittelt werden konnte. Ein Vergleich der Stichprobenmerkmale der hier untersuchten Teilstichprobe mit der Gesamtstichprobe der Normierungsstudie zeigt allerdings, dass die Repräsentativität durch die Selektion nicht eingeschränkt wird (vgl. Tab. im Anhang). Die Deutschlehrkräfte gaben im Mittel an, ihr Fach seit 18.51 Jahren (SD = 11.64) zu unterrichten. Die Mathematiklehrkräfte berichteten eine durchschnittliche Lehrerfahrung von 19.03 Jahren (SD = 11.98). Sowohl die Deutschals auch die Mathematiklehrkräfte waren mehrheitlich weiblich (87 % bzw. 85 %). Instrumente Für die Ermittlung der Kompetenzstände der Schülerinnen und Schüler wurde in der Normierungserhebung eine Vielzahl von Aufgaben zu allen relevanten Kompetenzbereichen aus dem geschützten Aufgabenpool des IQB eingesetzt. Da diese Aufgaben für Trendaussagen in späteren Ländervergleichsstudien (vgl. Böhme et al., 2012) benötigt werden, ist ein vertraulicher Umgang mit den Testinstrumenten unerlässlich. Aus diesem Grund konnten für die Lehrkräftebefragung nur wenige Aufgaben verwendet werden. Die Auswahl dieser wenigen Aufgaben erfolgte vornehmlich auf Grundlage inhaltlicher Erwägungen, die aus den Erfordernissen der Normierungsstudie des Jahres 2007 abgeleitet wurden, und nicht vorrangig mit Blick auf die in diesem Artikel untersuchten Fragestellungen zur Genauigkeit von Schwierigkeitseinschätzungen: Hierdurch unterscheiden sich die ausgewählten Aufgaben z.T. erheblich hinsichtlich der bei ihrer Bearbeitung zu bewältigenden Anforderungen; auch zeigen die Ergebnisse psychometrischer Analysen, dass die ausgewählten Aufgaben nicht gleichmäßig über das gesamte Schwierigkeitsspektrum streuen, sondern mehrheitlich eher leicht waren (vgl. Tab. 1). Insgesamt wurden im Lehrkräftefragebogen für das Fach Deutsch Schwierigkeitsurteile zu fünf Aufgaben aus den Kompetenzbereichen Wie gut können Lehrkräfte Aufgabenschwierigkeiten beurteilen? 47 Lesen (L), Orthografie (O) sowie Sprache und Sprachgebrauch untersuchen (SG) erhoben, für das Fach Mathematik handelte es sich um vier Aufgaben zu den Kompetenzbereichen Daten, Häufigkeit und Wahrscheinlichkeit (DHW), Raum und Form (RF) sowie Zahlen und Operationen (ZO). Alle neun Aufgaben sind im Anhang dieses Berichts abgebildet. Zur Beurteilung der Aufgabenschwierigkeit stand im Lehrerfragebogen eine sechsstufige Ratingskala zur Verfügung (1 = sehr leicht bis 6 = sehr schwer). Die Lehrkräfte wurden gebeten, ihre Einschätzung auf die Kompetenzstände der von ihnen unterrichteten und in der Normierungsstudie getesteten Klasse zu beziehen. Der Zeitpunkt der Thematisierung relevanter Teilkompetenzen wurde wie folgt erfragt: „Bitte kreuzen Sie an, ob der Stoff behandelt wurde oder behandelt wird, der die Grundlage dafür bildet, dass folgende oder ähnliche Aufgaben korrekt gelöst werden können. Der Stoff wird/ wurde behandelt in der Klassenstufe …“ (1 = 2 oder früher bis 3 = 4). Zur Erfassung der Kontaktdauer mit den Schülerinnen und Schülern wurden die Lehrkräfte gefragt, seit wann sie Deutsch bzw. Mathematik in der betreffenden Klasse unterrichten (1 = seit der 1. Klasse bis 4 = seit der 4. Klasse). Der Lehrerfragebogen enthielt außerdem eine Liste mit kompetenzbezogenen Tätigkeiten. Für jede dieser Tätigkeiten sollte angegeben werden, wie häufig sie im laufenden Schuljahr Gegenstand des Unterrichts waren (1 = nie bis 6 = fast jede Stunde). Im Fach Deutsch enthielt diese Liste u. a. die Tätigkeit Sprachliche Begriffe und Strukturen anwenden, die der Aufgabe Deutsch SG1 zugeordnet werden kann. Im Fach Mathematik umfasste die Liste u. a. die Tätigkeit Mathematische Strukturen in Alltagskontexten erkennen, auf die sich Aufgabe Mathe DHW2 bezieht. Zu den weiteren sieben Aufgaben liegen keine Informationen über die Häufigkeit der Thematisierung korrespondierender Tätigkeiten im Unterricht vor. Statistische Analysen Um die Vorzüge eines Multi-Matrix-Designs nutzen zu können, bearbeiteten die an der Normierungsstudie teilnehmenden Kinder unterschiedliche Testhefte. Diese Testheftrotation erfolgte nicht nur zwischen, sondern teilweise auch innerhalb von Klassen (z. B. Winkelmann & Böhme, 2009). Entsprechend der Designvorgaben beinhalteten nur einige der eingesetzten Testhefte die neun Aufgaben, deren Schwierigkeit von den Lehrkräften eingeschätzt werden sollte. Daher war es nicht möglich, die Genauigkeit der Lehrerurteile anhand der relativen Lösungshäufigkeiten der Aufgaben in den Klassen zu überprüfen. Als Vergleichskriterium dienten stattdessen Lösungswahrscheinlichkeiten, für deren Berechnung zunächst eine Raschskalierung aller in den Testheften enthaltenen Aufgaben mithilfe der Software ACER ConQuest 2.0 erfolgte (Wu, Adams, Wilson & Haldane, 2007). Anschließend wurden, unter Verwendung der geschätzten Itemparameter ( σ i ), der Personenparameter (Weighted Maximum Likelihood Estimates/ WLE; Warm, 1989) und der Modellgleichung des Rasch- Modells, für jede Aufgabe (i) und für alle Schülerinnen und Schüler (j) separate Lösungswahrscheinlichkeiten p ij bestimmt. Diese wurden für jede Schulklasse (k) zu einer klassenbezogenen Lösungswahrscheinlichkeit p ik gemittelt. Um die Lösungswahrscheinlichkeiten sinnvoll mit den sechsstufigen Schwierigkeitsurteilen der Lehrkräfte in Beziehung setzen zu können, erfolgte eine Segmentierung von p ik in sechs gleich große Abschnitte (C). Aus der Kategorisierung der einzelnen p ik in diese Abschnitte resultierte die sechsstufige (und zusätzlich umgepolte) Skala C ik . Den Ausgangspunkt für die Berechnung der Rangkomponente bildete ein separat für jede Lehrkraft durchgeführter Vergleich der Rangfolge der Schwierigkeitseinschätzungen zu den Deutschbzw. Mathematikaufgaben mit der Rangfolge der auf C ik abgebildeten Lösungswahrscheinlichkeiten. Die dabei gefundenen Korrelationskoeffizienten wurden mithilfe einer Fishers Z-Transformation über alle Lehrkräfte gemittelt. Zur deskriptiven Abbildung der Verteilung der Koeffizienten wurden Quartile berechnet. Die Bestimmung der Urteilstendenz (Niveaukomponente) erfolgte auf Grundlage eines Vergleichs der Lehrerurteile mit den kategorisierten Lösungswahrscheinlichkeiten (C ik ). Da aus den verbalen Verankerungen der Ratingskala nicht direkt ablesbar war, welche Lösungswahrscheinlichkeiten die Lehrkräfte mit den einzelnen Skalenstufen verbanden, wurde, für die Abbildung der Ratings auf C ik , ein Toleranzbereich definiert: Eine Überbzw. Unterschätzung der Schwierigkeit wurde nur dann angenommen, wenn die Ratings der Lehrkräfte um mehr als eine Kategorie von C ik abwichen. Die Berechnung der Differenzkomponente erfolgte über den Quotienten aus der gepoolten Varianz der Schwierigkeitseinschätzungen und der Varianz der psychometrischen Aufgabenschwierigkeiten. Die Untersuchung von Zusammenhängen zwischen der Urteilstendenz mit Aufgaben- und Leh- 48 Lars Hoffmann, Katrin Böhme rermerkmalen (s. o.) erfolgte mithilfe multinomiallogistischer Regressionsanalysen, die eine Berechnung von Regressionsmodellen mit polytomen Kriteriumsvariablen erlauben (hier: Überschätzung, Unterschätzung und akkurate Einschätzung der Aufgabenschwierigkeit als Referenzkategorie). Für die Fächer Deutsch und Mathematik wurden separate Regressionsanalysen durchgeführt, deren Datenbasis jeweils Lehrerurteile zur Schwierigkeit aller Deutschbzw. Mathematikaufgaben umfasste. Da diese Datenbasis eine hierarchische Struktur aufweist (Schwierigkeitsurteile geschachtelt in Lehrkräften), wurden die Regressionsanalysen mithilfe der Software Mplus 6 (Muthén & Muthén, 1998 - 2011) als Mehrebenenmodelle spezifiziert (Random-Intercept-Modelle). Dabei beinhaltete Ebene 1 die Prädiktoren psychometrischer Itemparameter und Zeitpunkt der Thematisierung relevanter Teilkompetenzen. Ebene 2 umfasste die Prädiktoren Dauer Tätigkeit als Deutschbzw. Mathematiklehrkraft und Kontaktdauer. Für die Aufgaben Deutsch SG1 und Mathe DHW2 wurden außerdem separate Regressionsanalysen (d. h. einzeln für jede Aufgabe und daher ohne Modellierung der Mehrebenenstruktur) durchgeführt, in denen als zusätzlicher Prädiktor die Häufigkeit der Thematisierung der jeweils relevanten Teilkompetenzen im Unterricht berücksichtigt wurde. Ergebnisse Wie genau können Lehrkräfte beurteilen, wie schwierig einzelne Aufgaben für die Schülerinnen und Schüler ihrer Klasse sind? Für die Rangkomponente der Genauigkeit der Lehrereinschätzungen zu den Aufgaben für das Fach Deutsch wurde eine mittlere Korrelation von r = .42 ermittelt. Beim Blick auf die Quartile (Q) der für die Lehrkräfte jeweils separat berechneten Koeffizienten ergab sich eine erhebliche Streuung der Kennwerte (Q 0.25 = .09, Q 0.50 = .31, Q 0.75 = .69). Für die Genauigkeit der Schwierigkeitseinschätzungen zu den Aufgaben des Fachs Mathematik wurde eine Rangkomponente von r = .51 gefunden. Die berechneten Koeffizienten variierten auch hier stark über die einzelnen Lehrkräfte (Q 0.25 = .18, Q 0.50 = .34, Q 0.75 = .57). Die Niveaukomponente der Genauigkeit der Lehrerurteile wurde separat für jede Aufgabe als prozentuale Anteile der Über- und Unterschätzung der empirischen Aufgabenschwierigkeit für die eigene Klasse bestimmt. Die entsprechenden Ergebnisse sind in Tabelle 1 dargestellt, in der sich außerdem Angaben zur jeweiligen Höhe des psychometrischen Itemparameters σ i finden. Insgesamt variieren Höhe und Art der Fehleinschätzungen erheblich über die Aufgaben. Für die Aufgaben Deutsch SG1 , Mathe DHW1 und Mathe DHW2 wurden relativ wenige Fehlurteile ermittelt. Eine verhältnismäßig hohe Anzahl an Fehleinschätzungen fand sich bei den Aufgaben Deutsch O2 , Deutsch L1 und Mathe RF1 . Die zur Schätzung der Differenzierungskomponente ermittelten Quotienten (Deutsch: .89; Mathematik: .61) zeigen, dass die Varianz der empirischen Aufgabenschwierigkeiten im Durchschnitt unterschätzt wurde. Aufgabe i Unterschätzung (in %) Überschätzung (in %) σ i Deutsch O1 Deutsch O2 Deutsch SG1 Deutsch SG2 Deutsch L1 Mathe DHW1 Mathe DHW2 Mathe RF1 Mathe ZO1 17.9 1.2 9.7 0.6 66.9 3.1 10.8 - 19.5 6.0 41.2 6.8 33.1 - 11.5 6.2 69.2 4.1 -1.04 -2.56 -0.81 -2.01 1.37 -0.39 -0.49 -5.16 0.67 Tab. 1: Prozentuale Anteile der Über- und Unterschätzung der Schwierigkeit der einzelnen Aufgaben durch die Lehrkräfte und Ausprägung der Itemparameter σ i auf der Logit-Skala Wie gut können Lehrkräfte Aufgabenschwierigkeiten beurteilen? 49 Welche Faktoren stehen im Zusammenhang mit der Überbzw. Unterschätzung der Schwierigkeit der Aufgaben? Die Ergebnisse der multinomial-logistischen Mehrebenenanalysen sind in den Tabellen 2 und 3 dargestellt. Zur besseren Interpretation der Ergebnisse sei darauf hingewiesen, dass aufgrund der dreistufigen Kriteriumsvariablen für jeden Prädiktor simultan zwei Regressionskoeffizienten berechnet wurden (d. h. ein Koeffizient für die Überschätzung und ein Koeffizient für die Unterschätzung). Für den Prädiktor Höhe des psychometrischen Itemparameters σ i zeigten die Ergebnisse der Mehrebenenanalysen ein analoges Muster für die Aufgaben beider Fächer. Eine höhere Ausprägung von σ i ging jeweils mit einer höheren Wahrscheinlichkeit zur Unterschätzung der empirischen Aufgabenschwierigkeit für die eigene Klasse einher (b Deutsch = 1.29, p < .01; b Mathe = 1.38, p < .01). Korrespondierend dazu zeigte sich bei geringerer Ausprägung von σ i eine höhere Wahrscheinlichkeit zur Überschätzung der Schwierigkeit (b Deutsch = -1.45, p < .01; b Mathe = -.74, p < .01). Die Thematisierung relevanter Teilkompetenzen zu einem frühen Zeitpunkt in der Schullaufbahn ging tendenziell mit einer höheren Wahrscheinlichkeit zur Unterschätzung der Schwierigkeit einher (b Deutsch = -.15, p = .06; b Mathe = -.98, p < .01). Erfolgte die Thematisierung erst zu einem späteren Zeitpunkt, fand sich eine höhere Wahrscheinlichkeit zur Überschätzung der Schwierigkeit (b Deutsch = .15, p < .05; b Mathe = .89, p < .01). Im Mittel korrelierten die Angaben zum Zeitpunkt der Thematisierung nur gering mit den Lehrerurteilen zur Schwierigkeit der Aufgaben für die Schülerinnen und Schüler ihrer Klasse (r = .26). Hinsichtlich der auf Ebene 2 der Regressionsmodelle betrachteten Merkmale Unterschätzung Überschätzung Ebene 1 (Urteile) Höhe d. Itemparameters σ i Zeitpunkt Thematisierung im Unterricht B SE (B) B SE (B) 1.29** -0.15 0.11 0.08 -1.45** 0.15* 0.16 0.06 Ebene 2 (Lehrkräfte) Kontaktdauer Dauer Lehrertätigkeit (Jahre) -0.16 -0.02 0.11 0.01 0.11 0.01 0.12 0.01 R 2 Nagelkerke = .51 Tab. 2: Multinomial-logistische Mehrebenenanalyse für die Lehrerurteile zur Schwierigkeit der Deutschaufgaben für die Schülerinnen und Schüler ihrer Klassen Anmerkungen: * p ≤ .05. ** p < .01. Unterschätzung Überschätzung Ebene 1 (Urteile) Höhe d. Itemparameters σ i Zeitpunkt Thematisierung im Unterricht B SE (B) B SE (B) 1.38** -0.98** 0.34 0.28 -0.74** 0.89** 0.07 0.26 Ebene 2 (Lehrkräfte) Kontaktdauer Dauer Lehrertätigkeit (Jahre) -0.06 < 0.01 0.19 0.02 -0.19 -0.03* 0.13 0.02 R 2 Nagelkerke = .50 Tab. 3: Multinomial-logistische Mehrebenenanalyse für die Lehrerurteile zur Schwierigkeit der Mathematikaufgaben für die Schülerinnen und Schüler ihrer Klassen für das Fach Mathematik Anmerkungen: * p ≤ .05. ** p < .01. 50 Lars Hoffmann, Katrin Böhme wurde lediglich für Aufgaben zum Fach Mathematik und nur für die Dauer der Lehrtätigkeit ein statistisch signifikanter Prädiktor gefunden: Demnach sank die Wahrscheinlichkeit zur Überschätzung der empirischen Aufgabenschwierigkeit mit wachsender Berufserfahrung der Mathematiklehrkräfte (b Mathe = -.03, p < .05). Die Ergebnisse der multinomial-logistischen Regressionsanalyse zur Aufgabe Deutsch SG1 sind in Tabelle 4 dargestellt: Lehrkräfte mit größerer beruflicher Erfahrung neigten seltener zur Unterschätzung der Schwierigkeit dieser Aufgabe für die Schülerinnen und Schüler ihrer Klasse (b = -.08, p < .01). Lediglich marginal signifikant zeigte sich, dass Lehrkräfte mit einer geringen Kontaktdauer die Schwierigkeit der Aufgabe mit höherer Wahrscheinlichkeit überschätzten (b = .52, p = .07). Für die Häufigkeit, mit der Sprachliche Begriffe und Strukturen anwenden im laufenden Schuljahr thematisiert wurde, konnten keine statistisch bedeutsamen Regressionskoeffizienten ermittelt werden. In Tabelle 5 finden sich die Ergebnisse der multinomial-logistischen Regressionsanalyse zur Aufgabe Mathe DHW2 . Auch hier neigten Lehrkräfte mit einer geringeren Kontaktdauer stärker zur Überschätzung der Schwierigkeit (b = 1.24, p < .05). Demgegenüber ging eine häufigere Thematisierung der Teilkompetenz Mathematische Strukturen in Alltagskontexten erkennen im Unterricht mit einer geringeren Neigung zur Überschätzung der Schwierigkeit einher (b = -1.23, p < .05). Diskussion Zusammenfassung Im Fokus der vorliegenden Untersuchung stand zunächst die Frage, wie genau Grundschullehrkräfte die Schwierigkeit von Aufgaben der Fächer Deutsch und Mathematik beurteilen können. Für die Rangkomponente der Genauigkeit der Schwierigkeitseinschätzungen wurden, hypothesenkonform und vergleichbar mit den Befunden anderer Studien (z. B. Lehmann et al., 2000), in beiden Fächern Korrelationskoeffizienten in moderater Höhe ermittelt. Außerdem wurde, ebenfalls ähnlich wie in anderen Unterschätzung Überschätzung B SE (B) B SE (B) Sprachliche Begriffe und Strukturen anwenden Kontaktdauer Dauer Lehrertätigkeit (Jahre) -0.36 0.06 -0.08** 0.26 0.27 0.03 -0.47 0.56 -0.02 0.29 0.31 0.03 R 2 Nagelkerke = .16 Tab. 4: Multinomial-logistische Regressionsanalyse für die Lehrerurteile zur Schwierigkeit der Aufgabe Deutsch SG1 für die Schülerinnen und Schüler ihrer Klassen Anmerkungen: * p ≤ .05. ** p < .01. Unterschätzung Überschätzung B SE (B) B SE (B) Mathematische Strukturen in Alltagskontexten erkennen Kontaktdauer Dauer Lehrertätigkeit (Jahre) 0.21 0.06 -0.01 0.54 0.80 0.86 -1.23* 1.24* 0.04 0.02 0.04 0.29 R 2 Nagelkerke = .14 Tab. 5: Multinomial-logistische Regressionsanalyse für die Lehrerurteile zur Schwierigkeit der Aufgabe Mathe DHW2 für die Schülerinnen und Schüler ihrer Klassen Anmerkungen: * p ≤ .05. ** p < .01. Wie gut können Lehrkräfte Aufgabenschwierigkeiten beurteilen? 51 Studien, eine hohe interindividuelle Varianz in der Genauigkeit der Lehrerurteile gefunden (z. B. Hosenfeld et al., 2002). Die Ergebnisse zur Niveaukomponente verdeutlichen, dass die Schwierigkeit einiger Aufgaben im Durchschnitt relativ genau eingeschätzt wurde, während für andere Aufgaben z.T. recht hohe prozentuale Anteile von Fehleinschätzungen zu verzeichnen waren. Ferner zeigte sich sowohl deskriptiv als auch in den Ergebnissen der Mehrebenenanalysen der Trend, dass die Schwierigkeit psychometrisch leichter Aufgaben verstärkt überschätzt und die Schwierigkeit psychometrisch schwerer Aufgaben vermehrt unterschätzt wurde. Gleichzeitig bilden die als Maß für die Differenzierungskomponente berechneten Quotienten hypothesenkonform eine tendenzielle Unterschätzung der Varianz der empirischen Schwierigkeiten ab (vgl. Lintorf et al., 2011). Zusammengenommen legen diese Befunde den Schluss nahe, dass die Schwierigkeitseinschätzungen der Lehrkräfte durch eine Vermeidung extremer Urteile (bzw. extremer Antwortkategorien) bzw. durch eine Tendenz zur Mitte gekennzeichnet waren. In der vorliegenden Studie wurde weiterhin untersucht, ob bestimmte Lehrermerkmale mit der Genauigkeit von Schwierigkeitseinschätzungen zusammenhängen. Diese Lehrermerkmale umfassten die Dauer der Tätigkeit im Lehrerberuf und die Kontaktdauer mit der jeweiligen Klasse. Für beide Merkmale wurden nur vereinzelt statistisch signifikante Effekte auf die Über- oder Unterschätzung der Schwierigkeit einer Aufgabe für die Schülerinnen und Schüler der eigenen Klassen gefunden. Dieses Ergebnis erscheint zwar kontraintuitiv - für Lehrkräfte mit einer größeren Erfahrung ist eine höhere Expertise zu vermuten - stimmt jedoch mit den Befunden anderer Studien überein (z. B. McElvany et al., 2009). Die Arbeit widmete sich ferner der Untersuchung von Zusammenhängen zwischen der Genauigkeit von Schwierigkeitseinschätzungen einerseits und Merkmalen bzw. Inhalten des Unterrichts andererseits, auf die sich die Schwierigkeitsurteile bezogen. Unter anderem wurde vermutet, dass eine häufigere Thematisierung von Teilkompetenzen, die für die Bewältigung der zu beurteilenden Aufgaben erforderlich sind, Schwierigkeitseinschätzungen erleichtern könnte. Allerdings fand sich lediglich für eine Aufgabe des Fachs Mathematik der Befund, dass Lehrkräfte weniger zur Unterschätzung der Schwierigkeit neigten, wenn die betreffende Teilkompetenz im laufenden Schuljahr häufig Gegenstand ihres Unterrichts war. Hingegen weisen die ermittelten Ergebnisse darauf hin, dass die Schwierigkeitseinschätzungen der Lehrkräfte dadurch beeinflusst wurden, in welcher Klassenstufe Aufgaben mit ähnlichen Anforderungen im Unterricht behandelt worden sind. Allerdings scheint die Urteilsgüte nicht, wie vermutet, mit zunehmender zeitlicher Nähe zwischen der Thematisierung im Unterricht und dem Zeitpunkt der Schwierigkeitseinschätzungen zu wachsen. Zwar ging eine Thematisierung ähnlicher Aufgaben zu einem frühen Zeitpunkt in der Primarstufe mit einer stärkeren Tendenz zur Unterschätzung der Schwierigkeit einher, gleichzeitig zeigte sich aber, dass eine Behandlung ähnlicher Aufgaben zu einem späteren Zeitpunkt die Wahrscheinlichkeit zur Überschätzung der Schwierigkeit erhöhte. Stärken und Grenzen der vorliegenden Untersuchung Die dargestellten Ergebnisse basieren auf Urteilen einer großen, repräsentativen Stichprobe von Grundschullehrkräften zur Schwierigkeit von Aufgaben aus verschiedenen Fächern und Kompetenzbereichen. Im Unterschied zu vielen anderen Studien wurden dabei sowohl die Rang- und Niveaukomponente als auch die Differenzierungskomponente der Urteilsgenauigkeit betrachtet. Eine weitere Besonderheit der vorliegenden Arbeit besteht in der Untersuchung von Zusammenhängen zwischen der Genauigkeit von Schwierigkeitseinschätzungen und bestimmten Merkmalen bzw. Inhalten des Unterrichts. Ungeachtet der genannten Stärken weist die vorliegende Arbeit auch einige Be- 52 Lars Hoffmann, Katrin Böhme schränkungen auf, die in weiterführenden Untersuchungen berücksichtigt werden sollten. Beispielsweise ist anzumerken, dass die hier gewählte Form der Schwierigkeitseinschätzungen optimierbar ist, zum Beispiel durch eine direkte Angabe der Lösungswahrscheinlichkeiten für die Klassen. Außerdem wäre es wünschenswert gewesen, die dargestellten Analysen zu Kovariaten der Genauigkeit von Schwierigkeitseinschätzungen für eine deutlich größere Zahl von Aufgaben durchzuführen. Die Aufgaben sollten hinsichtlich der bei ihrer Bearbeitung zu bewältigenden Anforderungen nach Möglichkeit homogener als die hier verwendeten sein und eine Fokussierung auf eine überschaubare Menge relevanter Teilkompetenzen gestatten. Eine derartig zusammengesetzte Aufgabenstichprobe wäre Voraussetzung für eine zusätzliche inhaltliche Auseinandersetzung mit den zu beurteilenden Aufgaben. Dabei könnten insbesondere mögliche Zusammenhänge zwischen bestimmten Merkmalen der Aufgaben einerseits und den Schwierigkeitseinschätzungen der Lehrkräfte andererseits fokussiert werden. Schlussfolgerungen für Forschung und Praxis Trotz der genannten Beschränkungen ist die vorliegende Arbeit eine wichtige Bereicherung des bislang eher unbefriedigenden Erkenntnisstands zur Genauigkeit von Lehrerurteilen. Gleichwohl verweisen die Ergebnisse auf zusätzlichen Forschungsbedarf, wobei insbesondere Untersuchungen zur Bedeutung weiterer Faktoren für die Genauigkeit der Schwierigkeitseinschätzungen lohnenswert erscheinen. Wie bereits skizziert, erscheinen hierbei insbesondere Analysen zur Rolle bestimmter Aufgabenmerkmale (z. B. schwierigkeitsbestimmende Merkmale, Hartig, 2007) zielführend. Mit Blick auf die Praxis lässt sich aus den dargestellten Ergebnissen - korrespondierend mit den Empfehlungen anderer Studien (vgl. Anders et al., 2010) - ein erhöhter Bedarf an Aus- und Fortbildungsmaßnahmen zur Optimierung der diagnostischen Fähigkeiten von Lehrkräften schlussfolgern. Im Sinne einer kompetenzorientierten, kognitiv anregenden Unterrichtsgestaltung ist es entscheidend, Übungs- und Lernaufgaben in einem angemessenen Schwierigkeitsbereich einzusetzen und auch die Überprüfung der Kompetenzstände der Schülerinnen und Schüler mit Aufgaben adäquater Schwierigkeit durchzuführen. Hierfür müssen Lehrkräfte zunächst in die Lage versetzt werden, nicht nur die Kompetenzstände ihrer Schülerinnen und Schüler zutreffend und differenziert einzuschätzen, sondern ferner möglichst genaue Vorhersagen zur Schwierigkeit von möglichen Aufgaben zu treffen. Einen wirkungsvollen Mechanismus zur Verbesserung der Urteilsgenauigkeit könnten dabei Reflexionsprozesse darstellen. Diese können beispielsweise angeregt werden, indem Lehrkräfte durch entsprechende Rückmeldungen die Möglichkeit erhalten, Vergleiche zwischen den eigenen Einschätzungen und den empirischen Aufgabenschwierigkeiten bzw. den tatsächlichen Schülerleistungen vorzunehmen (vgl. Hosenfeld et al., 2002). Literatur Anders, Y., Kunter, M., Brunner, M., Krauss, S. & Baumert, J. (2010). Diagnostische Fähigkeiten von Mathematiklehrkräften und die Leistungen ihrer Schülerinnen und Schüler. Psychologie in Erziehung und Unterricht, 57, 175 - 193. Baumert, J. & Kunter, M. (2006). Stichwort: Professionelle Kompetenz von Lehrkräften. Zeitschrift für Erziehungswissenschaft, 9, 469 - 520. Böhme, K., Richter, D., Stanat, P., Pant, H. A. & Köller, O. (2012). Die länderübergreifenden Bildungsstandards in Deutschland. In P. Stanat, H. A. Pant, K. Böhme & D. Richter (Hrsg.), Kompetenzen von Schülerinnen und Schülern am Ende der vierten Jahrgangsstufe in den Fächern Deutsch und Mathematik: Ergebnisse des IQB-Ländervergleichs 2011 (S. 11 - 18). Münster: Waxmann. Brunner, M., Anders, Y., Hachfeld, A. & Krauss, S. (2011). Diagnostische Fähigkeiten von Mathematiklehrkräften. In M. Kunter, J. Baumert, W. Blum, U. Klusmann, S. Krauss & M. Neubrand (Hrsg.), Professionelle Kompetenz von Lehrkräften. Ergebnisse des Forschungsprogramms COACTIV (S. 215 - 234). Münster: Waxmann. Brunswik, E. (1956). Perception and the representative design of psychological experiments. Berkeley: University of California Press. Coladarci, T. (1986). Accuracy of teacher judgments of student responses to standardized test items. Journal of Educational Psychology, 78, 141 - 146. Wie gut können Lehrkräfte Aufgabenschwierigkeiten beurteilen? 53 Helmke, A. (2010). Unterrichtsqualität und Lehrerprofessionalität: Diagnose, Evaluation und Verbesserung des Unterrichts. Seelze: Klett/ Kallmeyer. Hosenfeld, I., Helmke, A. & Schrader, F.-W. (2002). Diagnostische Kompetenz: Unterrichts- und lernrelevante Schülermerkmale und deren Einschätzung durch Lehrkräfte in der Unterrichtsstudie SALVE. In M. Prenzel & J. Doll (Hrsg.), Bildungsqualität von Schule: Schulische und außerschulische Bedingungen mathematischer, naturwissenschaftlicher und überfachlicher Kompetenzen. Weinheim: Beltz. Hartig, J. (2007). Skalierung und Definition von Kompetenzniveaus. In B. Beck & E. Klieme (Hrsg.), Sprachliche Kompetenzen. Konzepte und Messung. DESI Ergebnisse Band 1 (S. 83 - 99). Weinheim: Beltz. KMK (2004). Standards für die Lehrerbildung: Bildungswissenschaften. Beschluss der Kultusministerkonferenz vom 16. 12. 2004. Zugriff am 1. 3. 2012 unter http: / / www. kmk.org/ fileadmin/ veroeffentlichungen_beschluesse/ 2004/ 2004_12_16-Standards-Lehrerbildung.pdf KMK (2005 a). Bildungsstandards im Fach Deutsch für den Primarbereich. Beschluss vom 15. 10. 2004. München: Luchterhand. KMK (2005 b). Bildungsstandards im Fach Mathematik für den Primarbereich. Beschluss vom 15. 10. 2004. München: Luchterhand. Lehmann, R. H., Peek, R., Gänsfuß, R., Lutkat, S., Mücke, S. & Barth, I. (1999). QuaSUM. Qualitätsuntersuchungen an Schulen zum Unterricht in Mathematik. Ergebnisse einer repräsentativen Untersuchung im Land Brandenburg (Reihe Schulforschung in Brandenburg, Heft 1). Potsdam: Ministerium für Bildung, Jugend und Sport im Land Brandenburg. Lintorf, K., McElvany, N., Rjosk, C., Schroeder, S., Baumert, J., Schnotz, W., ... Ullrich, M. (2011). Zuverlässigkeit von diagnostischen Lehrerurteilen - Reliabilität verschiedener Urteilsmaße bei der Einschätzung von Aufgabenschwierigkeiten. Unterrichtswissenschaft, 39, 103 - 120. Lorenz, C. (2011). Diagnostische Kompetenz von Grundschullehrkräften: Strukturelle Aspekte und Bedingungen. Bamberg: University of Bamberg Press. Lorenz, C. & Artelt, C. (2009). Fachspezifität und Stabilität diagnostischer Kompetenz von Grundschullehrkräften in den Fächern Deutsch und Mathematik. Zeitschrift für Pädagogische Psychologie, 23, 211 - 222. McElvany, N., Schroeder, S., Hachfeld, A., Baumert, J., Richter, T., Schnotz, W., ... Ullrich, M. (2009). Diagnostische Fähigkeiten von Lehrkräften bei der Einschätzung von Schülerleistungen und Aufgabenschwierigkeiten bei Lernmedien mit instruktionalen Bildern. Zeitschrift für Pädagogische Psychologie, 23, 223 - 235. Muthén, L. K. & Muthén, B. O. (1998 - 2011). Mplus User’s Guide (6th ed.). Los Angeles, CA: Muthén & Muthén. Schrader, F.-W. & Helmke, A. (1987). Diagnostische Kompetenz von Lehrern: Komponenten und Wirkungen. Empirische Pädagogik, 1, 27 - 52. Schrader, F.-W. & Helmke, A. (2001). Alltägliche Leistungsbeurteilung durch Lehrer. In F. E. Weinert (Hrsg.), Leistungsmessungen in Schulen (S. 45 - 58). Weinheim: Beltz. Südkamp, A., Kaiser, J. & Möller, J. (2012). Accuracy of teachers’ judgments of students’ academic achievement: A meta-analysis. Journal of Educational Psychology, 4, 743 - 762. Vygotskij, L. (1987). Ausgewählte Schriften, Bd. II: Arbeiten zur psychischen Entwicklung der Persönlichkeit. Berlin: Volk und Wissen. Warm, T. A. (1989). Weighted likelihood estimation of ability in item response theory. Psychometrika, 54, 427 - 450. Weinert, F. E. (2000). Lehren und Lernen für die Zukunft - Ansprüche an das Lernen in der Schule. Zugriff am 1. 3. 2012 unter http: / / www2.ibw.uni-heidelberg.de/ ~gerstner/ WeinertLehren&Lernen.pdf Winkelmann, H. & Böhme, K. (2009). Anlage und Durchführung der Pilotierung der Bildungsstandards. In D. Granzer, O. Köller, A. Bremerich-Vos, M. van den Heuvel-Panhuizen, K. Reiss & G. Walther (Hrsg.), Bildungsstandards Deutsch und Mathematik (S. 31 - 41). Weinheim: Beltz. Wu, M. L., Adams, R. J., Wilson, M. R. & Haldane, S. (2007). ACER Conquest (Version 2.0) [Software]. Mulgrave: ACER Press. Lars Hoffmann Dr. Katrin Böhme Institut zur Qualitätsentwicklung im Bildungswesen Unter den Linden 6 10099 Berlin E-Mail: lars.hoffmann@iqb.hu-berlin.de E-Mail: katrin.boehme@iqb.hu-berlin.de 54 Lars Hoffmann, Katrin Böhme Anhang I Anhang II Gesamtstichprobe Teilstichprobe Kompetenzbereich Orthografie Teilstichprobe Kompetenzbereich Sprache und Sprachgebrauch untersuchen Teilstichprobe Kompetenzbereich Lesen Teilstichprobe Mathematik N Schüler = 11396 n Schüler = 1846 n Schüler = 2385 n Schüler = 3600 n Schüler = 3268 Geschlecht der Kinder (männl., weibl.) 50,5 %, 49,5 % 50,8 %, 49,2 % 49,6 %, 50,4 % 51,3 %, 48,7 % 50,4 %, 49,6 % Deutsch-Note im Halbjahr (M, SD) 2.71 (0.90) 2.67 (0.87) 2.67 (0.90) 2.66 (0.88) 2.69 (0.90) Mathematik-Note im Halbjahr (M, SD) 2.66 (0.97) 2.60 (0.94) 2.62 (0.95) 2.60 (0.94) 2.71 (0.97) WLE Orthografie -0.52 (1.37) -0.52 (1.37) -0.13 (1.41) -0.50 (1.28) 0.22 (1.31) WLE Sprache und Sprachgebrauch untersuchen -0.16 (1.45) 0.23 (1.39) -0.16 (1.45) -0.32 (1.55) 0.03 (1.50) WLE Lesen -0.28 (1.36) -0.16 (1.21) -0.31 (1.56) -0.28 (1.36) -0.02 (1.37) WLE Mathematik 0.01 (1.17) 0.48 (1.04) 0.17 (1.24) 0.12 (1.28) 0.01 (1.17) Charakteristika der Gesamtstichprobe der Kinder, die an der Normierungserhebung teilnahmen, sowie Merkmale der Schülerstichproben, auf denen die Berechnung der klassenbezogenen Lösungswahrscheinlichkeiten p ik basierte Instruktion: Die Sätze in dieser Aufgabe werden dir gleich vollständig vorgelesen. Lies bitte in deinem Heft mit! In den Sätzen fehlt immer ein Wort. Setze die fehlenden Wörter ein! Lena bekommt zum _______ drei Geschenke. Lösung: Geburtstag Deutsch 01 Instruktion: Die Sätze in dieser Aufgabe werden dir gleich vollständig vorgelesen. Lies bitte in deinem Heft mit! In den Sätzen fehlt immer ein Wort. Setze die fehlenden Wörter ein! Wenn man in die Schule geht, sollte man schon mit Löffel und _______ essen können. Lösung: Gabel Deutsch 02 (Den Schülern wurde ein Text präsentiert) Im Text findest du einige Verben. Suche 4 unterschiedliche Verben heraus und schreibe sie auf! 1) _________________ 3) _________________ 2) _________________ 4) _________________ Deutsch SG1 Finde ein Wort, das mit dem unterstrichenen Wort ein Reimpaar bildet! Schildkröten interessieren uns sehr, sie leben an Land, in Sumpfgebieten oder im _______. Deutsch SG2 [Den Schülerinnen und Schülern wurde der Text „Alarm, wenn der Kuckuck ruft“ (nach Hans Bahmer) vorgelegt. Im Anschluss mussten sie u. a. die nachfolgende Frage beantworten] Ist der junge Kuckuck selbst erwachsen, legt er sein Ei in die Nester der Singvogelarten, von denen er selbst aufgezogen wurde. Schreibe alles auf, was er sich dafür merken musste! 1) ____________________ 2) ____________________ 3) ____________________ Deutsch L1 Wie gut können Lehrkräfte Aufgabenschwierigkeiten beurteilen? 55 Hier siehst du den Fahrplan von Köln mit dem Intercity IC 800 nach Hamburg. Wie lange braucht der Zug von Köln bis Hamburg Hbf? Bahnhof an ab Köln Hbf 10: 09 Düsseldorf Hbf 10: 30 10: 32 Duisburg Hbf 10: 44 10: 46 Essen Hbf 10: 57 10: 59 Bochum Hbf 11: 07 11: 09 Dortmund Hbf 11: 20 11: 24 Münster (Westf) Hbf 11: 53 11: 55 Osnabrück Hbf 12: 18 12: 20 Bremen Hbf 13: 13 13: 15 Hamburg-Harburg 13: 59 14: 01 Hamburg Hbf 14: 09 Mathe DHW1 Die Klasse 3 plant einen Ausflug. Jedes Kind hat sich für ein Ziel entschieden. Wie viele Mädchen möchten nicht mit ins Freibad? Mathe DHW2 Spiegele an der Geraden g. g Mathe RF1 Bestimme die fehlenden Zahlen! Gleiche Form bedeutet gleiche Zahl. ! + S = 7 ! = _______ ! - S = 5 S = _______ Mathe ZO1