Psychologie in Erziehung und Unterricht
3
0342-183X
Ernst Reinhardt Verlag, GmbH & Co. KG München
10.2378/peu2016.art04d
3_063_2016_1/3_063_2016_1.pdf11
2016
631
Verbessert sich die diagnostische Urteilsgenauigkeit von Lehrkräften bei längerem Kontakt mit der Klasse?
11
2016
Britta Oerke
Nele McElvany
Annika Ohle
Mark Ullrich
Holger Horz
Da einer Lehrkraft umso mehr Informationen über ihre Schülerinnen und Schüler zugänglich werden, je länger sie sie kennt, sollte mit zunehmendem Kontakt mit diesen das Urteil der Lehrperson genauer ausfallen. Nur wenige Untersuchungen wurden bisher durchgeführt, um den Effekt der Kontaktdauer empirisch zu überprüfen. Im vorliegenden Beitrag wird untersucht, ob Lehrkräfte die Fähigkeit der Lernenden zur Bild-Text-Integration beim Lesen nach eineinhalb Jahren Unterricht in der Klasse besser einschätzen können als nach einem halben Jahr. Die Studie wird mit Lehrkräften von Fünft- und Sechstklässlern sowohl im Querschnitt (n = 83) als auch im Längsschnitt (n = 25) durchgeführt und dabei der Effekt auf die Rang- und die Niveaukomponente überprüft. Die Ergebnisse zeigen im Querschnitt keine Unterschiede zwischen kurzer und langer Kontaktdauer. Im Längsschnitt wurde hingegen eine Verringerung des absoluten Urteilsfehlers bei der Einschätzung der Klassenleistung in einer konkreten Aufgabe gefunden. Weitere Forschung sollte die Frage fokussieren, was Lehrkräfte benötigen, um von längerem Kontakt mit Schülerinnen und Schülern zu profitieren.
3_063_2016_1_0004
n Empirische Arbeit Psychologie in Erziehung und Unterricht, 2016, 63, 34 -47 DOI 10.2378/ peu2016.art04d © Ernst Reinhardt Verlag München Basel Das Projekt wurde gefördert von der Deutschen Forschungsgemeinschaft (Förderkennzeichen BA 1461/ 8-1 und SCHN 665/ 5-1) im Rahmen des Schwerpunktprogramms Kompetenzmodelle zur Erfassung individueller Lernergebnisse und zur Bilanzierung von Bildungsprozessen (SPP 1293). Ein wesentlicher Teil des Lehrberufs besteht nach Stern (2009) darin, permanent Entscheidungen darüber zu treffen, wie die Unterrichtszeit am besten zu nutzen ist, welche Lernmaterialien geeignet sind und wie die Verbessert sich die diagnostische Urteilsgenauigkeit von Lehrkräften bei längerem Kontakt mit der Klasse? Britta Oerke 1 , Nele McElvany 1 , Annika Ohle 1 , Mark Ullrich 2 , Holger Horz 2 1 Institut für Schulentwicklungsforschung, Technische Universität Dortmund 2 Universität Frankfurt a. M. Zusammenfassung: Da einer Lehrkraft umso mehr Informationen über ihre Schülerinnen und Schüler zugänglich werden, je länger sie sie kennt, sollte mit zunehmendem Kontakt mit diesen das Urteil der Lehrperson genauer ausfallen. Nur wenige Untersuchungen wurden bisher durchgeführt, um den Effekt der Kontaktdauer empirisch zu überprüfen. Im vorliegenden Beitrag wird untersucht, ob Lehrkräfte die Fähigkeit der Lernenden zur Bild-Text-Integration beim Lesen nach eineinhalb Jahren Unterricht in der Klasse besser einschätzen können als nach einem halben Jahr. Die Studie wird mit Lehrkräften von Fünft- und Sechstklässlern sowohl im Querschnitt (n = 83) als auch im Längsschnitt (n = 25) durchgeführt und dabei der Effekt auf die Rang- und die Niveaukomponente überprüft. Die Ergebnisse zeigen im Querschnitt keine Unterschiede zwischen kurzer und langer Kontaktdauer. Im Längsschnitt wurde hingegen eine Verringerung des absoluten Urteilsfehlers bei der Einschätzung der Klassenleistung in einer konkreten Aufgabe gefunden. Weitere Forschung sollte die Frage fokussieren, was Lehrkräfte benötigen, um von längerem Kontakt mit Schülerinnen und Schülern zu profitieren. Schlüsselbegriffe: Bild-Text-Integration, Kontaktdauer, diagnostische Kompetenz, Urteilsakkuratheit, Lehrer Does Diagnostic Accuracy of Teachers Improve With Longer Contact to the Class? Summary: The longer teachers have contact with their class, and thus as more information about students becomes available to them, the more accurate teachers’ judgments should become. However, only few studies have been done until now to investigate the effect of contact duration empirically. The present contribution analyzes if teachers’ judgements of their students’ performance in text-picture integration is better after one and half years versus after half a year of teaching them. The study was conducted with teachers of fifthand sixth-grade students with cross-sectional (n = 83) and longitudinal data (n = 25), analyzing the effect on the rank-order and level components. The results show no difference between short or long contact duration when comparing two cohorts cross-sectionally. In the longitudinal view, there is a reduction of the absolute judgment error estimating the difficulty of a specific task. Further research should focus on what teachers need in order to profit from longer contact with their students. Keywords: Text-picture integration, contact duration, diagnostic competence, judgment accuracy, teachers Verbessert sich die diagnostische Urteilsgenauigkeit? 35 Schülerinnen und Schüler angemessen unterstützt werden können. Neben Klassenführungs-, didaktischer und fachwissenschaftlicher Kompetenz benötigen Lehrkräfte daher diagnostische Fähigkeiten, um zu bestimmen, wie spezifische Themen und Probleme an die Interessen und Fähigkeiten der Lernenden angepasst und für den Unterricht aufbereitet werden sollen (z. B. Baumert & Kunter, 2006; Stern, 2009; siehe auch Shulman, 1987). In vielen Studien wurden bereits diagnostische Kompetenzen bezogen auf Schülerleistungen in den Blick genommen (vgl. z. B. Südkamp, Kaiser & Möller, 2012). Ein noch zu wenig untersuchter Bereich, in dem sowohl mit Fehlkonzepten und Schwierigkeiten der Schülerinnen und Schüler zu rechnen ist als auch die Auswahl geeigneter Lernmaterialien eine große Rolle spielt, ist das Lesen von Texten mit instruktionalen Bildern, das nach Abschluss des Erstleseunterrichts zunehmend an Bedeutung gewinnt (siehe z. B. Lintorf et al., 2011). Die Lehrkraft sollte, um eine möglichst gute Passung zwischen dem Leistungspotenzial der Klasse und dem Anspruchsniveau der Lernmaterialien zu erreichen, typische Fehlkonzepte von Schülerinnen und Schülern einer bestimmten Klassenstufe ebenso kennen wie den Schwierigkeitsgrad von Lernaufgaben für die jeweilige Klasse einschätzen können. Dabei sollte die Qualität der Einschätzung der Schülerinnen und Schüler hinsichtlich ihrer Stärken und Schwächen im Umgang mit Bild-Text- Material der Lehrkraft mit zunehmender Erfahrung mit der spezifischen Klasse zunehmen. Je länger eine Lehrkraft ihre Klasse kennt, umso mehr Gelegenheit hat sie, ihre diagnostischen Urteile zu überprüfen und gegebenenfalls zu korrigieren. In der vorliegenden Studie wird daher untersucht, ob eine längere Kontaktdauer mit einer Klasse dazu beiträgt, die Akkuratheit diagnostischer Urteile von Lehrkräften über ihre Schülerinnen und Schüler im Bereich der Fähigkeit zur Bild-Text-Integration zu verbessern. Texte mit instruktionalen Bildern als Unterrichtsmaterialien Unter instruktionalen Bildern versteht man realistische Bilder wie Zeichnungen oder Fotos ebenso wie logische Bilder, z. B. Diagramme oder Karten. Das Lesen und Verstehen von Texten mit instruktionalen Bildern ist wesentlich für den Wissenserwerb in der Sekundarstufe, da ein großer Anteil des Unterrichtsmaterials solche Bild-Text-Kombinationen beinhaltet (siehe z. B. Lintorf et al., 2011). Ihre Bedeutung variiert dabei zwischen unterschiedlichen Fächern. Während instruktionale Bilder im Biologie- und Erdkundeunterricht der Sekundarstufe nach Angaben der Lehrkräfte in etwa zwei Drittel der Unterrichtsstunden vorkommen, werden sie im Deutschunterricht nur in 28 % der Unterrichtsstunden genutzt (McElvany et al., 2012). Damit Text- und Bildinformationen integriert werden können, muss nach Schnotz und Bannert (2003) zunächst ein Oberflächenstruktur-Mapping zwischen Wort- und Bildelementen stattfinden (z. B. über Farben oder Hinweispfeile). Dann werden die mentalen Repräsentationen des Textes und des Bildes in einem Tiefenstruktur-Mapping aufeinander bezogen, sodass Sprach- und Textverstehen einander im Idealfall in einer Ko-Konstruktion beim Aufbau adäquater Wissensstrukturen unterstützen. Dies alles geschieht im Arbeitsgedächtnis, dessen Kapazität begrenzt ist (z. B. Chandler & Sweller, 1991). Dabei entstehen Fehler in der Interpretation (siehe z. B. Leinhardt, Zaslavsky & Stein, 1990), die z. B. durch mangelndes Vorwissen begründet sein können (Körner, 2005). Hochpöchler et al. (2013) berichten, dass viele Schülerinnen und Schüler nicht in der Lage seien, die Informationen aus den Bildern angemessen zu nutzen. Eine gezielte Förderung der Strategien der Bild-Text-Integration durch die Lehrperson ist daher notwendig. Bisherige Untersuchungen zeigen, dass Lehrkräfte sehr motiviert sind, die Fähigkeit der Schülerinnen und Schüler zur Bild-Text-Integration zu fördern (McElvany et al., 2010), und dass positive Lehrkraftüberzeugungen, die das 36 Britta Oerke et al. Unterrichten klarer Strategien zur Bild-Text- Integration befürworten, mit höherem Engagement aufseiten der Lernenden zusammenhängen (Schroeder et al., 2011), wobei noch nicht untersucht wurde, ob das erhöhte Engagement auch mit höheren Leistungen einhergeht. Eine Voraussetzung für eine effektive Förderung sind gute diagnostische Kompetenzen. Diagnostische Kompetenzen Definition und Komponenten Diagnostische Kompetenzen von Lehrkräften gelten als wesentlicher Bestandteil von Lehrerprofessionalität (Baumert & Kunter, 2006). Lorenz und Artelt (2009) definieren sie als „die Fähigkeit, Schülerinnen und Schüler zutreffend zu beurteilen und Leistungsanforderungen korrekt einzuschätzen“ (ebd., S. 212). Als Indikatoren diagnostischer Kompetenz gelten Urteilsgenauigkeit bzw. Urteilsakkuratheit, die im vorliegenden Beitrag synonym verwendet werden. Ein erweiterter Begriff diagnostischer Kompetenz schließt neben der Beurteilung der Lernenden auch die Einschätzung von Aufgabenschwierigkeiten ein (vgl. z. B. McElvany et al., 2009). Nach Schrader und Helmke (1987) werden drei Komponenten der Urteilsgenauigkeit unterschieden: Die Niveaukomponente kennzeichnet die Tendenz, das absolute Leistungsniveau der eigenen Klasse in einem Test eher zu über- oder zu unterschätzen bzw. im Mittel korrekt einzuschätzen. Sie wird auch als Urteilstendenz bezeichnet und als Differenz zwischen der Einschätzung der Klasse durch die Lehrkraft und der gemessenen mittleren Leistung der Schülerinnen und Schüler einer Klasse operationalisiert. Um den Nachteil der Urteilstendenz zu umgehen, dass Über- und Unterschätzungen einander bei der Berechnung ausgleichen, kann alternativ als Maß für die Effizienz der Schätzung der Urteilsfehler über die mittlere absolute Abweichung des Lehrerurteils von der tatsächlichen Leistung ermittelt werden (vgl. auch McElvany et al., 2009). Die Vergleichs- oder Rangkomponente beschreibt die Einschätzung der relativen Leistungsposition der einzelnen Schülerinnen und Schüler innerhalb der Klasse, operationalisiert als Korrelation zwischen der vorhergesagten Leistung und der tatsächlichen Leistung bzw. der Rangposition der Lernenden. Die Differenzierungskomponente charakterisiert schließlich die Tendenz von Lehrkräften, die Streuung der Schülerleistungen in der Klasse zu über- oder zu unterschätzen und wird als Quotient aus der Streuung der Lehrerurteile und der Streuung der beobachteten Leistung definiert. Die Komponenten diagnostischer Urteilsfähigkeit können sowohl schülerbezogen als auch aufgabenbezogen eingesetzt werden. Im letzteren Fall wird die durchschnittliche Schwierigkeit einer spezifischen Testaufgabe (Prozentsatz der Schülerinnen und Schüler einer Klasse, die diese Aufgabe lösen) oder die Rangreihe bzw. Streuung verschiedener Aufgaben eingeschätzt und mit den tatsächlichen Schwierigkeiten, deren Rangreihe bzw. Streuung verglichen (z. B. McElvany et al., 2009). Unterschiedliche Komponenten der diagnostischen Kompetenz sind in mehreren Untersuchungen nicht oder nur moderat hoch miteinander korreliert, sodass verschiedene Autoren zu dem Schluss kommen, dass nicht von einer allgemeinen diagnostischen Kompetenz, sondern von mehreren diagnostischen Kompetenzen ausgegangen werden muss (z. B. Karst, 2012; Schrader, 1989; Spinath, 2005). Karst (2012) unterscheidet drei typische diagnostische Situationen, in denen verschiedene diagnostische Komponenten im Vordergrund stehen. Neben personenspezifischen Situationen, in denen Lernende individuell gefördert werden, werden aufgabenbezogene und personenbezogene diagnostische Situationen aufgeführt. In aufgabenbezogenen diagnostischen Situationen sollen für die gesamte Klasse geeignete Aufgaben ausgewählt werden, wofür die Lehrkraft neben Heterogenitätswissen (u. a. Rangkomponente) über Aufgaben vor allem das allgemeine Leistungsniveau der Klasse in Bezug auf spezifische Aufgaben (Niveaukomponente) einschätzen muss. In personenbezogenen Situationen werden Lernende zwecks Binnendifferenzierung ihrer Leistung entsprechend gruppiert, was insbesondere schülerbezogenes Heterogenitätswissen erfordert. Verbessert sich die diagnostische Urteilsgenauigkeit? 37 Akkuratheit diagnostischer Urteile In der Metaanalyse von Südkamp et al. (2012) wurde für die Beurteilung von Schülerleistungen eine moderate Urteilsakkuratheit mit einem Median von r = .53 berichtet. Im Bereich der Bild-Text-Integration war die mittlere Beurteilung der Rangfolge von Schülerinnen und Schülern mit r = .34 (SD = .49) hingegen weniger genau als bei anderen Leistungseinschätzungen (McElvany et al., 2009). Bei der Bewertung des Leistungsniveaus der Lernenden im Gesamttest verschätzten sich die Lehrkräfte im Mittel um ca. 15 % (SD = 13 %). Die Forschung zur Urteilsfähigkeit bezogen auf einzelne Aufgaben wird von Hoffmann und Böhme (2014) zusammengefasst, die eine aufgabenbezogene Rangkomponente von .35 < r < .55 berichten sowie einen mehrheitlichen Trend zur Unterschätzung der Aufgabenschwierigkeit. Die Höhe der Niveaukomponente variierte stark zwischen einzelnen Aufgaben von nur geringen bis starken Über- und Unterschätzungen. Insgesamt wurde die Beurteilung einzelner Aufgaben, die für die Unterrichtsplanung essenziell ist, bislang nur wenig untersucht. Auch im Bereich der Bild-Text-Integration können Lehrkräfte der Sekundarstufe I nach McElvany et al. (2009) Aufgaben nur moderat korrekt einschätzen (Rangkomponente der Aufgaben: r = .50, SD = .31, aufgabenbezogener Urteilsfehler M = 17 %, SD = 13 %). Die berichteten Ergebnisse zur Bild-Text- Integration zeigen, wie schon bei anderen Leistungsmerkmalen, eine hohe Varianz zwischen den Lehrkräften in der Urteilsgenauigkeit, die bisher kaum aufgeklärt werden konnte. Der diagnostische Urteilsprozess: Einflussfaktoren Funder (1995) beschreibt in seinem aus der Persönlichkeitspsychologie stammenden Realistic Accuracy Model die Bedeutung unterschiedlicher Stufen (steps) des Urteilsprozesses und leitet aus diesen verschiedene Einflussfaktoren ab. Wenn eine Eigenschaft (hier die Fähigkeit zur Bild-Text-Integration) relevantes Verhalten hervorruft (relevance), muss dieses den Urteilenden auch grundsätzlich zugänglich sein (availability), vom Beurteilenden wahrgenommen (detection) und für das Urteil korrekt genutzt werden (utilization). Die früheren Stufen sind dabei Voraussetzung für die späteren, wodurch der Zugänglichkeit als früher Stufe eine Schlüsselrolle zukommt. Funder (1995) leitet aus dem Modell wichtige Einflussfaktoren ab. Aufseiten des Beurteilenden (judge) sind das vor allem Wissen und Erfahrung, die es ermöglichen sollten, wichtige Merkmale wahrzunehmen und korrekt zu nutzen. Bezogen auf Lehrkräfte wird die Bedeutung des Wissens und der Erfahrung für korrekte Urteile von der Expertiseforschung unterstützt (siehe z. B. Bromme, 1997; van Ophuysen, 2006). So sollte sich etwa fachdidaktisches Wissen über schwierigkeitsrelevante Aufgabenmerkmale und typische Schülerfehler günstig auf die Einschätzung von Aufgabenschwierigkeiten auswirken. Auch sollte eine längere Berufserfahrung positive Auswirkungen auf den Urteilsprozess und damit auf die Urteilsgenauigkeit haben. Dennoch wurden in vielen Studien keine oder nur geringe positive Einflüsse der Berufserfahrung auf diagnostische Kompetenzen gefunden (Anders, Kunter, Brunner, Krauss & Baumert, 2010; Schrader, 1989; Wild und Rost, 1995). Auch im Bereich der Bild-Text-Integration berichteten McElvany et al. (2009) über nur vereinzelte, geringe und zudem entgegengesetzte Zusammenhänge zwischen Rangkomponenten und Berufsdauer. In derselben Untersuchung wurden für das fachdidaktische Wissen lediglich schwache und nur teilweise statistisch signifikante Zusammenhänge mit diagnostischer Urteilsgenauigkeit berichtet. Deutliche Effekte wurden demnach weder durch das fachdidaktische Wissen noch durch die Berufserfahrung erklärt. Wenn sich somit generelle Erfahrung nicht auswirkt, könnte dies daran liegen, dass als wesentliche Voraussetzung für genaue Urteile die Zugänglichkeit zu den Objekten der Beurteilung, d. h. die spezifische Erfahrung mit der Klasse, vernachlässigt wurde. 38 Britta Oerke et al. Kontaktdauer und diagnostische Urteilsfähigkeit Voraussetzung für spezifische Erfahrung mit der Klasse ist die Zugänglichkeit von für die Beurteilung relevantem Verhalten (siehe Realistic Accuracy Model; Funder, 1995). So kann die Interpretation einer Aufgabe mit instruktionalen Bildern durch eine Schülerin bzw. einen Schüler Informationen über deren Fähigkeit zur Bild-Text-Integration liefern. Je länger eine Lehrkraft ihre Klasse kennt, desto mehr solcher Informationen stehen über einzelne Lernende zur Verfügung, und umso genauer sollte das Urteil über die Klasse werden. Geht man davon aus, dass der diagnostische Prozess nicht ein einmaliger, sondern ein iterativer Lernprozess ist, in dem Urteile vorläufige Hypothesen darstellen, die aufgrund neuer Informationen infrage gestellt werden können (Schrader & Helmke, 2001), lässt sich auch hieraus ableiten, dass diagnostische Urteile einer Lehrkraft mit zunehmender Kontaktdauer mit einer Klasse genauer werden sollten, da immer mehr Gelegenheiten zum Bilden und Überprüfen von Hypothesen bestehen. Auf der anderen Seite spricht einiges dafür, dass eine lange Kontaktdauer allein nicht ausreichend ist, um ein genaues Urteil zu fällen. So ist eine Voraussetzung für einen erfolgreichen Lernprozess die Bereitschaft der Lehrkräfte, getroffene Urteile als vorläufige Hypothesen zu sehen und gegebenenfalls wieder zu hinterfragen (Schrader & Helmke, 2001). Zudem werden nach Funder (1995) unaufmerksame Lehrkräfte zugängliches Verhalten übersehen und unwissende Lehrkräfte das Verhalten falsch deuten. So steht zwar einerseits die Bedeutung der Kontaktdauer außer Frage, gleichzeitig ist sie zwar ein notwendiger, aber kein hinreichender Faktor für genaue Urteile. Forschungsstand zur Kontaktdauer Die wenigen bisherigen Forschungsergebnisse zur Wirkung der Kontaktdauer auf die Urteilsgenauigkeit der Lehrkräfte unterstützen die Bedeutung der Kontaktdauer kaum. Vereinzelte, aber statistisch nicht signifikante Hinweise auf einen günstigen Effekt einer längeren Unterrichtszeit in der Klasse auf die Einschätzung kognitiver Fähigkeiten bei Drittklässlern fanden Wild und Rost (1995) für die Extrembereiche der Klassengröße (10 - 15 Schülerinnen und Schüler, 26 - 30 Schülerinnen und Schüler). Schrader (1989) ließ Lehrkräfte die Leistung von Hauptschülern der fünften Klasse im Bruch- und Dezimalrechnen einschätzen. Er fand ebenfalls keinen Einfluss bezogen auf die personen- und aufgabenbezogene Rangordnungskomponente für zusätzliche Unterrichtszeit in derselben Klasse in einem anderen Fach. Auch Lorenz (2011) beschrieb keinen linearen Zusammenhang der Urteilsgüte bezüglich Mathematik- und Deutschleistung bzw. -interesse mit der Lehrdauer in der Klasse, fand in einer Längsschnittstudie bei drei wiederholten Messungen jedoch eine zunehmend korrektere Einschätzung von Dritt- und Viertklässlern im emotional-motivationalen Bereich (Lernfreude und Schuleinstellung). Hoffmann und Böhme (2014) schließlich überprüften in der gleichen Altersklasse das Ausmaß der Überbzw. Unterschätzung der Schwierigkeit von Aufgaben in Abhängigkeit von der Kontaktdauer. Auch sie berichteten nicht-signifikante Tendenzen über alle Aufgaben hinweg. Lediglich bei zwei einzelnen Aufgaben beschrieben sie eine geringere Überschätzung der Schwierigkeit bei höherer Kontaktdauer, während die Unterschätzung gleich blieb. Forschungsdesiderat Ob eine längere Kontaktdauer mit der Klasse sich tatsächlich günstig auf die diagnostischen Urteile der Lehrkräfte auswirkt, können diese Studien noch nicht umfassend beantworten. So wurden bezüglich der Urteilsgüte fast ausschließlich Rangkomponenten mithilfe von Querschnittsanalysen bei Klassen im Primarbereich untersucht und Ratingskalen anstelle von Angaben der Lösungswahrscheinlichkeiten für die Kinder oder Klassen verwendet. Daher besteht ein Forschungsdesiderat, den Effekt der Kon- Verbessert sich die diagnostische Urteilsgenauigkeit? 39 taktdauer auf die Niveaukomponente und aufgabenbezogenen Komponenten bei Klassen der Sekundarstufe zu untersuchen. Zudem wurden kaum längsschnittliche Studien durchgeführt, und keine der Studien betrachtete als zu beurteilendes Schülermerkmal die Fähigkeit zur Bild-Text-Integration, die Grundlage für das Lernen in vielen Unterrichtsstunden. Auswahl geeigneter Urteilskomponenten Im Kontext der Beurteilung der Bild-Text-Integration steht vor allem die Auswahl geeigneter Aufgaben für den Unterricht in einer bestimmten Klasse, d. h. die aufgabenbezogene diagnostische Situation nach Karst (2012) im Mittelpunkt und weniger die Einschätzung einzelner Schülerinnen und Schüler. Für die Auswahl kognitiv herausfordernder und angemessen schwieriger Unterrichtsmaterialien für die jeweilige Klasse (z. B. Anders et al., 2010) muss die Lehrkraft einerseits das generelle Leistungsniveau der Klasse (im Gesamttest) einschätzen können, andererseits in der Lage sein, die Schwierigkeit spezifischer Aufgaben für die Klasse vorherzusagen. Heterogenitätswissen über die relative Schwierigkeit von Aufgaben, z. B. die Fähigkeit zur Schwierigkeitsrangreihung einzelner Aufgaben, kann für die Förderung der Bild-Text-Integration zwar von Bedeutung sein, ein Einfluss der Kontaktdauer mit der Klasse ist hier jedoch nicht zu erwarten, da die aufgabenbezogene Rangkomponente in der Regel nicht spezifisch auf eine bestimmte Klasse bezogen ist, sondern generelles Wissen über die relative Schwierigkeit von Aufgaben beinhaltet. Zudem kann Heterogenitätswissen über Schülerinnen und Schüler, insbesondere über deren relative Leistungsfähigkeit, bedeutsam werden, wenn für Gruppenarbeitsphasen mit Bild-Text-Material kompetenzhomogene oder -heterogene Kleingruppen zusammengesetzt werden sollen. Aus diesem Grund soll hier zusätzlich ein Einfluss der Kontaktdauer auf die Fähigkeit zur Rangreihung einzelner Schülerinnen und Schüler überprüft werden. Fragestellungen und Hypothesen Das übergeordnete Forschungsanliegen der vorliegenden Studie besteht darin, den Erkenntnisstand zum Einfluss der Kontaktdauer mit der Klasse auf die Akkuratheit diagnostischer Urteile von Lehrkräften zu erweitern. Dabei soll methodisch einerseits an der bisherigen, in der Regel querschnittlichen Forschung angesetzt und diese repliziert werden, andererseits soll diese durch die bisher vernachlässigte längsschnittliche Betrachtung ergänzt werden. Es werden also systematisch zwei methodische Ansätze verfolgt: (1) der querschnittliche Vergleich zu einem Messzeitpunkt von zwei Gruppen von Lehrkräften, die sich anhand der Kontaktdauer mit der Klasse unterscheiden, und (2) der längsschnittliche Vergleich einer Gruppe von Lehrkräften, die im Abstand von einem Jahr hinsichtlich ihrer diagnostischen Urteile zweimal untersucht wurde. Untersucht wird jeweils die Fähigkeit zum integrativen Lesen von Texten mit instruktionalen Abbildungen bei Schülerinnen und Schülern der Klassen 5 und 6. Fragestellung 1: Sind die diagnostischen Urteile (Urteilsfehler bezogen auf den Gesamttest und eine konkrete Aufgabe mit sechs Items sowie die Schülerrangkomponente) bei der Einschätzung der Fähigkeit zur Bild-Text-Integration von Schülerinnen und Schülern im interindividuellen Vergleich akkurater bei Lehrkräften, die ihre Klasse bereits eineinhalb Jahre unterrichten, im Vergleich zu Kolleginnen und Kollegen, die ihre Klassen erst vor einem halben Jahr übernommen haben? Fragestellung 2: Sind die diagnostischen Urteile (Urteilsfehler bezogen auf den Gesamttest und eine konkrete Aufgabe mit sechs Items sowie die Schülerrangkomponente) bei der Einschätzung der Fähigkeit zur Bild-Text-Integration von Schülerinnen und Schülern im intraindividuellen Vergleich akkurater nach eineinhalb Jahren Unterricht in der Klasse im Vergleich zu den diagnostischen Urteilen derselben Lehrkräfte, als sie die Klassen erst ein halbes Jahr unterrichtet haben? 40 Britta Oerke et al. Wenngleich es plausibel scheint, dass Lehrkräfte, die ihre Klasse länger unterrichten, Schülerleistungen besser einschätzen können, wird diese Hypothese weder von der Theorie noch von bisherigen Forschungsergebnissen eindeutig unterstützt. Daher wird keine gerichtete Hypothese formuliert. Methoden Stichprobe Die Daten wurden im Rahmen des Projektes Entwicklung und Überprüfung von Kompetenzmodellen zur integrativen Verarbeitung von Texten und Bildern - kurz BiTe (Bild-Text-Integration) - jeweils im Februar der Jahre 2009 und 2010 erhoben. Getestet wurden Deutsch-, Biologie- und Erdkunde-Lehrkräfte an 46 zufällig ausgewählten Gymnasien, Real- und Hauptschulen in Rheinland-Pfalz, die zwei Kohorten von Schülerinnen und Schülern unterrichteten: im Jahr 2009 je eine fünfte und eine sechste Klasse, im Jahr 2010 dieselben Klassen, jetzt Klasse 6 und 7. In der Regel unterrichteten dabei zwei oder drei untersuchte Fachlehrkräfte die gleiche Klasse (13 mal 1 Lehrkraft, 16 mal 2 Lehrkräfte, 17 mal 3 Lehrkräfte). Für die Untersuchung der ersten Forschungsfrage konnten die Daten von 83 Lehrkräften aus 42 Klassen mit ihren Schülerinnen und Schülern (N = 861) am ersten Messzeitpunkt (2009) analysiert werden, von denen 52 eine fünfte Klasse seit sechs Monaten und 31 eine sechste Klasse seit eineinhalb Jahren unterrichteten. 1 Von diesen Lehrkräften waren 70,1 % weiblich, 38,6 % arbeiteten am Gymnasium, 34,9 % an der Realschule und 26,5 % an der Hauptschule. Fast die Hälfte, 47 %, unterrichteten ihre Klasse in Deutsch, 30,1 % lehrten Biologie und 22,9 % Erdkunde. Das Durchschnittsalter betrug 46.1 Jahre (SD = 10.8), die durchschnittliche Lehrerfahrung 17.9 Jahre (SD = 12.0). Die Stichprobe der Lehrkräfte mit sechs Monaten Kontaktdauer zu ihren Klassen unterscheidet sich in keinem der genannten Merkmale statistisch signifikant von den Lehrkräften mit eineinhalb Jahren Kontaktdauer, Alter: t(71) = -0.89, ns; Lehrerfahrung: t(75) = -0.70, ns; Schulform: c 2 (2) = 0.24, ns; Geschlecht: c 2 (1) = 1.02, ns; Unterrichtsfach: c 2 (2) = 1,66, ns, Anzahl teilnehmender Schülerinnen und Schüler pro Klasse: t(81) = -1.15, ns. Für die Untersuchung der zweiten Forschungsfrage liegen von den ursprünglich 52 Lehrkräften der fünften Klassen im Schuljahr 2008/ 09 im Schuljahr 2009/ 10 längsschnittliche Daten von 26 Lehrkräften vor, die Schülerinnen und Schüler aus insgesamt 20 fünften Klassen bzw. entsprechend im Schuljahr 2009/ 10 dieselben Kinder in der sechsten Klasse unterrichteten. Ob fehlende Daten zum zweiten Zeitpunkt auf mangelnde Teilnahmebereitschaft oder auf Lehrerwechsel bei den betroffenen Klassen zurückgehen, kann anhand der vorliegenden Informationen nicht festgestellt werden. Die Gruppe der Lehrkräfte, die auch bei der zweiten Messung teilgenommen haben (Längsschnittstichprobe), unterscheidet sich jedoch nicht statistisch signifikant von der Gruppe der Lehrkräfte, die nur bei der ersten Messung teilgenommen haben (Querschnittstichprobe), Alter: t(46) = -0,80, Lehrerfahrung: t(48) = -0.80, Geschlecht: c 2 (1) = -0.10, Schulform: c 2 (2) = -1.63; Fach: c 2 (2) = 3.55. Da die Aufgabe, eine Schülerrangreihe zu erstellen, nur von 14 Lehrpersonen zu beiden Messzeitpunkten ausgeführt wurde, wird die schülerbezogene Rangkomponente nur im Querschnitt ausgewertet. Instrumente Leistung in Bild-Text-Integration Die Schülerfähigkeiten zur Integration von Texten mit instruktionalen Abbildungen wurden mit einem Test erhoben, der auf Basis einer Analyse deutscher Schulbücher der Fächer Biologie und Geografie der Klassenstufen 5 bis 8 entwickelt wurde. Jede Schülerin und jeder Schüler bearbeitete in diesem Test in 60 Minuten 8 von insgesamt 48 Aufgaben mit jeweils 6 Multiple-Choice-Items (Details siehe Ullrich et al., 2012). Die Schwierigkeit der Aufgaben wurde jeweils an die Klassenstufe angepasst, wobei es Ankeraufgaben gab, die Schülerinnen und Schüler der benachbarten Klassenstufen teilten, und weitere Aufgaben, die für die jeweilige Klassenstufe spezifisch waren. Insgesamt konnten die Schülerinnen und Schüler je nach Jahrgang 50 oder 53 Punkte erreichen. Für die Auswertung wurde die erreichte Punktzahl in Prozentwerte der zu erreichenden Punktzahl umgerechnet. Die Reliabilität war für die 1 Nicht berücksichtigt wurden 13 Lehrkräfte, die ihre sechste Klasse erst sechs Monate unterrichteten. Verbessert sich die diagnostische Urteilsgenauigkeit? 41 hier verwendeten Klassen 5 ( a = .92 am ersten und a = .90 am zweiten Messzeitpunkt) und 6 ( a = .88 am ersten und a = .89 am zweiten Messzeitpunkt) sehr hoch. Die Kompetenzstruktur des Tests wurde ebenfalls überprüft und hieraus ein eindimensionales Modell abgeleitet (siehe z. B. Schnotz et al., 2010; Ullrich et al., 2012). Diagnostische Urteilsfähigkeit der Lehrkräfte Die diagnostischen Fähigkeiten der Lehrkräfte wurden über einen Fragebogen erhoben, der jeweils auch zwei Beispielaufgaben mit sechs Testitems aus dem Fähigkeitstest für die Schülerinnen und Schüler enthielt, die die jeweilige Klasse der Lehrkräfte lösen musste. Eine der beiden Beispielaufgaben des ersten Messzeitpunkts wurde auch im Folgejahr wiederverwendet und daher in dieser Studie für die Analysen ausgewählt. Die Wahl fiel hierfür auf eine Aufgabe, die ein relativ breites Leistungsspektrum aufwies und in den beiden aufeinanderfolgenden Klassenstufen ausreichend differenziert maß. Zur Ermittlung der gesamttestbezogenen Niveaukomponente sollten die Lehrkräfte einschätzen, wie viel Prozent der Items die teilnehmenden Schülerinnen und Schüler ihrer Klasse im Gesamttest richtig lösen würden. Dazu erhielten die Lehrkräfte Angaben über die Gesamtzahl der Aufgaben und die zur Bearbeitung zur Verfügung stehende Zeit. Von der geschätzten prozentualen Lösungshäufigkeit wurde dann jeweils die in der Schülertestung bei der Klasse empirisch ermittelte Lösungshäufigkeit abgezogen und aus der so berechneten Urteilstendenz der Betrag gebildet, wodurch man den Urteilsfehler erhielt. Zur Erhebung der aufgabenbezogenen Niveaukomponente wurde die Aufgabe Schweinemast (hier ging es um die einzelnen Stationen in der Schweinemast) für die fünfte und sechste Klasse herangezogen. Sie konnte somit auch im Längsschnitt untersucht werden. Die Lehrkräfte wurden gebeten, sich die Aufgabe durchzulesen und dann für jedes der sechs einzelnen Testitems einzuschätzen, wie viel Prozent der teilnehmenden Schülerinnen und Schüler ihrer Klasse die Frage richtig beantworten würden. Auch hier wurde von der geschätzten prozentualen Lösungshäufigkeit die in der jeweiligen Klasse tatsächlich beobachtete mittlere Lösungshäufigkeit der Aufgabe subtrahiert (Urteilstendenz) und durch Bildung des Betrags der Urteilsfehler bestimmt. Die Urteilsfehler aller sechs Aufgaben wurden gemittelt. Zur Erfassung der schülerbezogenen Rangkomponente wurden die Lehrkräfte gebeten, sieben vorgegebene, zufällig aus ihrer Klasse ausgewählte Schülerinnen und Schüler entsprechend ihrer vermuteten Leistung im Test in eine Rangreihe zu bringen. Anschließend wurde diese lehrerspezifische Rangreihe mit der tatsächlich beobachteten Rangreihe der Schülerinnen und Schüler korreliert und über eine Fishers Z-Transformation über die Lehrkräfte hinweg gemittelt. Dabei wurden für die Auswertung im Querschnitt nur solche Lehrpersonen einbezogen, die mindestens fünf der sieben Schülerinnen und Schüler eingeschätzt hatten (n = 78). Statistische Analysen Für den interindividuellen Vergleich (Fragestellung 1) wurde die diagnostische Urteilsfähigkeit bei einem halben Jahr (Klasse 5) bzw. eineinhalb Jahren Unterricht (Klasse 6) in einer Klasse gegenübergestellt und die Differenz in zwei unabhängigen t-Tests auf Signifikanz geprüft. Zur Auswertung der Rangkomponente wurden die Mittelwerte der berechneten Z-Werte nach Fisher für die Gruppe der Lehrkräfte mit einem halben bzw. eineinhalb Jahren Kontaktdauer verglichen und die Differenz mit dem Test auf Gleichheit zweier Korrelationen auf statistische Signifikanz überprüft (Nachtigall & Wirtz, 1998). Für die Auswertung der Niveaukomponenten im Längsschnitt (intraindividuelle Analysen) wurden abhängige t-Tests durchgeführt. Dabei wurde für die Auswertung der Aufgabe Schweinemast zum zweiten Messzeitpunkt ein Ausreißer von mehr als drei Standardabweichungen nach oben aus der Rechnung ausgeschlossen (resultierend: n = 25). Zusätzlich wurde für die Querschnitt- und die Längsschnittstichprobe für beide Gruppen (kurze und lange Kontaktdauer) mithilfe eines t-Tests für eine Stichprobe überprüft, ob der Urteilsfehler signifikant vom Optimum (M = 0.00) abweicht. Als Effektgröße wurde Cohens d berechnet. Nach Lind (2014) kann es zudem sinnvoll sein, die Effektgrößen relativiert an der Größe der Skala zu betrachten, d. h. prozentuale Veränderungswerte zu berichten. Bedeutsam sind demnach Differenzen, die mindestens 5 % der Gesamtskala betragen, als sehr bedeutsam werden Differenzen von mindestens 10 % definiert. 42 Britta Oerke et al. Ergebnisse Deskriptive Statistiken In Tabelle 1 sind die deskriptiven Statistiken der Querschnittsstichprobe aufgeführt (die Klassenmittelwerte der Längsschnittstichprobe [LS] werden im Folgenden in Klammern genannt) 2 . Der Mittelwert der Schülerinnen und Schüler einer Klasse im Gesamttest betrug im Jahr 2009 59 % der möglichen Punktzahl (LS: 2009: M = 58,3 %, SD = 12,5 %, 2010: M = 59,8 %, SD = 13,7 %). Die Lehrkräfte beurteilten das Leistungsniveau der Klassen im Durchschnitt relativ genau, wobei sie die Lernenden im Mittel um 4,1 % überschätzten. Der Urteilsfehler mit Blick auf den Gesamttest betrug durchschnittlich 11 %, was ca. einer Aufgabe mit sechs Items entspricht. Von den sechs Items der Aufgabe Schweinemast wurde von den Schülerinnen und Schülern einer Klasse durchschnittlich gut die Hälfte richtig gelöst (LS: 2009: M = 50,9 %, SD = 10,5 %; 2010: M = 59,4 %, SD = 14,1 %). Auch hier neigten die Lehrkräfte eher zur Überschätzung der Schülerleistung und somit zur Unterschätzung der Aufgabenschwierigkeit, wobei der vermutete Anteil an Schülerinnen und Schülern, die die einzelnen Items richtig beantworten würden, durchschnittlich um 24 % vom tatsächlichen Anteil richtig antwortender Kinder abwich. Die Schülerinnen und Schüler gemäß ihrer Leistung im Test in eine Rangfolge zu bringen, gelang den Lehrkräften nur mäßig gut, wobei die Güte der Schätzung zwischen fast -.90 und 0.96 stark variierte. Fragestellung 1: Interindividuelle Analysen Zur Überprüfung der ersten Fragestellung wurden in zwei t-Tests die Urteilsfehler bezogen auf den Gesamttest und die Aufgabe mit den sechs Items bei Lehrkräften mit einem halben Jahr Variable n M SD Spannweite Klassen Leistung SuS Gesamttest Leistung SuS Schweinemast 42 42 58,8 % 53,0 % 12,5 % 12,5 % 35,6 -79,3 32,6 -78,7 Lehrkräfte Urteilsfehler Gesamttest Urteilsfehler Schweinemast Rangkomponente SuS 79 83 78 10,8 % 24,1 % r =.37 9,2 % 9,3 % r =.54 0,0 -36,4 9,3 -46,4 -.87 < r < .96 Tab. 1: Deskriptive Statistiken für die Querschnittsstichprobe (N = 83; 1. Messzeitpunkt, 2009), Angaben zu Leistung, Urteilstendenz und Urteilsfehler in Prozent Anmerkung: SuS = Schülerinnen und Schüler. Abhängige Variable Kontaktdauer M (SD) in % Effekt d df t p Urteilsfehler Gesamttest ½ Jahr 1 ½ Jahre 11,8 % (10,1 %) 9,2 % (7,3 %) -0.28 77 -1.29 ns Urteilsfehler Schweinemast ½ Jahr 1 ½ Jahre 24,1 % (9,3 %) 24,1 % (9,6 %) 0.00 81 0.02 ns M (r) n z p Rangkomponente SuS ½ Jahr 1 ½ Jahre r = .37 r = .37 50 28 0.00 ns Tab. 2: Niveau- und Rangkomponenten im interindividuellen Vergleich Anmerkungen: SuS = Schülerinnen und Schüler; ns = nicht signifikant; d = Cohens d. 2 Die Längsschnittstichprobe weicht nicht signifikant von dieser ab. Verbessert sich die diagnostische Urteilsgenauigkeit? 43 und eineinhalb Jahren Kontaktdauer verglichen (siehe Tab. 2). Beide Gruppendifferenzen sind nicht signifikant, obwohl der Urteilsfehler bezogen auf den Gesamttest rein numerisch bei längerer Kontaktdauer geringer ist. Die Effektstärke ist jedoch mit (d < 0.30) eher klein. Der Urteilsfehler bei der Einschätzung der Aufgabe mit den einzelnen Items ist bei kurzer und langer Kontaktdauer in etwa gleich groß. In beiden Gruppen weichen zudem die mittleren Urteilsfehler vom Optimalwert (M = 0.00) signifikant ab (p < .001). Für die Fähigkeit der Lehrkräfte, sieben ihrer Schülerinnen und Schüler in eine Rangreihe zu bringen, zeigen sich ebenfalls keine Unterschiede zwischen den beiden Gruppen. Auch hier sprechen die Ergebnisse also gegen einen positiven Effekt der Kontaktdauer. Fragestellung 2: Intraindividuelle Analysen Die Ergebnisse der Längsschnittanalysen sind in Tabelle 3 dargestellt. 3 Aufgrund der kleinen Längsschnittstichprobe für die Rangkomponente (siehe Stichprobe) wird hier nur die Niveaukomponente berichtet. Während der Urteilsfehler bei der Einschätzung der Leistung im Gesamttest stabil bleibt (bei ca. 12 %), verringert sich der mittlere Urteilsfehler bei der Einschätzung der Schwierigkeit der Aufgabe Schweinemast statistisch signifikant um 5 % (p < .05), womit ein Effekt von mittlerer Größe vorliegt (d = -0.48). Zu beiden Messzeitpunkten weichen die Urteilsfehler signifikant vom optimalen Mittelwert (M = 0.00) ab. Damit stützen die Ergebnisse bezogen auf die zweite Fragestellung die These einer längsschnittlichen Verbesserung der Einschätzung der Klassenleistung bei einer konkreten Aufgabe mit mehreren Items, nicht jedoch bezogen auf den Gesamttest. Diskussion In der vorliegenden Studie wurde untersucht, ob sich eine längere Kontaktdauer der Lehrkräfte mit ihrer Klasse positiv auf ihre Urteilsakkuratheit bei der Leistungseinschätzung der Schülerinnen und Schüler im Bereich der Bild-Text- Integration auswirkt. Untersucht wurde die Niveaukomponente bezogen auf die Leistung der Schülerinnen und Schüler im Gesamttest und bei einer spezifischen Aufgabe sowie die schülerbezogene Rangkomponente. Dabei wurden Lehrkräfte mit einem halben bzw. eineinhalb Jahren Kontaktdauer in ihrer Klasse einerseits interindividuell (Fragestellung 1), andererseits intraindividuell an zwei Messzeitpunkten verglichen (Fragestellung 2). Die Ergebnisse sprechen dafür, dass die Kontaktdauer mit der Klasse nur wenig zur Aufklärung der Unterschiede zwischen den Lehrpersonen beitragen kann. In Übereinstimmung mit früheren Untersuchungen (siehe auch Schrader, 1989; Wild & Rost, 1995) wurden in den Querschnittsanalysen und bezogen auf den Gesamttest auch in der längsschnittlichen Auswertung keine oder nur kleine, nichtsignifikante Effekte der Kontaktdauer gefunden. Dies deutet darauf hin, dass Lehrkräfte, die ihre 3 Da für den gesamttestbezogenen Urteilsfehler keine Normalverteilung vorlag, wurde zur Kontrolle zusätzlich zum t-Test ein nonparametrischer Test nach Wilcoxon durchgeführt. Die Ergebnisse bleiben jedoch konstant. Abhängige Variable Kontaktdauer M (SD) in % Effekt d df t p Urteilsfehler Gesamttest ½ Jahr 1 ½ Jahre 11,59 (9,86) 11,88 (8,65) 0.03 23 -0.11 ns Urteilsfehler Schweinemast ½ Jahr 1 ½ Jahre 24,50 (10,18) 19,27 (7,09) -0.48 24 2.21 < .05 Tab. 3: Niveaukomponenten im intraindividuellen Vergleich Anmerkungen: ns = nicht signifikant; d = Cohens d. ½ Jahr: Messzeitpunkt 1 (2009), 1 ½ Jahre: Messzeitpunkt 2 (2010). 44 Britta Oerke et al. Klasse ein Jahr länger unterrichten, weder das Leistungsniveau ihrer Klasse noch die relative Position ausgewählter Schülerinnen und Schüler akkurater einschätzen können. Eine mögliche Erklärung liefert das Realistic Accuracy Model (Funder, 1995). Zwar ist der Kontakt mit den Schülerinnen und Schülern und somit die Zugänglichkeit relevanten Verhaltens eine wichtige Voraussetzung dafür, dass Lehrkräfte ein zunehmend genaueres Urteil entwickeln. Sie ist jedoch nicht ausreichend, wenn Lehrkräfte nicht auf relevantes Verhalten achten oder es falsch interpretieren, z. B. fehlendes Verständnis einer Text-Bild-Aufgabe auf mangelndes Vorwissen in Biologie zurückführen. Weil die Bild-Text-Integration in der Schule nicht benotet wird, sind die Lehrkräfte auch nicht gezwungen, formelle Urteile zu treffen und eventuell zu korrigieren (vgl. allerdings auch die fehlenden Effekte der Kontaktdauer etwa in Deutsch oder Mathematik, wo es explizite Benotungen gibt). Brunner et al. (2006) erklären fehlende Effekte der Berufserfahrung auf das fachdidaktische Wissen über einen Mangel an strukturierten Lerngelegenheiten für Lehrkräfte im Unterricht. Es ist wahrscheinlich, dass ein solcher Mangel auch dazu beitragen könnte, dass Lehrkräfte mit zunehmender Erfahrung mit der Klasse nicht automatisch ihre Urteilsakkuratheit verbessern. Umso interessanter ist die im intraindividuellen Vergleich auftretende Verbesserung bei der Beurteilung der Lösungshäufigkeit der einzelnen Aufgabe mit sechs Items, während die Einschätzung der Klassenleistung im Gesamttest auch im Längsschnitt durchschnittlich stabil bleibt. So besteht die Möglichkeit, dass die Datenerhebung eine Lernsituation schafft, die das Bewusstsein der Lehrkräfte für Bild-Text-Aufgaben schärft. Die Folge kann sein, dass zumindest einige Lehrkräfte in der Zeit bis zur zweiten Befragung solche Aufgaben, die denen im Test ähnlich sind, gezielter betrachten und in Bezug auf ihre Schwierigkeit für die Schülerinnen und Schüler einschätzen. Dass dies nicht zu einer Verbesserung für die Einschätzung im Gesamttest führt, kann daran liegen, dass hier nur zwei Aufgabenbeispiele (mit je sechs Items) bekannt sind und zudem im folgenden Jahr die Aufgaben teilweise ausgetauscht wurden, sodass ein aufgabenspezifischer Lerneffekt sich nicht so stark auswirken kann. Eine Rolle spielen könnte auch, dass die Lehrkräfte bereits am ersten Messzeitpunkt die Leistung der Klasse im Gesamttest deutlich besser einschätzen als die konkrete Aufgabe, sodass bezogen auf die Einzelaufgabe mehr Spielraum für eine Verbesserung besteht. Dieser Unterschied zwischen den beiden Maßen der Urteilsakkuratheit kann dadurch bedingt sein, dass es grundsätzlich leichter ist, generelle Urteile zu fällen als spezifische. Beim generellen Urteil kann die Lehrkraft eventuell auf bisherige Erfahrungen mit der Leistung der Klasse bei der Interpretation von Aufgaben in Schulbüchern oder sogar nur auf das generelle Leistungsniveau der Klasse in diesem Fach zurückgreifen, ohne dabei viel über die Schwierigkeit einzelner Aufgaben wissen zu müssen, insbesondere Aufgaben, mit denen sie keine Unterrichtserfahrung haben und die auch nicht explizit in der Ausbildung berücksichtigt wurden. Ein Test-Retest-Effekt kann nicht ausgeschlossen werden, ist aber nicht sehr wahrscheinlich, da die Lehrkräfte keine Rückmeldung bezüglich ihrer Urteilsakkuratheit erhielten. Zudem unterstützen bisherige empirische Ergebnisse teilweise den Hinweis, dass Lehrkräfte Lernsituationen mit Bild-Text-Material für sich nutzen können, z. B. vereinzelt signifikante Effekte bei einzelnen Aufgaben (Hoffmann & Böhme, 2014) sowie eine ebenfalls im Längsschnitt statistisch bedeutsame Verbesserung der Einschätzung von Lernfreude und Schuleinstellung bei wiederholten Messungen (Lorenz, 2011). Vorteile und Grenzen der vorliegenden Untersuchung Eine Stärke der Studie ist, dass die Lehrkräfte ihre Schülerinnen und Schüler auf demselben Maß einschätzen sollten, mit dem diese auch gemessen wurden, es sich also um eine direkte Mes- Verbessert sich die diagnostische Urteilsgenauigkeit? 45 sung nach Südkamp et al. (2012) handelte - wobei zu beachten ist, dass die Lehrkräfte vom Gesamttest nur zwei Beispielaufgaben mit jeweils sechs Items sahen. Weitere Vorteile sind die Berücksichtigung unterschiedlicher diagnostischer Komponenten und die Prüfung der Forschungsfragen mit zwei methodischen Ansätzen. Problematisch ist hingegen die relativ kleine Stichprobe (n max = 83 für beide Gruppen), vor allem bei den Längsschnittrechnungen (n = 25). Dies könnte dazu beitragen, dass der eher kleine Effekt der Kontaktdauer auf die gesamttestbezogene Niveaukomponente nicht signifikant wurde. Andererseits führt die Tatsache, dass teilweise dieselbe Klasse von zwei oder drei Lehrkräften eingeschätzt wurde, zu einer Unterschätzung des Standardfehlers. Dies sollte zur Folge haben, dass Ergebnisse signifikant werden, die es eigentlich nicht sind. Zudem wurde die Rangreihung nur für sieben Schülerinnen und Schüler und nicht die gesamte Schülerschaft einer Klasse gebildet. Schließlich war aufgrund einer Konfundierung von Kontaktdauer und Klassenstufe die höhere Kontaktdauer von eineinhalb Jahren jeweils mit der Klassenstufe 6 verbunden. Dies könnte zu einem scheinbaren Effekt der Kontaktdauer führen, etwa durch geringere Möglichkeiten zur Überschätzung der älteren und daher leistungsfähigeren Schülerinnen und Schüler (Schnotz et al., 2010). Zwar haben sich die Lernenden bei der konkreten Aufgabe tatsächlich verbessert, doch hat sich auch die durchschnittliche Einschätzung der Lehrkräfte erhöht (Klasse 5: M = 52 %, Klasse 6: M = 61 %), was eine Wahrscheinlichkeit dieser Erklärung reduziert. Implikationen für Forschung und Praxis Für den Bereich der Bild-Text-Integration konnte keine durchgehend korrektere Beurteilung der Leistung der Schülerinnen und Schüler durch den längeren Kontakt mit der Klasse festgestellt werden. Die Verbesserung der Urteilsleistung bei einer einzelnen Aufgabe (mit sechs zu beantwortenden Items) im Längsschnitt zeigt allerdings, dass Lehrkräfte in diesem Bereich dazulernen können, wobei noch untersucht werden muss, ob diese Verbesserung erst durch die Untersuchung ausgelöst wurde und welche Faktoren für das Lernen ausschlaggebend waren, die in einer Fortbildung gezielt herbeigeführt werden könnten. Erste Erfolge mit einer solchen Fortbildung im Bereich der Bild-Text- Integration konnten bereits erzielt werden (siehe McElvany & Willems, 2012). Wichtig wäre, die Ergebnisse noch einmal in anderen Kompetenzbereichen zu überprüfen, in denen Lehrkräfte sich bewusster mit Beurteilung auseinandersetzen, z. B. in Mathematik. Zudem sollte untersucht werden, ob die Reflexion z. B. der Unterrichtsvorbereitung durch die Lehrkräfte Hinweise darauf geben kann, warum die Effekte der Kontaktdauer so klein bleiben. Für die Praxis stützen die Ergebnisse die Vermutung, dass es nicht genügt, sich darauf zu verlassen, dass Lehrkräfte von allein ihre Schülerinnen und Schüler akkurater einschätzen können, wenn man ihnen nur genügend Zeit gibt, sondern dass sie mehr Unterstützung und Motivierung benötigen. Einerseits müssen Lehrkräfte überhaupt auf das Problem aufmerksam gemacht werden und eine Bereitschaft auf Lehrerseite geweckt werden, ihre Beurteilung zu reflektieren und zu hinterfragen (siehe auch Schrader & Helmke, 2001). Im Sinne reflektierter Praxis sollte die bewusste und strukturierte Auseinandersetzung mit der Auswahl geeigneter Lernmaterialien, besonders auch von Bild-Text-Materialien, typischen Verständnisproblemen und Möglichkeiten zur Unterstützung von Schülerinnen und Schülern gefördert werden. Literatur Anders, Y., Kunter, M., Brunner, M., Krauss, S. & Baumert, J. (2010). Diagnostische Fähigkeiten von Mathematiklehrkräften und ihre Auswirkungen auf die Leistungen ihrer Schülerinnen und Schüler. Psychologie in Erziehung und Unterricht, 57, 175 - 193. http: / / dx.doi. org/ 10.2378/ peu2010.art13d Baumert, J. & Kunter, M. (2006). Stichwort: Professionelle Kompetenz von Lehrkräften. Zeitschrift für Erziehungswissenschaft, 9, 469 - 520. http: / / dx.doi.org/ 10.1007/ s11618-006-0165-2 46 Britta Oerke et al. Bromme, R. (1997). Kompetenzen, Funktionen und unterrichtliches Handeln des Lehrers. In F. E. Weinert (Hrsg.), Psychologie des Unterrichts und der Schule (S. 177 - 212). Göttingen: Hogrefe. Brunner, M., Kunter, M., Krauss, S., Baumert, J., Blum, W., Dubberke, T.,… Neubrand, M. (2006). Welche Zusammenhänge bestehen zwischen dem fachspezifischen Professionswissen von Mathematiklehrkräften und ihrer Ausbildung sowie beruflichen Fortbildung? Zeitschrift für Erziehungswissenschaft, 9, 521 - 544. http: / / dx.doi.org/ 10.1007/ s11618-006-0166-1 Chandler, P. & Sweller, J. (1991). Cognitive load theory and the format of instruction. Cognition and Instruction, 8, 293 - 332. http: / / dx.doi.org/ 10.1207/ s1532690xci08 04_2 Funder, D. C. (1995). On the accuracy of personality judgment: A realistic approach. Psychological Review, 102, 652 - 670. http: / / dx.doi.org/ 10.1037/ 0033-295X.10 2.4.652 Hochpöchler, U., Schnotz, W., Rasch, T., Ullrich, M., Horz, H., McElvany, N. & Baumert, J. (2013). Dynamics of mental model construction from text and graphics. European Journal of Psychology of Education, 28, 1105 - 1126. http: / / dx.doi.org/ 10.1007/ s10212-012- 0156-z. Zugriff am 5.12.2012 unter http: / / link.sprin ger.com/ article/ 10.1007%2Fs10212-012-0156-z? LI= true#page-1 Hoffmann, L. & Böhme, K. (2014). Wie gut können Grundschullehrkräfte die Schwierigkeit von Deutsch- und Mathematikaufgaben beurteilen? Eine Untersuchung zur Genauigkeit aufgabenbezogener Lehrerurteile auf Klassenebene. Psychologie in Erziehung und Unterricht, 61, 42 - 55. http: / / dx.doi.org/ 10.2378/ peu 2014.art05d Karst, K. (2012). Kompetenzmodellierung des diagnostischen Urteils von Grundschullehrern. Münster: Waxmann. Körner, C. (2005). Concepts and misconceptions in comprehension of hierarchical graphs. Learning and Instruction, 15, 281 - 296. http: / / dx.doi.org/ 10.1016/ j.learn instruc.2005.07.003 Leinhardt, G., Zaslavsky, O. & Stein, M. K. (1990). Functions, graphs, and graphing: Tasks, Learning and teaching. Review of Educational Research, 60, 1 - 64. http: / / dx.doi.org/ 10.3102/ 00346543060001001 Lind, G. (2014). Effektstärken: Statistische, praktische und theoretische Bedeutung empirischer Studien. Zugriff am 15. 5. 2014 unter http: / / www.uni-konstanz.de/ agmoral/ pdf/ Lind-2014_Effektstaerke-Vortrag.pdf Lintorf, K., McElvany, N., Rjosk, C., Schroeder, S., Baumert, J., Schnotz, W.,… Ullrich, M. (2011). Zuverlässigkeit von diagnostischen Lehrerurteilen - Reliabilität verschiedener Urteilsmaße bei der Einschätzung von Aufgabenschwierigkeiten. Unterrichtswissenschaft, 39, 102 - 120. Lorenz, C. (2011). Diagnostische Kompetenz von Grundschullehrkräften: Strukturelle Aspekte und Bedingungen. Dissertation, Universität Bamberg. Lorenz, C. & Artelt, C. (2009). Fachspezifität und Stabilität diagnostischer Kompetenz von Grundschullehrkräften in den Fächern Deutsch und Mathematik. Zeitschrift für Pädagogische Psychologie, 23, 211 - 222. http: / / dx.doi.org/ 10.1024/ 1010-0652.23.34.211 McElvany, N., Schroeder, S., Baumert, J., Schnotz, W., Horz, H. & Ullrich, M. (2012). Cognitively demanding learning materials with texts and instructional pictures: Teachers’ diagnostic skills, pedagogical beliefs and motivation. European Journal of Psychology of Education, 27, 403 - 420. http: / / dx.doi.org/ 10.1007/ s102 12-011-0078-1 McElvany, N., Schroeder, S., Hachfeld, A., Baumert, J., Richter, T., Schnotz, W.,… Ullrich, M. (2009). Diagnostische Fähigkeiten von Lehrkräften bei der Einschätzung von Schülerleistungen und Aufgabenschwierigkeiten bei Lernmedien mit instruktionalen Bildern. Zeitschrift für Pädagogische Psychologie, 23, 223 - 235. http: / / dx.doi.org/ 10.1024/ 1010-0652.23. 34.223 McElvany, N., Schroeder, S., Richter, T., Hachfeld, A., Baumert, J., Schnotz, W.,… Ullrich, M. (2010). Texte mit instruktionalen Bildern als Unterrichtsmaterial - Kompetenzen der Lehrkräfte. Unterrichtswissenschaft, 38, 98 - 116. McElvany, N. & Willems, A. S. (2012). Videobasiertes Fortbildungsmodul zur Bild-Text-Integration. Schule NRW, 2, 68 - 70. Nachtigall, C. & Wirtz, M. (1998). Wahrscheinlichkeitsrechnung und Inferenzstatistik: Statistische Methoden für Psychologen Teil 2. Weinheim: Juventa Verlag. Schnotz, W. & Bannert, M. (2003). Construction and interference in learning from multiple representation. Learning and Instruction, 13, 141 - 156. http: / / dx.doi. org/ 10.1016/ S0959-4752(02)00017-8 Schnotz, W., Horz, H., McElvany, M., Schroeder, S., Ullrich, M., Baumert, J., Hachfeld, A. & Richter, T. (2010). Das BITE-Projekt: Integrative Verarbeitung von Bildern und Texten in der Sekundarstufe I. In E. Klieme, D. Leutner & M. Kenk (Hrsg.), Kompetenzmodellierung. Zwischenbilanz des DFG-Schwerpunktprogramms und Perspektiven des Forschungsansatzes (Zeitschrift für Pädagogik, Beiheft, 56, S. 143 - 153). Weinheim: Beltz Schrader, F.-W. (1989). Diagnostische Kompetenzen von Lehrern und ihre Bedeutung für die Gestaltung und Effektivität des Unterrichts. Frankfurt a. M.: Lang. Schrader, F.-W. & Helmke, A. (1987). Diagnostische Kompetenz von Lehrern: Komponenten und Wirkungen. Empirische Pädagogik, 1, 27 - 52. Schrader, F.-W. & Helmke, A. (2001). Alltägliche Leistungsbeurteilung durch Lehrer. In F. E. Weinert (Hrsg.), Leistungsmessung in Schulen (2. Aufl., S. 45 - 58). Weinheim: Beltz. Schroeder, S., Richter, T., McElvany, N., Hachfeld, A., Baumert, J., Schnotz, W.,… Ullrich, M. (2011). Teachers’ beliefs, instructional behaviors, and students’ engagement in learning from texts with instructional pictures. Learning and Instruction, 21, 403-415. http: / / dx.doi.org/ 10.1016/ j.learninstruc.2010.06.001 Shulman, L. S. (1987). Assessment for teaching: An Initiative for the profession. Phi Delta Kappan, 69, 38 - 44. Spinath, B. (2005). Akkuratheit der Einschätzung von Schülermerkmalen durch Lehrer und das Konstrukt der diagnostischen Kompetenz. Zeitschrift für Pädagogische Psychologie, 19, 85 - 95. http: / / dx.doi.org/ 10. 1024/ 1010-0652.19.12.85 Stern, E. (2009). Implizite und explizite Lernprozesse bei Lehrerinnen und Lehrern. In O. Zlatkin-Troitschanskaia, K. Beck, D. Sembill, R. Nickolaus & R. Mulder (Hrsg.), Lehrprofessionalität. Bedingungen, Genese, Wirkungen und ihre Messung (S. 355 - 364). Weinheim: Beltz. Südkamp, A., Kaiser, J. & Möller, J. (2012). Accuracy of teachers’ judgments of students’ academic achieve- Verbessert sich die diagnostische Urteilsgenauigkeit? 47 ment: A meta-analysis. Journal of Educational Psychology, 104, 743 - 762. http: / / dx.doi.org/ 10.1037/ a0027 627 Ullrich, M., Schnotz, W., Horz, H., McElvany, N., Schroeder, S. & Baumert, J. (2012). Kognitionspsychologische Aspekte eines Kompetenzmodells zur Bild-Text- Integration. Psychologische Rundschau, 63, 11 - 17. http: / / dx.doi.org/ 10.1026/ 0033-3042/ a000105 Van Ophuysen, S. (2006). Vergleich diagnostischer Entscheidungen von Novizen und Experten am Beispiel der Schullaufbahnempfehlung. Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 38, 154 - 161. http: / / dx.doi.org/ 10.1026/ 0049-8637.38.4.154 Wild, K.-P. & Rost, D. H. (1995). Klassengröße und Genauigkeit von Schülerbeurteilungen. Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 27, 78 - 90. Dr. Britta Oerke Prof. Dr. Nele McElvany Dr. Annika Ohle Vogelpothsweg 78 D-44227 Dortmund E-Mail: britta.oerke@tu-dortmund.de E-Mail: nele.mcelvany@tu-dortmund.de E-Mail: annika.ohle@tu-dortmund.de Dr. Mark Ullrich Prof. Dr. Holger Horz Grüneburgplatz 1 D-60323 Frankfurt am Main E-Mail: m.ullrich@psych.uni-frankfurt.de E-Mail: horz@psych.uni-frankfurt.de
