Psychologie in Erziehung und Unterricht
3
0342-183X
Ernst Reinhardt Verlag, GmbH & Co. KG München
71
2010
573
Diagnostische Fähigkeiten von Mathematiklehrkräften und ihre Auswirkungen auf die Leistungen ihrer Schülerinnen und Schüler
71
2010
Yvonne Anders
Mareike Kunter
Martin Brunner
Stefan Krauss
Jürgen Baumert
Die vorliegende Studie untersucht diagnostische Fähigkeiten von Mathematiklehrkräften der Sekundarstufe sowie die Zusammenhänge zwischen diagnostischen Fähigkeiten, Unterrichtsqualität und den Leistungen der Schülerinnen und Schüler. Die Stichprobe von 155 Mathematiklehrkräften und deren Klassen mit insgesamt 3483 Schülerinnen und Schülern, die zu zwei Messzeitpunkten (am Ende der 9. und 10. Jahrgangsstufe) untersucht wurden, entstammt dem Projekt COACTIV. Diagnostische Fähigkeiten wurden anhand des aufgabenbezogenen Urteilsfehlers und der diagnostischen Sensitivität (Rangkomponente) untersucht. Unterrichtsqualität wurde durch das kognitive Aktivierungspotenzial der gestellten Klassenarbeitsaufgaben erhoben. Es zeigte sich, dass Lehrkräfte die Lösungshäufigkeit spezifischer Aufgaben in der eigenen Klasse oftmals überschätzen, der Median der Rangkomponente liegt bei r=0.32. Eine höhere Fähigkeit, das Schwierigkeitsniveau einzelner Aufgaben einzuschätzen, geht auch mit einem höheren kognitiven Aktivierungspotenzial der Aufgaben einher. Beide Indikatoren diagnostischer Fähigkeiten stehen - bei Kontrolle relevanter Eingangsvoraussetzungen der Schüler (Mathematik- und Leseleistung im Vorjahr, allgemeine kognitive Fähigkeiten etc.) - in signifikantem Zusammenhang mit den Leistungen der Klassen.
3_057_2010_003_0175
n Empirische Arbeit Psychologie in Erziehung und Unterricht, 2010, 57, 175 - 193 DOI 10.2378/ peu2010.art13d © Ernst Reinhardt Verlag München Basel Diagnostische Fähigkeiten von Mathematiklehrkräften und ihre Auswirkungen auf die Leistungen ihrer Schülerinnen und Schüler Yvonne Anders 1 , Mareike Kunter 2 , Martin Brunner 3 , Stefan Krauss 4 , Jürgen Baumert 2 1 Universität Bamberg 2 Max-Planck-Institut für Bildungsforschung, Berlin 3 Universität Luxemburg 4 Universität Regensburg Mathematics Teachers’ Diagnostic Skills and Their Impact on Students’ Achievements Summary: The present study investigates diagnostic skills of mathematics teachers and the way they relate to instructional quality and students’ achievements. Longitudinal data were obtained from a sample of 155 teachers and their classes (3483 students) in the context of the German national extension to the PISA study (measurement points: end of 9th and 10th grade). Diagnostic skills were investigated using two indicators: the accuracy of teachers in judging the difficulty levels of mathematics tasks in their own class and the accuracy in estimating the rank order of students’ achievement outcomes in their classes (rank component). In average, teachers underestimated the difficulty level of mathematics tasks in their own classes, the median of the rank component was r = 0.32. The accuracy of judging difficulty levels of mathematics tasks was related to the instructional quality. Multilevel analyses showed further that both indicators were related to students’ achievements, controlling for students’ background and prior attainment. Keywords: Diagnostic skills, diagnostic competence, teacher judgment accuracy, instructional quality, teacher competence Zusammenfassung: Die vorliegende Studie untersucht diagnostische Fähigkeiten von Mathematiklehrkräften der Sekundarstufe sowie die Zusammenhänge zwischen diagnostischen Fähigkeiten, Unterrichtsqualität und den Leistungen der Schülerinnen und Schüler. Die Stichprobe von 155 Mathematiklehrkräften und deren Klassen mit insgesamt 3483 Schülerinnen und Schülern, die zu zwei Messzeitpunkten (am Ende der 9. und 10. Jahrgangsstufe) untersucht wurden, entstammt dem Projekt COACTIV. Diagnostische Fähigkeiten wurden anhand des aufgabenbezogenen Urteilsfehlers und der diagnostischen Sensitivität (Rangkomponente) untersucht. Unterrichtsqualität wurde durch das kognitive Aktivierungspotenzial der gestellten Klassenarbeitsaufgaben erhoben. Es zeigte sich, dass Lehrkräfte die Lösungshäufigkeit spezifischer Aufgaben in der eigenen Klasse oftmals überschätzen, der Median der Rangkomponente liegt bei r = 0.32. Eine höhere Fähigkeit, das Schwierigkeitsniveau einzelner Aufgaben einzuschätzen, geht auch mit einem höheren kognitiven Aktivierungspotenzial der Aufgaben einher. Beide Indikatoren diagnostischer Fähigkeiten stehen - bei Kontrolle relevanter Eingangsvoraussetzungen der Schüler (Mathematik- und Leseleistung im Vorjahr, allgemeine kognitive Fähigkeiten etc.) - in signifikantem Zusammenhang mit den Leistungen der Klassen. Schlüsselbegriffe: Diagnostische Fähigkeiten, Diagnostische Kompetenz, Akkuratheit von Lehrerurteilen, Unterrichtsqualität, Lehrerkompetenz 176 Yvonne Anders et al. Im Rahmen von PISA 2000 wurden Hauptschullehrkräfte gebeten einzuschätzen, welche ihrer Schülerinnen und Schüler über eine so geringe Lesefähigkeit verfügen, dass sie erhebliche Schwierigkeit beim Übergang in das Berufsleben haben dürften. Die meisten Schülerinnen und Schüler, die aufgrund ihrer Leistungen im PISA-Test als schwache Leser identifiziert wurden, blieben dabei von den Lehrkräften unerkannt (Artelt, Stanat, Schneider & Schiefele, 2001). Dieses Resultat hat zu einer breiten bildungspolitischen Diskussion um die diagnostische Kompetenz von Lehrkräften geführt, und im Jahr 2003 forderte die KMK zu Maßnahmen zur Verbesserung der Professionalität der Lehrertätigkeit, insbesondere im Hinblick auf diagnostische und methodische Kompetenz als Bestandteil systematischer Schulentwicklung auf (KMK, 2003). Dem großen Interesse der Öffentlichkeit an diagnostischen Fähigkeiten von Lehrkräften und der Vehemenz der bildungspolitischen Forderungen steht ein noch schwacher empirischer Forschungsstand zu Struktur, Genese und Auswirkungen diagnostischer Fähigkeiten von Lehrkräften gegenüber. Die vorliegende Arbeit setzt hier an und untersucht die diagnostischen Fähigkeiten von Mathematiklehrkräften der Sekundarstufe und ihre Auswirkungen auf die Leistungen ihrer Schülerinnen und Schüler. Im Folgenden wird zunächst eine Einordnung der verwendeten wissenschaftlichen Konstrukte im Zusammenhang mit diagnostischen Fähigkeiten vorgenommen. Der Begriff der diagnostischen Kompetenz Die Fähigkeit, Merkmale von Personen korrekt einzuschätzen (Urteilsgenauigkeit), bezeichnet man als diagnostische Kompetenz. Im schulischen Kontext gilt die genaue Beurteilung von Leistungen und Leistungspotenzialen sowie leistungsrelevanten Persönlichkeitsmerkmalen von Schülerinnen und Schülern als Voraussetzung für die effektive Planung und Durchführung von Unterricht sowie für die Beratung von Eltern und Schülerinnen und Schülern (Elliott, Gresham, Freeman & McCloskey, 1988; Gerber & Semmel, 1984; Helmke, 2004; Hoge, 1983; Schrader, 1997, 2006; Schrader & Helmke, 2002). Diagnostische Kompetenz wird neben der Klassenführungs-, didaktischen und fachwissenschaftlichen Kompetenz von Weinert (1998) als eine der vier Schlüsselkompetenzen von Lehrkräften benannt. Auch Baumert und Kunter (2006) beschreiben diagnostische Kompetenz als eine zentrale Facette professioneller Kompetenz von Lehrkräften. Von diagnostischer Kompetenz im Sinne von Urteilsgenauigkeit ist der weiter gefasste Begriff der diagnostischen Expertise abzugrenzen, der die Gesamtheit des Wissens und Könnens bezeichnet, das zum Treffen korrekter Urteile notwendig ist (Helmke, 2004). Hierzu gehören neben der Urteilsgenauigkeit z. B. auch das Wissen über Fähigkeiten und Schwierigkeitsbereiche von Schülerinnen und Schülern eines gewissen Alters, methodisches und prozedurales Wissen zur Leistungseinschätzung sowie Wissen über Urteilsprozesse. Im Hinblick auf die Urteilsgenauigkeit lassen sich verschiedene Komponenten unterscheiden: die Niveaukomponente, die Streuungskomponente und die Rangkomponente, welche auch als diagnostische Sensitivität bezeichnet wird. Die Niveaukomponente misst die Tendenz, eine Merkmalsausprägung zu über- oder zu unterschätzen, wohingegen sich die Streuungskomponente auf die Tendenz, die Streuung eines Merkmals zu über- oder unterschätzen bezieht. Die Rangkomponente misst die Fähigkeit, mit der Urteiler Personen hinsichtlich der Ausprägung eines Merkmals in eine korrekte Rangreihe bringen können. Die beschriebene Zerlegung der Urteilsgenauigkeit in Komponenten geht auf Arbeiten von Cronbach (1955) zurück und wurde im deutschsprachigen Raum insbesondere von Schrader und Helmke (1987) auf die diagnostische Kompetenz von Lehrkräften übertragen. Neben diesen Komponenten lassen sich ferner verschiedene Varianten und Dimensionen diagnostischer Urteile unterscheiden: Einschätzung einer aktuellen versus Diagnostische Fähigkeiten von Mathematiklehrkräften 177 einer kumulativen Leistung (z. B. Klassenarbeit versus Leistung im gesamten Schuljahr), globale versus spezifische (z. B. Leistung im Fach Mathematik versus Leistung in Algebra) sowie kognitive versus nicht kognitive Einschätzungen (vgl. Helmke, 1994). Bei der Untersuchung der Urteilsgenauigkeit von Lehrkräften sind meistens Schülerinnen und Schüler Gegenstand der Einschätzung, es können jedoch ebenfalls die Schulklasse oder die gesamte Schule beurteilt werden. Auch Aufgaben können im Hinblick auf ihr Schwierigkeitspotenzial eingeschätzt werden. Diagnostische Kompetenz wird oftmals im Sinne einer generellen Fähigkeit von Lehrkräften diskutiert. Arbeiten, die sich mit der Konstruktvalidität und mit der Dimensionalität der diagnostischen Kompetenz beschäftigt haben, fanden allerdings übereinstimmend, dass die verschiedenen Komponenten der Urteilsgenauigkeit (Niveau-, Streuungs- und Rangkomponente) nur gering miteinander korrelieren (Schrader, 1989; Schrader & Helmke, 1987; Spinath, 2005; Weinert & Schrader, 1986). Die bisherigen Resultate rechtfertigen die Existenz eines eindimensionalen Konstrukts daher nicht, sondern sprechen dafür, dass es sich um voneinander unabhängige Fähigkeitsdimensionen handelt. Ferner zeigte Spinath (2005) in diesem Zusammenhang, dass Urteilsgenauigkeit nicht über verschiedene inhaltliche Domänen generalisierbar ist. In dieser Arbeit fassen wir verschiedene Komponenten der Urteilsgenauigkeit von Lehrkräften daher als unterschiedliche diagnostische Fähigkeiten auf. Einzelne Komponenten werden als Indikatoren diagnostischer Kompetenz angesehen, ohne dass eine Generalisierbarkeit auf ein unterliegendes Fähigkeitskonstrukt angenommen wird. Die Urteilsgenauigkeit von Lehrkräften beim Einschätzen von Schülerleistungen: Befunde Im Zentrum der Mehrheit der Studien zu diagnostischen Fähigkeiten von Lehrkräften steht die Urteilsgenauigkeit in Bezug auf Leistungen von Schülerinnen und Schülern. Auch diese Studie beschäftigt sich mit der Beurteilung von Leistungen (im Fach Mathematik), ohne dabei die Diagnostik vorangehender Bedingungen schulischer Leistungen wie beispielsweise Lernmotivation und Fähigkeitsselbstwahrnehmungen in ihrer Wichtigkeit zu unterschätzen. Ein viel verwendetes Maß zur Beurteilung der Urteilsgenauigkeit von Lehrkräften im Hinblick auf Leistungen von Schülerinnen und Schülern stellt die Korrelation zwischen den Ergebnissen, die Schülerinnen und Schüler in Leistungstests erzielen, und den Einschätzungen, die Lehrkräfte im Hinblick auf die Schülerleistungen in diesen Tests geben, dar (z. B. Feinberg & Shapiro, 2003; Hosenfeld, Helmke & Schrader, 2002; Schrader, 1989, Spinath, 2005). Hosenfeld, Helmke und Schrader (2002) zeigten für den Bereich Mathematik eine Korrelation von r = 0.55. Hoge und Coladarci (1989) führten eine Meta-Analyse durch, in der sie einen Median von r = 0.66 für Korrelationen zwischen Leistungstests und Lehrerurteil ermittelt haben. Diese Resultate werden weithin als Beleg für in der Regel gute diagnostische Fähigkeiten von Lehrkräften angeführt. Allerdings wurde auch eine große Spannweite der Korrelationen (von r = 0.28 bis r = 0.92) festgestellt, welche illustriert, dass es deutliche Unterschiede zwischen Lehrkräften in den diagnostischen Fähigkeiten gibt. Zusätzlich ist zu beachten, dass eine hohe Korrelation zwischen Lehrereinschätzungen und den Ergebnissen in Leistungstests auch dann auftritt, wenn Lehrkräfte die Leistungen ihrer Schülerinnen und Schüler systematisch über- oder unterschätzen. Andere Studien haben sich damit beschäftigt, wie gut Lehrkräfte die Schwierigkeit einzelner Aufgaben in der eigenen Klasse beurteilen können. Der Begriff Aufgabenschwierigkeit wird hier im Sinne des Anteils der Schülerinnen und Schüler der Klasse verstanden, die spezifische Aufgaben lösen können. Die Resultate zeigten, dass Lehrkräfte dazu neigen, das Leistungsniveau der eigenen Klasse tendenziell 178 Yvonne Anders et al. zu überschätzen (Hosenfeld et al., 2002; Schrader, 1989; Lehmann et al., 2000). In Arbeiten, in denen Schwierigkeiten verschiedener Aufgaben in eine Rangordnung gebracht werden sollten, ergaben sich durchschnittliche Korrelationen von r = 0.33 bis r = 0.56 zwischen den Einschätzungen der Lehrkräfte und den tatsächlichen Aufgabenschwierigkeiten, wiederum mit großen Spannweiten zwischen Lehrkräften und Klassen (Hosenfeld et al., 2002; Lehmann et al., 2000; Schrader, 1989). Welche Lehrkräfte sind besonders gute Diagnostiker? Neben der reinen Beschreibung der Genauigkeit diagnostischer Urteile im schulischen Kontext ist die Erklärung der Entstehung diagnostischer Fähigkeiten zentral. Ein erster Schritt kann hierzu die Untersuchung der Fragestellung sein, wie sich Lehrkräfte, die sich als besonders gute Diagnostiker erweisen, von Lehrkräften mit weniger guten diagnostischen Fähigkeiten unterscheiden. Coladarci (1986) nimmt an, dass die Lehrerfahrung eine Determinante der Urteilsgüte sei. Diese Hypothese fußt auf der Vorstellung, dass die kognitiven Strukturen der Urteilsbildung sich mit zunehmender Berufserfahrung entwickeln und die Lehrkraft in einem fortwährenden Prozess der Hypothesenbildung zu den Leistungen von Schülerinnen und Schülern sowie deren Überprüfung ihre diagnostischen Fähigkeiten optimiert (vgl. Schrader, 1989). Empirische Studien (Bates & Nettelbeck, 2001; Feinberg & Shapiro, 2003; Leinhardt, 1983, Wild & Rost, 1995) sprechen aber für eine Unabhängigkeit der Urteilsgenauigkeit und der Dauer der beruflichen Tätigkeit. Ferner sprechen die Resultate gegen einen Zusammenhang zwischen der Dauer der Lehrtätigkeit in einer Klasse (Kontaktdauer) und der Akkuratheit diagnostischer Urteile (Wild & Rost, 1995). Diese Studie zeigte außerdem keinen Zusammenhang zwischen der Klassengröße und der Urteilsgüte. Wie wirkt sich eine hohe Urteilsgenauigkeit von Lehrkräften auf den Unterricht und die Leistungen der Schülerinnen und Schüler aus? Im Rahmen eines zielorientierten, adaptiven Unterrichts sollte eine optimale Abstimmung zwischen Voraussetzungen der Schülerinnen und Schüler einerseits und den unterrichtlichen Angeboten andererseits hergestellt werden (Corno & Snow, 1986; Rogalla & Vogt, 2008). Um das Lehrangebot an die individuellen Voraussetzungen adäquat anpassen zu können, ist es einerseits notwendig, lern- und leistungsrelevante Merkmale einzelner Schülerinnen und Schüler sowie der gesamten Klasse korrekt einschätzen zu können. Andererseits benötigt die Lehrkraft die Fähigkeit, das Schwierigkeits- und Aktivierungspotenzial des Unterrichtsmaterials einschätzen zu können. Eine Kernfrage im Zusammenhang mit diagnostischen Fähigkeiten von Lehrkräften ist daher diejenige nach empirisch messbaren Auswirkungen hoher Urteilsgenauigkeit auf das Unterrichtsgeschehen und auf die Leistungen der Schülerinnen und Schüler. Zu dieser Fragestellung gibt es bislang nur wenig empirische Studien, die zu heterogenen Resultaten kommen. Fisher et al. (1978) fanden einen positiven Zusammenhang zwischen der Fähigkeit, die Schwierigkeit von Aufgaben in Leistungstests in Deutsch und Mathe einzuschätzen, und der Leistung sowie dem Engagement der Schülerinnen und Schüler in diesen Fächern. Lehmann et al. (2000) untersuchten ebenfalls den Zusammenhang zwischen der Fähigkeit von Lehrkräften, die Schwierigkeit einzelner Mathematikaufgaben in der eigenen Klasse einzuschätzen und der am Ende des Schuljahres einmalig erhobenen Testleistung. Die Autoren fanden inkonsistente Ergebnisse: Nur für einzelne Schulformen und einzelne Klassenstufen zeigten sich positive Zusammenhänge, für andere nicht. Ebenfalls in Bezug auf das Fach Mathematik konnten Arbeiten von Helmke und Schrader die Hypothese untermauern, dass der Unterrichtsgestaltung eine mediierende Diagnostische Fähigkeiten von Mathematiklehrkräften 179 Rolle bei der Wirkung hoher diagnostischer Fähigkeiten der Lehrkraft auf die Leistungsentwicklung zukommt (Helmke & Schrader, 1987; Schrader & Helmke, 1987; Schrader, 1989). Gegenstand ihrer Untersuchungen war der interaktive Effekt von hohen diagnostischen Fähigkeiten und dem Einsatz von Strukturierungs- und Unterstützungsmaßnahmen im Unterricht auf Leistungserfolg (Helmke & Schrader, 1987). Unter Strukturierungsmaßnahmen sind in diesem Zusammenhang Verhaltensweisen zur Aufmerksamkeitsfokussierung der Schülerinnen und Schüler auf wichtige Elemente des Unterrichts oder Methoden zur Aufgabenlösung zu verstehen. Unterstützungsmaßnahmen wurden als Verhaltensweisen operationalisiert, bei denen sich Lehrkräfte während Stillarbeitsphasen individuell einzelnen Schülerinnen und Schülern widmen. In der Studie zeigte sich zwar kein direkter Effekt der Güte diagnostischer Leistungen auf den Leistungszuwachs, allerdings konnte ein Interaktionseffekt nachgewiesen werden. Die größte Leistungsentwicklung wurde in Klassen von Lehrkräften festgestellt, bei denen eine hohe Genauigkeit diagnostischer Urteile mit einer hohen Instruktionsqualität einherging. Die Resultate zeigten jedoch auch, dass der Leistungserfolg dann am geringsten war, wenn eine hohe Genauigkeit diagnostischer Urteile gepaart mit geringer Instruktionsqualität auftrat. Die Autoren erklären diesen Befund dadurch, dass hohe diagnostische Fähigkeiten der Lehrkraft zu einer höheren Sensibilität aufseiten der Schülerinnen und Schüler in Bezug auf ihre fachlichen Schwächen führen könnten, bei fehlenden Unterstützungsmaßnahmen könnten in der Folge negative affektive und motivationale Konsequenzen für die Schüler resultieren. Ein empirischer Beleg für diese Annahme existiert allerdings nicht. Zusammenfassend lässt sich sagen, dass insbesondere im Hinblick auf die Auswirkungen hoher diagnostischer Fähigkeiten auf die Unterrichtsqualität bislang keine solide empirische Basis besteht. Zu fragen ist, inwieweit sich bei hinreichender Kontrolle anderer relevanter Voraussetzungen der Schülerinnen und Schüler (wie allgemeine kognitive Leistungsfähigkeit, sozioökonomischer Status, vorangehende Leistungen) positive Effekte hoher diagnostischer Fähigkeiten der Lehrkraft auf die Unterrichtsqualität und die Schülerleistungen nachweisen lassen. Fragestellungen der vorliegenden Untersuchung Hauptziele dieser Arbeit waren die Beschreibung der diagnostischen Fähigkeiten von Mathematiklehrkräften der Sekundarstufe sowie die Analyse der Zusammenhänge zwischen diagnostischen Fähigkeiten, den Leistungen der Schülerinnen und Schüler und der Unterrichtsqualität. Die Gestaltung des Unterrichtsgeschehens kann aufgrund seiner Komplexität durch verschiedene Merkmale beschrieben werden, wobei vor allem die Merkmale prädiktiv für die Leistungsentwicklung sein sollten, die die Gestaltung der Lehr-Lern-Interaktionen zwischen Schülerinnen und Schülern und Lehrkräften erfassen (z. B. Ditton, 2006). Ein zentrales Merkmal der Instruktionsqualität ist das Ausmaß, in dem Lehr-Lern-Situationen Potenzial zur kognitiven Aktivierung bergen. Hiermit sind Aspekte des Unterrichtsgeschehens gemeint, die Lernprozesse der Schülerinnen und Schüler durch die aktive und selbstständige Auseinandersetzung mit dem Lerngegenstand stimulieren. Als Beispiele für Lerngelegenheiten mit hohem Potenzial zur kognitiven Aktivierung gelten Aufgaben, die an das Vorwissen der Schülerinnen und Schüler anknüpfen, oder Aufgaben, die dazu anregen, die Gültigkeit von Lösungsvorschlägen eigenständig zu hinterfragen (z. B. Klieme, Schümer & Knoll, 2001). Kognitive Aktivierung bildet dementsprechend nicht den Leistungsanspruch oder das Leistungsniveau ab, welches die Lehrkraft vermittelt. Ein kognitiv aktivierender Unterricht ist vielmehr ein Unterricht, der sowohl leistungsschwache als auch leistungsstarke Schülerinnen und Schüler fordert und zum Mitdenken anregt. Das Ausmaß der kognitiven Aktivierung 180 Yvonne Anders et al. im Mathematikunterricht hat sich in Vorgängerstudien (BIJU, TIMSS, PISA) neben der Effizienz der Klassenführung und der konstruktiven Unterstützung der Schülerinnen und Schüler als prädiktiv für die Leistungsentwicklung im Fach Mathematik erwiesen (z. B. Gruehn, 2000; Kunter et al., 2006). Unterricht so zu gestalten, dass er für viele Schülerinnen und Schüler optimale kognitive Aktivierung liefert, ist vermutlich eine der größten Herausforderungen, der sich Lehrkräfte stellen müssen. Es ist anzunehmen, dass gute diagnostische Fähigkeiten im Hinblick auf verschiedene Aspekte notwendig sind, um sich dieser Herausforderung zu stellen. Besonders relevant sollten zwei Komponenten der Urteilsgenauigkeit sein: (1) die Fähigkeit das Schwierigkeitspotenzial von Mathematikaufgaben in der eigenen Klasse korrekt einschätzen zu können sowie (2) eine gute Kenntnis des Leistungsstandes individueller Schülerinnen und Schüler. Im Fokus der vorliegenden Arbeit stehen Analysen, in denen mit Hilfe eines längsschnittlichen Designs die Bedeutsamkeit diagnostischer Fähigkeiten von Lehrkräften auf die Mathematikleistungen von Schülerinnen und Schülern der 10. Klassenstufe - unter Kontrolle relevanter Voraussetzungen (Leistungen in der 9. Klasse, allgemeine kognitive Fähigkeiten, sozioökonomischer Status etc.) - untersucht wird. Es wird der Frage nachgegangen, ob hohe diagnostische Fähigkeiten mit einem höheren Ausmaß des Potenzials zur kognitiven Aktivierung einhergehen. Ferner wird analysiert, inwieweit Einflüsse diagnostischer Fähigkeiten auf die Leistung der Schülerinnen und Schüler durch Einflüsse des Potenzials zur kognitiven Aktivierung erklärt werden können. Methode Datengrundlage Die vorliegende Untersuchung ist Teil des Projekts COACTIV: „Professionelle Kompetenz von Lehrkräften, kognitiv aktivierender Untericht und die Entwicklung mathematischer Kompetenz…“ (Brunner et al., 2006; Krauss et al., 2004). Die Studie wurde mit Mitteln der Deutschen Forschungsgesellschaft gefördert und ist Teil des DFG-Schwerpunktprogramms Bildungsqualität von Schule (BIQUA). Das Projekt COACTIV ist konzeptionell und technisch in die nationale PISA-Erhebung 2003/ 04 eingebunden (PISA-I-Plus, Prenzel, et al., 2006). Die Stichprobe des internationalen Designs wurde im Rahmen der nationalen Ergänzung von PISA als Längsschnittstichprobe erweitert; die Schülerinnen und Schüler dieser Klassen wurden sowohl am Ende der 9. als auch der 10. Jahrgangsstufe umfangreich untersucht. Befragung von Lehrkräften Die Mathematiklehrkräfte dieser 9. und 10. Klassen stehen im Zentrum des Projekts COACTIV. Diese wurden parallel zu ihren Schülerinnen und Schülern zweimal umfangreich befragt und getestet. Inhalte der Fragebögen und Tests waren unter anderem der berufliche und soziale Hintergrund sowie verschiedene Aspekte der professionellen Handlungskompetenz von Lehrkräften wie ihre diagnostischen Fähigkeiten. Zusätzlich wurden die teilnehmenden Lehrkräfte gebeten, eine Zusammenstellung aller Klassenarbeiten, die sie in der PISA-Klasse gestellt haben, einzureichen. Stichprobe Die Stichprobe der vorliegenden Analysen ist Teil des PISA-Klassenlängsschnitts (Prenzel et al., 2006), allerdings wurden in den durchgeführten Analysen nur diejenigen Klassen einbezogen, die an beiden Messzeitpunkten mit vergleichbarer Zusammensetzung der Schülerschaft teilnahmen und von derselben Lehrkraft in Mathematik unterrichtet wurden. Die Stichprobe bestand insgesamt aus 155 Klassen und deren Mathematiklehrkräften. Die untersuchten Lehrkräfte (53 % männlich) waren im Mittel 48 Jahre alt (Spannweite: 28 bis 65 Jahre, SD = 8). Die Berufserfahrung dieser Lehrerinnen und Lehrer lag bei durchschnittlich 22 Jahren (Spannweite: 3 bis 42 Jahre, SD = 9). Insgesamt lagen Daten von 3483 Schülerinnen und Schülern vor, wovon 57 % weiblich waren. Das Durchschnittsalter zum Zeitpunkt des zweiten Messzeitpunkts betrug 16 Jahre. Die Größe der untersuchten Klassen lag im Schnitt bei 25 (Spannweite 11 bis 34 Schülerinnen und Schüler pro Klasse). Bei 36.8 % der Klassen handelte es sich um Gymnasialklassen, 43.9 % entstammten Realschulen, 11.6 % Schulformen mit mehreren Bildungsgängen und Diagnostische Fähigkeiten von Mathematiklehrkräften 181 7.7 % Integrierten Gesamtschulen. Hauptschulklassen und deren Lehrkräfte wurden nicht berücksichtigt, da nur ein geringer Anteil an Hauptschülerinnen und Hauptschülern im PISA-Längsschnitt in die 10. Jahrgangsstufe überwechselte. Dies ist bei der Interpretation der Resultate zu beachten. Instrumente Abhängige Variable Die Leistung im Fach Mathematik in Klasse 10 stellt die abhängige Variable der durchgeführten Analysen dar. Zur Ermittlung eines curriculumsorientierten Mathematik-PISA-Leistungsscores wurden die Aufgaben des PISA-Tests (international und nationale Ergänzung) herangezogen, die sich explizit auf Inhalte beziehen, die Teil des Curriculums der 10. Klasse sind, wie z. B. das Lösen trigonometrischer Funktionen, quadratischer Funktionen sowie die Bearbeitung geometrischer Fragestellungen (Ehmke et al., 2006; Kunter et al., 2006). Prädiktoren auf Klassenebene Diagnostische Fähigkeiten der Mathematiklehrkräfte In dieser Untersuchung werden zwei Komponenten diagnostischer Kompetenz der Lehrkräfte betrachtet: (1) die Fähigkeit, die Schwierigkeit einzelner Mathematikaufgaben in der eigenen Klasse 1 korrekt einzuschätzen (aufgabenbezogene Urteilstendenz, aufgabenbezogener Urteilsfehler) sowie (2) die Fähigkeit, Schülerinnen und Schüler der eigenen Klasse hinsichtlich ihrer Gesamtleistung im Fach Mathematik in eine Rangreihe zu bringen (Rangkomponente/ diagnostische Sensitivität). Die diagnostischen Fähigkeiten wurden zum ersten Messzeitpunkt (Ende der 9. Jahrgangsstufe) erhoben. Die Operationalisierungen der beiden Komponenten der Urteilsgenauigkeit werden im Folgenden näher erläutert. 1 Der Begriff Aufgabenschwierigkeit wird nicht im Sinne des kognitiven Anspruchs, sondern im Sinne des Anteils der Schüler der Klasse, die die Aufgabe lösen können, benutzt. Abbildung 1: Aufgaben zur Ermittlung des aufgabenbezogenen Urteilsfehlers bzw. der aufgabenbezogenen Urteilstendenz 182 Yvonne Anders et al. Aufgabenbezogene Urteilstendenz und Urteilsfehler Zur Ermittlung des aufgabenbezogenen Urteilsfehlers wurde den Lehrkräften eine Aufgabe, die sich in zwei Teilaufgaben untergliedert, vorgelegt, die ihre Schülerinnen und Schüler im PISA-Test bearbeitet haben. Sie wurden gebeten anzugeben, wie groß der Anteil der Schüler in ihrer Schulklasse sei, die diese Aufgaben lösen könnten. Abbildung 1 illustriert die Aufgabenstellung für die Lehrkräfte. Bei der ausgewählten Testaufgabe handelt es sich um eine Aufgabe zur Proportionalität, welches ein wichtiges und wiederholt auftauchendes Thema im Mathematikunterricht der Sekundarstufe darstellt. Die erste Teilaufgabe besteht darin, in einer Serie von Proportionalitätsbeziehungen eine fehlerhafte Beziehung zu finden. In der zweiten Teilaufgabe soll der Schüler oder die Schülerin die Entscheidung für die Antwort begründen und die fehlerhafte Proportionalitätsbeziehung korrigieren. Es handelt sich um Aufgabenstellungen, die einen wichtigen Bereich des typischen Lehrstoffs der Sekundarstufe abbilden und dementsprechend eine hinreichende ökologische Validität aufweisen. Zur Berechnung der aufgabenbezogenen Urteilstendenz wurden zunächst für die Einzelaufgaben die einfachen Differenzen zwischen der von der Lehrkraft geschätzten Aufgabenschwierigkeit und der tatsächlichen Aufgabenschwierigkeit in der eigenen Schulklasse ermittelt. Die Urteilstendenz gibt Auskunft darüber, ob und in welchem Ausmaß die Lehrkraft die Aufgabenschwierigkeiten über- oder unterschätzt. Die Einzeldifferenzen wurden durch Mittelwertsbildung zu einer Skala aggregiert ( a = 0.78). Im nächsten Schritt wurde der aufgabenbezogene Urteilsfehler als Absolutbetrag der aufgabenbezogenen Urteilstendenz ermittelt. Der Urteilsfehler gibt an, inwieweit die Einschätzung der Lehrkraft von der tatsächlichen Aufgabenschwierigkeit abweicht, ohne dabei Auskunft über die Richtung der Abweichung zu geben. Diagnostische Sensitivität (Rangkomponente) Die Lehrkräfte wurden im Rahmen der COACTIV- Untersuchungen gebeten, 7 zufällig ausgewählte Schülerinnen und Schüler ihrer eigenen Schulklasse hinsichtlich ihrer Gesamtleistung im Fach Mathematik in eine Rangreihe zu bringen. Die von den Lehrkräften angegebene Rangreihe wurde mit der Rangreihe, die sich aus den tatsächlichen PISA- Gesamttestergebnissen am Ende der 9. Klasse ergibt, in Beziehung gesetzt und die Rangkorrelation (Spearman’s Rho) zwischen der von den Lehrkräften angegebenen Rangreihe und der tatsächlichen Rangreihe berechnet. Dieses ist das Maß für die diagnostische Sensitivität. Kognitives Aktivierungspotenzial der Klassenarbeitsaufgaben Um Erkenntnisse über die Bereitstellung von kognitiv aktivierenden Lerngelegenheiten zu gewinnen, wurde ein mathematik-didaktischer Zugang gewählt, der auf der Idee basiert, Lernsituationen im Unterricht auf der Aufgabenebene abzubilden. Die teilnehmenden Lehrkräfte wurden dazu unter anderem gebeten, eine Zusammenstellung aller Klassenarbeiten des letzten Schuljahres einzureichen. Die Einübung prüfungsrelevanter Aufgabentypen ist häufig ein Schwerpunkt des Mathematikunterrichts in Deutschland (z. B. Blum & Neubrand, 1998). Daher erlauben insbesondere die Aufgaben aus den Klassenarbeiten valide Rückschlüsse auf die Schwerpunkte des Unterrichts. Im Mittel wurden pro Klasse 3.7 Klassenarbeiten eingereicht. Die eingereichten Klassenarbeitsaufgaben wurden einer detaillierten Aufgabenanalyse unterzogen. Zur Kategorisierung der Aufgaben wurde ein umfangreiches, in COAC- TIV spezifisch entwickeltes Klassifikationsschema verwendet (Jordan et al., 2006). Die Aufgaben wurden im Hinblick auf drei Aufgabenmerkmale klassifiziert, die das Potenzial zur kognitiven Aktivierung abbilden: (1) die Art der Aufgabenklasse, (2) das innermathematische Modellierungsniveau sowie (3) das Argumentationsniveau. (1) Die Art der Aufgabenklasse beschreibt den „Typ mathematischen Arbeitens“, wobei grundsätzlich zwischen technischen Aufgaben und Modellierungsaufgaben differenziert wird. Technische Aufgaben verlangen nur das Abarbeiten bekannter mathematischer Prozeduren, Modellierungsaufgaben können hingegen nur dann gelöst werden, wenn die Schülerinnen und Schüler zunächst die Aufgabenstellung reinterpretieren und eine Repräsentation der Problemsituation konstruieren. Modellierungsaufgaben können weiterhin in rechnerische und begriffliche Modellierungsaufgaben kategorisiert werden. (2) Als besonders kognitiv aktivierend gelten solche Aufgaben, die innermathematische problemhaltige Situationen enthalten, denn sie fordern explizit zur Vernetzung des mathematischen Wissens auf (Blum & Neubrand, 1998; Neubrand, 2002). Daher wurden die Aufgaben, die Modellierungsprozesse erfordern, weiterhin darauf- Diagnostische Fähigkeiten von Mathematiklehrkräften 183 hin kategorisiert, inwieweit innermathematisches Modellieren zur Lösung notwendig ist (gar nicht, niedrig, mittel, hoch). (3) Unter mathematischem Argumentieren versteht man die Fähigkeit, geschlossene mathematische Argumentationsketten zu präsentieren oder verschiedene Formen von mathematischen Argumentationen zu erfassen bzw. zu bewerten. Für alle beschriebenen kognitiven Anforderungsmerkmale gilt, dass die Differenzierungen keinen Rückschluss auf den Aufgabenanspruch im Sinne der zur Lösung notwendigen Vorkenntnisse erlauben. Theoretisch können alle kognitiven Anforderungsmerkmale auf verschiedenen Wissensstufen auftreten. Die drei beschriebenen Merkmale bilden einen Faktor (vgl. Kunter et al., 2006 für Details zur Validierung der Faktorstruktur). In dieser Studie wurde der Faktorscore zur Erfassung des Aktivierungspotenzials der Aufgaben eingesetzt. Dieser Faktorscore weist in der untersuchten Stichprobe einen Mittelwert von 0.01 und eine Standardabweichung von 0.86 auf (Minimum: -2.22, Maximum: 1.86). Kontrollvariablen auf Klassenebene Es wird oftmals angenommen, dass die Berufserfahrung der Lehrkraft, die Unterrichtserfahrung in der Klasse (Kontaktdauer) sowie die Klassengröße im Zusammenhang mit der Güte diagnostischer Urteile stehen. Auch wenn die empirische Evidenz zum Beleg dieser Zusammenhänge bislang aussteht (vgl. Spinath, 2005; Wild & Rost, 1995), wurde der Einfluss dieser Faktoren in den berechneten Mehrebenenmodellen kontrolliert. Kontrollvariablen auf Schülerebene In die berechneten Mehrebenenmodelle ging ferner eine Reihe von individuellen Schülermerkmalen als Kontrollvariablen ein. Dabei handelte es sich um folgende in PISA 2003 erhobene Variablen (vgl. PISA-Skalendokumentation, Ramm et al., 2006): (1) mathematische Kompetenz in der 9. Klasse, (2) kognitive Grundfähigkeit, (3) Lesekompetenz, (4) Migrationsstatus (Eltern in Deutschland geboren oder nicht), (5) sozioökonomischer Status (HISEI) und (6) Bildungshintergrund der Eltern (ging dummy-kodiert mit der Referenzkategorie „Hauptschulabschluss oder Mittlere Reife und Fachschule“ ein). Die Effekte der Prädiktoren auf Klassenebene sind entsprechend so zu interpretieren, als ob die Schulklassen bezüglich der auf Schülerebene kontrollierten Merkmale konstant gehalten seien. Statistische Analysen Die betrachteten Daten verfügen über eine natürliche Mehrebenenstruktur: Schülerinnen und Schüler sind in Schulklassen zusammengefasst, einige der interessierenden Variablen sind auf der Schülerebene, andere auf der Ebene der Lehrkräfte bzw. Schulklasse lokalisiert. Für die Angemessenheit der weitergehenden Analysen ist es wichtig, diese Mehrebenenstruktur zu beachten, daher wurden hierarchische lineare Modelle (HLM) spezifiziert, die eine spezifische Form der Regressionsanalyse darstellen, die sich besonders gut für Daten mit Mehrebenenstruktur eignen (Raudenbush & Bryk, 2002). Die Signifikanzprüfung der Koeffizienten berücksichtigt damit die geschachtelte Struktur der Daten. Für alle Modelle wurden sogenannte random intercept models spezifiziert. Im Rahmen der vorliegenden Arbeit wurden mit dem Programm HLM (Version 6; Raudenbush, Bryk, Cheong & Congdon, 2004) Mehrebenenanalysen zur Überprüfung der Hypothesen durchgeführt. Als Schätzmethode wurde das restricted maximum likelihood-Verfahren angewendet. Da HLM keine standardisierten Regressionskoeffizienten liefert, wurden alle metrischen Variablen vor Schätzung der Modelle z-standardisiert, die dichotomen Variablen wurden als Dummy-Variablen (Kodierung mit 0 und 1) in die Analysen einbezogen. Die Regressionsgewichte der Prädiktoren auf Ebene 1 sind daher vergleichbar zu Koeffizienten ordinärer Regressionsanalysen zu interpretieren. Für die Prädiktoren auf Klassenebene wurden Effektgrößen nach der von Tymms (2004) für Mehrebenenmodelle vorgeschlagenen Formel für metrische Prädiktoren berechnet: ES = 2 * B * SD predictor / σ e (Formel für metrische Prädiktoren). B ist hierbei der unstandardisierte Regressionskoeffizient, SD predictor die Standardabweichung des Prädiktors auf Klassenebene und σ e die Residualstandardabweichung auf Schülerebene. Die Effektgröße ist in ihrer Interpretation mit Cohen’s d vergleichbar. Sie beschreibt die Differenz zweier Klassen in der abhängigen Variable, die sich um 2 Standardabweichungen in der Prädiktorvariable unterscheiden. Abhängige Variable war in allen spezifizierten Modellen die Mathematikleistung in der 10. Klasse (t2). Im ersten Schritt wurde ein Modell spezifiziert, in dem alle beschriebenen Kontrollvariablen auf Schüler- und Klassenebene als Prädiktoren aufgenommen wurden (Modell 1). Dann wurden die beiden Indikatoren diagnostischer Kompetenz einzeln auf der Klassenebene zusätzlich ins Modell 184 Yvonne Anders et al. aufgenommen und so ein direkter Einfluss diagnostischer Fähigkeiten auf die Leistung überprüft (Modell 2 a und 2 b). Im Modell 3 wurde der Einfluss kognitiver Aktivierung auf die Mathematikleistung abgesichert. Der Zusammenhang zwischen der Höhe der diagnostischen Fähigkeiten und dem Ausmaß der kognitiven Aktivierung wurde mittels Korrelationen auf Klassenebene getestet. Ferner sollten sich im Mehrebenenmodell bei simultaner Testung des Einflusses diagnostischer Fähigkeiten und kognitiver Aktivierung auf die Leistung die Regressionsgewichte für diagnostische Fähigkeiten im Vergleich zu den Modellen 2 a und 2 b reduzieren. In den Modellen 4 a und 4 b wurden die beiden Urteilskomponenten diagnostischer Kompetenz und das Aufgabenpotenzial jeweils simultan getestet. Umgang mit fehlenden Werten In den vorliegenden Mehr-Ebenen-Analysen wurde ein Verfahren der Mehrfachschätzung fehlender Werte (multiple imputation, MI; Rubin, 1987 Schafer, 1997) unter Anwendung des Programms NORM (Version 2.03; Schafer, 2000; Schafer & Graham, 2002) gewählt. Alle Variablen, die in den Analysen berücksichtigt wurden, wurden genutzt, um die fehlenden Werte zu schätzen. Es wurden 10 separate Datensätze erzeugt, in denen fehlende Werte durch geschätzte Werte ersetzt waren. Die Regressionsrechnungen wurden für jeden der 10 Datensätze durchgeführt und die resultierenden Parameter und ihre Standardfehler nach dem Ansatz von Rubin (1987) gemittelt. Ergebnisse Wie gut können Lehrkräfte die Leistungen ihrer Schülerinnen und Schüler einschätzen? Tabelle 1 fasst die Deskriptivstatistiken der beiden Indikatoren diagnostischer Kompetenz zusammen. Die aufgabenbezogene Urteilstendenz lag im Mittel bei 0.06, die Lehrkräfte überschätzten die Lösungswahrscheinlichkeiten der beschriebenen Aufgaben in ihren eigenen Schulklassen also durchschnittlich um 6 %. Es zeigte sich hierbei eine große Varianz mit einer Spannweite von Urteilstendenzen zwischen -0.59 und 0.48 (SD = 0.17). Lehrkräfte unterscheiden sich also stark in ihrer Fähigkeit, die Schwierigkeit von einzelnen Aufgaben korrekt einzuschätzen, wobei vereinzelt sowohl starke Unterals auch starke Überschätzungen der Klassenleistung auftreten. Absolut wurde ein durchschnittlicher aufgabenbezogener Urteilsfehler von 0.15 ermittelt (SD = 0.11). Die diagnostische Sensitivität lag in dieser Untersuchung bei einer durchschnittlichen Korrelation von r = 0.35 (Median) zwischen den Einschätzungen der Lehrkräfte und den tatsächlichen Leistungswerten der Schülerinnen und Schüler. Auch bei diesem Indikator wurde eine hohe Variabilität zwischen den diagnostischen Leistungen der Lehrkräfte festgestellt. Die Spannweite der Korrelationen lag zwischen -0.25 und 0.84 (SD = 0.20). Lediglich bei 8 Lehrkräften trat eine negative Korrelation auf. Die diagnostische Sensitivität und die aufgabenbezogene Urteilstendenz waren annähernd normalverteilt (Kolmogorov-Smirnov-Test auf Normalverteilung, diagnostische Sensitivität: Z = 0.60, p > 0.25; aufgabenbezogener Urteilsfehler: Z = 0.77, p > 0.25), der aufgabenbezogene Urteilsfehler wies jedoch ein linkssteile Verteilung auf (Z = 6.49, p < 0.25), welche durch die Spiegelung der negativen Werte bei der Berechnung des Absolutbetrages entsteht. Zur Herstellung einer Normalverteilung wurde in Anlehnung an Stevens (2002) eine Logarithmierung der Daten vorgenommen. Der logarithmierte Urteilsfehler korrelierte mit dem Ausgangswert zu 0.90, wies aber eine Normalverteilung auf (Z = 0.41, p > 0.25). M SD Min Max Aufgabenbezogen Urteilstendenz 0.06 0.17 -0.59 0.48 Urteilsfehler 0.15 0.11 0.01 0.59 Diagnost. Sensitivität (Rangkomponente) 0.35 1 0.20 -0.25 0.84 Tabelle 1: Indikatoren diagnostischer Kompetenz: Deskriptivstatistiken Anmerkungen: 1 Median Diagnostische Fähigkeiten von Mathematiklehrkräften 185 Welche Zusammenhänge zeigen sich zwischen diagnostischen Fähigkeiten, dem Potenzial zur kognitiven Aktivierung und der Leistung in Mathematik? In Tabelle 2 sind die Interkorrelationen zwischen diagnostischen Fähigkeiten, dem Potenzial zur kognitiven Aktivierung laut Analyse der Klassenarbeitsaufgaben und der Mathematikleistung in Klasse 10 aufgeführt. Die diagnostische Sensitivität und der aufgabenbezogene Urteilsfehler korrelieren zu 0.11 miteinander (p > 0.05). Dieser schwache Zusammenhang unterstreicht die Annahme, dass es sich bei den beiden Komponenten der Urteilsgenauigkeit um voneinander unabhängige diagnostische Fähigkeitsdimensionen handelt und bestätigt die Resultate von Schrader (1989) und Spinath (2005), die ebenfalls nur geringe Korrelationen zwischen verschiedenen Komponenten der Urteilsgenauigkeit feststellen konnten. Im Hinblick auf den Zusammenhang zwischen diagnostischen Fähigkeiten und der Unterrichtsqualität zeigte sich, dass der aufgabenbezogene Urteilsfehler (logarithmiert) mit dem kognitiven Aktivierungspotenzial der Klassenarbeiten (r = -0.18, p < 0.05) korrelierte. Je besser die Fähigkeit, das Schwierigkeitspotenzial von Aufgaben akkurat einzuschätzen, desto höher ist auch das von Experten eingeschätzte kognitive Aktivierungspotenzial der Klassenarbeitsaufgaben. Hinsichtlich der diagnostischen Sensitivität zeigte sich kein bedeutsamer Zusammenhang mit dem Aufgabenpotenzial (r = -0.05, p > 0.05). Zwischen Mathematikleistung in Klasse 10 und aufgabenbezogenem Urteilsfehler (logarithmiert) wurde eine Korrelation von r = -0.37 (p < 0.01) auf Klassenebene ermittelt, zwischen Mathematikleistung in Klasse 10 und diagnostischer Sensitivität eine Korrelation von r = 0.21 (p < 0.01). Je besser die Lehrkräfte die Schwierigkeit einzelner Aufgaben einschätzen können, und je besser sie einzelne Schülerinnen und Schüler im Hinblick auf ihre Leistung in eine Rangreihe bringen können, desto höher ist auch die Mathematikleistung der Klasse in Jahrgangsstufe 10. Auch das kognitive Aktivierungspotenzial der Aufgaben korreliert positiv mit der Mathematikleistung (r = 0.24, p < 0.01). Zwischen den diagnostischen Fähigkeiten und den Kontrollvariablen auf Klassenebene (Klassengröße, Unterrichtsdauer und Berufserfahrung) zeigten sich keine statistisch bedeutsamen Zusammenhänge. Die Korrelationsanalyse bestätigte einen positiven Zusammenhang zwischen hohen diagnostischen Fähigkeiten der Lehrkraft, dem Aktivierungspotenzial der Klassenarbeiten sowie den Mathematikleistungen der Schülerinnen und Schüler. Zu prüfen ist jedoch, inwieweit sich ein positiver Einfluss auch dann zeigen lässt, wenn wichtige andere Voraussetzungen der Schülerinnen und Schüler mit potenziellem Einfluss auf die Leistung (insbesondere die Vorleistung) kontrolliert werden und die Mehrebenenstruktur der Daten berücksichtigt wird. Lassen sich positive Einflüsse hoher diagnostischer Fähigkeiten auf die Mathematikleistung unter Kontrolle der Vorleistung zeigen? Der curriculumsorientierte Mathematik-Gesamtleistungsscore in der Jahrgangsstufe 10 variierte zu 42 % zwischen den untersuchten (1) (2) (3) (4) Aufgabenbezogener Urteilsfehler log (1) 1.00 Diagnostische Sensitivität (2) 0.11 1.00 Aufgabenpotenzial (3) -0.18* -0.05 1.00 Mathematikleistung in Klasse 10 (4) -0.37** 0.21** 0.24** 1 Anmerkungen: * p < .05, ** p < .01; N lag zwischen 123 und 155; Lehrkräfte, bei denen die diagnostische Sensitivität negativ war (N = 8), wurden von der Analyse ausgeschlossen. Tabelle 2: Interkorrelationen auf Klassenebene 186 Yvonne Anders et al. Null Modell Modell 1 Modell 2 a Modell 2 b Klassenebene B SE (B) ES B SE (B) ES B SE (B) ES Berufserfahrung 0.03 0.03 0.08 0.03 0.03 0.10 0.02 0.03 0.06 Unterrichtserfahrung in der Klasse -0.02 0.02 -0.05 -0.02 0.02 -0.06 -0.02 0.02 -0.06 Klassengröße 0.06* 0.03 0.20 0.06* 0.03 0.18 0.06* 0.03 0.18 Aufgabenbezogener Urteilsfehler log - - - -0.05* 0.03 -0.16 - - - Diagnostische Sensitivität - - - - - - 0.05* 0.02 0.15 Aufgabenpotenzial - - - - - - - - - Schülerebene Matheleistung (t1) 0.39** 0.02 0.39** 0.02 0.39** 0.02 Kognitive Fähigkeiten 0.19** 0.02 0.19** 0.02 0.19** 0.02 Lesekompetenz (t1) 0.14** 0.02 0.14** 0.02 0.14** 0.02 Bildung der Eltern (t1) - 5 Dummies -0.11 - 0.04 0.04 - 0.09 -0.11 - 0.04 0.04 - 0.09 -0.11 - 0.04 0.04 - 0.09 HISEI 0.01 0.02 0.01 0.02 0.01 0.02 Migrationsstatus 0.05 0.04 0.05 0.04 0.05 0.04 Residualvarianz Klassenebene 0.42 0.05 0.05 0.05 Schülerebene 0.58 0.42 0.42 0.42 Erklärte Varianz Klassenebene 0.88 0.88 0.88 Schülerebene 0.28 0.28 0.28 Total R 2 0.53 0.53 0.53 Anmerkungen: * p < .05, ** p < .01 Tabelle 3: Resultate der Mehrebenen-Analysen zur Vorhersage der Mathematikleistung in Klasse 10 - Modell 1, 2 a und 2 b Diagnostische Fähigkeiten von Mathematiklehrkräften 187 Klassen. Im ersten Schritt der Analysen wurde das Kontrollmodell (Modell 1) spezifiziert, in dem die Mathematikleistung in der Jahrgangsstufe 10 durch die spezifizierten Kontrollvariablen auf Schüler- und Klassenebene vorhergesagt wurde. Die Koeffizienten dieses Modells sind in Tabelle 3 zusammengefasst. Stärkster Prädiktor der Mathematikleistung am Ende der Jahrgangsstufe 10 ist auf Schülerebene die Mathematikleistung in der Jahrgangsstufe 9 (b = 0.39, p < 0.01), ferner haben die allgemeinen kognitiven Fähigkeiten (b = 0.19, p < 0.01) und die Lesekompetenz in der Jahrgangsstufe 9 (b = 0.14, p < 0.01) eine große Vorhersagekraft. Auf der Klassenebene erwies sich die Klassengröße als bedeutsamer Prädiktor (b = 0.06, ES = 0.20, p < 0.05) 2 . Durch Modell 1 ließen sich 53 % der Gesamtvarianz (88 % der Varianz auf Klassenebene und 28 % der Varianz auf Schülerebene) erklären. Nach Kontrolle der Eingangsvoraussetzungen der Schülerinnen und Schüler, Klassengröße, Berufserfahrung der Lehrkraft und Unterrichtserfahrung in der Klasse, betrug die Intraklassenkorrelation noch 11.14 %. Die Reduktion der Varianz zwischen den Klassen geht fast ausschließlich auf den Einfluss der Variablen auf Schülerebene zurück. In den Modellen 2 a und 2 b wurde getestet, ob die einzelnen Indikatoren diagnostischer Kompetenz signifikanten Einfluss auf die Mathematikleistung der Schülerinnen und Schüler haben, wenn die in Modell 1 spezifizierten Variablen kontrolliert werden. Die Indikatoren wurden dabei einzeln bei Aufnahme aller Kontrollvariablen getestet. Wie Tabelle 2 veranschaulicht, können für beide Komponenten positive Einflüsse auf den Leistungserfolg der Schülerinnen und Schüler nachgewiesen werden (aufgabenbezogener Urteilsfehler: b = -0.05, p < 0.05, diagnostische Sensitivität: b = 0.05, p < 0.05). In Effektgrößen ausgedrückt liegen die Effekte bei ES = 0.15 (aufgabenbezogener Urteilsfehler) bzw. ES = 0.16 (diagnostische Sensitivität), was auf kleine Effekte hinweist. Lassen sich die positiven Einflüsse hoher diagnostischer Fähigkeiten durch das Ausmaß der kognitiven Aktivierung im Unterricht erklären? Nachdem für den aufgabenbezogenen Urteilsfehler und die diagnostische Sensitivität ein kleiner positiver Effekt auf den Leistungserfolg gezeigt werden konnte, stellte sich die Frage, durch welche Prozesse die positiven Auswirkungen erklärt werden können. Weitere Analysen wurden angestellt, um zu überprüfen, ob die Einflüsse hoher diagnostischer Fähigkeiten über das Ausmaß der kognitiven Aktivierung im Unterricht vermittelt werden. Zunächst wurde ein positiver Einfluss des kognitiven Aktivierungspotenzials der Klassenarbeitsaufgaben auf den Leistungserfolg überprüft, indem der Faktorscore in dem Mehrebenen-Modell bei Konstanthaltung der für Lehrer- und Schülerebene spezifizierten Kontrollvariablen (vgl. Modell 1) getestet wurde. Die Analysen für Modell 3 bestätigten den angenommenen positiven Einfluss (b = 0.07, p < 0.01, vgl. Tabelle 4). Die Höhe des Effekts liegt bei ES = 0.20. In den Modellen 4 a und 4 b wurden der aufgabenbezogene Urteilsfehler und diagnostische Sensitivität jeweils simultan mit dem Faktorscore zur Abbildung des kognitiven Aktivierungspotenzials der Klassenarbeitsaufgaben bei Konstanthaltung der Kontrollvariablen (Modell 1) in die Mehrebenenmodelle aufgenommen. Bei simultaner Testung des aufgabenbezogenen Urteilsfehlers und des Aktivierungspotenzials der Aufgaben minimierten sich die Regressionskoeffizienten beider Prädiktoren. Der Einfluss des Aufgabenpotenzials reduzierte sich zwar minimal (b = 0.06, ES = 0.20 in Modell 4 a im Vergleich zu b = 0.07, ES = 0.19 in 2 Führt man die Analysen getrennt für verschiedene Schulformen durch (Gymnasium, Realschule, Gesamt- und Mittelschulen) so verschwindet der Effekt der Klassengröße, sodass der Effekt der Klassengröße durch die Schulform erklärt werden kann. An Gymnasien ist die durchschnittliche Klassengröße höher als an Realschulen, Gesamt- und Mittelschulen. 188 Yvonne Anders et al. Null Modell Modell 3 Modell 4 a Modell 4 b Klassenebene B SE (B) ES B SE (B) ES B SE (B) ES Berufserfahrung 0.03 0.03 0.08 0.03 0.03 0.10 0.02 0.03 0.06 Unterrichtserfahrung in der Klasse -0.02 0.02 -0.05 -0.02 0.02 -0.05 -0.02 0.02 -0.05 Klassengröße 0.06* 0.03 0.20 0.06* 0.03 0.17 0.06* 0.03 0.18 Aufgabenbezogener Urteilsfehler log - - - -0.05 # 0.03 -0.14 - - - Diagnostische Sensitivität - - - - - - 0.05* 0.02 0.16 Aufgabenpotenzial 0.07** 0.02 0.20 0.06** 0.02 0.19 0.07** 0.02 0.21 Schülerebene Matheleistung (t1) 0.39** 0.02 0.39** 0.02 1.16 0.39** 0.02 Kognitive Fähigkeiten 0.19** 0.02 0.19** 0.02 0.56 0.19** 0.02 Lesekompetenz (t1) 0.14** 0.02 0.14** 0.02 0.42 0.14** 0.02 Bildung der Eltern (t1) - 5 Dummies -0.11 - 0.04 0.04 - 0.09 -0.11 - 0.04 0.04 - 0.09 -0.17 - 0.06 -0.11 - 0.04 0.04 - 0.09 HISEI 0.01 0.02 0.01 0.02 0.08 0.01 0.02 Migrationsstatus 0.05 0.04 0.05 0.04 0.00 0.05 0.04 Residualvarianz Klassenebene 0.42 0.05 0.05 0.05 Schülerebene 0.58 0.42 0.42 0.42 Erklärte Varianz Klassenebene 0.89 0.89 0.89 Schülerebene 0.28 0.28 0.28 Total R 2 0.53 0.54 0.54 Anmerkungen: # p = .05, * p < .05, ** p < .01 Tabelle 4: Resultate der Mehrebenen-Analysen zur Vorhersage der Mathematikleistung in Klasse 10 - Modell 3, 4 a und 4 b Diagnostische Fähigkeiten von Mathematiklehrkräften 189 Modell 3), war jedoch auch im kombinierten Modell signifikant. Das Regressionsgewicht des aufgabenbezogenen Urteilsfehlers sank im kombinierten Modell ebenfalls von b = -0.054 (ES = -0.15, Modell 2) auf b = -0.048 (ES = -0.14) und verfehlte im Modell 4 a knapp die statistische Bedeutsamkeit (p = 0.05). Das Ergebnismuster unterstreicht somit die Hypothese, dass der positive Effekt der Fähigkeit, die Schwierigkeit von Aufgaben korrekt einzuschätzen, auf die Schülerleistungen teilweise durch ein höheres kognitives Aktivierungspotenzial der Aufgaben erklärt werden kann. Mit Blick auf die Wirkungsweise der diagnostischen Sensitivität auf die Leistungen der Schülerinnen und Schüler kann diese Hypothese nicht bestätigt werden. Die geringe Korrelation zwischen diagnostischer Sensitivität und dem kognitiven Aktivierungspotenzial der Klassenarbeitsaufgaben hat bereits gezeigt, dass diese Merkmale nicht in direktem Zusammenhang miteinander stehen. Die berechneten Mehrebenenmodelle illustrieren nun, dass sich die Regressionsgewichte von diagnostischer Sensitivität und dem kognitiven Aktivierungspotenzial der Klassenarbeiten sogar tendenziell erhöhen, wenn sie gemeinsam aufgenommen werden (siehe Tabelle 4). Diskussion Hauptziel der vorliegenden Untersuchung war die Beschreibung diagnostischer Fähigkeiten von Mathematiklehrkräften, die in der Sekundarstufe in Deutschland unterrichten, anhand verschiedener Indikatoren. Ferner wurden die Zusammenhänge zwischen diagnostischen Fähigkeiten, der Unterrichtsqualität und den Leistungen der Schülerinnen und Schüler einer detaillierten Analyse unterzogen. Diagnostische Fähigkeiten von Mathematiklehrkräften Zur Beschreibung der diagnostischen Fähigkeiten von Mathematiklehrkräften wurden zwei Komponenten herangezogen: (1) die Fähigkeit, die Schwierigkeit einzelner Mathematikaufgaben in der eigenen Schulklasse korrekt einzuschätzen, sowie (2) die Fähigkeit, Schülerinnen und Schüler hinsichtlich ihrer Gesamtleistung im Fach Mathematik in eine Rangreihe zu bringen. Es war anzunehmen, dass diese Facetten diagnostischer Urteilsgüte in direktem Zusammenhang mit dem Unterricht und der Leistungsentwicklung der Schülerinnen und Schüler stehen können. Für beide Indikatoren diagnostischer Kompetenz wurde eine große Variation zwischen den Lehrkräften festgestellt, was die Resultate anderer Studien bestätigt (z. B. Hoge & Coladarci, 1989; Spinath, 2005). Ferner zeigte sich eine Tendenz zur Überschätzung der eigenen Schulklasse. Diese Tendenz zur Überschätzung lässt sich eventuell damit erklären, dass Lehrkräfte bei der Einschätzung der eigenen Klasse das potenzielle Leistungspotenzial der Schülerinnen und Schüler heranziehen, den leistungsmindernden Einfluss von Testbedingungen und Tagesform jedoch in ihre Urteile nicht mit einbeziehen. Die Rangkomponente bzw. diagnostische Sensitivität lag mit durchschnittlich r = 0.35 in dieser Studie deutlich unter Werten, die in anderen Studien berichtet werden, wenn auch in dem in der Meta-Analyse von Hoge und Coladarci (1989) berichteten Spektrum. Die Ursache für die vergleichsweise geringe diagnostische Sensitivität ist vermutlich in der Unbekanntheit des Testmaterials zu suchen. Während in anderen Studien die verwendeten Leistungstests zur Untersuchung der diagnostischen Fähigkeiten den Lehrkräften vorgelegt wurden, waren in dieser Studie die Aufgaben des PISA-Tests bei den untersuchten Lehrkräften größtenteils nicht bekannt. Das bedeutet einen zusätzlichen Unsicherheitsfaktor bei der Einschätzung der Schülerleistungen. Ferner stellten die Testungen, die im Rahmen von PISA vorgenommen wurden, vermutlich aufgrund der standardisierten Bedingungen und der Länge der Gesamttestung (im Vergleich zu beispielsweise Klassenarbeiten) sowohl für die Schülerinnen und Schüler als auch für die Lehrkräfte eine Ausnahmesituation dar. Für eine korrekte Einschätzung der Leistungen verschiedener Schülerinnen und Schüler in diesem Test 190 Yvonne Anders et al. mussten die Lehrkräfte zusätzlich vorhersehen können, wie einzelne Schülerinnen und Schüler auf die Testbedingungen reagieren würden. Auch dieser Umstand ist als zusätzlicher Schwierigkeitsfaktor zu werten, der die vergleichsweise geringe Korrelation zwischen tatsächlichen und von Lehrkräften eingeschätzten Leistungsrängen erklären könnte. Interkorrelationen verschiedener Komponenten der Urteilsgenauigkeit Es zeigten sich insgesamt nur geringe Interkorrelationen zwischen verschiedenen Komponenten der Urteilsgenauigkeit, sodass diese Studie die Resultate von Spinath (2005) und Schrader (1989) bestätigt. Die Resultate dieser Untersuchung unterstreichen daher die Forderung von Spinath (2005), den Begriff der diagnostischen Kompetenz nicht im Sinne eines einheitlichen Fähigkeitskonstrukts zu verwenden und Resultate zu einzelnen Komponenten der Urteilsgüte von Lehrkräften nicht leichtfertig auf diagnostische Fähigkeiten von Lehrkräften im Allgemeinen zu generalisieren, wie es in der jüngsten bildungspolitischen Diskussion oftmals geschehen ist. Dennoch steht eine Erklärung der geringen Interkorrelationen verschiedener diagnostischer Fähigkeiten noch aus. Der Einfluss diagnostischer Fähigkeiten auf den Unterricht und die Leistungen der Schülerinnen und Schüler In der vorliegenden Arbeit konnte gezeigt werden, dass Lehrkräfte, die eine hohe Fähigkeit aufweisen, die Leistung ihrer Schülerinnen und Schüler in einzelnen Aufgaben korrekt einzuschätzen, in ihren Klassenarbeiten Aufgaben stellen, die nach Einschätzung von Experten ein höheres Potenzial zur kognitiven Aktivierung bergen. Hiermit konnte ein direkter Zusammenhang zwischen einer Facette diagnostischer Fähigkeiten und der Unterrichtsqualität belegt werden. Dieses Resultat veranschaulicht nicht nur den oftmals vermuteten, aber selten empirisch nachgewiesenen Zusammenhang zwischen der Urteilsgüte von Lehrkräften und der Unterrichtsqualität, sondern spricht auch für die Validität der verwendeten Maße. Für die diagnostische Sensitivität (Rangkomponente) konnte ein Zusammenhang zum kognitiven Aktivierungspotenzial der Aufgaben jedoch nicht belegt werden. Für beide untersuchten diagnostischen Fähigkeiten zeigten sich Zusammenhänge mit der Leistung der Schülerinnen und Schüler der Klassen, auch dann wenn Eingangsbedingungen - insbesondere die Mathematikleistung und Lesekompetenz im Vorjahr sowie allgemeine kognitive Fähigkeiten - kontrolliert werden. Auch dieser Zusammenhang wurde bislang selten empirisch untersucht, auch wenn er oftmals theoretisch postuliert wird. Die gefundenen Effekte sind zwar nur klein, bezieht man jedoch die Komplexität des Unterrichtsgeschehens (vgl. z. B. Bromme, 1997; Treiber & Weinert, 1982) und die Vielzahl der Faktoren, die einen Einfluss auf die Leistungsentwicklung von Schülerinnen und Schülern haben können (vgl. z. B. Hosenfeld, Helmke & Schrader, 2001; Lipowsky, 2006) in die Interpretation mit ein, so unterstreichen die Ergebnisse doch die Bedeutsamkeit hoher diagnostischer Fähigkeiten für erfolgreiches Unterrichten. Im Hinblick auf die Fähigkeit, das Schwierigkeitspotenzial von Aufgaben korrekt einschätzen zu können, ist nach den vorliegenden Resultaten zum Teil davon auszugehen, dass die positive Wirkung über ein höheres kognitives Aktivierungspotenzial im Unterricht erklärt werden kann. Bezüglich der positiven Wirkung einer hohen diagnostischen Sensitivität auf die Leistung können die vorliegenden Analysen die unterliegenden Prozesse nicht erklären. Dieses mag zum einen daran liegen, dass eine hohe diagnostische Sensitivität der Lehrkraft im Bezug auf die Fähigkeit, Schülerinnen und Schüler nach ihrer Leistung in Relation zueinander zu setzen, im Zusammenhang mit anderen Unterrichtsmerkmalen als der kognitiven Aktivierung steht. Eine hohe diagnostische Sensitivität könnte beispielsweise eine hohe Fokussierung der Lehrkraft auf Leistungsunterschiede zwi- Diagnostische Fähigkeiten von Mathematiklehrkräften 191 schen Schülerinnen und Schülern und eine hohe Leistungserwartung widerspiegeln, welche sich auch in der Leistungsentwicklung der Klasse niederschlagen könnte. Andererseits haben die Arbeiten von Schrader und Helmke (1987) darauf hingewiesen, dass hohe diagnostische Fähigkeiten im Zusammenspiel mit anderen Charakteristika des Unterrichtsgeschehens sowohl positive als auch negative Effekte auf die Leistungsentwicklung haben können. Zusätzlich ist in Betracht zu ziehen, dass bestimmte Kombinationen diagnostischer Fähigkeiten mit anderen Charakteristika des Unterrichtsgeschehens für spezielle Schülergruppen positive Effekte haben mögen, für andere Schülergruppen jedoch nicht. Zusammenfassend ist hier also festzuhalten, dass in dieser Arbeit positive Effekte diagnostischer Fähigkeiten auf die Leistung der Schülerinnen und Schüler in einem längsschnittlichen Design unter Kontrolle der Vorbedingungen gezeigt werden konnten. Für eine der beiden Komponenten konnte die Arbeit auch eine Erklärung bezüglich der unterliegenden Prozesse liefern, für die diagnostische Sensitivität steht diese Erklärung allerdings noch aus. Stärken und Grenzen der vorliegenden Untersuchung Im Gegensatz zu anderen Studien zu diagnostischen Fähigkeiten von Lehrkräften hat die Einbettung der COACTIV-Studie in die längsschnittlich angelegte PISA-Erhebung die Möglichkeit geboten, die Auswirkungen von diagnostischen Fähigkeiten unter Einsatz multipler Datenquellen zur Beschreibung von Lehrer-, Schüler- und Unterrichtsmerkmalen im Rahmen eines längsschnittlichen Designs zu untersuchen. Die Arbeit geht daher eindeutig über eine reine Deskription diagnostischer Fähigkeiten von Lehrkräften hinaus und kann auch einen Beitrag zu den Auswirkungen sowie den Erklärungen der Auswirkungen hoher diagnostischer Fähigkeiten liefern. Die Prozesse, die den Auswirkungen diagnostischer Fähigkeiten unterliegen, sind jedoch komplexer Natur und konnten auch in dieser Arbeit nur teilweise erklärt werden. Ferner ist zu vermuten, dass sich die Auswirkungen von diagnostischen Fähigkeiten oftmals nicht auf der Klassenebene, sondern in der Interaktion mit individuellen Schülermerkmalen zeigen. Weitere Arbeiten, die die komplexen Wirkungsweisen diagnostischer Fähigkeiten erklären können, wären hier wünschenswert. Neben der Leistung der Schülerinnen und Schüler sind auch zahlreiche andere lernrelevante Schülermerkmale für eine positive Entwicklung sowohl im Leistungs-, aber auch im sozialen Bereich zentral. Arbeiten diagnostischer Kompetenz haben sich bislang bis auf einzelne Ausnahmen (z.B. Spinath, 2005) auf die Diagnostik von Leistung konzentriert. Große Wissenslücken bestehen noch im Hinblick auf Struktur und Auswirkungen diagnostischer Fähigkeiten in Bezug auf soziale und motivationale Merkmale. Ferner konzentrieren sich bisherige Arbeiten zu diagnostischen Fähigkeiten von Lehrkräften auf Maße der Urteilsgenauigkeit. Will man die Rolle diagnostischer Fähigkeiten im Unterricht allerdings umfassend verstehen, so erscheint das Konstrukt der diagnostischen Expertise vielversprechend, da es neben der Urteilsgenauigkeit auch Wissensfacetten wie das Wissen um Methoden der Leistungsbeurteilung und das Wissen über das Lösungspotenzial von Aufgaben umfasst. Während die Urteilsgenauigkeit rein prozedurales Wissen der Lehrkräfte widerspiegelt, verbindet das Konstrukt der diagnostischen Expertise Aspekte des deklarativen generischen und fachbezogenen pädagogischen Wissens mit Facetten der Urteilsgenauigkeit. Es ist zu erwarten, dass ein weiter greifender Ansatz bei der Erforschung diagnostischer Expertise höheres Potenzial zur Erklärung der zugrunde liegenden Prozesse birgt. Implikationen für die Praxis Angesichts der Bedeutung diagnostischer Fähigkeiten für den Leistungserfolg stellt sich die Frage nach Entstehung, Erlernbarkeit und Maßnahmen zur Förderung und Verbesserung der diagnostischen Fähigkeiten von Lehrkräften. Ein 192 Yvonne Anders et al. interessanter Ansatz wird diesbezüglich im Projekt „Vergleichsarbeiten“ (VERA) vorgestellt (Helmke, Hosenfeld & Schrader, 2004). Grundschullehrkräfte erhalten im Rahmen dieses Projekts Rückmeldung über ihre aufgabenbezogene Urteilsgenauigkeit in den Fächern Mathematik und Deutsch und werden dazu angeregt, sich mit den Ergebnissen auseinanderzusetzen und diese aktiv für eine Verbesserung ihrer eigenen diagnostischen Fähigkeiten zu nutzen. Ferner sollten der Erwerb eines breiten Wissens über diagnostische Methoden, Urteilsbildung und Urteilsfehler einen angemessenen Platz in Maßnahmen der Lehrerfortbildung, aber auch bereits in frühen Phasen der Lehrerausbildung einnehmen. Literatur Artelt, C., Stanat, P., Schneider, W. & Schiefele, U. (2001). Lesekompetenz: Testkonzeption und Ergebnisse. In J. Baumert, E. Klieme, M. Neubrand, M. Prenzel, U. Schiefele, W. Schneider, P. Stanat, K.-J. Tillmann & M. Weiß (Hrsg.), PISA 2000. Basiskompetenzen von Schülerinnen und Schülern im internationalen Vergleich (S. 69 - 137). Opladen: Leske + Budrich. Bates, C. & Nettelbeck, T. (2001). Primary school teachers’ judgements of reading achievement. Educational Psychology, 21 (2), 177 - 187. Baumert, J. & Kunter, M. (2006). Stichwort: Professionelle Kompetenz von Lehrkräften. Zeitschrift für Erziehungswissenschaft, 9 (4), 469 - 520. Blum, W. & Neubrand, M. (1998). TIMSS und der Mathematikunterricht - Informationen, Analysen, Konsequenzen. Hannover: Schroedel. Bromme, R. (1997). Kompetenzen, Funktionen und unterrichtliches Handeln des Lehrers. In F. E. Weinert (Hrsg.), Psychologie des Unterrichts und der Schule (S. 177 - 212). Göttingen: Hogrefe. Brunner, M., Kunter, M., Krauss, S., Klusmann, U., Baumert, J., Blum, W. et al. (2006). Die professionelle Kompetenz von Mathematiklehrkräften: Konzeptualisierung, Erfassung und Bedeutung für den Unterricht. Eine Zwischenbilanz des COACTIV Projekts. In M. Prenzel & L. Allolio-Näcke (Hrsg.), Untersuchungen zur Bildungsqualität von Schule. Abschlussbericht des DFG-Schwerpunktprogramms (S. 54 - 82). Münster: Waxmann. Coladarci, T. (1986). Accuracy of teacher judgements of student responses to standardized test items. Journal of Educational Psychology, 78 (2), 141 - 146. Corno, L. & Snow, R. (1986). Adapting teaching to individual differences among learners. In M. Wittrock (Ed.), Handbook of research on teaching (pp. 605 - 629). New York: Macmillan. Cronbach, L. J. (1955). Processes affecting scores on „understanding of others“ and „assumed similarity“. Psychological Bulletin, 52 (3), 177 - 193. Ditton, H. (2006). Unterrichtsqualität. In K.-H. Arnold, U. Sandfuchs & J. Wiechmann (Hrsg.), Handbuch Unterricht (S. 235 - 243). Bad Heilbrunn: Klinkhardt. Ehmke, T., Blum, W., Neubrand, M., Jordan, A., Ulfig, F. (2006): Wie verändert sich die mathematische Kompetenz von der neunten zur zehnten Klassenstufe? In M. Prenzel, J. Baumert, W. Blum, R. Lehmann, D. Leutner, M. Neubrand, R. Pekrun, J. Rost & U. Schiefele (Hrsg.), PISA 2003: Untersuchungen zur Kompetenzentwicklung im Verlauf eines Schuljahres (S. 63 - 86). Münster: Waxmann. Elliott, S. N., Gresham, F. M., Freeman, T. & McCloskey, G. (1988). Teacher and observer ratings of children’s social skills: Validation of the Social Skills Rating Scales. Journal of Psychoeducational Assessment, 6, 152 - 161. Feinberg, A. B. & Shapiro, E. S. (2003). Accuracy of teacher judgements in predicting oral reading fluency. School Psychology Quarterly, 18 (1), 52 - 65. Fisher, C. W., Filby, N., Marliave, R., Cahen, L. S., Dishaw, M. M., Moore, J. et al. (1978). Teaching behaviors, academic learning time, and student achievement: Final report of phase III-B, Beginning Teacher Evaluation Study. San Francisco: Far West Laboratory. Gerber, M. M. & Semmel, M. I. (1984). Teacher as imperfect test: Reconceptualizing the referral process. Educational Psychologist, 19, 137 - 148. Gruehn, S. (2000). Unterricht und schulisches Lernen. Münster: Waxmann. Helmke, A. (1994). Diagnosing students’ needs. In T. Husen (Ed.), The International Encyclopedia of Education. (2. ed., Vol. 10, pp. 5768 - 5772). Oxford: Pergamon. Helmke, A. (2004). Unterrichtsqualität: Erfassen, Bewerten, Verbessern (3. Aufl.). Seelze: Kallmayersche Verlagsbuchhandlung. Helmke, A., Hosenfeld, I. & Schrader, F.-W. (2004). Vergleichsarbeiten als Instrument zur Verbesserung der Diagnosekompetenz von Lehrkräften. In R. Arnold & C. Griese (Hrsg.), Schulleitung und Schulentwicklung (S. 119 - 143). Hohengehren: Schneider-Verlag. Helmke, A. & Schrader, F.-W. (1987). Interactional effects of instructional quality and teacher judgement accuracy on achievement. Teaching and Teacher Education, 3, 91 - 98. Hoge, R. D. (1983). Psychometric properties of teacherjudgement measures of pupil aptitudes, classroom behaviors, and achievement levels. Journal of Special Education, 17, 401 - 429. Hoge, R. D. & Coladarci, T. (1989). Teacher-based judgements of academic achievement: A review of literature. Review of Educational Research, 59 (3), 297 - 313. Hosenfeld, I., Helmke, A. & Schrader, F.-W. (2001). Eine mehrebenenanalytische Betrachtung von Schul- und Klasseneffekten. Empirische Pädagogik, 15, 513 - 534. Hosenfeld, I., Helmke, A. & Schrader, F.-W. (2002). Diagnostische Kompetenz: Unterrichts- und lernrelevante Schülermerkmale und deren Einschätzung durch Lehrkräfte in der Unterrichtsstudie SALVE. In M. P. J. Doll (Hrsg.), Bildungsqualität von Schule: Schulische und außerschulische Bedingungen mathematischer naturwissenschaftlicher und überfachlicher Kompetenzen (S. 65 - 82). Weinheim: Beltz PVU. Jordan, A., Ross, N., Krauss, S., Baumert, J., Blum, W., Neubrand, M., Brunner, M., Kunter, M., Löwen, K. (2006). Klassifikationsschema für Mathematikaufgaben: Diagnostische Fähigkeiten von Mathematiklehrkräften 193 Dokumentation der Aufgabenkategorisierung im COAC- TIV-Projekt. Materialien aus der Bildungsforschung, Nr. 81. Berlin: Max-Planck-Institut für Bildungsforschung. Klieme, E., Schümer, G. & Knoll, S. (2001). Mathematikunterricht in der Sekundarstufe I: „Aufgabenkultur“ und Unterrichtsgestaltung. In Bundesministerium für Bildung und Forschung (BMBF) (Hrsg.), TIMSS - Impulse für Schule und Unterricht (S. 43 - 57). Bonn: Bundesministerium für Bildung und Forschung (BMBF). KMK (2003). KMK fordert diagnostische Kompetenz für Lehrkräfte. Realschule in Deutschland, 7, 4 - 5. Krauss, S., Kunter, M., Brunner, M., Baumert, J., Blum, W., Neubrand, M. et al. (2004). COACTIV : Professionswissen von Lehrkräften, kognitiv aktivierender Mathematikunterricht und die Entwicklung von mathematischer Kompetenz. In J. Doll & M. Prenzel (Hrsg.), Bildungsqualität von Schule: Lehrerprofessionalisierung, Unterrichtsentwicklung und Schülerförderung als Strategien der Qualitätsverbesserung (S. 31 - 53). Münster: Waxmann. Kunter, M., Dubberke, T., Baumert, J., Blum, W., Brunner, M., Jordan, A. et al. (2006). Mathematikunterricht in den PISA-Klassen 2004: Rahmenbedingungen, Formen und Lehr-Lernprozesse. In M. Prenzel, J. Baumert, W. Blum, R. Lehmann, D. Leutner, M. Neubrand, R. Pekrun, H.-G. Rolff, J. Rost & U. Schiefele (Hrsg.), PISA 2003: Untersuchungen zur Kompetenzentwicklung im Verlauf eines Schuljahres (S. 161 - 194). Münster: Waxmann. Lehmann, R. H., Peek, R., Gänsfuß, R., Lutkat, S., Mücke, S. & Barth, I. (2000). Qualitätsuntersuchungen an Schulen zum Unterricht in Mathematik (QuaSUM). Potsdam: Ministerium für Bildung, Jugend und Sport des Landes Brandenburg (MBJS). Leinhardt, G. (1983). Novice and expert knowledge of individual student’s achievement. Educational Psychologist, 18, 165 - 179. Lipowsky, F. (2006). Auf den Lehrer kommt es an. Zeitschrift für Pädagogik, 52 (51. Beiheft), 47 - 70. Neubrand, J. (2002). Eine Klassifikation mathematischer Aufgaben zur Analyse von Unterrichtssituationen - Selbsttätiges Arbeiten in Schülerarbeitsphasen in den Stunden der TIMSSVideoStudie. Hildesheim: Franzbecker. Prenzel, J. Baumert, W. Blum, R. Lehmann, D. Leutner, M. Neubrand, R. Pekrun, J. Rost & U. Schiefele (Hrsg.), PISA 2003. Untersuchungen zur Kompetenzentwicklung im Verlauf eines Schuljahres. Münster: Waxmann. Ramm, G., Prenzel, M., Baumert, J., Blum, W., Lehmann, R., Leutner, D., et al. (2006). PISA 2003: Dokumentation der Erhebungsinstrumente. Münster: Waxmann. Raudenbush, S. W. & Bryk, A. S. (2002). Hierarchical linear models (2nd ed.). Thousand Oaks: Sage. Raudenbush, S. W., Bryk, A., Cheong, Y. F. & Congdon, R. (2004). HLM6: Hierarchical linear and nonlinear modeling. Chicago: Scientific Software International. Rogalla, M. & Vogt, F. (2008). Förderung adaptiver Lehrkompetenz: eine Interventionsstudie. Unterrichtswissenschaft, 36 (1), 17 - 36. Rubin, D. B. (1987). Multiple Imputation for Nonresponse in Surveys. John Wiley and Sons: New York. Schafer, J. L. (1997). Analysis of Incomplete Multivariate Data. Chapman and Hall: London. Schafer, J. L. (2000). NORM 2.03 for Windows 95/ 98/ NT [Software]. Quelle: http: / / www.stat.psu.edu/ ~jls Schafer, J. L. & Graham, J.W. (2002). Missing Data: Our View of the State of the Art. Psychological Methods, 7(2),147 - 177. Schrader, F.-W. (1989). Diagnostische Kompetenz von Lehrern und ihre Bedeutung für die Gestaltung und Effektivität des Unterrichts. Frankfurt am Main: Lang. Schrader, F.-W. (1997). Lern- und Leistungsdiagnostik im Unterricht. In F. E. Weinert (Hrsg.), Psychologie des Unterrichts und der Schule (S. 659 - 699). Göttingen: Hogrefe. Schrader, F.-W. (2006). Diagnostische Kompetenz von Eltern und Lehrern. In D. H. Rost (Hrsg.), Handwörterbuch Pädagogische Psychologie (3. überarb. u. erw. Aufl., S. 95 - 100). Weinheim: Beltz PVU. Schrader, F.-W. & Helmke, A. (1987). Diagnostische Kompetenz von Lehrern: Komponenten und Wirkungen. Empirische Pädagogik, 1, 27 - 52. Schrader, F.-W. & Helmke, A. (2002). Alltägliche Leistungsbeurteilung durch Lehrer. In F. E. Weinert (Hrsg.), Leistungsmessungen in Schulen (S. 45 - 58). Weinheim & Basel: Beltz. Spinath, B. (2005). Akkuratheit der Einschätzung von Schülermerkmalen durch Lehrer und das Konstrukt der diagnostischen Kompetenz. Zeitschrift für Pädagogische Psychologie, 19 (1/ 2), 85 - 95. Stevens, J. (2002). Applied multivariate statistics for the social sciences (4th ed.).Mahwah, New Jersey: Lawrence Erlbaum Associates. Treiber, B. & Weinert, F. E. (1982). Gibt es theoretische Fortschritte in der Lehr-Lernforschung? In B. Treiber & F. E. Weinert (Hrsg.), Lehr-Lernforschung: Ein Überblick in Einzeldarstellungen (S. 242 - 290). München: Urban & Schwarzenberg. Tymms, P. (2004). Effect sizes in multilevel models. In I. Schagen & K. Elliot (Eds.), But what does it mean? The use of effect sizes in educational research (pp. 55 - 66). London: National Foundation for Educational Research. Weinert, F. E. (1998). Vermittlung von Schlüsselqualifikationen. In S. Matalik & D. Schade (Hrsg.), Entwicklungen in Aus- und Weiterbildung: Anforderungen, Ziele, Konzepte. Baden-Baden: Nomos, S. 23 - 43. Weinert, F. E. & Schrader, F.-W. (1986). Diagnose des Lehrers als Diagnostiker. In H. Petillon, J. Wagner & B. Wolf (Hrsg.), Schülergerechte Diagnose. Theoretische und empirische Beiträge zur Pädagogischen Diagnostik (S. 11 - 29). Weinheim: Beltz PVU. Wild, K.-P. & Rost, D. H. (1995). Klassengröße und Genauigkeit von Schülerbeurteilungen. Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 27 (1), 78 - 90. Dr. Yvonne Anders Universität Bamberg Lehrstuhl für Elementar- und Familienpädagogik Markusstr. 12 b D-96045 Bamberg Tel.: 09 51 - 8 63 18 21 E-Mail: yvonne.anders@uni-bamberg.de
