Psychologie in Erziehung und Unterricht
3
0342-183X
Ernst Reinhardt Verlag, GmbH & Co. KG München
10.2378/peu2011.art04d
41
2011
582
Diagnostische Fähigkeiten von Lehrkräften bei der Einschätzung der basalen Lesefähigkeit ihrer Schülerinnen und Schüler
41
2011
Camilla Rjosk
Nele McElvany
Yvonne Anders
Michael Becker
Die vorliegende Studie untersucht diagnostische Fähigkeiten von Deutschlehrkräften der sechsten Klasse bei Einschätzung der basalen Lesefähigkeit sowie die Zusammenhänge zwischen diagnostischen Fähigkeiten und der Leistungsheterogenität der beurteilten Schülergruppe sowie dem Sprachhintergrund der Kinder. Die Stichprobe von 39 Deutschlehrkräften und deren Klassen entstammt der Berliner Leselängsschnittstudie. Anhand der Daten wurden Urteile auf den unterrichtsrelevanten Ebenen des allgemeinen Leistungsniveaus von Sechstklässlern und von konkreten Schülerinnen und Schülern der Klasse analysiert. Diagnostische Fähigkeiten wurden anhand des personenbezogenen Urteilsfehlers und der Urteilstendenz sowie der diagnostischen Sensitivität (Vergleichskomponente) untersucht. Vertiefend wurde die Urteilsgüte bei Leistungen von ein- und mehrsprachigen Kindern anhand von Paaren, die leistungsbasiert parallelisiert wurden, untersucht. Die Ergebnisse verwiesen u. a. auf eine Überschätzung des allgemeinen Leistungsniveaus der basalen Lesefähigkeit sowie eine durchschnittlich akzeptable Urteilsgüte bei Identifikation von Leistungsunterschieden zwischen individuellen Schülerinnen und Schülern. Sie zeigten vergleichbare Schwierigkeiten bei Einschätzung von ein- und mehrsprachigen Kindern.
3_058_2011_2_0002
n Empirische Arbeit Psychologie in Erziehung und Unterricht, 2011, 58, 92 - 105 DOI 10.2378/ peu2011.art04d © Ernst Reinhardt Verlag München Basel Diagnostische Fähigkeiten von Lehrkräften bei der Einschätzung der basalen Lesefähigkeit ihrer Schülerinnen und Schüler Camilla Rjosk 1 , Nele McElvany 2 , Yvonne Anders 3 , Michael Becker 4 * 1 Humboldt Universität zu Berlin 2 Technische Universität Dortmund, Institut für Schulentwicklungsforschung 3 Universität Bamberg, Lehrstuhl für Elementar- und Familienpädagogik 4 Max-Planck-Institut für Bildungsforschung, Forschungsbereich Erziehungswissenschaft und Bildungssysteme Teachers’ Diagnostic Skills in Estimating Students’ Basic Reading Capacities Summary: The present study investigates diagnostic skills of German teachers in estimating basic reading capacities of sixth graders and the way they relate to achievement heterogeneity of the judged student group and to students’ language background. The data were obtained from a sample of 39 German teachers and their classes in the context of the Berlin Longitudinal Reading Study. Judgements on different levels were analysed (achievement of sixth graders in general and of individual students). Diagnostic skills were investigated using different indicators: the personal judgement error and tendency and the accuracy in identifying achievement differences between individual students (rank component). The accuracy in estimating reading capacities of students with and without a different language background was investigated by means of achievement level matched pairs. The outcomes indicated, among others, an overestimation of students’ general achievement level and on average an acceptable accuracy in identifying achievement differences between individual students. They showed equal difficulties in judging performances of students with and without a different language background. Keywords: Diagnostic skills, diagnostic competence, teacher judgement accuracy, basic reading capacities, language background Zusammenfassung: Die vorliegende Studie untersucht diagnostische Fähigkeiten von Deutschlehrkräften der sechsten Klasse bei Einschätzung der basalen Lesefähigkeit sowie die Zusammenhänge zwischen diagnostischen Fähigkeiten und der Leistungsheterogenität der beurteilten Schülergruppe sowie dem Sprachhintergrund der Kinder. Die Stichprobe von 39 Deutschlehrkräften und deren Klassen entstammt der Berliner Leselängsschnittstudie. Anhand der Daten wurden Urteile auf den unterrichtsrelevanten Ebenen des allgemeinen Leistungsniveaus von Sechstklässlern und von konkreten Schülerinnen und Schülern der Klasse analysiert. Diagnostische Fähigkeiten wurden anhand des personenbezogenen Urteilsfehlers und der Urteilstendenz sowie der diagnostischen Sensitivität (Vergleichskomponente) untersucht. Vertiefend wurde die Urteilsgüte bei Leistungen von ein- und mehrsprachigen Kindern anhand von Paaren, die leistungsbasiert parallelisiert wurden, untersucht. Die Ergebnisse verwiesen u. a. auf eine Überschätzung des allgemeinen Leistungsniveaus der basalen Lesefähigkeit sowie eine durchschnittlich akzeptable Urteilsgüte bei Identifikation von Leistungsunterschieden zwischen individuellen Schülerinnen und Schülern. Sie zeigten vergleichbare Schwierigkeiten bei Einschätzung von ein- und mehrsprachigen Kindern. Schlüsselbegriffe: Diagnostische Fähigkeiten, diagnostische Kompetenz, Akkuratheit von Lehrerurteilen, basale Lesefähigkeit, Sprachhintergrund * Die vorliegende Arbeit ist während der Zugehörigkeit aller Autoren zum Max-Planck-Institut für Bildungsforschung, Forschungsbereich Erziehungswissenschaft und Bildungssysteme, entstanden. Diagnostische Fähigkeiten von Lehrkräften 93 Groß angelegte internationale Studien zum Bildungsniveau von Schülerinnen und Schülern wie PISA und IGLU zeigen, dass ungefähr zehn Prozent der Viertklässler und sogar ein Viertel der 15-jährigen Schülerinnen und Schüler in Deutschland nur auf einem elementaren Niveau lesen können. Aufgrund der zentralen Bedeutung der Lesekompetenz sind diese Kinder und Jugendlichen als Risikogruppe im Hinblick auf einen erfolgreichen Schul- und Ausbildungsabschluss sowie die erfolgreiche, eigenständige Gestaltung ihres Lebens einzustufen (Artelt, Stanat, Schneider & Schiefele, 2001). Besonders nachteilig stellt sich die Leistungssituation für die teilweise mehrsprachig aufwachsenden Kinder und Jugendlichen mit Migrationshintergrund dar, von denen sogar 40 bis 50 Prozent der Gruppe der schwachen Leserinnen und Leser zuzuordnen sind (Baumert & Schümer, 2001; Schwippert, Bos & Lankes, 2003). Eine wichtige Grundlage für die Lesekompetenz stellt die in der Grundschule erworbene basale Lesefähigkeit dar, die verstehendes Lesen von schriftlichem Material und Lernen aus Texten erst ermöglicht. Ausgelöst durch die Befunde zur Leistungssituation der Schülerinnen und Schüler wurde in den letzten Jahren verstärkt die Qualität von Schule und Unterricht diskutiert. Im Zuge dessen rückte unter anderem die auch von den Kultusministern (Sekretariat der Ständigen Konferenz der Kultusminister der Länder in der Bundesrepublik Deutschland, 2004) als Merkmal kompetenter Lehrkräfte benannte diagnostische Kompetenz immer mehr in das öffentliche und wissenschaftliche Interesse: Lehrkräfte müssen im schulischen Alltag kontinuierlich Einschätzungen auf verschiedenen unterrichtsrelevanten Ebenen, wie dem allgemeinen Leistungsniveau einer bestimmten Altersgruppe oder individueller Schülerinnen und Schüler, treffen. Die akkurate Diagnose des Leistungsstandes der Schülerinnen und Schüler wird dabei als wichtige Voraussetzung für einen adäquaten Unterricht und eine individuelle Förderung angesehen. Dies gilt insbesondere auch für die korrekte Einschätzung der Lesefähigkeit, die Grundlage für das Lernen in den meisten Schulfächern ist (Artelt et al., 2005). Eine besondere Herausforderung dürfte in diesem Zusammenhang in der Leseleistungsbeurteilung von mehrsprachigen Kindern bestehen, da in diesen Fällen zusätzlich die sprachlichen Kompetenzen eingeschätzt und berücksichtigt werden müssen (vgl. z. B. Limbos & Geva, 2001). Bislang fehlen im deutschsprachigen Raum sowohl Befunde zur diagnostischen Kompetenz der Lehrkräfte bei Einschätzung der basalen Lesefähigkeit als auch eine Betrachtung in Abhängigkeit vom Sprachhintergrund der zu beurteilenden Kinder weitgehend. Diagnostische Fähigkeiten von Lehrkräften Eine optimale Passung zwischen Voraussetzungen der Schülerinnen und Schüler einerseits und den unterrichtlichen Angeboten durch die Lehrkraft andererseits gilt als Grundlage eines zielorientierten, adaptiven Unterrichts (Corno & Snow, 1986; Rogalla & Vogt, 2008). Die Lehrkräfte müssen daher neben leistungsrelevanten Persönlichkeitsmerkmalen und Lernstörungen vor allem die Leistungen und das Leistungspotenzial ihrer Schülerinnen und Schüler akkurat beurteilen, um einen adäquaten Unterricht gestalten zu können. Die diagnostische Kompetenz von Lehrkräften bezeichnet dabei die Fähigkeit, Merkmale von Personen korrekt einzuschätzen (Urteilsgenauigkeit) (Schrader, 2006; vgl. Helmke, 2004 zur Unterscheidung zwischen diagnostischer Kompetenz und diagnostischer Expertise). Sie wird, neben Klassenführungs-, didaktischer und fachwissenschaftlicher Kompetenz, als ein zentraler Aspekt der Lehrerexpertise beschrieben (z. B. Baumert & Kunter, 2006; vgl. auch Anders et al., 2010). Die Ergebnisse von Spinath (2005; vgl. auch Helmke & Schrader, 1987; Schrader, 1989) wiesen darauf hin, dass die diagnostische Kompetenz nicht als eindimensionales Persönlichkeitskonstrukt anzunehmen ist, sondern vielmehr unterschiedliche 94 Camilla Rjosk et al. Teilkomponenten einer diagnostischen Fähigkeit identifizierbar sind und in empirischen Studien zur diagnostischen Kompetenz Berücksichtigung finden sollten. Die Lehrkräfte müssen Leistungseinschätzungen auf verschiedenen Ebenen treffen: Zum einen müssen sie das allgemein erwartbare Leseleistungsniveau von Schülerinnen und Schülern einer bestimmten Klassenstufe einschätzen können. Diese Einschätzung ist als normorientierter Bezugsrahmen für die Beurteilung der unterrichteten Schülerinnen und Schüler notwendig. Sie findet ihre Anwendung unter anderem bei Übergangsempfehlungen auf weiterführende Schulen, Leistungsrückmeldungen, Beratung von Eltern und Schülerinnen und Schülern sowie bei der allgemeinen Unterrichtsgestaltung (z. B. Elliott, Gresham, Freeman & McCloskey, 1988; Helmke, 2004). Zum anderen müssen Lehrkräfte den Leseleistungsstand der Schülerinnen und Schüler ihrer eigenen Klasse einschätzen. Diese Beurteilung gilt als Voraussetzung für die Leistungsbeurteilung im Sinne von Benotungen, die Auswahl geeigneter Aufgaben und Texte und somit die Gestaltung des Unterrichts als adäquates Lernangebot sowie für gezielte Interventionen (vgl. z. B. Schrader, 1997). Dabei können soziale, kriteriale oder individuelle Bezugsnormorientierungen zum Tragen kommen (vgl. Rheinberg, 2006; Helmke, Hosenfeld & Schrader, 2004). Eine akkurate Leistungseinschätzung ist insbesondere bezüglich einer grundlegenden Fähigkeit wie der basalen Lesefähigkeit als Geschwindigkeit der korrekten Worterkennung, das heißt der Schnelligkeit und Sicherheit beim lexikalischen Zugriff, wichtig. Diese Lesefähigkeit besitzt als grundlegender Teilprozess des Textlesens eine bedeutsame Rolle für die Lesekompetenz als Textverständnis auf höherer Ebene und damit auch für das Lernen aus Texten (z. B. Stanat & Schneider, 2004). In den ersten drei Grundschuljahren stellt der Erwerb der basalen Lesefähigkeit ein zentrales Ziel des Deutschunterrichts dar und wird dann als Voraussetzung für das sinnerfassende und interpretierende Lesen, das Gegenstand des Unterrichts in den höheren Klassen ist, benötigt. Die basale Lesefähigkeit stellt damit eine zentrale Grundlage des Lernens in der Schule dar. Vor allem Deutschlehrkräfte, aber auch alle Fachlehrkräfte, deren Unterricht auf schriftlichem Material beruht, müssen die grundlegende Lesefähigkeit akkurat diagnostizieren können, um schriftliche Unterrichtsmaterialien entsprechend auswählen und einsetzen zu können. Die akkurate Einschätzung ist auch als Voraussetzung für das Einsetzen von Fördermaßnahmen bei schülerseitigen Defiziten und entsprechender Förderung zu sehen. Mangelnde Diagnose vorhandener Defizite könnte andernfalls einer der Gründe für die wiederholt berichtete Problematik des hohen Schüleranteils unterhalb eines ausreichenden Niveaus der Lesekompetenz sein. Der theoretisch abgeleiteten hohen Relevanz der diagnostischen Fähigkeiten für den Unterricht und die Leistung der Schülerinnen und Schüler steht bisher ein geringer und eher uneinheitlicher empirischer Forschungsstand gegenüber (vgl. Anders et al., 2010). Anders et al. (2010) konnten in ihrer Studie zur Einschätzung mathematischer Schülerleistungen aktuell zeigen, dass verschiedene Indikatoren diagnostischer Fähigkeiten unter Kontrolle relevanter Eingangsvoraussetzungen der Schülerinnen und Schüler in signifikantem Zusammenhang mit der Leistungsentwicklung der Klassen standen. Eine grundlegende Frage in Zusammenhang mit der Untersuchung der diagnostischen Fähigkeiten der Lehrkräfte ist die Frage, wie akkurat die Urteile der Lehrkräfte im Vergleich zu den tatsächlichen Schülerleistungen sind. Untersuchungen der Akkuratheit von Lehrerurteilen bei Einschätzung der Lesefähigkeit Die Akkuratheit von Lehrerurteilen wurde in verschiedenen Studien u. a. über die Korrelation zwischen Lehrerurteil und Schülerleistung sowie über die Bestimmung von Differenzwerten zwischen Urteil und Leistung operatio- Diagnostische Fähigkeiten von Lehrkräften 95 nalisiert. Vor allem Differenzwerte haben als deskriptives Urteilsmaß weite Verbreitung gefunden (z. B. Schrader & Helmke, 1987; Schrader, 1989; Bates & Nettelbeck, 2001; Spinath, 2005; vgl. auch kritische Diskussion bei Edwards, 1995; Irving & Meyer, 1999). Als absoluter Abweichungswert repräsentiert der Differenzwert den Urteilsfehler einer Lehrkraft. Die Urteilstendenz einer Lehrkraft wird durch den einfachen Differenzwert ausgedrückt, der durch das Vorzeichen eine Über- oder Unterschätzung abbildet. Im deutschsprachigen Raum wurde die Urteilsgenauigkeit und Urteilstendenz vor allem anhand von drei verschiedenen Urteilskomponenten untersucht (Helmke & Schrader, 1987; vgl. z. B. auch Hosenfeld, Helmke & Schrader, 2002; Schrader, 1989; Spinath, 2005): Neben der Niveaukomponente als Differenzwert der über eine Personengruppe gemittelten Einschätzungen und Merkmalsausprägungen und der Differenzierungskomponente als Maß der Überbeziehungsweise Unterschätzung der Streuung der Merkmalsausprägungen in einer Personengruppe (Quotient der Streuungen) wird besonders die als diagnostische Sensitivität bezeichnete Vergleichskomponente (Rangkorrelation) als Fähigkeit zur akkuraten Rangordnung der Personen gemäß ihrer Merkmalsausprägung (bei Spinath, 2005 Rangkomponente) betrachtet. Bezogen auf Korrelationen zwischen Lehrerurteil und Schülerleistung verschiedener Leistungsbereiche sind durchschnittlich relativ genaue Einschätzungen aufseiten der Lehrkräfte zu finden. In ihrer Metaanalyse ermittelten Hoge und Coladarci (1989) eine mittlere Korrelation von r = .66 aller untersuchten Studien zur Einschätzung verschiedener Schülerleistungen durch Lehrkräfte. Auch zur Einschätzung von Leseleistungen und der Fähigkeit des flüssigen Vorlesens durch Lehrkräfte zeigten Ergebnisse jüngerer englischsprachiger Studien akzeptable gemittelte Urteils-Kriteriums-Korrelationen (Bates & Nettelbeck, 2001: r = .62; Demaray & Elliott, 1998: r = .82; Feinberg & Shapiro, 2003: r = .70). Studien, die mittlere Abweichungen (Differenzwerte) zwischen Lehrerurteil und Leseleistungswerten bestimmten, zeigten jedoch häufig eine Überschätzung der Schülerleistung durch die Lehrkräfte (z. B. Bates & Nettelbeck, 2001). Zudem zeichnete sich in Studien zur Einschätzung von Leseleistungen eine breite Streuung zwischen den Lehrkräften in ihrer Urteilsgenauigkeit ab (z. B. Hopkins, George & Williams, 1985), die auf die Notwendigkeit der Untersuchung von Determinanten diagnostischer Fähigkeiten verweist. Determinanten diagnostischer Fähigkeiten Die Güte von Lehrerurteilen in einem bestimmten Inhaltsbereich kann neben Merkmalen der Lehrkraft durch unterschiedliche Aspekte der Schülergruppe sowie einzelner Schülerinnen und Schüler beeinflusst sein. Leistungsheterogenität der Schülergruppe Für die Einordnung der Leistung verschiedener Schülerinnen und Schüler sind die aktuellen Leistungen von Bedeutung. Deutliche Leistungskontraste zwischen Schülerinnen und Schülern erleichtern allgemein eine leistungsgemäße Rangordnung (vgl. die Ergebnisse von Weinert, Schrader & Helmke, 1990; Schrader, 1989 zur Einschätzung mathematischer Schülerleistungen). Aufseiten der Schülergruppe könnte somit die Leistungsheterogenität der Schülergruppe einen Einfluss auf die Ermittlung von Leseleistungsdifferenzen zwischen Schülerinnen und Schülern besitzen. Sprachhintergrund der Schülerinnen und Schüler Neben Studien zu kulturellem bzw. ethnischem Hintergrund der Schülerinnen und Schüler (z. B. Kristen, 2006; Jungbluth, 1994), die eine ethnische Diskriminierung oder eine Tendenz zu sozial erwünschtem Handeln als mögliche Ursache für eine geringere Urteilsgenauigkeit diskutieren, ist insbesondere bei der Beurteilung 96 Camilla Rjosk et al. sprachrelevanter Schülerleistungen eine Berücksichtigung des Sprachhintergrunds der Kinder notwendig: Bei einem mehrsprachig aufwachsenden Kind besteht eine mögliche zusätzliche Erschwernis für die Leistungsbeurteilung darin, dass geringe schulische Leseleistungen in grundlegenden Sprachschwierigkeiten oder in tatsächlichen Leseschwierigkeiten begründet liegen können. Sprachschwierigkeiten können durch eine geringe Kenntnis des Wortschatzes oder der grammatikalischen Struktur bedingt sein. Leseschwierigkeiten können beispielsweise in der Graphem-Laut-Zuordnung, der Lautsynthese oder der Verarbeitung von Worteinheiten bestehen. So könnten bei einer Überschätzung der Sprachschwierigkeiten des Kindes durch die Lehrkraft existierende Leseschwierigkeiten fälschlicherweise auf mangelnde Sprachfähigkeiten zurückgeführt und in der Folge nicht adäquat gefördert werden. Bei einer Unterschätzung der Sprachschwierigkeiten könnten wiederum existierende Sprachschwierigkeiten fälschlicherweise auf mangelnde Lesefähigkeiten des Kindes zurückgeführt und die Lesefähigkeit somit nicht korrekt bewertet werden. In beiden Fällen kann die Konfundierung von Sprach- und Leseschwierigkeiten eine suboptimale Förderung zur Folge haben. Knapp (1999) nimmt dazu an, dass die Sprachschwierigkeiten von mehrsprachigen Kindern oft unterschätzt werden. Durch Unterschiede zwischen der „Sprache der Schule“ (Gogolin, 2003; Gogolin, Neumann & Roth, 2003) und der Alltagssprache könne es zu „verdeckten Sprachschwierigkeiten“ (Knapp, 1999) bei mehrsprachigen Kindern kommen, da von den Kompetenzen der Kinder in der gesprochenen Sprache auf ihre Verstehensleistung schriftlicher Sprache geschlossen werde (z. B. Gogolin, 2003; Knapp, 1999; Ott, 2001). Dies würde dann häufig zu einer Unterschätzung der Sprachschwierigkeiten und somit zu einer Überschätzung der für die Schule relevanten Sprachfähigkeiten und Schulleistungen durch die Lehrpersonen führen. Bei der Beurteilung der basalen Lesefähigkeit als sprachrelevanter Schülerleistung ist somit eine mögliche Erschwernis einer genauen Einschätzung aufgrund der notwendigen, zusätzlichen Berücksichtigung des Sprachstandes eines mehrsprachig aufwachsenden Kindes (vgl. z. B. Limbos & Geva, 2001) anzunehmen. Fragestellung Vor dem Hintergrund der Bedeutung der basalen Lesefähigkeit für das schulische Lernen setzte sich die vorliegende Arbeit zum Ziel, die diagnostische Kompetenz von Deutschlehrkräften in diesem Bereich zu untersuchen, da empirische Befunde im deutschsprachigen Raum bislang weitgehend fehlen. Die Analysen bezogen sich auf die basale Lesefähigkeit von Sechstklässlern und entsprechende Lehrerurteile. Hierbei wurden gezielt Urteile auf den unterrichtsrelevanten Ebenen des allgemeinen Leistungsniveaus von Sechstklässlern und von konkreten Schülerinnen und Schülern der Klasse analysiert sowie mögliche Determinanten diagnostischer Fähigkeiten untersucht. Folgenden Forschungsfragen wurde nachgegangen: 1. Akkuratheit der diagnostischen Urteile bei Einschätzung der basalen Lesefähigkeit (1.1) Wie akkurat können Deutschlehrkräfte der sechsten Klassenstufe die durchschnittliche basale Lesefähigkeit von Sechstklässlern allgemein einschätzen? (1.2) Wie akkurat können Deutschlehrkräfte der sechsten Klassenstufe individuelle Schülerinnen und Schüler ihrer Klasse hinsichtlich ihrer basalen Lesefähigkeit unterscheiden? 2. Leistungsheterogenität als Determinante der Akkuratheit diagnostischer Urteile (2.1) Besteht ein Zusammenhang zwischen der Akkuratheit der diagnostischen Einschätzungen der basalen Lesefähigkeit und der Leis- Diagnostische Fähigkeiten von Lehrkräften 97 tungsheterogenität der zu beurteilenden Schülergruppe? 3. Sprachhintergrund als Determinante der Akkuratheit diagnostischer Urteile (3.1) Können Deutschlehrkräfte der sechsten Klasse die basale Lesefähigkeit von mehrsprachigen Sechstklässlern weniger akkurat einschätzen als die basale Lesefähigkeit von einsprachigen Sechstklässlern? (3.2) Überschätzen die Lehrkräfte die basale Lesefähigkeit von mehrsprachigen Kindern in höherem Maße als die von Einsprachigen? Hypothesen Bezüglich der Akkuratheit diagnostischer Urteile waren in Einklang mit anderen Studien (z. B. Bates & Nettelbeck, 2001) bei der Einschätzung des allgemeinen Niveaus der basalen Lesefähigkeit von Sechstklässlern eher weniger akkurate Lehrerurteile und eine vorherrschende Überschätzungstendenz anzunehmen (Hypothese 1.1). Hingegen war bei der Unterscheidung einzelner Schülerleistungen im Durchschnitt eine akzeptable Urteilsgüte zu erwarten (Hypothese 1.2; vgl. z. B. Befunde von Schrader, 1989 zur Einschätzung mathematischer Leistungen). Bezogen auf mögliche Determinanten der Akkuratheit diagnostischer Lehrerurteile wurde erwartet, dass es den Lehrkräften bei heterogeneren Schülergruppen leichter fällt, Leistungsdifferenzen zwischen einzelnen Schülerinnen und Schülern zu identifizieren (Hypothese 2.1; vgl. z. B. Weinert et al., 1990 für den Bereich mathematischer Leistungen). Bezüglich der Einschätzung der basalen Lesefähigkeit von mehrsprachigen Kindern wurde angenommen, dass die Beurteilung mehrsprachiger Kinder eine zusätzliche Schwierigkeit für die Lehrkräfte darstellt (Hypothese 3.1), die eine stärkere Überschätzung der basalen Lesefähigkeit dieser Kinder zur Folge hat (Hypothese 3.2; vgl. Gogolin, 2003; Knapp, 1999; Ott, 2001). Methodik Stichprobe Die vorliegenden Analysen beziehen sich auf Daten des Berliner Leselängsschnitts des Max-Planck-Instituts für Bildungsforschung (McElvany, 2008) und einer Zusatzstudie (Rjosk, 2007). Die Untersuchungen fanden im Februar und Mai 2006 an 20 Berliner Schulen statt. Insgesamt stehen Daten von 39 Deutschlehrkräften der sechsten Klasse (davon 92.3 Prozent weiblich) zur Verfügung. Diese Lehrkräfte waren durchschnittlich seit 25.38 Jahren als Lehrkraft tätig (SD = 8.95). Aufgrund fehlender Angaben variiert die Stichprobenzahl der Lehrkräfte je nach Fragestellung leicht. Aus den 39 Klassen der Lehrkräfte liegen Daten der beiden Erhebungen für 608 Schülerinnen und Schüler und ihre Eltern vor. Die Schülerinnen und Schüler waren im Durchschnitt 11.95 Jahre alt (SD = 0.64). 48.0 Prozent waren Mädchen und 38.2 Prozent wuchsen in zweisprachigen oder nichtdeutschsprachigen Elternhäusern auf, wodurch sie in dieser Untersuchung als mehrsprachige Kinder definiert werden. Der Vergleich der Genauigkeit und Urteilstendenz bezüglich der Einschätzung der basalen Lesefähigkeit von ein- und mehrsprachigen Kindern (siehe unten) bezieht sich auf jeweils 25 ein- und mehrsprachige Kinder der oben beschriebenen Schülergruppe. Durchführung Bei den an der Studie teilnehmenden Schulen handelt es sich um eine zufällige Auswahl Berliner Grundschulen. Unter ihnen sind Schulen aus dem ehemaligen Ost- und Westberlin sowie aus sozial schwachem und sozial starkem Wohnumfeld vertreten. Die Befragung von Lehrkräften, Eltern sowie Schülerinnen und Schülern wurde in anonymisierter Form durchgeführt. Die Befragung und Leistungstestung der Kinder erfolgte im Klassenraum der jeweiligen Klasse durch zwei geschulte Testleiter. Die meist bei der Testung anwesenden Deutschlehrkräfte füllten während der Schülerbefragung ebenfalls einen Fragebogen aus. Zusätzlich machten sie Angaben zu Leistungseinschätzungen sieben zufällig ausgewählter Schülerinnen und Schüler in einer Klassenliste. 98 Camilla Rjosk et al. Instrumente Einschätzung der basalen Lesefähigkeit Zur Einschätzung der basalen Lesefähigkeit wurde den Lehrkräften zunächst das Schülertestinstrument erläutert und Beispielsätze dargeboten. Zur Ermittlung der basalen Lesefähigkeit wurde das Salzburger Lese-Screening für die Klassenstufen 5 - 8 (SLS; Auer, Gruber, Mayringer & Wimmer, 2005) eingesetzt. Das Verfahren misst die basale Lesefähigkeit durch das schnelle Lesen von 70 inhaltlich einfachen Sätzen, zu deren Bearbeitung die Schülerinnen und Schüler drei Minuten Zeit zur Verfügung haben. Der Test liegt in zwei parallelen Formen vor, die zufällig an die Schülerinnen und Schüler verteilt wurden. Das Verfahren besitzt laut Autoren eine sehr zufriedenstellende Testgüte (Auer et al., 2005). Von den Lehrkräften wurden bezüglich dieses Tests zwei Einschätzungen erbeten. Diese bestanden in der Angabe, wie viele der 70 Sätze Sechstklässler im Allgemeinen durchschnittlich bei diesem Test richtig beantworten werden und wie viele Punkte sieben konkrete, zufällig ausgewählte Schülerinnen und Schüler der Klassenliste erreichen werden. Im Rahmen der Beschreibung des Schülerinstruments wurde den Lehrkräften nicht die begrenzte Testbearbeitungszeit genannt. Bei den in dieser Studie dargestellten Werten der Lehrerurteile handelt sich um korrigierte Werte, die anhand einer Zusatzstudie mit angegebener Bearbeitungszeit (Rjosk, 2007) ermittelt wurden. 1 Zur Untersuchung der Urteilsgüte bei Einschätzung des allgemeinen Leistungsniveaus von Sechstklässlern (Frage 1.1) wurden einfache und absolute Differenzwerte (Urteilsfehler und Urteilstendenz) zwischen 38 Lehrerurteilen und dem Normwert des Salzburger Lese-Screenings (ermittelt anhand von Sechstklässlern aus unterschiedlichen Schulzweigen 2 siehe Auer et al., 2005) gebildet. Die möglichen maximalen Abweichungswerte lagen dabei bei (+/ -) 70 Punkten. Leistungsheterogenität der Schülergruppe Die Leistungsheterogenität der Schülergruppe wurde über die Streuung der im Test gezeigten Leistungen der basalen Lesefähigkeit in der jeweiligen Schülergruppe bestimmt. Sprachhintergrund der Schülerinnen und Schüler Um den Sprachhintergrund zu ermitteln, wurden die Eltern und Kinder gefragt, welche Sprache meistens bei ihnen zu Hause gesprochen wird (Antwortmöglichkeiten: „Deutsch“, „eine andere Sprache“ oder „Deutsch und eine andere Sprache“). Als Grundlage für die Zuordnung in eine der drei Sprachgruppen wurden zunächst die Elternaussagen gewählt und bei fehlenden Angaben die Schüleraussagen verwendet. Als einsprachig wurden in dieser Studie Kinder definiert, die nur Deutsch im Elternhaus sprachen; als mehrsprachig galten Kinder, die Deutsch und eine andere Sprache oder nur eine andere Sprache im Elternhaus sprachen. Ergebnisse Wie genau können Lehrkräfte das allgemeine Leistungsniveau von Sechstklässlern einschätzen? Um diese Frage zu untersuchen, wurde das durch die Lehrkräfte eingeschätzte Leistungsniveau den Sechstklässlerleistungen der Testnormierung (Auer et al., 2005) gegenübergestellt. Die 38 Lehrkräfte schätzten die Leistung auf durchschnittlich 48.00 Sätze (SD = 8.06), hingegen beantworteten laut Testnormierung des Salzburger Lese-Screenings Schülerinnen und Schüler der 6. Klassenstufe durchschnittlich 35.40 Sätze des Tests richtig (SD = 7.80). 3 Differenzwert Prozentränge M (SD) Min. Max. 25 50 75 Absolute Abweichung (N = 38) 13.61 (6.13) 4.77 25.23 6.73 15.23 16.48 Überschätzung (N = 35) 14.23 (5.96) 5.23 25.23 10.23 15.23 20.23 Unterschätzung (N = 3) -6.44 (2.89) -4.77 -9.77 - - - Tabelle 1: Abweichungswerte zwischen Lehrerurteil und Normwert des SLS Diagnostische Fähigkeiten von Lehrkräften 99 Zur Betrachtung der Urteilsgenauigkeit gibt Tabelle 1 den mittleren Urteilsfehler (absoluter Differenzwert) sowie die mittlere Urteilstendenz (einfacher Differenzwert) der Lehrkräfte wieder. Der Mittelwert der absoluten Abweichungen zeigte einen durchschnittlichen Urteilsfehler der Lehrkräfte von 13.61 Sätzen. Dieser Wert entsprach ungefähr anderthalb Standardabweichungen der Leistungsverteilung des Normwerts für Sechstklässler und ist vor diesem Hintergrund als erheblich einzustufen. Die Betrachtung der Fallzahlen getrennt nach Über- und Unterschätzung zeigte insgesamt eine häufigere Überschätzung der basalen Lesefähigkeit von Sechstklässlern durch die Deutschlehrkräfte: 35 Lehrkräfte überschätzten die basale Lesefähigkeit von Sechstklässlern durchschnittlich um 14.23 Punkte (ca. 2 SD der Normwerteverteilung). Hinsichtlich der Spannbreite der Güte der Lehrerurteile zeigte die Betrachtung der Extrema und Prozentränge (die einen Eindruck darüber vermitteln, inwiefern es sich bei Extremwerten um Ausreißer handelt) insgesamt eine große Varianz in der Höhe der Abweichungswerte, die von Überschätzungen um 5.23 Punkte bis hin zu 25.23 Punkten reichte. Wie genau können Lehrkräfte individuelle Schülerinnen und Schüler ihrer Klasse hinsichtlich ihrer basalen Lesefähigkeit unterscheiden? Um diese Frage zu beantworten, wurden Rangkorrelationen nach Spearman (rs) zwischen den sieben individuellen Schülerleistungen und den entsprechenden Lehrereinschätzungen einer Klasse berechnet (vgl. Vergleichskomponente z. B. bei Helmke & Schrader, 1987; Schrader, 1989). Sie zeigen den Zusammenhang zwischen der realen Rangreihe der einzelnen Schülerinnen und Schüler nach ihrer basalen Lesefähigkeit und der durch die Lehrkraft eingeschätzten Position der einzelnen Schülerinnen und Schüler (vgl. Tabelle 2). Der Mittelwert der Rangkorrelation stellte insgesamt eine hohe signifikante Korrelation von r s = .60 dar. 4 Dieser Korrelationskoeffizient variierte jedoch über die einzelnen Lehrkräfte erheblich, wie aus den angegebenen Prozenträngen und Extrema ersichtlich ist. Bei 5 Lehrkräften bestand sogar ein negativer Zusammenhang zwischen der realen und eingeschätzten Rangreihe der Schülerinnen und Schüler entsprechend ihrer basalen Lesefähigkeit. Dem gegenüber standen bei 28 Lehrkräften positive Rangkorrelationskoeffizienten, die von r s = .09 bis r s = .98 reichten. Aus den Betrachtungen der Rangkorrelationen wurde somit eine große Varianz zwischen den Lehrkräften in der akkuraten Beurteilung der Schülerleistungspositionen deutlich, die in Anlehnung an Hoge und Coladarci (1989) insgesamt jedoch eine gute Übereinstimmung zeigten. Fällt es Lehrkräften leichter, in heterogeneren Schülergruppen die Schülerinnen und Schüler ihrer Klasse hinsichtlich ihrer basalen Lesefähigkeit zu unterscheiden? Um diese Frage zu beantworten, wurde die Rangkorrelation zwischen der Vergleichskomponente und der Streuung der Schülerleistungen bestimmt. Der Rangkorrelationskoeffizient zeigte hypothesenkonform, dass ein positiver Zusammenhang zwischen diesen beiden Aspekten bestand (r s = .38; p < .05): Je stärker M SD Min. Max. Prozentränge 25 50 75 Vergleichskomponente 0.60 0.37 -0.23 0.98 0.13 0.62 0.77 Tabelle 2: Deskriptive Werte der Vergleichskomponente Anmerkung: M der Vergleichskomponente berechnet über Fishers Z-Transformation unter Berücksichtigung der Anzahl beurteilter Schülerleistungen pro Lehrkraft. 100 Camilla Rjosk et al. die Schülerinnen und Schüler einer Klasse sich in ihrer basalen Lesefähigkeit unterschieden, desto akkurater konnten die Lehrkräfte sie ihrer Leistung entsprechend in eine Rangreihe bringen, d. h. Leistungsunterschiede zwischen einzelnen Kindern erkennen. Gibt es Unterschiede in den diagnostischen Fähigkeiten bei der Einschätzung von ein- und mehrsprachigen Kindern? Um zu analysieren, ob ein Unterschied in der Genauigkeit und Urteilstendenz bei der Leistungsbeurteilung von ein- und mehrsprachigen Kindern besteht, wurden nach der empirisch gezeigten basalen Lesefähigkeit parallelisierte Schülerpaare mithilfe eines t-Tests für abhängige Stichproben verglichen. Es konnten für 25 Lehrkräfte Paare gebildet werden, bestehend aus einem einsprachigen und einem mehrsprachigen Kind mit vergleichbarer basaler Lesefähigkeit (Differenz 0 - 3 Punkte). Bezüglich der Urteilsgenauigkeit zeigte der Vergleich der Höhe der Urteilsfehler (absoluter Differenzwert) zwischen einsprachigen Kindern (M = 16.43; SD = 8.24) und mehrsprachigen Kindern (M = 17.18; SD = 9.00), dass kein Unterschied zu verzeichnen war (t(24) = -0.318; p > .10; d = 0.09; vgl. Zeile a) in Tabelle 3). Die Annahme einer weniger akkuraten Beurteilung von mehrsprachigen Kindern wird somit durch die Ergebnisse nicht unterstützt. Zur Überprüfung der Frage, ob die basale Lesefähigkeit von mehrsprachigen Kindern im Vergleich zur Fähigkeit von einsprachigen Kindern überschätzt wird, wurden die Lehrerurteile pro Paar differenziert nach Richtung der Urteilstendenz betrachtet: In 19 der 25 Fälle zeigten sich Überschätzungen beider Kinder eines Paares. Aufgrund dieser Überschätzungstendenz und der Datenstruktur (werden Über- und Unterschätzungen gleichzeitig berücksichtigt, gehen positive und negative Werte in einen Mittelwert ein) wurden nachfolgend nur diese 19 Fälle einbezogen. Die beiden unteren Ergebniszeilen in Tabelle 3 geben die Differenzwerte zwischen Lehrerurteil und Schülerleistung für ein- und mehrsprachige Kinder wieder. Zwischen den Differenzwerten für die Gruppen der ein- und mehrsprachigen Kinder konnte kein statistisch signifikanter Unterschied ermittelt werden (t(18) = 0.754; p > .10; d = 0.19). Es bestanden somit keine Unterschiede in der Überschätzungstendenz bei der Einschätzung der basalen Lesefähigkeit von ein- und mehrsprachigen Kindern. Diskussion Zusammenfassung Bezüglich der Einschätzung des allgemeinen Leistungsniveaus von Sechstklässlern konnte ein bedeutsamer Unterschied zwischen eingeschätztem und realem Sechstklässlerniveau, der vor allem in einer Leistungsüberschätzung begründet liegt, ermittelt werden. Diese Überschätzungstendenz ist dahingehend interpretierbar, dass die Lehrkräfte in der sechsten Klasse davon auszugehen scheinen, dass in dieser Klassenstufe basale Lesefähigkeiten allge- Schülerleistung Lehrerurteil Differenzwert t-Test (Differenzwerte) M (SD) M (SD) M (SD) t df p d a) Einsprachige (N = 25) 35.44 (5.94) 49.59 (12.39) 16.43 (8.24) -0.318 24 >.10 0.09 Mehrsprachige (N = 25) 35.48 (5.99) 46.11 (17.13) 17.18 (9.00) b) Einsprachige (N = 19) 35.79 (6.06) 54.63 (8.05) 18.84 (7.31) 0.754 18 >.10 0.19 Mehrsprachige (N = 19) 35.95 (6.08) 53.37 (6.61) 17.42 (7.56) Tabelle 3: Deskriptive Werte von Schülerleistungen und Lehrerurteilen differenziert für ein- und mehrsprachige Kinder (t-Test für abhängige Stichproben) (a) für absolute Einschätzungen sowie (b) auf Leistungsüberschätzung bezogene Einschätzungen Diagnostische Fähigkeiten von Lehrkräften 101 mein schon beherrscht werden. Von einer Beeinflussung der Überschätzungstendenz durch die Auswahl der Schülerstichprobe ist dabei aufgrund ihrer Vergleichbarkeit mit den mittleren Leistungen und der Leistungsverteilung der Normierungsstichprobe nicht auszugehen (vgl. erster Ergebnisabschnitt). Neben diesem Ergebnis einer Überschätzungstendenz zeigen die Ergebnisse vor allem eine breite Streuung in der Höhe der absoluten und auf Überschätzungen bezogenen Abweichungswerte zwischen den einzelnen Lehrkräften. Dies ist im Sinne einer Ermangelung eines allgemeinen akkuraten Maßstabs zur Leistungsbeurteilung zu interpretieren und in Einklang mit Studien zur Notengebung zu sehen (vgl. auch Bos et al., 2003). Mögliche kritische Einwände wären an dieser Stelle, ob die Lehrkräfte über eine ausreichende Vertrautheit mit dem Testinstrument und der im Salzburger Lese-Screening ermittelten Schülerfähigkeit besitzen und ob Lehrkräfte überhaupt eine korrekte Einschätzung auf einem derart allgemeinen Urteilsniveau vornehmen können müssen. Die basale Lesefähigkeit stellt jedoch eine Fähigkeit dar, die von den Lehrkräften im Unterricht kontinuierlich beobachtbar ist, beispielsweise durch das schnelle und zutreffende Verständnis von kurzen Arbeitsanweisungen oder Textabschnitten. Somit stellt die Einschätzung anhand des gewählten Aufgabenformats einen relativ realitätsnahen Aspekt des Schulalltags dar. Den Lehrkräften wurde dabei das Schülerinstrument anhand repräsentativer Aufgaben erläutert, die eine ungefähr einheitliche Schwierigkeit des gesamten Tests aufweisen, sodass sie ausreichend über das Testinstrument in Kenntnis gesetzt wurden. Dennoch stellt die in dem Test gestellte Aufgabe, die Anzahl richtig gelöster Sätze in einem bestimmten Zeitrahmen von Kindern einzuschätzen, möglicherweise eine bisher wenig praktizierte Herausforderung für die Lehrkräfte dar. Bezogen auf die Allgemeinheit des Urteilsniveaus bei Einschätzung der basalen Lesefähigkeit lassen die Befunde keinen angemessenen Bezugsrahmen zur Leistungsbeurteilung und keine optimale (Lese-)Unterrichtsgestaltung, die an den Leistungsstand der basalen Lesefähigkeit der Kinder angepasst ist, erwarten (vgl. auch bezüglich sozialer Bezugsnormorientierung die Befunde von Schrader und Helmke (1987), dass Lehrkräfte sich vor allem an klasseninternen Bezugssystemen orientieren und ihnen klassenübergreifende Urteile schwerer fallen). Bezüglich der Rangordnung von Schülerinnen und Schülern konnte ermittelt werden, dass über alle Lehrkräfte betrachtet eine akzeptable Identifikation von Leistungsdifferenzen einzelner Schülerinnen und Schüler vorlag (vgl. auch Ergebnisse von Farr & Roelke, 1971; Demaray & Elliot, 1998; Feinberg & Shapiro, 2003 für die Einschätzung des Leseverständnisses bzw. der Fähigkeit des flüssigen Vorlesens). Auch bei dieser Einschätzung der Rangposition einzelner Schülerinnen und Schüler wurde eine breite Varianz in der Urteilsgenauigkeit deutlich, die zeigt, dass die Lehrkräfte sich untereinander stark in ihren diesbezüglichen diagnostischen Fähigkeiten unterscheiden. Wie die Analyse möglicher Determinanten gezeigt hat, scheint die Leistungsheterogenität der beurteilten Schülergruppe mit den diagnostischen Fähigkeiten in Zusammenhang zu stehen (vgl. z. B. auch die Ergebnisse von Schrader, 1989 zur Einschätzung mathematischer Leistungen) und sollte somit bei vergleichenden Aussagen zwischen Lehrkräften berücksichtigt werden. Bezüglich des Sprachhintergrunds des Kindes konnte ermittelt werden, dass entgegen der im Vorfeld formulierten Annahme kein Unterschied in dem absoluten Urteilsfehler sowie in der Höhe der Überschätzungstendenz bei der Beurteilung der basalen Lesefähigkeit von ein- und mehrsprachigen Kindern anzunehmen ist. Einerseits besteht die Möglichkeit, vorhandene Unterschiede nicht aufzudecken: Die Stichproben setzte sich überwiegend aus Kindern zusammen, die Deutsch und eine andere Sprache im Elternhaus sprachen und möglicherweise daher nicht so umfassende Sprachschwierigkeiten in gesprochener und geschriebener Sprache hatten. Eine weitere mögliche Ursache könnten Eigenschaften des Instruments sein, 102 Camilla Rjosk et al. dessen Aufgaben stärker an der Alltagssprache als an einer „Schulsprache“ orientiert sind. Andererseits können die Ergebnisse als Hinweis darauf gedeutet werden, dass Lehrkräfte insgesamt in vergleichbarem Ausmaß Schwierigkeiten haben, die basale Lesefähigkeit bei ein- und mehrsprachigen Kindern akkurat einzuschätzen (vgl. entsprechende Ergebnisse von Limbos und Geva, 2001). Stärken und Grenzen der vorliegenden Untersuchung Die vorliegende Arbeit ermöglicht durch die Betrachtung verschiedener Urteilsebenen und die erstmalige Untersuchung von Einschätzungen der basalen Lesefähigkeit verschiedener Schülergruppen den bisherigen Kenntnisstand zu diagnostischen Fähigkeiten von Lehrkräften erweiternde Aussagen. Dennoch ist die vorliegende Arbeit mit einigen Beschränkungen verbunden, die in weiteren Studien in diesem Bereich Berücksichtigung finden sollten. Insgesamt ist vor allem auf die Notwendigkeit der Untersuchung größerer Lehrerstichproben, insbesondere bei der vergleichenden Betrachtung der Einschätzung ein- und mehrsprachiger Kinder, hinzuweisen, die in dieser Untersuchung aufgrund der Fallzahl nur explorativen Charakter hatte. Zusätzlich ist anzumerken, dass in der vorliegenden Untersuchung keine Ermittlung der Reliabilität der Lehrerurteile möglich war, was auf eine grundsätzliche Problematik in diesem Forschungsfeld verweist. Ebenso ist darauf zu verweisen, dass das Schülerinstrument trotz zufriedenstellender Gütekriterien (Auer et al., 2005) Schülerleistungen messfehlerbehaftet abbildet (vgl. zum kritischen Umgang mit Leistungstestwerten auf Grundlage von probabilistischen Testverfahren: Bos und Voss, 2008) und dass die Lehrkräfte die Schülerleistungen in Referenz zu einem bestimmten Testinstrument und nicht zu einer aktuellen Unterrichtssituation in ihrer Klasse eingeschätzt haben. Für den Vergleich der Beurteilung von ein- und mehrsprachigen Kindern wäre es eine sinnvolle Ergänzung, das Instrument stärker an der komplexen, schriftlichen Schulsprache zu orientieren sowie die tatsächlichen Sprachkenntnisse der Kinder zu berücksichtigen. Implikationen für Forschung und Praxis Die vorliegende Studie stellt trotz der genannten Einschränkungen einen substanziellen Beitrag in einem noch relativ wenig untersuchten Forschungsfeld dar, das erhebliche Relevanz für Bildungswissenschaft und -praxis besitzt. Für die Forschung bedeuten die Befunde erste Hinweise zum Stand diagnostischer Fähigkeiten bei Einschätzung der basalen Lesefähigkeit, an die zukünftige Forschung anknüpfen kann. Diese ist zum einen insbesondere hinsichtlich weiterer Determinanten der Urteilsgüte, wie u. a. die notwendigen Wissensgrundlagen und weitere Merkmale von Lehrkräften wie beispielsweise deren Berufserfahrung (vgl. z. B. McElvany et al., 2009; Phelps & Schilling, 2004; Reutzel et al., 2007; Schrader, 1989), notwendig. Zum anderen besteht Forschungsbedarf bezüglich der Auswirkungen diagnostischer Fähigkeiten bei Beurteilung der basalen Lesefähigkeit auf Unterrichtsgestaltung und Leistungsentwicklung der Schülerinnen und Schüler (im Bereich Mathematik: Grabbe et al., 2007; Anders et al., 2010; Schrader, 1989; im Bereich Mathematik, Textverständnis und Wortschatz: Artelt, Karing & Lorenz, 2007). Für die Praxis implizieren die Befunde einer breiten Varianz zwischen den Lehrkräften in ihrer Urteilsgenauigkeit und Urteilstendenz sowie der vorherrschenden Überschätzungstendenz, dass anzunehmen ist, dass den Schülerinnen und Schülern allgemein sehr unterschiedlich und vielfach im Hinblick auf ihr Leistungsniveau nicht adäquat begegnet wird. Dies bezieht sich auf die Fairness der Leistungsbeurteilung, die gesetzten Lernziele, die Anpassung des Unterrichts und der Lehrmaterialien an das allgemeine Niveau der Klasse sowie die adäquate Diagnose, Förderung und Prognose ihrer individuellen basalen Lesefähigkeit. Diese Ergebnisse stellen somit einen möglichen Erklärungsansatz für die mehrfach empirisch auf- Diagnostische Fähigkeiten von Lehrkräften 103 gezeigte und viel diskutierte geringe Lesekompetenz von Schülerinnen und Schülern im deutschen Bildungssystem dar (Baumert & Schümer, 2001; Bos et al., 2003). Insgesamt machen die Befunde der vorliegenden Arbeit die Notwendigkeit einer stärkeren Berücksichtigung diagnostischer Aspekte in der Aus- und Weiterbildung von Lehrkräften deutlich. Mit Blick auf Forschung und Praxis gilt es daher zukünftig insbesondere zu klären, wie eine effektive und nachhaltige Aus- und Weiterbildung von Lehrkräften in diesem Bereich gestaltet werden kann (vgl. Artelt & Gräsel, 2009). Erste Ansätze zur Steigerung der Selbstreflexion von Urteilen und damit einhergehende Verbesserung diagnostischer Fähigkeiten geben Helmke, Hosenfeld und Schrader (2004; vgl. auch Isaac et al., 2006). Weiterhin scheinen Fördermaßnahmen sinnvoll, die Informationen über verschiedene Testverfahren und Methoden der Leistungsdiagnostik sowie zu erwartende Leistungen von Schülerinnen und Schülern verschiedener Klassenstufen im Allgemeinen und verschiedener Schülergruppen, wie ein- und mehrsprachiger Kinder, im Besonderen enthalten. Anmerkungen 1 In der Zusatzstudie mit fünf Lehrkräften, die in der 6. Klasse Deutsch unterrichten, wurde eine durchschnittliche Leistungseinschätzung von 48.00 Punkten (SD = 10.95) ermittelt. Die durchschnittliche Leistungseinschätzung der vorliegenden Stichprobe lag bei 57.37 Punkten (SD = 8.06; t(41) = 2.348, p < .05). Zur Korrektur wurde von allen Leistungseinschätzungen der vorliegenden Stichprobe die Differenz der beiden Einschätzungswerte (9.37) subtrahiert. Durch diese Korrekturen entstand keine Veränderung des allgemeinen Ergebnismusters. 2 Die Stichprobe ist somit vergleichbar mit der vorliegenden Stichprobe aus dem Berliner Grundschulsystem, das bis Ende der sechsten Klassenstufe reicht. 3 Die Leistungen der Schülerinnen und Schüler der vorliegenden Studie unterschieden sich nicht signifikant von den Leistungen der Normierungsstichprobe (M = 34.69, SD = 9.13, t(607) = 1.925, p > .05). Des Weiteren zeigte sich kein Deckeneffekt, da lediglich 6 von 608 Schülerinnen und Schülern alle Aufgaben bearbeiteten. 4 Die Bestimmung des Mittelwerts der Rangkorrelationen sowie dessen Signifikanzprüfung erfolgte in Anlehnung an Coladarci (1986) sowie Farr und Roelke (1971) über Fisher’s Z-Transformation unter Berücksichtigung der jeweiligen Stichprobengröße. Literatur Anders, Y., Kunter, M., Brunner, M., Krauss, S. & Baumert, J. (2010). Diagnostische Fähigkeiten von Mathematiklehrkräften und ihre Auswirkungen auf die Leistungen ihrer Schülerinnen und Schüler. Psychologie in Erziehung und Unterricht, 57, 175 - 193. Artelt, C. & Gräsel, C. (2009). Gasteditorial. Diagnostische Kompetenz von Lehrkräften. Zeitschrift für Pädagogische Psychologie, 23, 157 - 160. Artelt, C., Karing, C. & Lorenz, C. (2007, September). Diagnostische Kompetenz von Grundschullehrkräften - Struktur und Effekte. Vortrag auf der 11. Fachtagung Pädagogische Psychologie in Berlin. Artelt, C., McElvany, N., Christmann, U., Richter, T., Groeben, N., Köster, J., Schneider, W., Stanat, P., Ostermeier, C., Schiefele, U., Valtin, R. & Ring, K. (2005). Förderung von Lesekompetenz: Eine Expertise. Bonn: Bundesministerium für Bildung und Forschung. Artelt, C., Stanat, P., Schneider, W. & Schiefele, U. (2001). Lesekompetenz: Testkonzeption und Ergebnisse. In J. Baumert, E. Klieme, M. Neubrand, M. Prenzel, U. Schiefele, W. Schneider, P. Stanat, K.-J. Tillmann & M. Weiß (Hrsg.), PISA 2000. Basiskompetenzen von Schülerinnen und Schülern im internationalen Vergleich (S. 69 - 137). Opladen: Leske + Budrich. Auer, M., Gruber, G., Mayringer, H. & Wimmer, H. (2005). Salzburger Lese-Screening für die Klassenstufen 5 - 8 (SLS). Bern: Hans Huber. Bates, C. & Nettelbeck, T. (2001). Primary school teachers' judgements of reading achievement. Educational Psychology, 21, 177 - 187. Baumert, J. & Kunter, M. (2006). Stichwort: Professionelle Kompetenz von Lehrkräften. Zeitschrift für Erziehungswissenschaft, 9, 469 - 520. Baumert, J. & Schümer, G. (2001). Familiäre Lebensverhältnisse, Bildungsbeteiligung und Kompetenzerwerb. In J. Baumert, E. Klieme, M. Neubrand, M. Prenzel, U. Schiefele, W. Schneider, P. Stanat, K.-J. Tillmann & M. Weiß (Hrsg.), PISA 2000: Basiskompetenzen von Schülerinnen und Schülern im internationalen Vergleich (S. 323 - 410). Opladen: Leske + Budrich. Bos, W., Lankes, E.-M., Schwippert, K., Valtin, R., Voss, A., Badel, I. & Plaßmeier, N. (2003). Lesekompetenzen deutscher Grundschülerinnen und Grundschüler am Ende der vierten Jahrgangsstufe im internationalen Vergleich. In W. Bos, E.-M. Lankes, M. Prenzel, K. Schwippert, G. Walther & R. Valtin (Hrsg.), Erste Ergebnisse aus IGLU. Schülerleistungen am Ende der vierten Jahrgangsstufe im internationalen Vergleich. (S. 69 - 142). Münster: Waxmann. Bos, W. & Voss, A. (2008). Empirische Schulentwicklung auf Grundlage von Lernstandserhebung. Ein Plädoyer für einen reflektierten Umgang mit Ergebnissen aus Leistungstests. Die Deutsche Schule, 100, 449 - 459. Coladarci, T. (1986). Accuracy of teacher judgements of student responses to standardized test items. Journal of Educational Psychology, 78, 141 - 146. Corno, L. & Snow, R. (1986). Adapting teaching to individual differences among learners. In M. Wittrock (Ed.), Handbook of research on teaching (pp. 605 - 629). New York: Macmillan. Demaray, M. K. & Elliott, S. N. (1998). Teachers’ judgements of students’ academic functioning: A comparison of actual and predicted performances. School Psychology Quarterly, 13, 8 - 24. 104 Camilla Rjosk et al. Edwards, J. R. (1995). Alternatives to difference scores as dependent variables in the study of congruence in organizational research. Organizational Behavior and Human Decision Processes, 64, 307 - 324. Elliott, S. N., Gresham, F. M., Freeman, T. & McCloskey, G. (1988). Teacher and observer ratings of children’s social skills: Validation of the Social Skills Rating Scales. Journal of Psychoeducational Assessment, 6, 152 - 161. Farr, R. & Roelke, P. (1971). Measuring subskills of reading: intercorrelations between standardized reading tests, teachers’ ratings, and reading specialists’ ratings. Journal of Educational Measurement, 8, 27 - 32. Feinberg, A. B. & Shapiro, E. S. (2003). Accuracy of teacher judgements in predicting oral reading fluency. School Psychology Quarterly, 18, 52 - 65. Gogolin, I. (2003). Chancen und Risiken nach PISA - über die Bildungsbeteiligung von Migrantenkindern und Reformvorschläge. In G. Auernheimer (Hrsg.), Schieflagen im Bildungssystem. Die Benachteiligung der Migrantenkinder. (S. 33 - 50). Opladen: Leske + Budrich. Gogolin, I., Neumann, U. & Roth, H.-J. (2003). Förderung von Kindern und Jugendlichen mit Migrationshintergrund. Bonn: Bund-Länder-Kommission für Bildungsplanung und Forschungsförderung (BLK), Heft 107. Grabbe, Y., Kunter, M., Brunner, M., Krauss, S. & Baumert, J. (2007, September). Diagnostische Leistungen von Mathematiklehrkräften und der Lernerfolg ihrer Schülerinnen und Schüler. Vortrag auf der 11. Fachtagung Pädagogische Psychologie in Berlin. Helmke, A. (2004). Unterrichtsqualität: Erfassen, Bewerten, Verbessern. Seelze: Kallmayersche Verlagsbuchhandlung. Helmke, A., Hosenfeld, I. & Schrader, F.-W. (2004). Vergleichsarbeiten als Instrument zur Verbesserung der Diagnosekompetenz von Lehrkräften. In R. Arnold & C. Griese (Hrsg.), Schulmanagement und Schulentwicklung (S. 119 - 144). Hohengehren: Schneider-Verlag. Helmke, A. & Schrader, F.-W. (1987). Interactional effects of instructional quality and teacher judgement accuracy on achievement. Teaching and Teacher Education, 3, 91 - 98. Hoge, R. D. & Coladarci, T. (1989). Teacher-based judgements of academic achievement: A review of literature. Review of Educational Research, 59, 297 - 313. Hopkins, K. D., George, C. A. & Williams, D. D. (1985). The concurrent validity of standardized achievement tests by content area using teachers’ ratings as criteria. Journal of Educational Measurement, 22, 177 - 182. Hosenfeld, I., Helmke, A. & Schrader, F.-W. (2002). Diagnostische Kompetenz: Unterrichts- und lernrelevante Schülermerkmale und deren Einschätzung durch Lehrkräfte in der Unterrichtsstudie SALVE. In M. Prenzel & J. Doll (Hrsg.), Bildungsqualität von Schule: Schulische und außerschulische Bedingungen mathematischer naturwissenschaftlicher und überfachlicher Kompetenzen (S. 65 - 82). Weinheim: Beltz. Irving, P. G. & Meyer, J. P. (1999). On using residual difference scores in the measurement of congruence: the case of met expectations research. Personnel Psychology, 52, 85 - 95. Isaac, K., Halt, A. C., Hosenfeld, I., Helmke, A. & Groß Ophoff, J. (2006). VERA: Qualitätsentwicklung und Lehrerprofessionalisierung durch Vergleichsarbeiten. Die Deutsche Schule, 98, 107 - 111. Jungbluth, P. (1994). Lehrererwartungen und Ethnizität. Innerschulische Chancendeterminanten bei Migrantenschülern in den Niederlanden. Zeitschrift für Pädagogik, 40, 113 - 125. Knapp, W. (1999). Verdeckte Sprachschwierigkeiten. Grundschule, 5, 30 - 33. Kristen, C. (2006). Ethnische Diskriminierung in der Grundschule. Kölner Zeitschrift für Soziologie und Sozialpsychologie, 58, 79 - 97. Limbos, M. M. & Geva, E. (2001). Accuracy of teacher assessments of second-language students at risk for reading disability. Journal of Learning Disabilities, 34, 136 - 151. McElvany, N. (2008). Förderung von Lesekompetenz im Kontext der Familie. Münster: Waxmann. McElvany, N., Schroeder, S., Hachfeld, A., Baumert, J., Richter, T., Schnotz, W., Horz, H. & Ullrich, M. (2009). Diagnostische Fähigkeiten von Lehrkräften bei der Einschätzung von Schülerleistungen und Aufgabenschwierigkeiten bei Lernmedien mit instruktionalen Bildern. Zeitschrift für Pädagogische Psychologie, 23, 223 - 235. Ott, M. (2001). Wortschatzerwerb und Wortschatzerwerbsstrategien (Deutsch als Zweitsprache). Retrieved 10. 4. 2007, from http: / / www.sprachwissenschaft.ch/ IDT2001/ pdf/ Ott.pdf. Phelps, G. & Schilling, S. (2004). Developing measures of content knowledge for teaching reading. Elementary School Journal, 105, 31 - 48. Reutzel, D. R., Dole, J. A., Sudweeks, R., Fawson, P. C., Read, S., Smith, J. A. et al. (2007, April). Developing the Literacy Instruction Knowledge Scales (LIKS): A coprehensive assessment of primary grade teachers’ knowledge of reading and writing instruction. Paper presented at the Annual Conference of the American Educational Research Association, Chicago. Rheinberg, F. (2006). Bezugsnormorientierung. In D. Rost (Hrsg.), Handwörterbuch Pädagogische Psychologie (3. Aufl., S. 55 - 62). Weinheim: PVU. Rjosk, C. (2007). Diagnostische Kompetenz von Lehrkräften: Beurteilung der basalen Lesefähigkeit von Kindern mit und ohne Migrationshintergrund (unveröffentlichtes Manuskript einer Diplomarbeit). Freie Universität Berlin. Rogalla, M. & Vogt, F. (2008). Förderung adaptiver Lehrkompetenz: eine Interventionsstudie. Unterrichtswissenschaft, 36, 17 - 36. Schrader, F.-W. (1989). Diagnostische Kompetenz von Lehrern und ihre Bedeutung für die Gestaltung und Effektivität des Unterrichts. Frankfurt am Main: Lang. Schrader, F.-W. (1997). Lern- und Leistungsdiagnostik im Unterricht. In F. E. Weinert (Hrsg.), Psychologie des Unterrichts und der Schule (S. 659 - 699). Göttingen: Hogrefe. Schrader, F.-W. (2006). Diagnostische Kompetenz von Eltern und Lehrern. In D. H. Rost (Hrsg.), Handwörterbuch Pädagogische Psychologie (S. 95 - 100). Weinheim: Beltz PVU. Schrader, F.-W. & Helmke, A. (1987). Diagnostische Kompetenz von Lehrern: Komponenten und Wirkungen. Empirische Pädagogik, 1, 27 - 52. Schrader, F.-W. & Helmke, A. (1990). Lassen sich Lehrer bei der Leistungsbeurteilung von sachfremden Gesichtspunkten leiten? Eine Untersuchung zu Determinanten diagnostischer Lehrerurteile. Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 22, 312 - 324. Diagnostische Fähigkeiten von Lehrkräften 105 Schwippert, K., Bos, W. & Lankes, E.-M. (2003). Heterogenität und Chancengleichheit am Ende der vierten Jahrgangsstufe im internationalen Vergleich. In W. Bos, E.-M. Lankes, M. Prenzel, K. Schwippert, G. Walther & R. Valtin (Hrsg.), Erste Ergebnisse aus IGLU. Schülerleistungen am Ende der vierten Jahrgangsstufe im internationalen Vergleich (S. 276 - 292). Münster: Waxmann. Sekretariat der Ständigen Konferenz der Kultusminister der Länder in der Bundesrepublik Deutschland (2004). Standards für die Lehrerbildung: Bildungswissenschaften. Beschluss der KMK vom 16. 12. 2004. Bonn. Spinath, B. (2005). Akkuratheit der Einschätzung von Schülermerkmalen durch Lehrer und das Konstrukt der diagnostischen Kompetenz. Zeitschrift für Pädagogische Psychologie, 19, 85 - 95. Stanat, P. & Schneider, W. (2004). Schwache Leser unter 15-jährigen Schülerinnen und Schülern in Deutschland: Beschreibung einer Risikogruppe. In U. Schiefele, C. Artelt, W. Schneider & P. Stanat (Hrsg.), Struktur, Entwicklung und Förderung von Lesekompetenz. Vertiefende Analysen im Rahmen von PISA 2000 (S. 243 - 274). Wiesbaden: VS Verlag für Sozialwissenschaften. Weinert, F. E. Schrader, F.-W. & Helmke, A. (1990). Educational expertise. Closing the gap between educational research and classroom practice. School Psychology International, 11, 163 - 180. Dipl.-Psych. Camilla Rjosk Humboldt Universität zu Berlin Institut zur Qualitätsentwicklung im Bildungswesen Unter den Linden 6 10099 Berlin camilla.rjosk@iqb.hu-berlin.de Tel. 0 30 / 20 93-65 15 Prof. Dr. Nele McElvany Technische Universität Dortmund Institut für Schulentwicklungsforschung Vogelpothsweg 78 44227 Dortmund mcelvany@ifs.tu-dortmund.de Tel. 02 31 / 7 55-55 12 Dr. phil. Yvonne Anders Otto-Friedrich-Universität Bamberg Lehrstuhl für Elementar- und Familienpädagogik Markusstraße 12 b 96045 Bamberg yvonne.anders@uni-bamberg.de Tel. 09 51 / 87-11 08 Dr. phil. Michael Becker Max-Planck-Institut für Bildungsforschung sowie Universität Potsdam, Profilbereich Bildungswissenschaften Karl-Liebknecht-Str. 24 - 25, Haus 24 14476 Potsdam michael.becker.v@uni-potsdam.de Autorenhinweis Die vorliegende Studie ist Teil einer Diplomarbeit (Rjosk, 2007). An dieser Stelle sei Frau Prof. Dr. Hannover sowie Herrn Prof. Dr. Baumert für die Begutachtung der Arbeit herzlich gedankt.
