Psychologie in Erziehung und Unterricht
3
0342-183X
Ernst Reinhardt Verlag, GmbH & Co. KG München
10.2378/peu2016.art18d
3_063_2016_3/3_063_2016_3.pdf71
2016
633
Wie gut schätzen Lehrkräfte Leistung, Konzentration, Arbeits- und Sozialverhalten ihrer Schülerinnen und Schüler ein?
71
2016
Justine Stang
Detlef Urhahne
Die vorliegende Studie untersucht die diagnostische Kompetenz von Mathematiklehrkräften in der Einschätzung von Mathematikleistung, Konzentration, Arbeits- und Sozial-verhalten. Überprüft wird zudem, ob Lehrkrafturteile mit soziodemografischen Merkmalen der Lehrkräfte zusammenhängen und wodurch Lehrkrafturteile vorhergesagt werden können. An der Studie nahmen 357 Fünftklässler und deren 17 Lehrkräfte teil. Die Fünftklässler bearbeiteten einen Mathematikleistungstest, einen Konzentrationstest und füllten Fragebögen zum Arbeits- und So-zialverhalten aus, während Lehrkräfte diese Schülermerkmale beurteilten. Lehrkräfte schätzten die Rangfolge der Schülerleistung mit mittlerer Genauigkeit ein, die Beurteilung der anderen Merkmale fiel ihnen schwerer. Das Leistungsniveau wurde überschätzt. Soziodemografische Lehrkraftmerkmale hingen nicht mit den Lehrkrafturteilen zusammen. Lehrkrafturteile zur Schülerleistung und zu nicht-leistungsbezogenen Schülermerkmalen wurden durch sachfremde Urteilsmerkmale verzerrt. Ein Training zur Förderung der diagnostischen Kompetenz von Lehrkräften erscheint wünschenswert.
3_063_2016_3_0004
n Empirische Arbeit Psychologie in Erziehung und Unterricht, 2016, 63, 204 -219 DOI 10.2378/ peu2016.art18d © Ernst Reinhardt Verlag München Basel Wie gut schätzen Lehrkräfte Leistung, Konzentration, Arbeits- und Sozialverhalten ihrer Schülerinnen und Schüler ein? Ein Beitrag zur diagnostischen Kompetenz von Lehrkräften Justine Stang, Detlef Urhahne Universität Passau Zusammenfassung: Die vorliegende Studie untersucht die diagnostische Kompetenz von Mathematiklehrkräften in der Einschätzung von Mathematikleistung, Konzentration, Arbeits- und Sozialverhalten. Überprüft wird zudem, ob Lehrkrafturteile mit soziodemografischen Merkmalen der Lehrkräfte zusammenhängen und wodurch Lehrkrafturteile vorhergesagt werden können. An der Studie nahmen 357 Fünftklässler und deren 17 Lehrkräfte teil. Die Fünftklässler bearbeiteten einen Mathematikleistungstest, einen Konzentrationstest und füllten Fragebögen zum Arbeits- und Sozialverhalten aus, während Lehrkräfte diese Schülermerkmale beurteilten. Lehrkräfte schätzten die Rangfolge der Schülerleistung mit mittlerer Genauigkeit ein, die Beurteilung der anderen Merkmale fiel ihnen schwerer. Das Leistungsniveau wurde überschätzt. Soziodemografische Lehrkraftmerkmale hingen nicht mit den Lehrkrafturteilen zusammen. Lehrkrafturteile zur Schülerleistung und zu nicht-leistungsbezogenen Schülermerkmalen wurden durch sachfremde Urteilsmerkmale verzerrt. Ein Training zur Förderung der diagnostischen Kompetenz von Lehrkräften erscheint wünschenswert. Schlüsselbegriffe: Diagnostische Kompetenz, Mathematikleistung, Arbeitsverhalten, Sozialverhalten, Mehrebenenanalyse How Teachers Rate Students Achievement, Attention, Work Habits and Social Behavior? A Contribution to the Diagnostic Competence of Teachers Summary: The present study investigates the diagnostic competence of mathematics teachers in estimating student achievement, attention, work habits, and social behavior. Furthermore, it examines whether sociodemographic characteristics of teachers are related to teacher judgment and by what the evaluation can be predicted. The study included 357 fifth-graders and 17 teachers. The students worked on a mathematics achievement test, an attention test, as well as items on work habits and social behavior, while teachers made predictions about these student characteristics. Teachers could predict student achievement with moderate accuracy, whereas they had difficulties to assess other characteristics. Teachers overestimated students’ level of achievement. Teachers’ sociodemographic characteristics were not associated with teachers’ judgments. Teachers’ judgments of mathematics achievement and of the other characteristics were biased by irrelevant judgment characteristics. A training to foster the diagnostic competence is desirable. Keywords: Diagnostic competence, mathematics achievement, work habits, social behavior, multilevel modeling Lehrkrafteinschätzungen des Arbeits- und Sozialverhaltens 205 Neben der Leistungsbeurteilung kommt den Lehrkräften in der Schule die Aufgabe zu, das Arbeits- und Sozialverhalten von Schülerinnen und Schülern zu bewerten. In einigen Bundesländern müssen Lehrkräfte Kopfnoten erteilen, welche die Ausprägung des Arbeits- und Sozialverhaltens der Schülerinnen und Schüler angemessen abbilden sollen. Des Weiteren sind Bewertungen über Mitarbeit und Verhalten essenzieller Bestandteil von Empfehlungsschreiben für Schülerstipendien. Die Genauigkeit, mit der Lehrkräfte diese Schülermerkmale einschätzen, wird dabei als diagnostische Kompetenz bezeichnet (Artelt & Gräsel, 2009). Da diese Urteile Basis schulischer Laufbahnentscheidungen und individueller Fördermaßnahmen sind (Neber, 2004; Trautwein & Baeriswyl, 2007), sollten sie möglichst genau ausfallen. Lehrkrafturteile können jedoch fehlerbehaftet sein, weil sie z. B. durch Voreinstellungen und Erwartungen verzerrt werden (Schrader & Helmke, 2001). Im Besonderen dann, wenn Urteile auf subjektiven, zumeist beiläufigen Eindrücken und nicht auf gezielten Prüfungen und objektiven Tests beruhen, kann es zu Fehleinschätzungen von Schülermerkmalen kommen. Wird das Lehrkrafturteil systematisch beeinflusst, so kann dies zu einer Bevorzugung oder Benachteiligung von Schülerinnen und Schülern führen. Ziel der Studie ist es zu prüfen, wie genau die Lehrkrafteinschätzungen zu Leistung, Konzentrationsvermögen, Arbeits- und Sozialverhalten ausfallen und ob die Lehrkrafteinschätzung zur Testleistung und zu nicht-leistungsbezogenen Schülermerkmalen mit urteilsirrelevanten Lehrkrafteinschätzungen und Schülermerkmalen zusammenhängt. Bedeutung von Konzentration, Arbeits- und Sozialverhalten Die Förderung des Arbeits- und Sozialverhaltens ist im Bildungsauftrag der Bundesländer verankert und stellt ein explizites Bildungsziel dar. Kompetenzen in diesen Bereichen sind wichtige Voraussetzungen für den schulischen und späteren beruflichen Erfolg (Keller, 1993 b). Um diese Schülermerkmale angemessen zu fördern, müssen Lehrkräfte sie möglichst zutreffend einschätzen können. Unter Arbeitsverhalten werden verdeckte wie offene, auf Lernprozesse gerichtete Verhaltensweisen sowie Tätigkeiten subsumiert, die Einfluss auf die inneren wie äußeren Rahmenbedingungen des Lernens nehmen (Holz-Ebeling, 2010). Im schulischen Bereich umfasst das Lern- und Arbeitsverhalten das Strukturieren und Organisieren des eigenen Lernprozesses, die Lernmotivation, die kognitive Verarbeitung des Lernstoffs, die Nutzung von Lern- und Gedächtnisstrategien und das Konzentrationsvermögen (Keller, 1993 b). Die Bereitschaft, Leistungen zu erbringen, Aufgaben selbstständig und konzentriert zu bearbeiten sowie eine allgemeine Zuverlässigkeit und Sorgfalt sind demnach wichtige Komponenten des schulischen Arbeitsverhaltens. Konzentrationsfähigkeit wird zwar als ein wichtiger Teilaspekt des Arbeitsverhaltens erachtet (Blöschl, 1966), kann aber auch eigenständig betrachtet werden. Konzentration wird als die Fähigkeit einer Person verstanden, sich eine Zeit lang auf relevante Reize fokussieren zu können sowie diese korrekt und schnell zu analysieren (Brickenkamp & Karl, 1986). Im schulischen Kontext ist es über einen längeren Zeitraum bedeutsam, Aufgaben konzentriert zu bearbeiten und dem Unterricht aufmerksam folgen zu können. Unter dem Sozialverhalten werden insbesondere Verhaltensweisen subsumiert, die sich auf einen Interaktionspartner beziehen. Für das Gelingen sozialer Interaktion sind im schulischen Kontext sozial-emotionale Kompetenzen unabdingbar (Jurkowski & Hänze, 2010). Soziale Kompetenzen lassen sich fünf Bereichen zuordnen (Caldarella & Merrell, 1997): Durchsetzungsvermögen, Selbststeuerung, Schulleistung, Kooperations- und Beziehungsfähigkeit. Des Weiteren ist prosoziales Verhalten eine wichtige Determinante sozialen Handelns (Malti, Bayard & Buchmann, 2008). Zur emo- 206 Justine Stang, Detlef Urhahne tionalen Kompetenz gehört die Fähigkeit, eigene und Gefühle anderer zu erkennen, zu verstehen sowie zu regulieren (Rindermann, 2014). In der Schule müssen Interessen und Gefühle anderer berücksichtigt werden, um erfolgreich zu interagieren. Besonders wichtig sind dabei eine situationsspezifische Empathiefähigkeit sowie prosoziales Verhalten, welches sich auch in Kooperationsbereitschaft und -fähigkeit äußert. Erfolgreiches Lernen setzt ein gutes Arbeits- und Sozialverhalten voraus. Credé und Kuncel (2008) betonen, dass das Arbeitsverhalten ein wichtiger Faktor schulischer Leistung ist. Leistungsstärkere unterscheiden sich von leistungsschwächeren Schülerinnen und Schülern u. a. durch ein besseres Konzentrationsvermögen, bessere Organisationsstrategien und selbstständigeres Lernen (Keller, 1993 a). Hinsichtlich des Zusammenhangs von Sozialverhalten und Schulleistung konnten Malecki und Elliot (2002) feststellen, dass soziale Fähigkeiten einen positiven Prädiktor aktueller und zukünftiger Leistung darstellen. Sozialkompetenz und Schulleistung beeinflussen sich gegenseitig über die Zeit (Welsh, Parke, Widaman & O’Neil, 2001). Aufgrund der Bedeutung des Arbeits- und Sozialverhaltens stellt sich die Frage, wie gut Lehrkräfte diese Schülermerkmale einschätzen können. Lohbeck, Petermann und Petermann (2015) stellten fest, dass die Angaben von Grundschullehrkräften und die Schülerselbsteinschätzung zu Merkmalen wie Einfühlungsvermögen, Konzentrationsfähigkeit, Selbstständigkeit und Sorgfalt beim Lernen mittelmäßig übereinstimmen (.29 ≤ r ≤ .49). Eine Studie von Ter Laak, DeGoede und Brugman (2001) mit Schülerinnen und Schülern der zweiten bis fünften Schulstufe erbrachte, dass Lehrkräfte das Sozial- und Arbeitsverhalten nicht akkurat einschätzen konnten. In Bezug auf Dimensionen des Fünf-Faktoren-Modells der Persönlichkeit zeigte sich, dass zwischen Schülerselbst- und Lehrkrafteinschätzung die Übereinstimmungen geringer ausfielen als die zwischen Schüler- und Elternangaben. Die Übereinstimmung zwischen Schüler- und Lehrkraftangabe fiel für Verträglichkeit und Gewissenhaftigkeit niedrig aus. Korrelationen nahe null ergaben sich bei Lehrkräften, die die Schülerinnen und Schüler weniger als drei Jahre unterrichteten (Laidra, Allik, Harro, Merenäkk & Harro, 2006). Hinsichtlich der Einschätzung des Sozialverhaltens konnte Frey (2013) aufzeigen, dass zwischen der Lehrkrafteinschätzung und dem Schülerselbstbericht recht geringe Zusammenhänge bestehen. Die Angaben zu Empathie korrelierten zu r = .13 und die zu prosozialem Verhalten zu r = .19 miteinander. Urteilsgenauigkeit von Lehrkräften In der Forschung wird zwischen drei Komponenten der Urteilsgenauigkeit von Lehrkräften differenziert (Schrader & Helmke, 1987). Die Rangkomponente indiziert, inwieweit Lehrkräfte die Rangfolge ihrer Schülerinnen und Schüler z. B. in Bezug auf Leistung richtig vorhersagen können. Die Niveaukomponente als Differenz zwischen Lehrkrafturteil und Schülermerkmal zeigt an, ob Lehrkräfte ein Schülermerkmal über- oder unterschätzen. Die Differenzierungskomponente bildet ab, wie gut die Streuung des Schülermerkmals eingeschätzt werden kann. Es existieren verschiedene Messmethoden, um die Genauigkeit des Lehrkrafturteils festzustellen. Bei der direkten Messung liegen für Lehrkräfte wie für Schülerinnen und Schüler gleiche Items bzw. Skalen vor. Bei der indirekten Messung hingegen differieren die Schätzmaße, weshalb nur die Rangkomponente, aber nicht die Niveau- und die Differenzierungskomponente, bestimmt werden kann. Im Gegensatz zu kognitiven Merkmalen wurden nicht-kognitive Merkmale in der Forschung zur diagnostischen Kompetenz weitgehend vernachlässigt. Metaanalytische Befunde zur diagnostischen Kompetenz liegen daher nur für die Einschätzung kognitiver Charakteristika vor (z. B. Südkamp, Kaiser & Möller, 2012). Studien zur Genauigkeit von Lehrkrafturteilen Lehrkrafteinschätzungen des Arbeits- und Sozialverhaltens 207 bezüglich nicht-kognitiver Schülermerkmale wie Motivation und Emotion existieren nur wenige (Urhahne & Zhu, 2015). In Studien zur diagnostischen Kompetenz wurde am häufigsten die Rangkomponente betrachtet, welche in Abhängigkeit vom zu beurteilenden Merkmal schwankt und für kognitive Merkmale höher ausfällt als für motivationale bzw. affektive Merkmale. Hoge und Coladarci (1989) sowie Südkamp et al. (2012) berichten in ihren Metaanalysen Werte größer r = .60 für den Zusammenhang zwischen Lehrkrafturteil und Schülerleistung. Für nicht-kognitive Schülermerkmale wie Fähigkeitsselbstkonzept, Leistungsängstlichkeit, Sozial- und Lernverhalten oder Beteiligung am Unterricht sind deutlich kleinere Korrelationen zu verzeichnen (Kaiser, Retelsdorf, Südkamp & Möller, 2013; Lohbeck, Nitkowski, Petermann & Petermann, 2014; Praetorius, Berner, Zeinz, Scheunpflug & Dresel, 2013; Spinath, 2005; Urhahne et al., 2010). Die Niveaukomponente zeigt, dass Lehrkräfte dazu tendieren, die Schülerleistung zu überschätzen (Urhahne et al., 2010; Zhu & Urhahne, 2015). Bei der Differenzierungskomponente besteht eine heterogene Befundlage, die kein eindeutiges Urteil zulässt. Einerseits zeigt sich bei der Schülerleistung, Lernmotivation und Fähigkeitsselbstwahrnehmung eine Überschätzung der Streuung (Schrader & Helmke, 1987; Spinath, 2005; Urhahne et al., 2010), andererseits bei der Schülerleistung im experimentellen Setting und bei den Schülermerkmalen Intelligenz und Leistungsängstlichkeit eine Unterschätzung der Streuung (Spinath, 2005; Südkamp, Möller & Pohlmann, 2008). Einflussfaktoren auf die Urteilsgenauigkeit Aus Studien zur diagnostischen Kompetenz wird deutlich, dass Lehrkräfte unterschiedlich akkurat diagnostizieren. Dieses Faktum führt zu der Frage, welche Faktoren mit der Genauigkeit der diagnostischen Kompetenz von Lehrkräften zusammenhängen. Südkamp et al. (2012) stellten ein Modell auf, welches Einflussfaktoren der Urteilsgenauigkeit skizziert und auf theoretischen Überlegungen und empirischen Ergebnissen basiert (Abb. 1). Kern des Modells ist die Urteilsgenauigkeit als Übereinstimmung von Lehrkrafturteil und Schülerleistung, welche durch vier Merkmale beeinflusst wird: Urteilsmerkmale wie die Anzahl der Stufen einer Ratingskala, Testmerkmale wie die Testlänge oder Aufgabenschwierigkeit, Schülermerkmale wie Motivation und Intelligenz und Lehrkraftmerkmale wie Berufserfahrung oder Vorurteile (Südkamp et al., 2012). Im schulischen Bereich sind Lehrkraft- und Schülermerkmale besonders augenfällig, weswegen ihnen in der Forschung nachgegangen wurde. Hinsichtlich der Lehrkraftmerkmale wurde hauptsächlich die Berufserfahrung untersucht. So fanden McElvany et al. (2009), dass es Lehrkräften mit höherer Berufserfahrung besser gelang, Schülerinnen und Schüler in eine leistungsbezogene Rangfolge zu bringen. Andere Studien konnten hingegen keinen Einfluss der Berufserfahrung belegen (Praetorius, Karst, Dickhäuser & Lipowsky, 2011; Schrader, 1989). Zu Lehrkraftmerkmalen wie Alter oder Geschlecht sind noch keine eindeutigen Schlussfolgerungen möglich (Dicke, Lüdtke, Trautwein, Nagy & Nagy, 2012; Südkamp et al., 2012). Aufseiten der Schülermerkmale wurden urteilsirrelevante Aspekte untersucht, die das Lehrkrafturteil verzerren können. Hierbei handelt es sich um solche Schülercharakteristika, die nicht direkt mit der Leistung in Verbindung gebracht werden. Schrader und Helmke (1990) konnten zeigen, dass das Lehrkrafturteil zur Schülerleistung von sachfremden Aspekten wie der Intelligenz und dem Fähigkeitsselbstkonzept abhängig ist. In einer experimentellen Studie fanden Kaiser, Möller, Helm und Kunter (2015) heraus, dass die Leistungsbeurteilung durch Informationen zur Deutschleistung und Intelligenz systematisch beeinflusst wurde. Ohne Einfluss auf die Urteilsgenauigkeit scheinen das Geschlecht und Alter der Schülerinnen und Schüler zu sein (Dicke et al., 2012). 208 Justine Stang, Detlef Urhahne Als Erklärungsmöglichkeiten der Urteilsverzerrungen stehen Urteilsfehler zur Diskussion. Der Halo-Effekt (Thorndike, 1920) beschreibt die Tendenz, anhand nicht-relevanter Hinweisreize auf globale Schülermerkmale zu schließen. Es handelt sich hierbei um eine diffuse Übertragung (Wirtz, 2014). Urhahne, Timm, Zhu und Tang (2013) nehmen an, dass der Halo-Effekt Ursache des Zusammenhangs zwischen der Leistungsbeurteilung und der Beurteilung motivationaler Schülermerkmale ist, da Lehrkräfte bei leistungsstarken Schülerinnen und Schülern auch eine hohe Leistungsmotivation vermuten. Ein weiterer, in dem Kontext relevanter Urteilsfehler, ist der logische Fehler. Hier besteht die Möglichkeit, dass die Lehrkraft von einer Merkmalsausprägung auf die eines anderen Merkmals schließt (Helmke, 2009). Im Gegensatz zum Halo-Effekt erfolgt die Übertragung nicht diffus, sondern anhand subjektiver Überzeugungen, Merkmale als zusammengehörig anzusehen, ohne dass empirische Evidenz vorliegt (Wirtz, 2014). Fragestellungen und Hypothesen Ziel der Studie ist es, den Kenntnisstand zur diagnostischen Kompetenz von Lehrkräften - insbesondere im Hinblick auf weniger stark beforschte Aspekte wie Konzentration, Arbeits- und Sozialverhalten - zu erweitern. Die Einschätzung von Leistung ist die zentrale diagnostische Aufgabe von Lehrkräften. Die richtige Einschätzung nicht-leistungsbezogener Merkmale wird z. B. für das Ausstellen von Referenzschreiben gebraucht. Der Fokus liegt auf der Genauigkeit von Lehrkrafturteilen und potenziellen Faktoren, die mit der Genauigkeit der Lehrkrafturteile zusammenhängen. Dazu wurden folgende Forschungsfragen und Hypothesen formuliert: 1. Wie genau können Lehrkräfte Testleistung, Konzentrationsvermögen, Arbeits- und Sozialverhalten einschätzen? a) Lehrkräfte schätzen die Rangfolge in der Testleistung relativ genau ein, aber haben Lehrkraftmerkmale Schülermerkmale Urteilsmerkmale Testmerkmale Lehrkrafturteile Schülerleistungen Genauigkeit von Lehrkrafturteilen Abb. 1: Modell zu Einflussfaktoren der Urteilsgenauigkeit (nach Südkamp et al., 2012). Lehrkrafteinschätzungen des Arbeits- und Sozialverhaltens 209 Schwierigkeiten, Merkmale wie Konzentration, Arbeits- und Sozialverhalten akkurat einzuschätzen. b) Lehrkräfte überschätzen die tatsächliche Testleistung der Schülerinnen und Schüler. Überprüft wird zudem, ob unter Kontrolle des entsprechenden Schülermerkmals das Lehrkrafturteil mit Lehrkraftmerkmalen, wie Alter, Geschlecht oder Berufserfahrung, zusammenhängt. 2. Hängt das Lehrkrafturteil zur Testleistung und zu nicht-leistungsbezogenen Schülermerkmalen mit anderen Merkmalseinschätzungen zusammen? Es wird vermutet, dass die Einschätzungen der Lehrkräfte zur Testleistung und zu nicht-leistungsbezogenen Schülermerkmalen mit weiteren Merkmalseinschätzungen zusammenhängen. Die Einschätzung der Schülermerkmale sollte durch jene mitbestimmt sein, welche - dem logischen Fehler oder dem Halo-Effekt folgend - mit dem einzuschätzenden Merkmal assoziiert sind. 3. Welche Schülermerkmale können das Lehrkrafturteil zur Testleistung und zu nicht-leistungsbezogenen Schülermerkmalen vorhersagen? Es wird angenommen, dass im Sinne des Halo- Effektes oder des logischen Fehlers, urteilsirrelevante Schülermerkmale, welche mit dem einzuschätzenden Merkmal assoziiert sind, mit der Einschätzung des entsprechenden Merkmals zusammenhängen. Methode Stichprobe An der Studie nahmen 17 Klassen der fünften Jahrgangsstufe von fünf bayerischen Realschulen teil. Die 357 Schülerinnen und Schüler (45,7 % weiblich) waren im Schnitt 10.37 Jahre alt (SD = 0.53). Die 17 Mathematiklehrkräfte (64,7 % weiblich) hatten eine Berufserfahrung von durchschnittlich 5.47 Jahren (SD = 5.33) und waren im Mittel 32.24 Jahre alt (SD = 7.85). In den Klassen, die sie im Schnitt seit 3.29 Monaten kannten (SD = 0.47), unterrichteten die Lehrkräfte durchschnittlich 5.88 Stunden pro Woche (SD = 1.36). Bei allen Variablen waren nie mehr als 1,5 % fehlende Werte zu verzeichnen. Die fehlenden Werte wurden in den Analysen nicht ersetzt (listenweiser Fallausschluss). Material Mathematikleistung Anhand detaillierter Lehrplan- und Itemschwierigkeitsanalysen wurden zur Erfassung des mathematischen Könnens verschiedene Aufgaben aus dem Deutschen Mathematiktest für vierte und fünfte Klassen ausgewählt (DEMAT 4: Gölitz, Roick & Hasselhorn, 2006; DEMAT 5+: Götz, Lingel & Schneider, 2013). Der Konstruktion der beiden Tests liegen die Mathematiklehrpläne aller deutschen Bundesländer zugrunde. Der eingesetzte Test beinhaltete 35 Aufgaben. Die Subtests Arithmetik (z. B. Addition) und Sachrechnen (z. B. Textaufgaben) wurden dem DEMAT 5+, der Subtest Geometrie (z. B. Spiegelzeichnungen) dem DEMAT 4 entnommen. Die mathematischen Fähigkeiten wurden mit einer Gesamtreliabilität von Cronbachs α = .75 erfasst. Konzentration Zur Messung der Konzentration wurde der Konzentrations-Leistungs-Test für die vierte bis sechste Schulstufe eingesetzt (KLT-R 4 - 6: Düker, Lienert, Lukesch & Mayrhofer, 2001). Der Test erfasst die Langzeitanspannung und gibt Auskunft über Quantität wie Qualität der Beanspruchung. Von 9 Aufgabenblöcken mit je 20 Rechenaufgaben sollten innerhalb von zwei Minuten pro Block so viele Aufgaben wie möglich richtig gelöst werden. Die Schülerkonzentration wurde als Quotient aus richtig zu falsch bearbeiteten Aufgaben multipliziert mit der Gesamtleistung berechnet. Die Konzentration wurde mit einer Reliabilität von α = .84 erfasst. Arbeitsverhalten Beim Arbeitsverhalten handelt es sich um die Bereitschaft der Schülerinnen und Schüler, gewissenhaft, selbstständig, motiviert sowie problemlösungsorientiert zu arbeiten, und die Fähigkeit, den eigenen Lern- 210 Justine Stang, Detlef Urhahne prozess zu organisieren. Das Arbeitsverhalten wurde mittels 15 Items aus der gleichnamigen Skala des Lern- und Arbeitsverhaltensinventars erfasst (LAVI: Keller & Thiel, 1998), welches zum Einsatz in der fünften bis zehnten Klasse geeignet ist. Ein Item umfasst drei Antwortmöglichkeiten und lautet beispielsweise: Meine Schulhefte a) sind meist ordentlich; b) sind manchmal unordentlich; c) sind oft unordentlich. Die Reliabilität der Skala betrug α = .68. Sozialverhalten Zur Messung des Sozialverhaltens wurden Skalen zu Empathie und prosozialem Verhalten mit je vier Items eingesetzt. Bei der Empathie steht die Fähigkeit, Gefühle anderer zu verstehen sowie nachzuempfinden, und beim prosozialen Verhalten stehen die Hilfs- und Kooperationsbereitschaft, Freundlichkeit und die Freiwilligkeit des Verhaltens im Fokus. Die Skalen entstammen einem Instrument zur Messung sozialer Kompetenz aus Selbst- und Fremdsicht (Frey, 2013), welches bereits in der Grundschule eingesetzt werden kann. Die Items wurden auf einer fünfstufigen Likert-Skala gemessen (0 = stimmt gar nicht, 1 = stimmt eher nicht, 2 = stimmt teils-teils, 3 = stimmt eher, 4 = stimmt genau). Ein Beispielitem für Empathie lautet: Kinder, die oft gehänselt werden, tun mir leid. Ein Beispiel für prosoziales Verhalten ist: Ich bin nett zu anderen Menschen. Empathie und prosoziales Verhalten wurden mit einer Reliabilität von α = .75 bzw. α = .59 erfasst. Lehrkraftdaten Die Lehrkräfte beantworteten soziodemografische Fragen zu Alter, Geschlecht, Berufserfahrung, Unterrichtsfächern, Anzahl der Unterrichtsstunden pro Woche und Erfahrung mit der Klasse. Um die Lehrkräfte mit den Materialien vertraut zu machen, erhielten sie eine Kopie der eingesetzten Tests und Fragebögen. Die Mathematikleistung wurde mittels direkter Messung beurteilt: Wie viele der 35 Aufgaben des Mathematiktests löst der Schüler/ die Schülerin richtig? Die Schülermerkmale Konzentration, Arbeitsverhalten, Empathie und prosoziales Verhalten bewerteten die Lehrkräfte indirekt im Vergleich zu Schülerinnen und Schülern desselben Alters auf einer siebenstufigen Likert-Skala (z. B. Bitte schätzen Sie folgende Merkmale des Schülers im Vergleich zu anderen Schülern im selben Alter ein; 0 = sehr viel schlechter bis 6 = sehr viel besser). Ablauf Die Untersuchung wurde vom Bayerischen Staatsministerium für Bildung und Kultus, Wissenschaft und Kunst genehmigt und von geschulten Testleitern im Klassenverband durchgeführt. Die Teilnahme war freiwillig und erfolgte mit dem Einverständnis der Eltern. Die Datenerhebung fand gegen Ende des ersten Schulhalbjahres statt und dauerte zwei Schulstunden. In der ersten Stunde bearbeiteten die Schülerinnen und Schüler den standardisierten Mathematikleistungstest. Nach einer Pause wurde in der zweiten Stunde der Konzentrationstest durchgeführt. Anschließend füllten die Schülerinnen und Schüler die Selbstbeschreibungsbögen zum Arbeits- und Sozialverhalten aus. Die Lehrkräfte konnten ihren Fragebogen ohne zeitliche Vorgaben in oder außerhalb der Klasse ausfüllen. Im Schnitt nahmen die Einschätzungen etwa 50 Minuten in Anspruch. Nach Abschluss der Untersuchung erhielten die Lehrkräfte eine Rückmeldung über die Genauigkeit ihrer Einschätzungen sowie über das Abschneiden ihrer Klasse in den Tests und Fragebögen. Statistische Analysen Pearson-Korrelationen zwischen Lehrkrafturteil und Schülermerkmal wurden klassenweise berechnet und Fisher-z-transformiert. Die Rücktransformation des gemittelten Fisher-z-Wertes generierte die Rangkomponente. Die Niveaukomponente wurde als Differenz zwischen Lehrkrafturteil und Schülerleistung ermittelt. Bei einer Leistungsüberschätzung resultieren Werte größer 0, bei einer Unterschätzung Werte kleiner 0. Die Differenzierungskomponente ergibt sich aus der Streuung der Lehrkrafturteile geteilt durch die Streuung der Schülerwerte im Mathematiktest. Werte größer 1 indizieren eine Überschätzung, Werte kleiner 1 eine Unterschätzung der Leistungsunterschiede. Mittels t-Tests für eine Stichprobe wurden die Werte der Niveaukomponente gegen 0 und die der Differenzierungskomponente gegen 1 getestet. Zur Überprüfung, ob die Merkmale Konzentration, Arbeits- und Sozialverhalten schlechter als die Testleistung eingeschätzt werden, wurde der Fisher-z-Test eingesetzt. Mehrebenenanalysen mit HLM 7.01 wurden berechnet, um herauszufinden, ob unter Kontrolle des entsprechenden Schülermerkmals Lehrkrafturteile mit Merkmalen der Lehrkraft zusammenhängen (Raudenbush, Bryk & Congdon, 2013). Ebene 1 umfasste Schülermerkmale und Lehr- Lehrkrafteinschätzungen des Arbeits- und Sozialverhaltens 211 krafturteile, Ebene 2 Lehrkraftcharakteristika. Als abhängige Variablen wurden die Lehrkrafturteile aufgenommen. Prädiktoren waren die entsprechenden Schüler- und Lehrkraftmerkmale. Des Weiteren wurden multiple lineare Regressionsanalysen durchgeführt, um Zusammenhänge der Lehrkrafturteile unter Kontrolle des entsprechenden Schülermerkmals mit urteilsirrelevanten Informationen zu prüfen. Zur Berücksichtigung der Mehrebenenstruktur wurde die Berechnung in Mplus 7.31 durchgeführt (Muthén & Muthén, 2015). Multikollinearitätsprobleme traten nicht auf, da die Toleranzwerte nicht unter 0.25 und die VIF-Werte nicht über 5.0 lagen (Urban & Mayerl, 2006). Ergebnisse Anhand der deskriptiven Analysen in Tabelle 1 wird ersichtlich, dass die Lehrkrafteinschätzungen stärker miteinander zusammenhängen als die Schülermerkmale untereinander. Außer den Beurteilungen von Testleistung und prosozialem Verhalten korrelierten alle Lehrkrafteinschätzungen signifikant miteinander. Bei den Schülerangaben korrelierten Testleistung und Konzentration hingegen nicht statistisch signifikant mit dem Arbeits- und Sozialverhalten. Im Hinblick auf die erste Fragestellung zeigt die Rangkomponente in Tabelle 2, dass das Lehrkrafturteil zur Testleistung und die tatsächliche Schülerleistung nur mäßig übereinstimmen. Die Spannweite der Korrelationen verdeutlicht, dass nicht jede Lehrkraft die Schülerleistung genau einschätzen konnte. Geringere Zusammenhänge zwischen Lehrkrafturteil und Schülermerkmal im Vergleich zur Testleistung zeigten sich für Konzentration (z = 2.86, p < .01), Arbeitsverhalten (z = 2.00, p < .05), Empathie (z = 3.56, p < .001) und prosoziales Verhalten (z = 3.83, p < .001). Die Niveaukomponente in Tabelle 2 indiziert, dass die Lehrkräfte die Testleistungen ihrer Schülerinnen und Schüler signifikant überschätzten, t(16) = 5.17, p < .001. Die Differenzierungskomponente in Tabelle 2 zeigt dagegen, dass die Lehrkräfte die Streubreite der Schülerleistungen weitgehend realistisch einschätzten, da der Wert nicht signifikant vom Idealwert abweicht, t(16) = -.37, ns. Variable M SD (2) (3) (4) (5) (6) (7) (8) (9) (10) (1) Schülerinnen und Schüler - Testleistung 15.08 5.17 .32** -.05 -.02 -.04 .34** .31** .19** .08 -.04 (2) Schülerinnen und Schüler - Konzentration 133.06 167.37 - .04 -.04 -.02 .19** .20** .19** -.01 -.02 (3) Schülerinnen und Schüler - Arbeitsverhalten 2.47 0.28 - .24** .27** .12* .21** .28** .19** .16** (4) Schülerinnen und Schüler - Empathie 2.95 0.82 - .49** -.04 .02 .15** .18** .14** (5) Schülerinnen und Schüler - Prosoziales Verhalten 3.11 0.65 - -.01 .07 .15** .20** .20** (6) Lehrkraft - Testleistung 19.40 5.50 - .68** .49** .15** .03 (7) Lehrkraft - Konzentration 3.28 1.49 - .73** .44** .26** (8) Lehrkraft - Arbeitsverhalten 3.55 1.49 - .57** .44** (9) Lehrkraft - Empathie 3.53 1.13 - .66** (10) Lehrkraft - Prosoziales Verhalten 3.82 1.15 - Tab. 1: Deskriptive Statistiken und Interkorrelationen der Schülermerkmale (N = 357) und Lehrkrafturteile (N = 17) Anmerkungen: * p < .05. ** p < .01. 212 Justine Stang, Detlef Urhahne Mehrebenenanalysen wurden berechnet, um zu prüfen, ob die Lehrkrafteinschätzungen mit Lehrkraftmerkmalen zusammenhängen. Die Werte der im Nullmodell berechneten Intraklassenkorrelationen (ICCs) lagen zwischen 0.03 und 0.26. Weder Alter, Geschlecht noch die Berufserfahrung der Lehrkräfte hingen mit den Lehrkrafteinschätzungen der jeweiligen Schülermerkmale zusammen. Aufgrund methodischer Einschränkungen wird auf eine ausführliche Erläuterung der einzelnen Befunde verzichtet. Im Hinblick auf die zweite Fragestellung konnten durch Hinzunahme weiterer Lehrkrafteinschätzungen unter Kontrolle des entsprechenden Schülermerkmals zusätzlich zwischen 40 und 64 % der Varianz der jeweiligen Lehrkrafteinschätzung aufgeklärt werden (vgl. Tab. 3). Das Lehrkrafturteil zur Testleistung wurde durch die tatsächliche Schülertestleistung sowie durch die Konzentrations- und Empathieeinschätzung bestimmt. Das Lehrkrafturteil zur Konzentration wurde durch die Lehrkrafteinschätzungen der Testleistung, des Arbeitsverhaltens und der Empathie vorhergesagt. Die Lehrkrafteinschätzung des Arbeitsverhaltens wurde durch das tatsächliche Arbeitsverhalten der Schülerinnen und Schüler sowie durch alle weiteren Lehrkrafteinschätzungen bestimmt. Die Lehrkrafteinschätzungen der Testleistung, der Konzentration sowie des Arbeitsverhaltens und prosozialen Verhaltens wurden bei der Lehrkrafteinschätzung zur Empathie signifikant. Das Lehrkrafturteil zum prosozialen Verhalten wurde durch die Einschätzung des Arbeitsverhaltens und der Empathie vorhergesagt. Im Hinblick auf die dritte Fragestellung konnten unter Kontrolle des entsprechenden Schülermerkmals durch Hinzunahme weiterer Schülermerkmale zusätzlich zwischen 2 und 12 % der Varianz der jeweiligen Lehrkrafteinschätzung aufgeklärt werden (vgl. Tab. 4). Bei der Lehrkrafteinschätzung der Testleistung wurden die Prädiktoren Testleistung und Arbeitsverhalten signifikant. Die Lehrkrafteinschätzung der Konzentration wurde durch die Testleistung und das Arbeitsverhalten der Schülerinnen und Schüler vorhergesagt. Die Einschätzung des Arbeitsverhaltens wurde vom Arbeitsverhalten der Schülerinnen und Schüler, der Testleistung und der Konzentration bestimmt. Die Lehrkrafteinschätzungen zur Empathie und zum prosozialen Verhalten wurden durch das Schülermerkmal Arbeitsverhalten prädiziert. Zusätzlich wurde die Lehrkrafteinschätzung zum prosozialen Verhalten durch das tatsächliche prosoziale Verhalten der Schülerinnen und Schüler vorhergesagt. Variable M SD Min Max Rangkomponente Testleistung Konzentration Arbeitsverhalten Empathie Prosoziales Verhalten .43** .24** .30** .19** .17** 0.22 0.16 0.25 0.25 0.30 -.15 .01 -.05 -.22 -.59 .67 .49 .69 .69 .53 Niveaukomponente Testleistung 4.31*** 6.17 0.00 14.14 Differenzierungskomponente Testleistung 0.98 0.24 0.60 1.54 Tab. 2: Genauigkeit der Lehrkrafturteile (N = 17) Anmerkungen: ** p < .01. *** p < .001. Lehrkrafteinschätzungen des Arbeits- und Sozialverhaltens 213 Testleistung Konzentration Arbeitsverhalten Empathie Prosoziales Verhalten Prädiktoren B SE R² B SE R² B SE R² B SE R² B SE R² Schritt 1 Testleistung Konzentration Arbeitsverhalten Empathie Prosoziales Verhalten 0.36*** - - - - 0.05 - - - - .11 - 0.02** - - - - 0.00 - - - .04 - - 1.49*** - - - - 0.28 - - .08 - - - 0.25** - - - - 0.07 - .03 - - - - 0.34*** - - - - 0.09 .04 Schritt 2 Testleistung Konzentration Arbeitsverhalten Empathie Prosoziales Verhalten 0.13** 2.39*** 0.45 -0.77* -0.39 0.04 0.21 0.23 0.27 0.24 .52 0.12*** 0.01 0.45*** 0.20** -0.07 0.01 0.00 0.04 0.06 0.05 .68 0.03* 0.52*** 0.50* 0.27*** 0.20** 0.01 0.05 0.18 0.06 0.06 .64 -0.03* 0.17** 0.19*** 0.09 0.48*** 0.01 0.05 0.04 0.05 0.04 .55 -0.02 -0.07 0.17** 0.58*** 0.10 0.01 0.05 0.05 0.05 0.07 .46 Tab. 3: Multiple Regressionen zur Vorhersage von Lehrkrafteinschätzungen durch weitere Lehrkrafteinschätzungen unter Kontrolle der tatsächlichen Ausprägung des entsprechenden Schülermerkmals Anmerkungen: Alle Änderungen in R² statistisch signifikant, p < .001. Schritt 2 umfasst das korrespondierende Schülermerkmal sowie die Lehrkrafteinschätzungen der anderen Merkmale. Schülerkonzentration wurde z-standardisiert. * p < .05. ** p < .01. *** p < .001. 214 Justine Stang, Detlef Urhahne Testleistung Konzentration Arbeitsverhalten Empathie Prosoziales Verhalten Prädiktoren B SE R² B SE R² B SE R² B SE R² B SE R² Schritt 1 Testleistung Konzentration Arbeitsverhalten Empathie Prosoziales Verhalten 0.36*** - - - - 0.05 - - - - .11 - 0.02*** - - - - 0.00 - - - .04 - - 1.48*** - - - - 0.28 - - .08 - - - 0.25** - - - - 0.07 - .03 - - - - 0.34*** - - - - 0.09 .04 Schritt 2 Testleistung Konzentration Arbeitsverhalten Empathie Prosoziales Verhalten 0.34*** 0.02 2.94* -0.46 0.03 0.06 0.00 1.03 0.39 0.49 .14 0.08*** 0.01 1.15*** -0.09 0.12 0.02 0.00 0.28 0.10 0.13 .16 0.05** 0.01* 1.32*** 0.13 0.14 0.02 0.00 0.28 0.11 0.13 .14 0.02 0.01 0.60* 0.12 0.20 0.01 0.00 0.22 0.08 0.11 .08 -0.01 0.00 0.47* 0.06 0.25* 0.02 0.01 0.23 0.09 0.11 .05 Tab. 4: Multiple Regressionen zur Vorhersage von Lehrkrafteinschätzungen durch weitere Schülermerkmale unter Kontrolle der tatsächlichen Ausprägung des entsprechenden Schülermerkmals Anmerkungen: Signifikante Änderungen in R²: Konzentration und Arbeitsverhalten, p < .001, Testleistung und Empathie, p < .05. Schülerkonzentration wurde z-standardisiert. * p < .05. ** p < .01. *** p < .001. Lehrkrafteinschätzungen des Arbeits- und Sozialverhaltens 215 Diskussion Im Fokus dieser Arbeit stand die diagnostische Kompetenz von Lehrkräften hinsichtlich des mathematischen Leistungsniveaus und weniger stark beforschter Schülermerkmale, wie Konzentration, Arbeits- und Sozialverhalten. Die Bedeutung der Erforschung dieser Aspekte ergibt sich aus den geltenden Bildungszielen der Bundesländer, die zusätzlich zur Förderung des Wissenszuwachses auch die Förderung des Arbeits- und Sozialverhaltens vorsehen. Im Kontrast zu metaanalytischen Befunden (Hoge & Coladarci, 1989; Südkamp et al., 2012) wiesen das Lehrkrafturteil und die tatsächliche Schülerleistung nur eine mäßige Übereinstimmung auf. Dies könnte dadurch zu erklären sein, dass die Lehrkräfte die Schülerinnen und Schüler erst seit ungefähr drei Monaten kannten und somit noch nicht genügend Informationen über ihre Fähigkeiten sammeln konnten. Zudem kann nicht erwartet werden, dass Lehrkräfte bei einem ihnen nicht bekannten Leistungstest vollkommen akkurate Urteile abgeben. Insgesamt betrachtet gab es ähnlich wie bei Helmke und Schrader (1987) starke interindividuelle Unterschiede in der Genauigkeit der Einschätzungen. Nicht-leistungsbezogene Schülermerkmale, wie Konzentration, Arbeits- und Sozialverhalten, wurden hypothesenkonform und früheren Forschungsbefunden entsprechend weniger genau eingeschätzt als die Schülerleistung (Frey, 2013; Spinath, 2005; Urhahne et al., 2010). Diese Diskrepanz könnte z.T. durch den Einsatz direkter Messung bei der Leistung und indirekter Messung bei den anderen Merkmalen erklärbar sein, da direkte Messungen etwas genauer sind (Hoge & Coladarci, 1989). Allerdings lagen den Lehrkräften sowohl für die Einschätzung der Mathematikleistung als auch für die Bewertung der anderen Merkmale exakte Informationen vor, wodurch eine höhere Akkuratheit möglich gewesen wäre (Demaray & Elliot, 1998; Feinberg & Shapiro, 2003). Ferner wurde das Arbeits- und Sozialverhalten der Schülerinnen und Schüler per Selbstbericht erfasst. Bei dieser subjektiven Selbsteinschätzung könnte das Problem sozialer Erwünschtheit bestehen, weshalb die Korrelationen geringer ausgefallen sein könnten. Zudem können die Schülerinnen und Schüler beim Selbstbericht auf ihr Erleben und Verhalten zurückgreifen, wohingegen den Lehrkräften als Informationsquellen nur äußere Eindrücke zur Verfügung stehen. Auch können die Referenzmaßstäbe von Schülerinnen bzw. Schülern und Lehrkräften auseinandergehen, wodurch es zu Abweichungen zwischen Lehrkraft- und Schülerselbsteinschätzung kommen kann. Zudem sind Lehrkräfte nicht professionell trainiert, auf diese Aspekte zu fokussieren. Lehrkräfte überschätzten die Schülerleistung signifikant. Dieser Befund steht in Einklang mit der bisherigen Forschung (Urhahne et al., 2010; Zhu & Urhahne, 2015). Möglicherweise schätzten die Lehrkräfte nicht die reale, sondern die potenzielle Leistungsfähigkeit der Schülerinnen und Schüler ein, da sie Möglichkeiten übersahen, in dem Mathematiktest Fehler zu machen. Die Differenzierungskomponente indiziert indes, dass Leistungsunterschiede zwischen den Schülerinnen und Schülern relativ akkurat eingeschätzt wurden (z. B. Südkamp et al., 2008). Weder Alter, Geschlecht noch Berufserfahrung der Lehrkräfte standen in Zusammenhang mit den Lehrkrafturteilen (Dicke et al., 2012; Praetorius et al., 2011; Südkamp et al., 2012). Die Ergebnisse müssen mit Vorsicht betrachtet werden, da sowohl der kleine Stichprobenumfang auf Ebene 2 als auch die Größen der ICCs zu verzerrten Schätzungen des Standardfehlers geführt haben könnten (Maas & Hox, 2005). Um Schlussfolgerungen ziehen zu können, müsste die Untersuchung anhand einer größeren Stichprobe repliziert werden. Hoge und Coladarci (1989) betonen zwar, dass Lehrkraftvariablen relevante Einflussvariablen darstellen, doch wirkliche Belege für diese Annahme sind rar. Zukünftige Forschung sollte sich besser auf andere Lehrkraftmerkmale, wie Motivation, Interesse an der Studienteilnahme oder kognitive Fähigkeiten, richten. Lehrkräfte ließen sich bei der Bewertung der Testleistung und der nicht-leistungsbezogenen Schülermerkmale auch von anderen Merkmal- 216 Justine Stang, Detlef Urhahne seinschätzungen leiten. So wurde z. B. die Einschätzung der Testleistung neben der tatsächlichen Schülertestleistung auch von anderen Lehrkrafteinschätzungen bestimmt: Die Einschätzung eines hohen Konzentrationsvermögens ging mit einer höheren Angabe richtig gelöster Mathematikaufgaben einher. Dies überrascht nicht, da ein gutes Konzentrationsvermögen Voraussetzung guter schulischer Leistung ist (Keller, 1993 a). Den Lehrkräften waren zudem die Aufgaben des Konzentrationstests bekannt, welche mathematisches Können suggeriert haben könnten. Daher könnte der Zusammenhang auch durch die inhaltliche Nähe des Mathematikleistungs- und Konzentrationstests zustande gekommen sein. Bei dem Prädiktor Empathie ergab sich ein negatives b -Gewicht. Aufgrund dessen, dass Konzentration ein starker Prädiktor und stärker als Empathie mit Leistung korreliert ist, könnte sich ein Suppressoreffekt ergeben haben, woraus das negative Vorzeichen resultiert. Für sich allein stellt Empathie einen signifikant positiven Prädiktor dar, was in Einklang mit der bisherigen Forschung zu Sozialverhalten und Schulleistung steht (z. B. Malecki & Elliott, 2002). Die weiteren Merkmalseinschätzungen waren für die Beurteilung der Mathematikleistung nicht prädiktiv. Dies könnte daran liegen, dass für die Lehrkräfte diese Merkmale nicht mit der Mathematikleistung in einem gedanklichen Zusammenhang stehen. Allgemein wurden zur Urteilsgenerierung jene Merkmalseinschätzungen herangezogen, die mit dem eingeschätzten Merkmal assoziiert zu sein scheinen. Die Lehrkrafturteile zur Testleistung und zum Arbeitsverhalten wurden auch von dem tatsächlichen Schülermerkmal prädiziert. Bei der Einschätzung der Konzentration und des Sozialverhaltens war das tatsächliche Schülermerkmal nicht mehr prädiktiv, sobald die weiteren Lehrkrafteinschätzungen aufgenommen wurden. Dies könnte daran liegen, dass diese Merkmale für die Lehrkraft schwieriger einzuschätzen sind. Anhand der Analysen wird zudem klar, dass die Kausalrichtung nicht eindeutig ist. Um Aussagen über die Kausalität treffen zu können, müssten im Längsschnitt erhobene Daten verfügbar sein. Eine potenzielle Ursache dafür, dass Lehrkräfte sich von anderen Merkmalseinschätzungen leiten ließen, könnte im logischen Fehler liegen. Eine weitere Erklärungsmöglichkeit ist der Halo-Effekt. Die Tendenz eines Halo-Effektes spiegelt sich zudem in den Interkorrelationen wider: Die unterschiedlichen Lehrkrafturteile hingen stärker miteinander zusammen als die Angaben der Schülerinnen und Schüler. Eine weitere Möglichkeit für die Hinzunahme nicht urteilsrelevanter Informationen könnte der vergleichsweise kurze Zeitraum des Unterrichtens in der Klasse sein. Lehrkräfte ließen sich bei der Beurteilung der Testleistung und der nicht-leistungsbezogenen Schülermerkmale z.T. von dem zu beurteilenden Schülermerkmal, aber auch von weiteren Schülermerkmalen leiten. So zeigte sich z. B. bei der Leistungsbewertung, dass diese neben der Testleistung zusätzlich durch das Schülermerkmal Arbeitsverhalten vorhergesagt wurde. Dies kann damit erklärt werden, dass auch empirisch ein Zusammenhang zwischen der Leistungsstärke der Schülerinnen und Schüler und der Ausprägung des Arbeitsverhaltens besteht (Keller, 1993 a). Für Lehrkräfte ist das Arbeitsverhalten ein relevantes Merkmal bei der Notengebung. Neben der Schülerleistung wird beispielsweise auch die Anstrengung der Schülerinnen und Schüler berücksichtigt (Hochweber, Hosenfeld & Klieme, 2014; McMillan, 2001), weshalb zwischen der Mathematiknote und dem Lernverhalten von Schülerinnen und Schülern ein Zusammenhang besteht (Lohbeck et al., 2014). Im Gegensatz zur multiplen Regression zur Vorhersage der Leistungseinschätzung durch weitere Lehrkrafteinschätzungen wurde bei der Vorhersage durch weitere Schülermerkmale Konzentration als Prädiktor von Testleistung nicht signifikant. Dies könnte daran liegen, dass die Vorhersagekraft des Prädiktors Konzentration in die der Testleistung eingeflossen ist, da auf Schülerebene Konzentration am stärksten mit der Testleistung korreliert ist. Allgemein scheinen bei der Urteilsgenerierung jene Schülermerkmale herangezogen worden zu sein, welche mit dem einzuschätzenden Merkmal asso- Lehrkrafteinschätzungen des Arbeits- und Sozialverhaltens 217 ziiert sind. Als potenzielle Erklärungsansätze gelten ebenfalls der Halo-Effekt und der kurze Zeitraum des Kennens der Klasse. Bei der Vorhersage von Lehrkrafteinschätzungen wird durch die Hinzunahme weiterer Lehrkrafteinschätzungen mehr Varianz aufgeklärt als durch weitere Schülermerkmale. Dieses deutet darauf hin, dass sich Lehrkräfte bei den Merkmalseinschätzungen stärker von ihren subjektiven Eindrücken als von den tatsächlichen Schülermerkmalen bzw. des Zusammenhangs zwischen ihnen leiten lassen. Wie bereits erwähnt, liegen den Lehrkräften nur wenige greifbare Informationen über Schülerinnen und Schüler vor, weswegen sie bei der Einschätzung der verschiedenen Schülermerkmale stärker ihrer Wahrnehmung statt dem tatsächlichen Schülerverhalten vertrauen. Zudem ist bekannt, dass nicht immer eindeutige Verhaltensindikatoren von einzuschätzenden Schülermerkmalen vorliegen (Kenny & West, 2010). Dementsprechend ist nachvollziehbar, dass bei der Vorhersage der verschiedenen Lehrkrafteinschätzungen z.T. unterschiedliche weitere Lehrkrafteinschätzungen und Schülermerkmale signifikant wurden. Die Unterschiede spiegeln sich auch in den Interkorrelationen wider und lassen auf Urteilsfehler schließen. Aus den Ergebnissen und Einschränkungen der Arbeit ergeben sich Implikationen für Forschung und Praxis. Für die Forschung erbringen die Ergebnisse Hinweise, wie gut Lehrkräfte die Merkmale Konzentration, Arbeits- und Sozialverhalten einschätzen können. Auch erbringen sie Hinweise auf potenzielle Variablen, die mit Lehrkrafturteilen zusammenhängen können. Zukünftige Forschung sollte die Ergebnisse replizieren und erweitern. Ein damit einhergehendes Desiderat ist die Erhebung zu mehreren Messzeitpunkten, welche Rückschlüsse über die Veränderbarkeit von Lehrkrafturteilen über die Zeit und über die Kausalität ermöglichen würden. Unter Verwendung einer größeren Stichprobe könnten zudem statistische Probleme gemindert werden, da bei geringen Stichprobengrößen kleinere Effekte eher unentdeckt bleiben, die externe Validität eingeschränkt ist und es zu verzerrten Schätzungen des Standardfehlers kommen kann. Die Fragen, welche Faktoren die starken interindividuellen Unterschiede in der Urteilsgenauigkeit von Lehrkräften erklären können und welche urteilsirrelevanten Informationen mit dem Lehrkrafturteil zusammenhängen, bleiben bestehen. Hier sollten weitere Studien ansetzen, um einen größeren Anteil an unerklärter Varianz aufklären zu können. Dadurch, dass große interindividuelle Unterschiede in der Genauigkeit von Lehrkrafturteilen bestehen und die Übereinstimmung der Angaben von Lehrkraft und Schülerinnen bzw. Schülern bei nicht-leistungsbezogenen Schülermerkmalen mäßig ausfiel, ergibt sich für die Praxis folgendes Desiderat: die Konstruktion eines Trainings zur Steigerung der diagnostischen Kompetenz, welches im Rahmen von Aus- oder Weiterbildung implementiert werden könnte. Im Sinne des Frame-of- Reference-Trainings (Lohaus, 2009) könnten ein einheitlicher Bezugsrahmen zur Beurteilung von nicht-leistungsbezogenen Schülermerkmalen erstellt und Indikatoren gemeinsam erarbeitet werden. Die tendenzielle Verzerrung der Urteile durch Hinzunahme urteilsirrelevanter Informationen verdeutlicht, wie wichtig es ist, zu thematisieren, wie Urteile generiert werden und welche Urteilsfehler zum Tragen kommen können. Die Forderung der Verbesserung der diagnostischen Kompetenz ergibt sich auch aus dem Wunsch nach Fairness von Lehrkraftbeurteilungen. Gerechtigkeit hat in der Schule einen hohen Stellenwert und Lehrkräfte sind um faire Urteile bemüht (Dalbert, Schneidewind & Saal-bach, 2007). Die Leistungsbeurteilung, aber auch die Bewertung von Konzentration, Arbeits- und Sozialverhalten sollte demnach valide sein. Die Vergabe von Kopfnoten, die Erstellung von Empfehlungsschreiben für Schülerstipendien oder die durch Schulgesetze und Kultusministerkonferenz geforderte Förderung des Arbeits- und Sozialverhaltens (Kultusministerkonferenz, 2005) setzen eine akkurate Diagnostik der Schülermerkmale voraus, wodurch die Notwendigkeit einer vermehrten Berücksichtigung diagnostischer Aspekte in Aus- und Weiterbildung sowie die Bedeutung der Erforschung dieser Merkmale 218 Justine Stang, Detlef Urhahne nachdrücklich erkennbar werden. Für eine faire Beurteilung des Arbeits- und Sozialverhaltens, um Bevorzugungen oder Benachteiligungen zu umgehen, ergibt sich für die schulische Praxis die Implikation, das Urteil anhand objektiver, reliabler und valider Instrumentarien zu fällen oder das Lehrpersonal im Hinblick auf die Bewertung dieser Merkmale eingehend zu schulen. Literatur Artelt, C. & Gräsel, C. (2009). Diagnostische Kompetenz von Lehrkräften. Zeitschrift für Pädagogische Psychologie, 23, 157 - 160. http: / / dx.doi.org/ 10.1024/ 1010- 0652.23.34.157 Blöschl, L. (1966). BTS, HAWIK und schulisches Arbeitsverhalten. Diagnostica, 12, 47 - 52. Brickenkamp, R. & Karl, G. A. (1986). Geräte zur Messung von Aufmerksamkeit, Konzentration und Vigilanz. In R. Brickenkamp (Hrsg.), Handbuch apparativer Verfahren in der Psychologie (S. 195 - 211). Göttingen: Hogrefe. Caldarella, P. & Merrell, K. W. (1997). Common dimensions of social skills of children and adolescents: A taxonomy of positive behaviours. School Psychology Review, 26, 264 - 278. Credé, M. & Kuncel, N. R. (2008). Study habits, skills, and attitudes. The third pillar supporting collegiate academic performance. Perspectives on Psychological Science, 3, 425 - 453. http: / / dx.doi.org/ 10.1111/ j.1745-6924. 2008.00089.x Dalbert, C., Schneidewind, U. & Saalbach, A. (2007). Justice judgments concerning grading in school. Contemporary Educational Psychology, 32, 420 - 433. http: / / dx. doi.org/ 10.1016/ j.cedpsych.2006.05.003 Demaray, M. K. & Elliot, S. N. (1998). Teachers’ judgments of students’ academic functioning: A comparison of actual and predicted performances. School Psychology Quarterly, 13, 8 - 24. http: / / dx.doi.org/ 10.1037/ h0088969 Dicke, A.-L., Lüdtke, O., Trautwein, U., Nagy, G. & Nagy, N. (2012). Judging students’ achievement goal orientations: Are teacher ratings accurate? Learning and Individual Differences, 22, 844 - 849. http: / / dx.doi.org/ 10. 1016/ j.lindif.2012.04.004 Düker, H., Lienert, G. A., Lukesch, H. & Mayrhofer, S. (2001). Konzentrations-Leistungs-Test - Revidierte Fassung (KLT-R). Göttingen: Hogrefe. Feinberg, A. B. & Shapiro, E. S. (2003). Accuracy of teacher judgments in predicting oral reading fluency. School Psychology Quarterly, 18, 52 - 65. http: / / dx.doi.org/ 10. 1521/ scpq.18.1.52.20876 Frey, K. A. (2013). Soziale Kompetenz. Eine Fragebogenerfassung in der Grundschule. Münster: Waxmann. Gölitz, D., Roick, T. & Hasselhorn, M. (2006). DEMAT 4 - Deutscher Mathematiktest für vierte Klassen. Göttingen: Beltz. Götz, L., Lingel, K. & Schneider, W. (2013). DEMAT 5 - Deutscher Mathematiktest für fünfte Klassen. Göttingen: Beltz. Helmke, A. (2009). Unterrichtsqualität und Lehrerprofessionalität: Diagnose, Evaluation und Verbesserung des Unterrichts. Seelze-Velber: Klett-Kallmeyer. Helmke, A. & Schrader, F.-W. (1987). Interactional effects of instructional quality and teacher judgement accuracy on achievement. Teaching and Teacher Education, 3, 91 - 98. http: / / dx.doi.org/ 10.1016/ 0742-051X(87)90 010-2 Hochweber, J., Hosenfeld, I. & Klieme, E. (2014). Classroom composition, classroom management, and the relationship between student attributes and grades. Journal of Educational Psycholog y, 106, 289 - 300. http: / / dx.doi.org/ 10.1037/ a0033829 Hoge, R. D. & Coladarci, T. (1989). Teacher-based judgment of academic achievement: A review of literature. Review of Educational Research, 59, 297 - 313. http: / / dx.doi.org/ 10.3102/ 00346543059003297 Holz-Ebeling, F. (2010). Arbeitsverhalten und Arbeitsprobleme. In D. H. Rost (Hrsg.), Handwörterbuch Pädagogische Psychologie (4. Aufl., S. 29 - 38). Weinheim: Beltz. Jurkowski, S. & Hänze, M. (2010). Soziale Kompetenz, transaktives Interaktionsverhalten und Lernerfolg: Experimenteller Vergleich zweier unterschiedlich gestalteter Gruppenunterrichtsbedingungen und Evaluation eines transaktivitätsbezogenen Kooperationsskriptes. Zeitschrift für Pädagogische Psychologie, 24, 241 - 257. http: / / dx.doi.org/ 10.1024/ 1010-0652/ a00 0020 Kaiser, J., Möller, J., Helm, F. & Kunter, M. (2015). Das Schülerinventar: Welche Schülermerkmale die Leistungsurteile von Lehrkräften beeinflussen. Zeitschrift für Erziehungswissenschaft, 18, 1 - 24. http: / / dx.doi.org/ 10.1007/ s11618-015-0619-5 Kaiser, J., Retelsdorf, J., Südkamp, A. & Möller, J. (2013). Achievement and engagement: How student characteristics influence teacher judgments. Learning and Instruction, 28, 73 - 84. http: / / dx.doi.org/ 10.1016/ j. learninstruc.2013.06.001 Keller, G. (1993 a). Das Lern- und Arbeitsverhalten leistungsstarker und leistungsschwacher Schüler. Psychologie in Erziehung und Unterricht, 40, 125 - 129. Keller, G. (1993 b). Veränderungen im Lern- und Arbeitsverhalten von Kindern und Jugendlichen. Pädagogische Welt, 47, 259 - 261. Keller, G. & Thiel, R.-D. (1998). Lern- und Verhaltensinventar (LAVI). Hogrefe: Göttingen. Kenny, D. A. & West, T. V. (2010). Similarity and agreement in selfand other perception: A meta-analysis. Personality and Social Psychology Review, 14, 196 - 213. http: / / dx.doi.org/ 10.1177/ 1088868309353414 Kultusministerkonferenz. (2005). Bildungsstandards der Kultusministerkonferenz. Erläuterungen zur Konzeption und Entwicklung. München: Luchterhand. Laidra, K., Allik, J., Harro, M., Merenäkk, L. & Harro, J. (2006). Agreement among adolescents, parents, and teachers on adolescent personality. Assessment, 13, 187 - 196. http: / / dx.doi.org/ 10.1177/ 1073191106287125 Lohaus, D. (2009). Leistungsbeurteilung. Göttingen: Hogrefe. Lohbeck, A., Nitkowski, D., Petermann, F. & Petermann, U. (2014). Erfassung von Schülerselbsteinschätzungen zum schulbezogenen Sozial- und Lernverhalten - Validierung der Schülereinschätzliste für Sozial- und Lernverhalten (SSL). Zeitschrift für Erziehungswissenschaft, 17, 701 - 722. http: / / dx.doi.org/ 10.1007/ s116 18-014-0582-6 Lohbeck, A., Petermann, F. & Petermann, U. (2015). Selbsteinschätzungen zum Sozial- und Lernverhalten von Grundschulkindern der vierten Jahrgangsstufe. Lehrkrafteinschätzungen des Arbeits- und Sozialverhaltens 219 Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 47, 1 - 13. http: / / dx.doi.org/ 10.1026/ 00 49-8637/ a000118 Maas, C. J. M. & Hox, J. J. (2005). Sufficient sample sizes for multilevel modeling. Methodology, 1, 86 - 92. http: / / dx.doi.org/ 10.1027/ 1614-2241.1.3.86 Malecki, C. K. & Elliot, S. N. (2002). Children’s social behaviors as predictors of academic achievement: A longitudinal analysis. School Psychology Quarterly, 17, 1 - 23. http: / / dx.doi.org/ 10.1521/ scpq.17.1.1.19902 Malti, T., Bayard, S. & Buchmann, M. (2008). Mitgefühl, soziales Verstehen und prosoziales Verhalten: Komponenten sozialer Handlungsfähigkeit in der Kindheit. In T. Malti & S. Perren (Hrsg.), Soziale Kompetenz bei Kindern und Jugendlichen: Entwicklungsprozesse und Förderungsmöglichkeiten (S. 52 - 69). Stuttgart: Kohlhammer. McElvany, N., Schroeder, S., Hachfeld, A., Baumert, J., Richter, T., Schnotz, W., … Ullrich, M. (2009). Diagnostische Fähigkeiten von Lehrkräften bei der Einschätzung von Schülerleistungen und Aufgabenschwierigkeiten bei Lernmedien mit instruktionalen Bildern. Zeitschrift für Pädagogische Psychologie, 23, 223 - 235. http: / / dx.doi.org/ 10.1024/ 1010-0652.23.34.223 McMillan, J. H. (2001). Secondary teachers’ classroom assessment and grading practices. Educational Measurement: Issues and Practice, 20, 20 - 32. http: / / dx.doi.org/ 10.1111/ j.1745-3992.2001.tb00055.x Muthén, L. K. & Muthén, B. O. (2015). Mplus 7.31 (computer software). Los Angeles, CA: Muthén & Muthén. Neber, H. (2004). Lehrernominierungen für ein Enrichment-Programm als Beispiel für die Talentsuche in der gymnasialen Oberstufe. Psychologie in Erziehung und Unterricht, 51, 24 - 39. Praetorius, A.-K., Berner, V.-D., Zeinz, H., Scheunpflug, A. & Dresel, M. (2013). Judgment confidence and judgment accuracy of teachers in judging self-concepts of students. Journal of Educational Research, 106, 64 - 76. http: / / dx.doi.org/ 10.1080/ 00220671.2012.667010 Praetorius, A.-K., Karst, K., Dickhäuser, O. & Lipowsky, F. (2011). Wie gut schätzen Lehrer die Fähigkeitsselbstkonzepte ihrer Schüler ein? Zur diagnostischen Kompetenz von Lehrkräften. Psychologie in Erziehung und Unterricht, 58, 81 - 91. http: / / dx.doi.org/ 10.2378/ peu2011.art30d Raudenbush, S. W., Bryk, A. S. & Congdon, R. (2013). HLM 7.01 for Windows (computer software). Skokie, IL: Scientific Software International. Rindermann, H. (2014). Emotionale Kompetenz. In M. A. Wirtz (Hrsg.), Dorsch - Lexikon der Psychologie (17. Aufl., S. 438). Bern: Hans Huber. Schrader, F.-W. (1989). Diagnostische Kompetenzen von Lehrern und ihre Bedeutung für die Gestaltung und Effektivität des Unterrichts. Frankfurt a. M.: Peter Lang. Schrader, F.-W. & Helmke, A. (1987). Diagnostische Kompetenz von Lehrern: Komponenten und Wirkungen. Empirische Pädagogik, 1, 27 - 52. Schrader, F.-W. & Helmke, A. (1990). Lassen sich Lehrer bei der Leistungsbeurteilung von sachfremden Gesichtspunkten leiten? Eine Untersuchung zu Determinanten diagnostischer Lehrerurteile. Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 22, 312 - 324. Schrader, F.-W. & Helmke, A. (2001). Alltägliche Leistungsbeurteilung durch Lehrer. In F. E. Weinert (Hrsg.), Leistungsmessungen in Schulen (S. 45 - 58). Weinheim: Beltz. Spinath, B. (2005). Akkuratheit der Einschätzung von Schülermerkmalen durch Lehrer und das Konstrukt der diagnostischen Kompetenz. Zeitschrift für Pädagogische Psychologie, 19, 85 - 95. http: / / dx.doi.org/ 10.1024/ 10 10-0652.19.12.85 Südkamp, A., Kaiser, J. & Möller, J. (2012). Accuracy of teachers’ judgments of students’ academic achievement: A meta-analysis. Journal of Educational Psychology, 104, 743 - 762. http: / / dx.doi.org/ 10.1037/ a0027627 Südkamp, A., Möller, J. & Pohlmann, B. (2008). Der Simulierte Klassenraum: Eine experimentelle Untersuchung zur diagnostischen Kompetenz. Zeitschrift für Pädagogische Psychologie, 22, 261 - 276. http: / / dx.doi. org/ 10.1024/ 1010-0652.22.34.261 Ter Laak, J. F., DeGoede, M. & Brugman, G. (2001). Teacher’s judgements of pupils: Agreement and accuracy. Social Behavior and Personality, 29, 257 - 270. http: / / dx.doi.org/ 10.2224/ sbp.2001.29.3.257 Thorndike, E. L. (1920). A constant error on psychological rating. Journal of Applied Psychology, 4, 25 - 29. http: / / dx.doi.org/ 10.1037/ h0071663 Trautwein, U. & Baeriswyl, F. (2007). Wenn leistungsstarke Klassenkameraden ein Nachteil sind. Referenzgruppeneffekte bei Übertrittsentscheidungen. Zeitschrift für Pädagogische Psychologie, 21, 119 - 133. http: / / dx.doi. org/ 10.1024/ 1010-0652.21.2.119 Urban, D. & Mayerl, J. (2006). Regressionsanalyse: Theorie, Technik und Anwendung. Wiesbaden: VS Verlag für Sozialwissenschaften. Urhahne, D., Timm, O., Zhu, M. & Tang, M. (2013). Sind unterschätzte Schüler weniger leistungsmotiviert als überschätzte Schüler? Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 45, 34 - 43. http: / / dx.doi.org/ 10.1026/ 0049-8637/ a000079 Urhahne, D., Zhou, J., Stobbe, M., Chao, S.-H., Zhu, M. & Shi, J. (2010). Motivationale und affektive Merkmale unterschätzter Schüler. Ein Beitrag zur diagnostischen Kompetenz von Lehrkräften. Zeitschrift für Pädagogische Psychologie, 24, 275 - 288. http: / / dx.doi.org/ 10.1024/ 1010-0652/ a000021 Urhahne, D. & Zhu, M. (2015). Teacher judgement and student motivation. In C. Rubie-Davies, J. Stephens & P. Watson (Eds.), International handbook of social psychology of the classroom (pp. 304 - 315). London: Routledge. Welsh, M., Parke, R. D., Widaman, K. & O’Neil, R. (2001). Linkages between children’s social and academic competence: A longitudinal analysis. Journal of School Psychology, 39, 463 - 481. http: / / dx.doi.org/ 10.1016/ S00 22-4405(01)00084-X Wirtz, M. A. (2014). Logischer Fehler. In M. A. Wirtz (Hrsg.), Dorsch - Lexikon der Psychologie (17. Aufl., S. 975). Bern: Hans Huber. Zhu, M. & Urhahne, D. (2015). Teachers’ judgement of students’ foreign-language achievement. European Journal of Psychology of Education, 30, 21 - 39. http: / / dx.doi.org/ 10.1007/ s10212-014-0225-6 Justine Stang Prof. Dr. Detlef Urhahne Professur für Pädagogische Psychologie Innstraße 41 D-94032 Passau E-Mail: Justine.Stang@uni-passau.de E-Mail: Detlef.Urhahne@uni-passau.de
