Psychologie in Erziehung und Unterricht
3
0342-183X
Ernst Reinhardt Verlag, GmbH & Co. KG München
10.2378/peu2019.art21d
101
2019
664
Empirische Arbeit: Das Schülerinventar ASSET zur Beurteilung von Schülerarbeiten im Fach Englisch
101
2019
Thorben Jansen
Cristina Vögelin
Nils Machts
Stefan Keller
Jens Möller
Die psychologische Forschung zur Urteilsgenauigkeit, welche den Kern der diagnostischen Kompetenz darstellt, konzentrierte sich meist auf die Frage, wie gut Lehrkräfte in der Lage sind, Leistungen von Lernenden korrekt zu beurteilen. Oft werden dabei generische Merkmale analysiert und Fachspezifika vernachlässigt. In den vorliegenden Studien wird mit dem Schülerinventar ASSET ein digitales Instrument vorgestellt, mit dem die Beurteilung von englischsprachigen Lernertexten anhand fachdidaktisch begründeter Kriterien untersucht werden kann. Es wurden drei Experimente durchgeführt, in denen Probanden jeweils vier argumentative Essays anhand holistischer und analytischer Skalen beurteilten. Die Qualität der Texte wurde variiert und jedem Text ein Name zugeordnet, der das Geschlecht bzw. den Migrationshintergrund der Lernenden anzeigte. Unsere Ergebnisse zeigen, dass Probanden in ihren Urteilen klar zwischen Texten mit hoher und niedriger Qualität unterscheiden. In keiner der Studien wurden Unterschiede in der Beurteilung aufgrund der Namen der Lernenden gefunden. Diskutiert werden die Einsatzmöglichkeiten des Schülerinventars ASSET in experimentellen Studien und zu Ausbildungs- und Trainingszwecken im Lehramtsstudium.
3_066_2019_4_0006
n Empirische Arbeit Psychologie in Erziehung und Unterricht, 2019, 66, 303 -315 DOI 10.2378/ peu2019.art21d © Ernst Reinhardt Verlag München Basel Das Schülerinventar ASSET zur Beurteilung von Schülerarbeiten im Fach Englisch Drei experimentelle Studien zu Effekten der Textqualität und der Schülernamen Thorben Jansen 1 , Cristina Vögelin 2 , Nils Machts 1 , Stefan Keller 2 , Jens Möller 1 1 Christian-Albrechts-Universität zu Kiel 2 Pädagogische Hochschule FHNW Basel Zusammenfassung: Die psychologische Forschung zur Urteilsgenauigkeit, welche den Kern der diagnostischen Kompetenz darstellt, konzentrierte sich meist auf die Frage, wie gut Lehrkräfte in der Lage sind, Leistungen von Lernenden korrekt zu beurteilen. Oft werden dabei generische Merkmale analysiert und Fachspezifika vernachlässigt. In den vorliegenden Studien wird mit dem Schülerinventar ASSET ein digitales Instrument vorgestellt, mit dem die Beurteilung von englischsprachigen Lernertexten anhand fachdidaktisch begründeter Kriterien untersucht werden kann. Es wurden drei Experimente durchgeführt, in denen Probanden jeweils vier argumentative Essays anhand holistischer und analytischer Skalen beurteilten. Die Qualität der Texte wurde variiert und jedem Text ein Name zugeordnet, der das Geschlecht bzw. den Migrationshintergrund der Lernenden anzeigte. Unsere Ergebnisse zeigen, dass Probanden in ihren Urteilen klar zwischen Texten mit hoher und niedriger Qualität unterscheiden. In keiner der Studien wurden Unterschiede in der Beurteilung aufgrund der Namen der Lernenden gefunden. Diskutiert werden die Einsatzmöglichkeiten des Schülerinventars ASSET in experimentellen Studien und zu Ausbildungs- und Trainingszwecken im Lehramtsstudium. Schlüsselbegriffe: Leistungsbeurteilung, Diagnostische Kompetenz, Textbeurteilung, Schülermerkmale, Schülerinventar The Student Inventory ASSET for Judging Students’ Performances in the Subject English: Three Experimental Studies on Effect of Text Quality and Student Names Summary: Judgment accuracy is an essential component of teachers’ diagnostic competence. Research on judgment accuracy typically focused on teachers’ ability to judge students’ performance correctly, investigating generic student characteristics, and little work has examined subject-specific factors influencing teacher judgments. This article introduces the digital research tool Student Inventory ASSET which enables empirical investigations of teachers’ assessments of authentic student texts. In three experiments, pre-service teachers assessed English argumentative essays using holistic and analytic rating scales. The given texts were either of high or low overall text quality and student names were randomly assigned to each text to vary student gender and apparent student ethnic group allocation. Results showed that participants were able to distinguish reliably between texts of high and low overall text quality. Student gender and ethnic group appeared to have no systematic influence. Potential applications of the Student Inventory ASSET in experimental studies and in teacher trainings are discussed. Keywords: Teacher judgments, diagnostic competence, writing assessment, student characteristics, Student Inventory 304 Thorben Jansen, Cristina Vögelin, Nils Machts, Stefan Keller, Jens Möller Die Beurteilung der Leistungen von Lernenden ist für jede Lehrkraft ein elementarer Bestandteil ihrer beruflichen Tätigkeit (Schrader, 2011). Die Beurteilungen erfüllen sowohl für die Lehrkräfte als auch für die Lernenden verschiedene Funktionen. Für die Schülerinnen und Schüler fungieren sie als Leistungsrückmeldung, für die Lehrkräfte dienen sie als Grundlage für die Unterrichtsgestaltung, wenn der Unterricht an den wahrgenommenen Kompetenzen der Schülerinnen und Schüler orientiert wird (Herppich et al., 2017). Zudem beeinflussen Lehrkrafturteile die Selbsteinschätzung der Schülerinnen und Schüler (Zimmermann, Möller & Köller, 2018) und sind integraler Teil eines guten Unterrichts (Elliot, Lee & Tollefson, 2001). Welche Faktoren die Genauigkeit von Lehrkrafturteilen zu Schülerleistungen beeinflussen, zeigt das heuristische Modell der Urteilsgenauigkeit nach Südkamp, Kaiser & Möller (2012). Das Modell unterscheidet Merkmale der Lehrkraft (z. B. Berufserfahrung, Bezugsnormorientierung), Merkmale des abzugebenden Urteils (z. B. Anzahl der Stufen auf einer Ratingskala, Spezifität der zu beurteilenden Domäne), Merkmale der Lernenden (z. B. Geschlecht, Leistung, Motivation, Alter) und Testmerkmale (z. B. Länge des Tests, Reliabilität des Tests). Wie diese Faktoren die Genauigkeit von Lehrkrafturteilen beeinflussen, kann anhand des Linsenmodells dargestellt werden (Brunswik, 1956). Das Modell nimmt an, dass sich Menschen diejenigen Eigenschaften ihrer Umwelt, die nicht direkt wahrnehmbar oder beobachtbar sind, durch Fokussierung auf wahrnehmbare Hinweisreize erschließen. Soll z. B. eine Lehrkraft eine Schülerleistung beurteilen, erschließt sich diese Beurteilung aus der Fokussierung wahrnehmbarer Merkmale. Diese Merkmale lassen sich in leistungsrelevante Merkmale, deren Berücksichtigung zu einem akkuraten Urteil beitragen (Leistungen in Prüfungen, Qualitätsmerkmale von Texten der Schülerinnen und Schüler), und leistungsirrelevante Merkmale, deren Berücksichtigung zu einem weniger akkuraten Urteil beitragen (Geschlecht, Minderheitenstatus), unterscheiden. Die Beeinflussung der Urteile von Lehrkräften durch leistungsirrelevante Informationen konnte bereits in zahlreichen Studien gezeigt werden (z. B. Kaiser, Südkamp & Möller, 2016; Karing, 2009; Stang & Urhahne, 2016). Allerdings zeigten Kaiser et al. (2016) für den Minderheitenstatus, dass dieser zu einem akkurateren Urteil führen kann. Die genannten Studien untersuchten den Einfluss von leistungsirrelevanten Informationen auf relativ globale Urteilsmaße wie Noten oder Fähigkeitseinschätzungen; Urteile zu fachspezifischen Leistungen wurden vernachlässigt. Gerade die Beurteilung spezifischer Leistungen, wie die kriteriengestützte Beurteilung eines Schülertextes, die sich an die konkrete Vermittlung von Fertigkeiten im Unterricht anschließt, ist aber der Regelfall schulischer Beurteilung. Die Beeinflussung dieser Textbeurteilung von Lehrkräften durch leistungsrelevante (siehe für eine Übersicht das Review von Barkaoui, 2007) und leistungsirrelevante Informationen (Birkel & Birkel, 2002; Weiss, 1965) wurde bereits gezeigt. In diesen Studien konnte jedoch nicht analysiert werden, welche leistungsirrelevanten Merkmale sich auf die Beurteilung auswirkten. Mit dem Schülerinventar ASSET wollen wir ein Instrument vorstellen, mit dem systematisch Determinanten der Textbeurteilung variiert und ihre Einflüsse auf die Beurteilung von Texten untersucht werden können. Zu Beginn untersuchen wir den Einfluss der Textqualität und der Schülernamen (und damit des Geschlechts und des Migrationshintergrunds der Lernenden) auf die Textbeurteilung. In großen Schulleistungsstudien zeigten sich in sprachlichen Fächern Unterschiede in Abhängigkeit vom Geschlecht und Migrationshintergrund: Mädchen zeigten sowohl in der Erstsprache (Bos et al., 2003; Coleman, 1997; Hartig & Jude, 2008) als auch in der Fremdsprache (Hartig & Jude, 2008) bessere Leistungen als Jungen. Diese Unterschiede zeigten sich besonders bei der Textproduktion und der Rechtschreibung (Hartig & Jude, 2008). Lernende ohne Migrationshintergrund zeigten bessere Leistungen als Lernende mit Migrationshintergrund (Stanat, Rauch & Segeritz, 2010). Schülerinventar ASSET zur Beurteilung von Schülerarbeiten 305 Die Ergebnisse der PISA-Studie 2006 zeigten für Deutschland, dass Lernende mit Migrationshintergrund und besonders jene mit türkischem Migrationshintergrund deutlich niedrigere Leistungen erreichten als Lernende ohne Migrationshintergrund (Walter & Taskinen, 2008). Im Zusammenhang mit diesen Leistungsunterschieden wurde unter anderem eine Benachteiligung von Lernenden aufgrund des Geschlechts und des Migrationshintergrundes vermutet. Zu einer Benachteiligung bei den Bewertungen durch Lehrkräfte gibt es bereits empirische Untersuchungen, allerdings mit divergierenden Ergebnissen. So fallen in manchen Studien die Beurteilungen der Leistungen von Mädchen bei Kontrolle der Leistungen positiver aus als die der Leistungen von Jungen (Ready & Wright, 2011), andere Studien fanden solche Unterschiede nicht (Hanna & Linden, 2009; Helwig, Anderson & Tindal, 2001; Karing, Matthäi & Artelt, 2011; Zhu & Urhahne, 2015). Bei Jackson (2016) wurden identische Texte, die einem Jungennamen zugeordnet wurden, sogar positiver bewertet als Texte, die einem Mädchennamen zugeordnet wurden. In mehreren Studien finden sich negative Effekte des Migrationshintergrundes von Lernenden auf die Beurteilungen der Leistungen, auch wenn die tatsächliche Leistung kontrolliert wurde (Arnold, Bos, Richert & Stubbe, 2006; Ditton, Krüsken & Schauenberg, 2005; Gresch, 2012; Lüdemann & Schwerdt, 2013). In Bezug auf die Textbeurteilung fand Van Ewijk (2011) allerdings keine Unterschiede in der Benotung der Texte aufgrund der Herkunft der Schülernamen, obwohl die Probanden negativere Leistungserwartungen an türkische und marokkanische Lernende hatten als an niederländische. In einem ähnlichen Experiment in Deutschland mit türkischen und deutschen Namen fand Sprietsma (2013), dass schlechtere Noten für Texte vergeben wurden, denen türkische Namen im Vergleich zu deutschen Namen zugeordnet wurden. Alle hier beschriebenen Studien verwendeten zur Textbeurteilung eine Notenskala und keine fachdidaktisch begründeten analytischen Beurteilungsskalen. Das Schülerinventar ASSET Das Schülerinventar ASSET (Möller & Keller, 2016; Vögelin, Keller & Fleckenstein, 2017) 1 ist eine Erweiterung des bereits in anderen Studien eingesetzten Schülerinventars (Kaiser, Möller, Helm & Kunter, 2015), das zur Beurteilung von schriftlichen Leistungen von Lernenden im Fach Englisch erweitert wurde. Das Schülerinventar basiert auf dem Programm LimeSurvey, einer freien Online-Umfrage-Applikation. Das Schülerinventar enthält Namen von Schülerinnen und Schülern einer simulierten Klasse und bietet die Möglichkeit, Informationen über Schüler, Texte und Unterrichtssituationen systematisch zu variieren. Entsprechend können sowohl leistungsrelevante als auch leistungsirrelevante Merkmalsinformationen dargeboten werden. Kaiser et al. (2015) präsentierten beispielsweise leistungsrelevante Informationen über mündliche und schriftliche Leistungen in Mathematik und leistungsirrelevante Informationen über das Geschlecht, die Intelligenz, die Leistungen in anderen Fächern, Hobbys und motivationale Variablen der Schülerinnen und Schüler. Dabei fanden sich über den Einfluss der leistungsrelevanten Informationen hinaus positive Effekte der Intelligenz, der Deutschnote und des Geschlechts (weiblich) auf die Mathematiknote. Informationen zu dem schulischen Selbstkonzept und zu dem familiären Hintergrund bewirkten dagegen keine Verzerrung der Beurteilungen. Die hier vorgestellte Erweiterung zum Schülerinventar ASSET erlaubt es, die Beurteilung englischsprachiger Essays von Lernenden zu untersuchen und dabei Einflüsse leistungsrelevanter und leistungsirrelevanter Merkmale zu analysieren. Das Schülerinventar ASSET besteht aus aufeinander aufbauenden HTML- Seiten, die nacheinander in einem Browser 1 ASSET (Assessing Students’ English Texts) ist der Titel des gemeinsamen SNF/ DFG-Projekts der Autorengruppe unter den Kürzeln 100019L_165483 P276-23 06-2 (SNF) und Mo648/ 25-1 (DFG). Wir danken den Förderorganisationen für die Unterstützung. 306 Thorben Jansen, Cristina Vögelin, Nils Machts, Stefan Keller, Jens Möller Abb. 1: Text und Bewertungskriterien im Schülerinventar ASSET. Schülerinventar ASSET zur Beurteilung von Schülerarbeiten 307 angezeigt werden und bei denen die Probanden durch Klicken auf einen „Weiter“-Button zur nächsten Seite gelangen. Auf der ersten Seite werden Informationen zum Schul- und Unterrichtskontext gezeigt, aus dem die Schüleressays stammen. Auf der zweiten Seite sehen die Probanden eine Übersicht zu Kriterien der Textbeurteilung (siehe Anhang). Auf der linken Bildschirmhälfte der dritten Seite stehen vier Namen der zu beurteilenden Schülerinnen und Schüler. Durch einen Klick auf den Namen wird das jeweilige Essay in einheitlicher Schriftart angezeigt. Die Probanden können beliebig zwischen den Essays wechseln. Auf der rechten Bildschirmseite findet sich die Instruktion, wie die Probanden von der Übersicht zu den einzelnen Aufsätzen gelangen können. Durch einen Klick auf den „Weiter“-Button gelangen die Probanden zur Beurteilung des Essays (s. Abb. 1). Die Probanden schätzen die Textqualität insgesamt (holistic assessment) und einzelne Textmerkmale (analytic assessment) auf Qualitätsstufen ein. Für jede Stufe erhalten die Probanden Kriterien, die genau definieren, welche Merkmale leistungsrelevant sind und wie die Ausprägung der Merkmale im Text sein muss, um die Qualitätsstufe zu erreichen. Eine Übersicht der Kriterien ist im Anhang zu finden. Die im Schülerinventar ASSET verwendeten Beurteilungsskalen bestehen aus einer sechsstufigen holistischen Skala des National Assessment of Educational Progress (Driscoll, Avallone, Orr & Crovo, 2010) und sieben vierstufigen analytischen Skalen. Für die analytischen Skalen wurde das 6 + 1 Trait Model (Culham, 2003) an die Genre-Charakteristika des argumentativen Essays (Zemach & Stafford- Yilmaz, 2008) angepasst. Das analytische Beurteilungsraster enthält drei Skalen, die funktionale Aspekte der Textqualität erfassen (Gesamtstruktur, interne Organisation der Abschnitte, Evidenzbasierung der Argumentation) und drei Skalen, die funktionale als auch formale Aspekte der Textqualität erfassen (Sprachmechanik, Grammatik, Lexis). Eine weitere Skala erfasst die Aufgabenerfüllung. Die eigenen Studien Das Ziel dieser Arbeit ist es, neben der Vorstellung des Schülerinventars ASSET, zu untersuchen, wie gut es Probanden gelingt, die Qualität verschiedener englischsprachiger Schülertexte anhand genau definierter, fachdidaktisch relevanter Kriterien zu bewerten. In den vorliegenden Studien untersuchen wir als leistungsrelevantes Merkmal die Qualität der Texte und als leistungsirrelevantes Merkmal das Geschlecht bzw. den Migrationshintergrund der Schülerinnen und Schüler. Dazu werden in drei experimentellen Studien authentische Texte hoher oder niedriger Qualität bewertet, die entweder einem Jungen oder einem Mädchen (mit oder ohne Migrationshintergrund) zugeordnet wurden. Wir erwarten zunächst, dass Studierende des Lehramtes Englisch in der Lage sind, mithilfe der Beurteilungsskalen zwischen Texten hoher und niedriger Qualität zu unterscheiden. Zusätzlich testen wir explorativ, ob sich Unterschiede in der Beurteilung aufgrund des Geschlechts und des Migrationshintergrundes zeigen. Methode In allen drei Studien beurteilten die Probanden vier Texte, zwischen denen die Textqualität und das Geschlecht bzw. die Textqualität und der Migrationshintergrund variiert wurden. Studie 1 und Studie 2 unterschieden sich lediglich in Bezug auf den thematischen Rahmen der Bearbeitungsaufgabe der englischsprachigen Essays. In Studie 3 wurde anstelle des Geschlechts der Migrationshintergrund variiert. Bei der Beschreibung der Studien 2 und 3 werden jeweils nur die Änderungen gegenüber Studie 1 erwähnt. Studie 1: Methode Stichprobe An Studie 1 nahmen N = 27 Probanden teil. Die notwendige Stichprobengröße zur Analyse der within- Effekte mit einer multivariaten Varianzanalyse mit Messwiederholung wurde mit G*Power (Faul, Erdfelder, Lang & Buchner, 2007) auf der Basis von Befunden aus bestehenden Studien mit dem Schülerinventar bei einer Power von .80 und mit einer zu erwartenden Effektstärke von d > 0.5 für die Qualität 308 Thorben Jansen, Cristina Vögelin, Nils Machts, Stefan Keller, Jens Möller der Leistungen der Schülerinnen und Schüler auf N = 24 geschätzt. Die Stichprobe bestand aus Lehramtsstudierenden des Faches Englisch am Gymnasium, für die die Beurteilung von englischsprachigen Essays einen wichtigen Teil ihrer Ausbildung darstellt. Die Testungen wurden innerhalb von Seminaren der Englischen Didaktik und Englischen Fachwissenschaft (Sekundarstufe I und II) der Universitäten Kiel und Basel durchgeführt. Das durchschnittliche Alter der Teilnehmenden lag bei M = 26.80 (SD = 3.70) Jahren, die Teilnehmenden waren durchschnittlich im neunten Fachsemester (M = 8.95, SD = 2.17) und 81,4 % waren weiblich. Variablen Unabhängige Variable: Textqualität Im Schülerinventar ASSET beurteilte jede Versuchsperson insgesamt vier Texte: zwei Texte von hoher und zwei Texte von niedriger Gesamtqualität. Die Texte stammten von Schülerinnen und Schülern aus der elften Klasse von einem Gymnasium in der Schweiz. Die Lernenden befanden sich im fünften Jahr ihres Englischunterrichts und wurden während acht Lektionen zu Form, Struktur und Inhalt argumentativer Essays unterrichtet. Am Ende der Unterrichtseinheit schrieben die Schülerinnen und Schüler in 90 Minuten ein Essay zum Thema: „Do you agree or disagree with the following statement? As humans are becoming more dependent on technology, they are gradually losing their independence“. Die vier in der Untersuchung verwendeten Texte wurden vom Studienleiter auf Basis einer linguistischen Analyse aus einem Klassensatz ausgewählt. Je zwei Texte sollten eine hohe und eine niedrige Textqualität repräsentieren, und die beiden Texte auf derselben Qualitätsstufe sollten sich von ihrer inneren Struktur her so ähnlich wie möglich sein. Diese Einschätzungen wurden nachher in zwei Grup-pen von N = 9 und N = 7 geschulten Ratern überprüft, wobei jede Gruppe einen guten und einen schlechten Text zu vergleichen hatte. ICCs (two way random model) fielen in beiden Gruppen insgesamt befriedigend aus (ICC Gruppe 1 = .88, ICC Gruppe 2 = .75). Die Texte wurden so ausgewählt, dass sie eine konstante Textlänge zwischen 450 und 465 Wörtern hatten, da die Textlänge einen bedeutsamen Einfluss auf die Textbeurteilung hat (Wolfe, Song & Jiao, 2016) und bei unterschiedlicher Textlänge die Qualität anderer Textmerkmale vergleichsweise schwer unabhängig davon variiert werden kann. Unabhängige Variable: Geschlecht der Lernenden Die zweite unabhängige Variable war das Geschlecht der Schülerinnen und Schüler. Das Geschlecht wurde über die Vornamen der Lernenden operationalisiert. Die Namen Alexander, Maximilian, Sophie und Marie wurden den vier Lernertexten randomisiert zugewiesen. Die vier Namen wurden aus den häufigsten Namen des Jahrgangs 2000 in Deutschland ausgewählt (Kaiser et al., 2016). Rudolph, Böhm & Lummer (2007) zeigten, dass die ausgewählten Namen hinsichtlich der Intelligenz und der Attraktivität als ähnlich wahrgenommen werden. Alle Teilnehmenden sahen einen Text in hoher und einen Text in niedriger Qualität mit weiblichem Namen sowie einen Text in hoher und einen Text in niedriger Qualität mit männlichem Namen. Abhängige Variablen Die Probanden beurteilten die Texte auf einer holistischen Skala und den beschriebenen analytischen Skalen. Auswertung Das Versuchsdesign folgte einem 2 × 2-Versuchsplan mit den beiden innerhalb der Versuchspersonen variierten Variablen Textqualität (hoch vs. niedrig) und Geschlecht (Junge vs. Mädchen). Zur Analyse der Daten wurde eine zweifaktorielle multivariate Varianzanalyse mit Messwiederholung auf beiden Faktoren für alle abhängigen Variablen gerechnet. In Voranalysen wurden zusätzlich als Kontrollvariablen das Geschlecht oder das Alter der Studierenden aufgenommen; dabei zeigten sich keine Unterschiede. Im Folgenden sind die Ergebnisse der Analyse ohne Kontrollvariablen dargestellt. Studie 1: Ergebnisse In Studie 1 zeigte die Analyse bei einem Signifikanzniveau von p < .05 einen signifikanten multivariaten Haupteffekt der Qualität der Texte (F [8,19] = 23.30, Wilk’s Λ = .09, p < .001). Dagegen zeigten sich weder ein Haupteffekt des Geschlechts (F [8,19] = 1.40, n.s.), Wilk’s Λ = .63 noch ein Interaktionseffekt der Qualität und des Geschlechts (F [8,19] = 2.39, Wilk’s Λ = .50, n.s.). Schülerinventar ASSET zur Beurteilung von Schülerarbeiten 309 Univariate post-hoc-Tests für die einzelnen Skalen zeigten, dass Texte hoher Qualität auf allen Skalen deutlich positiver bewertet wurden als Texte niedriger Qualität (s. Tab. 1). Die durchgängig hohen Effektstärken nach Cohen (1988) betrugen zwischen d = 1.25 (für das Merkmal Gesamtstruktur) und d = 3.05 (für das Merkmal Grammatik). Insgesamt zeigte Studie 1, dass mit dem Schülerinventar ASSET ein Instrument vorliegt, mit dem Studierende die Qualität von Schülertexten bewerten und dabei gute von schlechten Texten deutlich unterscheiden können, ohne dass sich signifikante Geschlechtereffekte ergeben. Studie 2: Methode Stichprobe An Studie 2 nahmen N = 24 Probanden teil. Das durchschnittliche Alter der Teilnehmenden lag bei M = 28.82 (SD = 4.1) Jahren, die Teilnehmenden waren durchschnittlich im siebten Fachsemester (M = 6.80, SD = 3.30) und 76,0 % waren weiblich. Variablen Unabhängige Variable: Textqualität Die vier Texte aus Studie 2 waren ebenfalls authentische Essays von Schülerinnen und Schülern aus der elften und zwölften Klasse von Gymnasien in der Schweiz und Deutschland. Diese Essays wurden innerhalb des Projektes Measuring English Writing at Secondary Level (Keller, 2016) geschrieben. Die Schreibaufgabe stammte dabei aus dem TOEFL (Test of English as a Foreign Language) iBT ® (Educational Testing Service [ETS], 2008) und lautete: „Do you agree or disagree with the following statement? A teacher’s ability to relate well with students is more important than excellent knowledge of the subject being taught.“ Wie in Studie 1 wurden jeweils zwei Essays auf den Qualitätsstufen hoch und niedrig ausgewählt. In einem letzten Schritt wurde die Länge der Texte auf eine Wortanzahl zwischen 449 und 454 angeglichen. Wie in Studie 1 wurde das Geschlecht über die Namen variiert. holistische Skala Gesamtstruktur interne Organisation der Abschnitte Evidenzbasierung der Argumentation Sprachmechanik Grammatik Lexis Aufgabenerfüllung M (SD) M (SD) M (SD) M (SD) M (SD) M (SD) M (SD) M (SD) Qualität hoch niedrig 4.59*** (0.86) 2.80*** (0.68) 3.06*** (0.67) 2.24*** (0.64) 2.96*** (0.59) 2.09*** (0.64) 3.15*** (0.50) 2.24*** (0.63) 3.19*** (0.61) 2.06*** (0.67) 3.20*** (0.58) 1.74*** (0.35) 3.31*** (0.54) 1.81*** (0.59) 3.02*** (0.56) 2.17*** (0.57) Geschlecht Mädchen Junge 3.96 (0.92) 3.43 (0.72) 2.74 (0.73) 2.56 (0.53) 2.67 (0.64) 2.39 (0.47) 2.85 (0.65) 2.54 (0.50) 2.70 (0.61) 2.54 (0.59) 2.61 (0.47) 2.33 (0.52) 2.61 (0.51) 2.52 (0.47) 2.74 (0.47) 2.44 (0.63) Tab. 1: Mittelwerte und Standardabweichungen in Studie 1 für die Variablen Qualität der Texte (hoch vs. niedrig) und Geschlecht (Mädchen vs. Junge) Anmerkungen: Hohe Mittelwerte zeigen eine positive Beurteilung. *** p < .01. 310 Thorben Jansen, Cristina Vögelin, Nils Machts, Stefan Keller, Jens Möller Studie 2: Ergebnisse In Studie 2 zeigte sich ebenfalls ein multivariater Haupteffekt der Qualität der Texte (F [8,16] = 16.83, Wilk’s Λ = .11, p < .001). Darüber hinaus zeigte sich weder ein Haupteffekt für das Geschlecht (F [8,16] = 0.90, Wilk’s Λ = .69, n.s.) noch ein Interaktionseffekt von Geschlecht und Qualität der Texte (F [8,16] = 1.67, Wilk’s Λ = .55, n.s.). Univariate post-hoc-Tests ergaben, dass Texte mit höherer Qualität auf allen Beurteilungsskalen deutlich positiver bewertet wurden als Texte niedriger Qualität (siehe Tab. 2). Die Effektstärken schwankten zwischen d = 1.55 (für das Merkmal Evidenzbasierung der Argumentation) und d = 2.90 (für das Merkmal Grammatik). Auch bei den Essays zum Thema „Kompetenz von Lehrkräften“ unterschieden die teilnehmenden Lehramtsstudierenden erfolgreich zwischen guten und schlechten Texten, ohne dass sich signifikante Effekte des Geschlechts ergaben. Studie 3: Methode Anstelle des Geschlechts wurde in Studie 3 der Migrationshintergrund über die Vornamen der Schüler variiert. Stichprobe An Studie 3 nahmen N = 34 Probanden teil. Das durchschnittliche Alter der Teilnehmenden lag bei M = 24.79 (SD = 3.89) Jahren, die Teilnehmenden waren durchschnittlich im achten Fachsemester (M = 7.63, SD = 3.36) und 74,2 % waren weiblich. Variablen Unabhängige Variable: Migrationshintergrund der Lernenden Die Namen Elif, Zeynep, Merve, Fatma, Mustafa, Berat, Yusuf und Ali dienten als Hinweisreize für das Vorliegen eines Migrationshintergrundes. Diese Namen gehörten zu den häufigsten Namen in der holistische Skala Gesamtstruktur interne Organisation der Abschnitte Evidenzbasierung der Argumentation Sprachmechanik Grammatik Lexis Aufgabenerfüllung M (SD) M (SD) M (SD) M (SD) M (SD) M (SD) M (SD) M (SD) Qualität hoch niedrig 5.23*** (0.63) 3.29*** (0.85) 3.38*** (0.49) 2.23 (0.64) 3.44*** (0.68) 2.42*** (0.64) 3.00*** (0.57) 2.46*** (0.59) 3.40*** (0.53) 1.73*** (0.77) 3.46*** (0.46) 1.94*** (0.58) 3.33*** (0.46) 1.92*** (0.55) 3.40*** (0.51) 2.25*** (0.55) Geschlecht Mädchen Junge 4.33 (0.67) 4.19 (0.67) 2.75 (0.64) 2.85 (0.48) 2.90 (0.66) 2.96 (0.53) 2.83 (0.69) 2.63 (0.49) 2.56 (0.54) 2.56 (0.58) 2.69 (0.41) 2.71 (0.39) 2.65 (0.56) 2.60 (0.29) 2.83 (0.48) 2.81 (0.41) Tab. 2: Mittelwerte und Standardabweichungen in Studie 2 für die Variablen Qualität der Texte (hoch vs. niedrig) und Geschlecht (Mädchen vs. Junge) Anmerkungen: Hohe Mittelwerte zeigen eine positive Beurteilung. *** p < .01. Schülerinventar ASSET zur Beurteilung von Schülerarbeiten 311 Türkei im Jahr 2000. Jeweils zwei türkische Namen und zwei der deutschen Namen aus Studie 1 wurden den vier Lernertexten randomisiert zugewiesen. Es wurden entweder vier männliche oder vier weibliche Namen verwendet, um Geschlechtereffekte innerhalb der Probanden auszuschließen. Auswertung Zur Analyse der Daten wurde eine dreifaktorielle multivariate Varianzanalyse mit Messwiederholung auf den beiden innerhalb der Probanden variierten Variablen Textqualität und Migrationshintergrund und mit der zwischen den Probanden variierten Kovariaten Geschlecht (Junge vs. Mädchen) für alle abhängigen Variablen gerechnet. Studie 3: Ergebnisse In Studie 3 zeigte sich wie in den vorherigen Studien ein Haupteffekt der Qualität der Texte (F [8,25] = 18.33, Wilk’s Λ = .15, p < .001). Darüber hinaus zeigten sich weder ein Haupteffekt für den Migrationshintergrund (F [8,25] = 1.73, Wilk’s Λ = .64, n.s.) noch ein Effekt der Kovariaten Geschlecht (F [8,25] = 1.96, Wilk’s Λ = .62, n.s.), noch Interaktionseffekte zwischen Migrationshintergrund und Textqualität (F [8,25] = 0.95, Wilk’s Λ = .77, n.s.), Migrationshintergrund und Geschlecht (F [8,25] = 1.15, Wilk’s Λ = .73, n.s.), Textqualität und Geschlecht (F [8,25] = 0.36, Wilk’s Λ = .90, n.s.), und Migrationshintergrund, Textqualität und Geschlecht (F [8,25] = 1.48, Wilk’s Λ = .68, n.s.). Univariate post-hoc-Tests (Tab. 3) zeigten, dass Texte mit höherer Qualität auf allen Beurteilungsskalen deutlich positiver bewertet wurden als Texte niedriger Qualität. Die Effektstärken schwankten zwischen d = 1.56 (für das Merkmal Sprachmechanik) und d = 2.91 (für das Merkmal Grammatik). Wie in Studie 1 und 2 wurden Texte in höherer Qualität auf allen Skalen deutlich positiver beurteilt als Texte in niedriger Qualität. Es zeigten sich bei den Essays keine signifikanten Unterschiede in der Beurteilung aufgrund des Migrationshintergrunds oder des Geschlechts der Lernenden. holistische Skala Gesamtstruktur interne Organisation der Abschnitte Evidenzbasierung der Argumentation Sprachmechanik Grammatik Lexis Aufgabenerfüllung M (SD) M (SD) M (SD) M (SD) M (SD) M (SD) M (SD) M (SD) Qualität hoch niedrig 4.41*** (0.80) 2.87*** (0.64) 3.16*** (0.59) 1.97*** (0.43) 3.06*** (0.55) 2.12*** (0.52) 3.09*** (0.58) 2.25*** (0.50) 2.84*** (0.44) 2.03*** (0.59) 3.07*** (0.51) 1.72*** (0.41) 3.09*** (0.54) 1.71*** (0.45) 3.00*** (0.59) 2.04*** (0.38) MHG Mit Ohne 3.74 (0.64) 3.54 (0.82) 2.66 (0.59) 2.47 (0.44) 2.66 (0.46) 2.51 (0.65) 2.88 (0.51) 2.46 (0.56) 2.46 (0.42) 2.41 (0.61) 2.43 (0.43) 2.37 (0.51) 2.47 (0.51) 2.32 (0.59) 2.60 (0.49) 2.44 (0.56) Geschlecht Mädchen (N = 18) 3.51 (0.65) 2.39 (0.36) 2.61 (0.38) 2.64 (0.42) 2.46 (0.43) 2.38 (0.38) 2.40 (0.45) 2.40 (0.37) Junge (N = 16) 3.78 (0.60) 2.77 (0.32) 2.56 (0.53) 2.70 (0.43) 2.41 (0.38) 2.42 (0.30) 2.39 (0.41) 2.66 (0.44) Tab. 3: Mittelwerte und Standardabweichungen im Experiment 3 für die Variablen Qualität der Texte (hoch vs. niedrig); Migrationshintergrund [MHG] (mit vs. ohne) und die Kovariate Geschlecht (Mädchen vs. Junge) Anmerkungen: Hohe Mittelwerte zeigen eine positive Beurteilung. *** p < .01. 312 Thorben Jansen, Cristina Vögelin, Nils Machts, Stefan Keller, Jens Möller Diskussion Ziel der beschriebenen Studien ist es, das Schülerinventar ASSET vorzustellen und zu erproben. Die Ergebnisse unterstützen die Annahme, dass Lehramtsstudierende im Fach Englisch im Mittel klar zwischen guten und schlechten Leistungen differenzieren (vgl. Zhu & Urhahne, 2015). Ähnlich wie in den bestehenden Forschungsbefunden zur Beurteilung spezifischer Leistung (Barkaoui, 2007) wurden in allen Studien die leistungsrelevanten Informationen in die Beurteilung einbezogen. In keiner der Studien wurden Unterschiede in der Beurteilung aufgrund der Namen der Lernenden gefunden, und somit im Gegensatz zu anderen Studien (Birkel & Birkel, 2002; Weiss, 1965) keine Hinweise auf den Einfluss leistungsirrelevanter Informationen in der Beurteilung von Schülertexten nachgewiesen. Ein Unterschied zwischen der Beurteilung im Schülerinventar ASSET und in anderen Studien ist die Verwendung von analytischen Beurteilungskriterien, die helfen könnten, sich auf die leistungsrelevanten Merkmale zu fokussieren. Die Verwendung von Beurteilungskriterien, die auch Birkel und Birkel (2002) aufgrund ihrer Ergebnisse vorschlugen, geben den Lehrkräften vor, auf welche wahrnehmbare Hinweisreize sie fokussieren sollen, wenn sie die Schülerleistung beurteilen. Dem Linsenmodell (Brunswik, 1956) folgend sollten andere, leistungsirrelevante Hinweisreize nicht fokussiert und somit auch nicht in der Beurteilung berücksichtigt werden. Im Schülerinventar ASSET scheint es gelungen, komplexe Leistungen von Schülerinnen und Schülern anhand von fachdidaktisch begründeten Skalen bewerten zu lassen und somit sowohl zentrale Aspekte der externen Validität zu berücksichtigen als auch den Lehrkräften wichtige Hilfestellungen für die Beurteilung zu geben, sodass bei der kriteriengestützen Beurteilung im Schülerinventar ASSET vor allem leistungsrelevante Informationen in den Urteilen verarbeitet werden. Hier finden Fachspezifika verstärkt Eingang in die Forschung zur Leistungsbeurteilung. Durch die Nutzung eines experimentellen Settings mit dem Schülerinventar ASSET ist die interne Validität durch die strikte Variablenkontrolle und die randomisierte Zuweisung der Textqualitäten und der Namen gegeben. Bei der Übertragung experimentell gewonnener Erkenntnisse auf die reale Beurteilungssituation ist entsprechende Vorsicht geboten. So sind einige Limitationen der Befunde zu beachten. Erstens unterscheidet sich die Beurteilungssituation in einer komplexitätsreduzierten, experimentellen Untersuchung von einer realen Beurteilungssituation: Lehrkräfte kennen unter anderem die Schulklasse, verfügen über Einschätzungen der Aufgabenschwierigkeit, des Vorwissens und der Umstände der Leistungserbringung. Zweitens wurden hier nur vier Texte in zwei Qualitätsstufen beurteilt. In der Schule haben Lehrkräfte deutlich mehr als vier Texte zur Verfügung, die ein breiteres Kontinuum an Qualitätsstufen abdecken. Für die wissenschaftliche Diskussion zur Leistungsbeurteilung weisen die beschriebenen Studien darauf hin, dass fachspezifische analytische Beurteilungsskalen helfen könnten, die Beurteilung zu verbessern; ihr Einsatz und ihre Wirkungen sollten in weiteren Studien systematisch variiert und untersucht werden. Auch für die Praxis unterstützen die Ergebnisse die Bedeutung der Nutzung von fachdidaktisch fundierten Kriterien zur Beurteilung von Schülerleistungen. Lehrkräfte können mithilfe der Kriterien Urteile aufgrund von leistungsrelevanten Merkmalen vergeben und so den Einfluss leistungsirrelevanter Merkmale reduzieren. Darüber hinaus bieten die Kriterien die Möglichkeit, die Beurteilung für die Schülerinnen und Schüler transparent zu gestalten und auf dieser Grundlage ein fundiertes Feedback zu vergeben. Entsprechende Feedbacks wurden bereits in verschiedenen Lernprogrammen eingesetzt (z. B. Parr & Timperley, 2010, Souvignier, Förster & Salaschek, 2014; Ysseldyke & Bolt, 2007). Für Lehramtsstudierende im Fach Englisch stellt das hier eingesetzte Instrument bereits eine praxisrelevante Lerngelegenheit für die kri- Schülerinventar ASSET zur Beurteilung von Schülerarbeiten 313 teriengestützte Beurteilung von Schülertexten dar. Das Instrument bietet Studierenden die Gelegenheit, authentische Schülertexte anhand unterschiedlicher Kriterien zu beurteilen und eine Rückmeldung zu ihren Bewertungen zu erhalten. Das weiterführende Ziel ist es, angepasste Versionen des Schülerinventars ASSET zu Ausbildungs- und Trainingszwecken in verschiedenen Fächern zu entwickeln und einzusetzen. Derzeit arbeiten wir daran, für die verwendeten Skalen belastbare Expertenurteile zu generieren und weitere Texte verschiedener Qualitätsstufen zu integrieren. Überprüft werden soll weiterhin, ob durch entsprechende Trainings Urteilsverzerrungen verringert und Beurteilungen von Schülertexten objektiver gestaltet werden können. Literatur Arnold, K.-H., Bos, W., Richert, P. & Stubbe, T. C. (2006). Schullaufbahnpräferenzen am Ende der vierten Klassenstufe. In W. Bos, S. Hornberg, K. H. Arnold, G. Faust, L. Fried, E. M. Lankes …& R. Valtin (Hrsg.), IGLU 2006. Lesekompetenzen von Grundschulkindern in Deutschland im internationalen Vergleich (S. 271 - 297). Münster: Waxmann. Barkaoui, K. (2007). Participants, texts, and processes in ESL/ EFL essay tests: A narrative review of the literature. The Canadian Modern Language Review, 64, 99 - 134. https: / / dx.doi.org/ 10.3138/ cmlr.64.1.099 Birkel, P. & Birkel, C. (2002). Wie einig sind sich Lehrer bei der Aufsatzbeurteilung? Eine Replikationsstudie zur Untersuchung von Rudolf Weiss. Psychologie in Erziehung und Unterricht, 49, 219 - 224. Bos, W., Lankes E. M., Prenzel, M., Schwippert, K., Valtin, R. Walther, G. (2003). Erste Ergebnisse aus IGLU. Schülerleistungen am Ende der vierten Jahrgangsstufe im internationalen Vergleich. Zusammenfassung ausgewählter Ergebnisse. In W. Bos, E. M. Lankes, M. Prenzel, K. Schwippert, G. Walther & R. Valtin (Hrsg.), Erste Ergebnisse aus IGLU. Schülerleistungen am Ende der vierten Jahrgangsstufe im internationalen Vergleich (S. 3 - 38). Münster: Waxmann. Brunswik, E. (1956). Perception and the representative design of psychological experiments. Berkeley, CA: University of California Press. Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Hilldale, NJ: Erlbaum. Coleman, J. (1997). Residence abroad within language study. Language Teaching, 30 (1), 1 - 20. https: / / dx.doi.org/ 10.1017/ S0261444800012659 Culham, R. (2003). 6 + 1 traits of writing: The complete guide. New York, NY: Scholastic Inc. Ditton, H., Krüsken, J. & Schauenberg, M. (2005). Bildungsungleichheit - der Beitrag von Familie und Schule. Zeitschrift für Erziehungswissenschaft, 8, 285 - 304. https: / / dx.doi.org/ 10.1007/ s11618-005-0138-x Driscoll, D. P., Avallone, A. P., Orr, C. S. & Crovo, M. (2010). Writing framework for the 2011 National Assessment of Educational progress. Washington, DC: National Assessment Governing Board. Educational Testing Service [ETS]. (2008). Validity evidence supporting the interpretation and use of TOEFL iBT scores. Princeton, NJ: Educational Testing Service. Elliott, J., Lee, S. W. & Tollefson, N. (2001). A reliability and validity study of the Dynamic Indicators of Basic Early Literacy Skills - Modified. School Psychology Review, 30, 33 - 49. Faul, F., Erdfelder, E., Lang, A.-G. & Buchner, A. (2007). G* Power 3: A flexible statistical power analysis program for the social, behavioral, and biomedical sciences. Behavior Research Methods, 39, 175 - 191. https: / / dx.doi.org/ 10.3758/ BF03193146 Gresch, C. (2012). Der Übergang in die Sekundarstufe I. Leistungsbeurteilung, Bildungsaspiration und rechtlicher Kontext bei Kindern mit Migrationshintergrund. Wiesbaden: Springer. https: / / dx.doi.org/ 10.1007/ 978-3- 531-18660-3 Hanna, R. & Linden, L. (2009), Measuring discrimination in education (NBER working papers, No. 15057, National Bureau of Economic Research). https: / / dx.doi. org/ 10.3386/ w15057 Hartig, J. & Jude, N. (2008). 19 Sprachkompetenzen von Mädchen und Jungen. In E. Klieme (Hrsg.), Unterricht und Kompetenzerwerb in Deutsch und Englisch. Ergebnisse der DESI-Studie (S. 202 - 208). Weinheim: Beltz. Helwig, R., Anderson, L. & Tindal, G. (2001). Influence of elementary student gender on teachers’ perceptions of mathematics achievement. The Journal of Educational Research, 95, 93 - 102. https: / / dx.doi.org/ 10.1080/ 00220670109596577 Herppich, S., Praetorius, A.-K., Förster, N., Glogger-Frey, I., Karst, K., Leutner, D., Südkamp, A. (2017). Teachers’ assessment competence: Integrating knowledge-, process-, and product-oriented approaches into a competence-oriented conceptual model. Teaching and Teacher Education. Advance online publication. https: / / dx.doi. org/ 10.1016/ j.tate.2017.12.001 Jackson, S. M. (2016). The influence of implicit and explicit gender bias on grading, and the effectiveness of rubrics for reducing bias. Unveröffentlichte Dissertation, Wright State University Dayton. Kaiser, J., Möller, J., Helm, F. & Kunter, M. (2015). Das Schülerinventar: Welche Schülermerkmale die Leistungsurteile von Lehrkräften beeinflussen. Zeitschrift für Erziehungswissenschaft, 18, 279 - 302. https: / / dx. doi.org/ 10.1007/ s11618-015-0619-5 Kaiser, J., Südkamp, A. & Möller, J. (2016). The effects of student characteristics on teachers’ judgment accuracy: Disentangling ethnicity, minority status, and achievement. Journal of Educational Psycholog y, 109, 871 - 888. Karing, C. (2009). Diagnostische Kompetenz von Grundschul-und Gymnasiallehrkräften im Leistungsbereich und im Bereich Interessen. Zeitschrift für Pädagogische Psychologie, 23, 197 - 209. https: / / dx.doi.org/ 10.1024/ 1010-0652.23.34.197 Karing, C., Matthäi, J. & Artelt, C. (2011). Genauigkeit von Lehrerurteilen über die Lesekompetenz ihrer Schülerinnen und Schüler in der Sekundarstufe I - Eine Frage der Spezifität? Zeitschrift für Pädagogische Psychologie, 25, 159 - 172. https: / / dx.doi.org/ 10.1024/ 1010- 0652.23.34.197 314 Thorben Jansen, Cristina Vögelin, Nils Machts, Stefan Keller, Jens Möller Keller, S. (2016). Measuring English writing at secondary level (MEWS). Eine binationale Studie. Babylonia, 3, 46 - 47. Lüdemann, E. & Schwerdt, G. (2013). Migration background and educational tracking. Journal of Population Economics, 26, 455 - 481. https: / / dx.doi.org/ 10.1007/ s00148-012-0414-z Möller, J. & Keller, S. (2016). Assesing students’ English texts (ASSET) (Sachmittelantrag an DFG und SNF). Universität Kiel/ Fachhochschule Nordwestschweiz. Parr, J. M. & Timperley, H. S. (2010). Feedback to writing, assessment for teaching and learning and student progress. Assessing writing, 15, 68 - 85. Ready, D. D. & Wright, D. L. (2011). Accuracy and inaccuracy in teachers’ perceptions of young children’s cognitive abilities: The role of child background and classroom context. American Educational Research Journal, 48, 335 - 360. https: / / dx.doi.org/ 10.3102/ 000283121 0374874 Rudolph, U., Böhm, R. & Lummer, M. (2007). Ein Vorname sagt mehr als 1000 Worte. Zeitschrift für Sozialpsychologie, 38, 17 - 31. https: / / dx.doi.org/ 10.1024/ 00 44-3514.38.1.17 Schrader, F.-W. (2011). Lehrer als Diagnostiker. In E. Terhart, H. Bennewitz & M. Rothland (Hrsg.), Handbuch der Forschung zum Lehrerberuf (S. 683 - 698). Münster: Waxmann. Souvignier, E., Förster, N. & Salaschek, M. (2014). quop: Ein Ansatz internetbasierter Lernverlaufsdiagnostik mit Testkonzepten für Lesen und Mathematik. In M. Hasselhorn, W. Schneider & U. Trautwein (Hrsg.), Lernverlaufsdiagnostik (S. 239 - 256). Göttingen: Hogrefe. Sprietsma, M. (2013). Discrimination in grading: Experimental evidence from primary school teachers. Empirical Economics, 45 (1), 523 - 538. https: / / dx.doi.org/ 10.1007/ s00181-012-0609-x Stanat, P., Rauch, D. & Segeritz, M. (2010). Schülerinnen und Schüler mit Migrationshintergrund. In E. Klieme, C. Artelt, J. Hartig, N. Jude, O. Köller, M. Prenzel, W. Schneider & P. Stanat (Hrsg.), PISA 2009. Bilanz nach einem Jahrzehnt (S. 200 - 230). Waxmann: Münster. Stang, J. & Urhahne, D. (2016). Stabilität, Bezugsnormorientierung und Auswirkungen der Urteilsgenauigkeit. Zeitschrift für Pädagogische Psychologie, 30, 251 - 262. https: / / dx.doi.org/ 10.1024/ 1010-0652/ a000190 Südkamp, A., Kaiser, J. & Möller, J. (2012). Accuracy of teachers’ judgments of students’ academic achievement: A meta-analysis. Journal of Educational Psychology, 104, 743 - 762. https: / / dx.doi.org/ 10.1037/ a0027627 Van Ewijk, R. (2011). Same work, lower grade? Student ethnicity and teachers’ subjective assessments. Economics of Education Review, 30, 1045 - 1058. https: / / dx.doi.org/ 10.1016/ j.econedurev.2011.05.008 Vögelin, C., Keller, S. & Fleckenstein, J. (2017): Assessing students’ English texts (ASSET): Studie zur Diagnosekompetenz von Englischlehrkräften auf der Sekundarstufe. Forschungsbericht Pädagogische Hochschule FHNW. Zugriff am 20. 6. 2019 unter http: / / docplayer.org/ 78313859-Forschungsbericht-2016-bildung-zwi schen-steuerung-und-stoerung-ungewissheit-en-paed agogischer-praxis.html Walter, O. & Taskinen, P. (2008). Der Bildungserfolg von Jugendlichen mit Migrationshintergrund in den deutschen Ländern. In M. Prenzel, C. Artelt, J. Baumert, W. Blum, M. Hammann, E. Klieme & R. Pekrun. (Hrsg.), PISA 2006 in Deutschland. Die Kompetenzen der Jugendlichen im dritten Ländervergleich (S. 343 - 374). Münster: Waxmann. Weiss, R. (1965). Zensur und Zeugnis: Beiträge zu einer Kritik der Zuverlässigkeit und Zweckmäßigkeit der Ziffernbenotung. Linz: Haslinger. Wolfe, E. W., Song, T. & Jiao, H. (2016). Features of difficult-to-score essays. Assessing Writing, 27, 1 - 10. Ysseldyke, J. & Bolt, D. M. (2007). Effect of technologyenhanced continuous progress monitoring on math achievement. School Psychology Review, 36, 453 - 467. Zemach, D. & Stafford-Yilmaz, L. (2008). Writers at work: The essay. Cambridge: Cambridge University Press. Zhu, M. & Urhahne, D. (2015). Teachers’ judgements of students’ foreign-language achievement. European Journal of Psychology of Education, 30, 21 - 39. https: / / dx. doi.org/ 10.1007/ s10212-014-0225-6 Zimmermann, F., Möller, J. & Köller, O. (2018). When students doubt their teachers’ diagnostic competence: Moderation in the internal/ external frame of reference model. Journal of Educational Psychology, 110, 46 - 57. https: / / dx.doi.org/ 10.1037/ edu000019 Thorben Jansen Nils Machts Prof. Dr. Jens Möller Christian-Albrechts-Universität zu Kiel Institut für Pädagogisch-Psychologische Lehr- und Lernforschung Olshausenstraße 75 D-24118 Kiel E-Mail: tjansen@ipl.uni-kiel.de nmachts@ipl.uni-kiel.de jmoeller@ipl.uni-kiel.de Cristina Vögelin Prof. Dr. Stefan Keller Pädagogische Hochschule FHNW Hofackerstr. 30 CH-4132 Muttenz E-Mail: cristina.voegelin@fhnw.ch asset.ph@fhnw.ch Schülerinventar ASSET zur Beurteilung von Schülerarbeiten 315 Anhang Analytische Skalen für argumentative Essays Frame of essay: Introduction and conclusion (Gesamtstruktur) 4 - Effective introduction with “hook” and “thesis statement”; effective conclusion summarising main arguments 3 - Mostly effective introduction with either “hook” or “thesis statement”; mostly effective conclusion summarising main arguments 2 - Introduction and/ or conclusion identifiable but only partly effective 1 - Both introduction and conclusion not clearly identifiable or mostly ineffective Body of essay: Internal organisation of paragraphs (interne Organisation der Abschnitte) 4 - Paragraphs are well-organized and coherent throughout 3 - Paragraphs are mostly well-organized and coherent 2 - Paragraphs are partly well-organized and coherent 1 - Paragraphs are not well-organized and incoherent Support of arguments (Evidenzbasierung der Argumentation) 4 - Author uses a variety of different examples to support her/ his argument and fully explains their relevance to the topic 3 - Author uses different examples to support her/ his argument and mostly explains their relevance to the topic 2 - Author uses a few examples to support her/ his argument and partly explains their relevance to the topic 1 - Author uses repetitive examples to support her/ his argument and their relevance to the topic is mostly unclear Spelling and punctuation (Sprachmechanik) 4 - Author uses mostly correct spelling and punctuation 3 - Author uses mostly correct spelling and punctuation, with few distracting errors 2 - Author uses partly correct spelling and punctuation, with some distracting errors 1 - Author uses partly correct spelling and punctuation, with many distracting errors Grammar (Grammatik) 4 - Author uses a variety of complex grammatical structures, few grammar mistakes 3 - Author uses some complex grammatical structures, grammar mostly correct 2 - Author uses few complex grammatical structures, grammar partly correct 1 - Author uses few or no complex grammatical structures, grammar mostly incorrect Vocabulary (Lexis) 4 - Author uses sophisticated, varied vocabulary throughout 3 - Author mostly uses sophisticated, varied vocabulary 2 - Author partly uses sophisticated, varied vocabulary, sometimes repetitive 1 - Author uses little sophisticated, varied vocabulary, often repetitive Overall task completion (Aufgabenerfüllung) 4 - Text fully conforms to the conventions of an argumentative essay, thus fully completing the task 3 - Text mostly conforms to the conventions of an argumentative essay, thus mostly completing the task 2 - Text partly conforms to the conventions of an argumentative essay, thus partly completing the task 1 - Text does not conforms to the conventions of an argumentative essay, thus not completing the task
