Psychologie in Erziehung und Unterricht
3
0342-183X
Ernst Reinhardt Verlag, GmbH & Co. KG München
10.2378/peu2026.art14d
3_073_2026_Online-first/3_073_2026_Online-first.pdf11
2026
73Online-first
Empirische Arbeit: Automatisierte Bewertung argumentativer Texte von Lernenden der Sekundarstufe: Potenziale und Grenzen der Nutzung von Large Language Models im Fach Deutsch
11
2026
Dennis Föste-Eggers
Fabian T. C. Schmidt
Marit Kristine List
Robert Glüsing
Johanna Fleckenstein
Die Beurteilung argumentativer Texte ist eine komplexe und zeitaufwendige Tätigkeit, wodurch die Diagnostik und Förderung sowohl im Deutschunterricht als auch im Rahmen von Bildungsmonitorings erschwert werden. Large Language Models (LLMs) eröffnen neue Möglichkeiten der automatisierten Schreibbeurteilung; ihre Leistungsfähigkeit bei der Bewertung deutschsprachiger Texte ist jedoch wenig untersucht. In der vorliegenden Studie wurden 1000 argumentative Texte von Lernenden der Sekundarstufe Rubrik-basiert von menschlichen Rater:innen und verschiedenen LLMs beurteilt. Der Fokus der Analyse lag auf Akkuratheit (quadratisch gewichtete Kappa-Koeffizienten, ±1-Übereinstimmung). Zudem wurden Urteilstendenzen und Fairnessaspekte untersucht. Die Ergebnisse zeigen, dass LLMs insbesondere bei holistischen Urteilen eine gute Übereinstimmung mit menschlichen Ratings erreichen. Analytische Dimensionen (insbesondere Sprache) sind für LLMs schwieriger zu erfassen. Es zeigten sich modellabhängige Urteilstendenzen. Hinweise auf systematische Verzerrungen bei ausgewählten Hintergrundmerkmalen der Lernenden traten nicht auf. LLMs erscheinen somit potenziell nützlich für summative Rückmeldungen.
3_073_2026_Online-first_0003
n Empirische Arbeit Psychologie in Erziehung und Unterricht, 2026, 73, Preprint Online DOI 10.2378/ peu2026.art14d © Ernst Reinhardt Verlag Automatisierte Bewertung argumentativer Texte von Lernenden der Sekundarstufe: Potenziale und Grenzen der Nutzung von Large Language Models im Fach Deutsch Dennis Föste-Eggers 1 , Fabian T. C. Schmidt 1, 2 , Marit Kristine List 3 , Robert Glüsing 1 und Johanna Fleckenstein 1 1 Universität Hildesheim 2 Charlotte Fresenius Hochschule University of Psychology 3 Leuphana Universität Lüneburg Zusammenfassung: Die Beurteilung argumentativer Texte ist eine komplexe und zeitaufwendige Tätigkeit, wodurch die Diagnostik und Förderung sowohl im Deutschunterricht als auch im Rahmen von Bildungsmonitorings erschwert werden. Large Language Models (LLMs) eröffnen neue Möglichkeiten der automatisierten Schreibbeurteilung; ihre Leistungsfähigkeit bei der Bewertung deutschsprachiger Texte ist jedoch wenig untersucht. In der vorliegenden Studie wurden 1000 argumentative Texte von Lernenden der Sekundarstufe Rubrik-basiert von menschlichen Rater: innen und verschiedenen LLMs beurteilt. Der Fokus der Analyse lag auf Akkuratheit (quadratisch gewichtete Kappa-Koeffizienten, ±1-Übereinstimmung). Zudem wurden Urteilstendenzen und Fairnessaspekte untersucht. Die Ergebnisse zeigen, dass LLMs insbesondere bei holistischen Urteilen eine gute Übereinstimmung mit menschlichen Ratings erreichen. Analytische Dimensionen (insbesondere Sprache) sind für LLMs schwieriger zu erfassen. Es zeigten sich modellabhängige Urteilstendenzen. Hinweise auf systematische Verzerrungen bei ausgewählten Hintergrundmerkmalen der Lernenden traten nicht auf. LLMs erscheinen somit potenziell nützlich für summative Rückmeldungen. Schlüsselbegriffe: Textbeurteilung, Schreibkompetenz, Argumentatives Schreiben, Künstliche Intelligenz, Large Language Models Assessing German Argumentative Essays via Large Language Models: Potentials and Limitations in Secondary Education Summary: Assessing essays is complex and time-consuming, hindering diagnostics in language classes and educational monitoring. Large Language Models (LLMs) offer new possibilities for automated essay scoring, yet research on their performance on German texts remains limited. In this study, 1,000 argumentative essays by secondary students were evaluated by human raters and various LLMs using a rubric-based approach. We analyzed LLM-human alignment (quadratic-weighted kappa, ±1 agreement), scoring tendencies, and fairness. Results show LLMs achieve good alignment with human ratings for holistic scores. However, analytic dimensions (especially language) are harder for LLMs to capture. While model-dependent scoring tendencies emerged, no systematic bias regarding students’ background characteristics was found. LLMs thus appear potentially helpful for summative feedback. Keywords: Automated Essay Scoring, Writing Competence, Artificial Intelligence, Large Language Models Autor: innenanmerkung Dennis Föste-Eggers: https: / / orcid.org/ 0000-0001-6109-2373; Fabian T. C. Schmidt https: / / orcid.org/ 0000-0002-6932-9715; Marit Kristine List: https: / / orcid.org/ 0000-0001-6426-8143; Robert Glüsing: https: / / orcid.org/ 0009-0009-3983-7346; Johanna Fleckenstein https: / / orcid.org/ 0000-0003-4488-1455; Fabian T. C. Schmidt vertritt gegenwärtig die Professur für Pädagogische Psychologie und Entwicklungspsychologie, Charlotte Fresenius Hochschule (Universität), Hamburg. Diese Forschung wurde als Teil eines Verbundprojekts im Rahmen der Initiative „lernen: digital“ durch das Bundesministerium für Bildung und Forschung (BMBF) unter dem Förderkennzeichen 01JA23S03C gefördert. Zudem wurde diese Forschung im Rahmen der BMBF-Nachwuchsforschungsgruppe „Formatives Assessment beim Schreiben: Automatisiertes Feedback unter Verwendung von KI“ (FORMAT; FKZ: 01JG2104; 2021-2026) gefördert. Korrespondenz bezüglich dieses Artikels ist zu richten an Dennis Föste-Eggers, Institut für Erziehungswissenschaft, Universität Hildesheim, Universitätsplatz 1, 31141 Hildesheim, Deutschland. E-Mail: dennis.foesteeggers@uni-hildesheim.de. 2 Dennis Föste-Eggers et al. Schreibkompetenz gilt in modernen Gesellschaften als Schlüssel zur gesellschaftlichen Teilhabe und zum Bildungserfolg (Graham, 2006; Becker-Mrotzek, 2014). Das argumentative Schreiben rückt beim Erlernen dieser Schlüsselkompetenz in der Sekundarstufe zunehmend in den Vordergrund (Becker-Mrotzek et al. 2010). Insbesondere im Deutschunterricht der Sekundarstufe wird dabei die Grundlage für die beim Verfassen argumentativer Texte notwendige Integration von Sprache, fachlichen Inhalten, gesellschaftlichen Werten und Normen sowie von Form und Struktur gelegt (Feilke, 2010; Winkler, 2003). Für die Beurteilung und Förderung der betreffenden Kompetenzen stellt die verlässliche und faire Bewertung der Texte der Lernenden indes eine zentrale Voraussetzung dar (Fleckenstein, Liebenow & Meyer, 2023; Fleckenstein, Reble et al., 2023; Neumann, 2017). Die Herausforderungen der Textbeurteilung zeigen sich in unterschiedlichen Anwendungskontexten. Zum einen sind Lehrkräfte im schulischen Alltag gefordert, argumentative Texte ihrer Schüler: innen zu bewerten und auf dieser Grundlage Rückmeldungen zu Lernprozessen und Leistungsentscheidungen zu geben. Zum anderen stehen auch Rater: innen in Large- Scale-Assessments - etwa in standardisierten Sprachtests oder groß angelegten Bildungsmonitorings - vor der Aufgabe, Texte nach einheitlichen Kriterien möglichst konsistent, reliabel und fair zu beurteilen. In beiden Kontexten ist die Textbewertung mit hohen Anforderungen verbunden, da Schreibleistungen mehrdimensional sind und komplexe Urteile notwendig machen (Böhme et al., 2017; Ercikan & McCaffrey, 2022). Lehrkräfte ebenso wie Rater: innen in wissenschaftlichen Studien müssen verschiedene Leistungskomponenten - etwa Inhalte, Sprache und Struktur - sowohl differenziert einschätzen als auch zu einem konsistenten Gesamturteil integrieren (Jansen, 2019; Keller et al., 2024). Dieser Prozess ist in Forschung wie Praxis zeit- und ressourcenintensiv und zugleich anfällig für Urteilsprobleme, etwa systematische Verzerrungen und zufällige Streuung (Fleckenstein, Meyer, Jansen, Keller & Köller, 2020; Jansen et al., 2018; Lohmann et al., 2025; Möller et al., 2022; Wolfe et al., 2016). Entsprechend erfordert eine menschliche Textbeurteilung, insbesondere im Rahmen wissenschaftlicher Studien oder im Bildungsmonitoring, einen hohen Grad an Standardisierung - von der Entwicklung von Kodiermanualen über Rater: innentraining und Kalibrierung bis hin zu fortlaufendem Reliabilitätsmonitoring und gegebenenfalls notwendigen Rekalibrierungen (Neumann, 2017; Steiss et al., 2024). Vor diesem Hintergrund werden in der Lern- und Leistungsdiagnostik seit Langem technologische Unterstützungsoptionen diskutiert, die das Potenzial bieten, den Beurteilungsaufwand zu reduzieren und bei hochstandardisierten Aufgaben konsistentere Urteile zu ermöglichen (Bennett & Zhang, 2015; Grabowski, 2017; Shermis & Burstein, 2003). Large Language Models (LLMs) markieren hierbei einen neuen Entwicklungsschritt innerhalb automatisierter Textbewertung: Während klassische Automated Essay Scoring-Systeme meist auf aufgabenspezifisch trainierten Machine-Learning-Pipelines beruhen (Horbach et al., 2022; Meyer et al., 2021; Shermis & Burstein, 2003; Steiss et al., 2024), versprechen LLMs eine flexiblere, promptgesteuerte Nutzung ohne umfangreiche Neutrainings (Choi et al., 2025; Lohmann et al., 2024; Meyer et al., 2026). Dadurch sinkt die Einstiegshürde für den Einsatz entsprechender Verfahren sowohl in schulischen als auch in testdiagnostischen Kontexten. Die bisherige empirische Evidenz ist jedoch heterogen. International dominieren Studien mit englischsprachigen Korpora, häufig aus standardisierten Testkontexten wie dem Test of English as a Foreign Language (TOEFL). Für diese Datensätze werden teils gute menschliche Interraterreliabilitäten berichtet (quadratisch gewichteter Kappa-Koeffizient, Quadratic Weighted Kappa [QWK] ≈ .80), und Rubrik-basierte Few- Shot-Ansätze mit Ankertexten erreichen in einzelnen Studien ebenfalls beachtliche Mensch-LLM- Übereinstimmungen (z. B. GPT-4o-Human Automatisierte Bewertung argumentativer Texte von Sekundarschüler: innen im Fach Deutsch 3 QWK ≈ .72 bei Choi et al., 2025). Zugleich wird wiederholt darauf hingewiesen, dass selbst bei hohen Übereinstimmungsmaßen Verzerrungen gegenüber bestimmten Gruppen auftreten können, etwa zu Ungunsten nicht muttersprachlich Schreibender (Tate et al., 2024). Dies unterstreicht die Bedeutung differenzierter Analysen, die neben der mittleren Übereinstimmung auch Validitäts- und Fairnessfragen berücksichtigen. Für den deutschsprachigen Kontext ist die Forschungslage bislang deutlich begrenzter. Deutschsprachige Schüler: innentexte wurden insgesamt seltener untersucht als englischsprachige Korpora; insbesondere fehlen Studien, die argumentative Texte im Fach Deutsch in der Sekundarstufe systematisch in den Blick nehmen und Rubrik-basierte menschliche Urteile mit LLM-basierten Bewertungen vergleichen. Damit ist bislang unzureichend geklärt, wie gut LLMs in diesem spezifischen Domänen-, Sprach- und Alterskontext mit menschlichen Bewertungen übereinstimmen, welche allgemeinen Urteilstendenzen sie zeigen und inwiefern Fairnessrisiken hinsichtlich der Merkmale der Lernenden bestehen. Die vorliegende Studie adressiert diese Forschungslücke im Bereich deutschsprachiger argumentativer Texte im schulischen Kontext. Anhand eines Korpus von 1000 argumentativen Texten der Sekundarstufe werden Rubrik-basierte menschliche Beurteilungen systematisch mit LLM-Ratings verschiedener Modellgrößen und Prompting-Ansätze verglichen. Zusätzlich werden allgemeine Urteilstendenzen der LLMs sowie Fairnessaspekte hinsichtlich ausgewählter soziodemografischer Merkmale der Lernenden untersucht. Theoretischer Hintergrund Schreibprodukte sind offene, hochkomplexe Leistungsindikatoren. Holistische Leistungsurteile integrieren typischerweise mehrere Dimensionen der Textqualität (z. B. Inhalt, sprachliche Qualität, Struktur). Diese Mehrdimensionalität macht die Bewertung kognitiv anspruchsvoll und reliable und valide Messungen methodisch aufwendig (Neumann, 2017). Dabei ist die Unterscheidung zwischen holistischen und analytischen Ratings zentral. Holistische Urteile fassen die Textqualität zu einem Gesamturteil zusammen; analytische Ratings differenzieren spezifische Dimensionen (hier: Inhalt, Sprache, Struktur) (Böhme et al., 2017; Neumann, 2017). Gerade im Bereich des LLM-Scorings ergeben sich daraus zwei relevante Perspektiven. Erstens kann ein Modell holistisch reliabel sein, während es auf einzelnen Dimensionen zu systematischen Verzerrungen kommen kann (Tate et al., 2024). Zweitens steigen mit der Dimensionalität die Anforderungen an die Rubrikpräzision und an Skalierungshilfen (z. B. Ankertexte), da sonst die Zuordnung von Kriterien zu Leistungswerten unscharf wird (Choi et al., 2025). Dieser Anstieg der Komplexität stellt eine Herausforderung für Mensch und Maschine dar. Menschliche Bewertungen stellen selbst keine fehlerfreien Ratings dar, können jedoch im Vergleich zu automatisierten Verfahren als Referenzmaß dienen (Ercikan & McCaffrey, 2022; Meyer et al., 2026). Wenn im Folgenden die Leistungsfähigkeit von LLMs bzw. deren Akkuratheit evaluiert wird, ist daher zu betonen, dass sich die betreffenden Vergleiche auf ein ökologisch valides, aber potenziell fehlerbehaftetes menschliches Referenzurteil bezieht (Human- AI-Alignment), welches selbst systematischen Verzerrungen unterliegen kann (wie Strenge-/ Mildefehler oder Halo-Effekt, vgl. Lohmann et al., 2025; Fleckenstein et al., 2020) und hinsichtlich der Interraterreliabilität eingeschränkt ist. Während die Interraterreliabilität zwischen menschlichen Rater: innen teils hohe Werte für holistische Urteile aufweist, zeigt sich zugleich aber eine klare Streuung zwischen Dimensionen (z. B. Struktur niedriger als Inhalt; Böhme et al., 2017; Steiss et al., 2024). Wenn menschliche Beurteilungen in einer Dimension (z. B. Struktur) selbst weniger verlässlich ausfallen, ist die Messlatte für ein Modell in dieser Dimension konzeptionell niedriger - und Validierungsargumente müssen dies berücksichtigen. 4 Dennis Föste-Eggers et al. Grenzen klassischer Machine-Learning- Ansätze beim Automated Essay Scoring Einer der zentralen Vorteile von LLM-basierten Scorings ist die Flexibilität bei der Bewertung komplexer Texte. Traditionelle computergestützte Systeme zur automatischen Essaybewertung basieren typischerweise auf supervised Machine Learning, wofür große Mengen an zuvor manuell kodierten Texten erforderlich sind (Choi et al., 2025). Zudem sind leistungsfähige Systeme häufig aufgabenspezifisch, sodass neue Schreibaufgaben neue kodierte Trainingsdatensätze erfordern (Choi et al., 2025; Steiss et al., 2024). Diese Abhängigkeit von aufgabenspezifischen Kodierungen stellt eine zentrale praktische Hürde dar, die den Einsatz im schulischen Alltag sowie in vielen Forschungskontexten einschränkt (Choi et al., 2025; Steiss et al., 2024). Die bisher eingesetzten klassischen Ansätze weisen zudem strukturelle Schwächen auf (Choi et al., 2025). So sind regressionsbasierte Modelle zwar einfach aufgebaut, aber oft stark von oberflächlichen Indikatoren (z. B. Länge) beeinflusst. Hingegen erzielen Machine-Learning- und Deep-Learning-Ansätze (ML/ DL) teils hohe Genauigkeiten, benötigen aber große Datenmengen und sind auf aufgabenspezifische Trainingsdaten angewiesen. Um diese Probleme zu lösen, wird aktuell in einer wachsenden Zahl von Studien (z. B. Choi et al., 2025; Liu et al., 2025; Lan et al., 2025; Geckin et al., 2023) untersucht, inwieweit LLMs das automatisierte Bewerten von Texten auch ohne große Mengen zusätzlicher Trainingsdaten unterstützen können und damit sowohl Forschung in groß angelegten Settings als auch praktische Anwendungen zur Unterstützung von Lehrkräften in Schulen erleichtern (Yan et al., 2024). Erste Befunde legen nahe, dass LLMs derartige holistische Textbeurteilungen vornehmen können und damit möglicherweise eine vergleichsweise kostengünstige Ressource für automatisiertes Scoring im großen Maßstab darstellen (vgl. Huang et al., 2025 für einen aktuellen Überblick). Zero-Shotvs. Few-Shot-Ansätze LLMs stellen für das computerbasierte Bewerten komplexer Texte eine qualitativ neue Ressource dar, weil sie auf sehr großen und diversifizierten Textmengen vortrainiert sind und daher auch ohne aufgabenspezifisches Neutrainieren eingesetzt werden können (Choi et al., 2025; Fleckenstein, Meyer, Jansen, Reble et al., 2020). Damit verschiebt sich der Schwerpunkt von daten- und trainingsintensiver Modelloptimierung hin zu einem spezifikationsintensiven Prompt-Design, bei dem zwischen Zero-Shot- und Few-Shot- Prompting unterschieden werden kann (Choi et al., 2025). Beim Zero-Shot-Prompting erhält das Modell die Bewertungsrubrik, gegebenenfalls weitere Instruktionen sowie den Zieltext, jedoch keine bewerteten Beispieltexte. Beim Few-Shot-Prompting wird der Prompt hingegen um solche bewerteten Beispieltexte ergänzt (Choi et al., 2025). Diese sogenannten Ankertexte konkretisieren abstrakte Rubriken, indem sie Qualitätsmerkmale bestimmten Score-Stufen zuordnen, und reduzieren dadurch Interpretationsspielräume - ähnlich wie bei der Kalibrierung menschlicher Rater: innen. Mehrere Studien zeigen, dass sich dadurch die Zuverlässigkeit des LLM-basierten Text- Scorings verbessern lässt. Yang et al. (2025) berichteten für das Few-Shot-basierte Scoring ein durchschnittliches QWK von .63, allerdings mit Unterschieden zwischen verschiedenen Sets. Choi et al. (2025) verglichen GPT-4o, GPT-4o mini und GPT-4 Turbo bei der Bewertung quellenbasierter argumentativer Texte im Geschichtsunterricht und zeigten, dass Ankertexte besonders wirksam sind: Durch die Hinzunahme von Ankertexten stieg das QWK im leistungsstärksten Modell (hier GPT-4o) von .40 auf .69. Wurden nur Ankertexte für die niedrigste und höchste Bewertungsstufe bereitgestellt, lag es bei .59, bei einer exakten Übereinstimmung von 41 %. Zugleich führten Ankertexte die LLM-Mensch-Übereinstimmung näher an die menschliche Inter-Rater-Reliabilität heran; sie erwiesen sich zudem als wirkmächtiger als das bloße Hinzufügen von Quellenmate- Automatisierte Bewertung argumentativer Texte von Sekundarschüler: innen im Fach Deutsch 5 rialien (Choi et al., 2025). Meyer et al. (2026) ergänzen diese Befunde um einen systematischen Vergleich von Zero-Shot- und Few-Shot- Prompting für eine TOEFL-basierte Schreibaufgabe für Englischlernende in Deutschland und der Schweiz und zeigen ebenfalls eine höhere Genauigkeit beim Few-Shot-Prompting. Auch Song et al. (2025) fanden bei chinesischen Open- Source-LLMs für die Bewertung chinesischer Grundschultexte Leistungssteigerungen durch sechs Beispieltexte mit Bewertungen und Kommentaren; das QWK erreichte dabei bis zu .53. Ähnliche Verbesserungen durch Few-Shot- Prompting berichteten außerdem Xiao et al. (2025) für Texte von chinesischen Englischlernenden sowie Yancey et al. (2023) für Texte von Englischlernenden mit verschiedenen Erstsprachen. Die Befundlage ist allerdings nicht vollständig konsistent. Liu et al. (2025) fanden in einem Lernkorpus für Englisch als Fremdsprache mit Lernenden unterschiedlicher Sprachhintergründe keine höhere Genauigkeit beim Few-Shot-Prompting gegenüber dem Zero- Shot-Prompting, wenn zufällig ausgewählte Beispieltexte verwendet wurden. Insgesamt deutet die bisherige Evidenz jedoch darauf hin, dass LLM-basierte Ratings auch ohne aufgabenspezifisches Training möglich sind und dass Ankertexte als Ergänzung häufig präzisere Urteile und eine höhere Übereinstimmung mit menschlichen Bewertungen ermöglichen (Choi et al., 2025). Im Gegensatz zu den etwa bei Choi et al. (2025) genutzten Modellen der GPT-4-Modellreihe handelt es sich bei aktuellen Modellen wie GPT-5.4 in der Regel um sogenannte Reasoning-Modelle, in denen ein vorgelagerter interner Verarbeitungsprozess („Latent Chain of Thought“) implementiert ist. Hier lässt sich aufgrund der erhöhten Verarbeitungstiefe ein möglicher Mehrwert bei komplexen und mehrdimensionalen Urteilsprozessen erwarten. Wenngleich sich die Verarbeitungstiefe dieser Modelle über einen eigenen Parameter steuern lässt, fehlt es hier noch an Studien zur LLMbasierten Textbeurteilung, die den sogenannten Reasoning Effort experimentell variieren. Urteilstendenzen und Fairness LLM-Ansätze bieten eine effiziente Möglichkeit, komplexe Texte zu beurteilen. Hinsichtlich der Urteilsgenauigkeit bestehen neben Reliabilitätsargumenten auch Fragen nach systemischen Verzerrungen oder nach Fairness (SWK, 2024; Williamson et al., 2012). Studien zeigen, dass Modelle für unterrepräsentierte Gruppen teils verzerrte Ergebnisse liefern können (Baker & Hawn, 2022; Uttamchandani & Quick, 2022). Bei LLMs ist dies besonders schwer zu beurteilen, weil ihre Trainingsdaten sehr groß, aber weitgehend unbekannt sind. Deshalb ist es zentral zu prüfen, ob LLM-basiertes Scoring fair ist. Obwohl jüngere Studien vor allem die Genauigkeit von LLM-Scoring untersucht haben, gibt es bislang deutlich weniger Forschung zu gruppenspezifischen Verzerrungen (Huang et al., 2025; Yang et al., 2025). Die wenigen vorliegenden Studien zeichnen ein gemischtes Bild. Tate et al. (2024) fanden Hinweise auf Benachteiligungen gegenüber Englischlernenden im Vergleich zu Personen, die Englisch fließend sprechen, und deuten darauf hin, dass die anfängliche Textqualität für die Genauigkeit relevant sein könnte. Plasencia-Calaña (2025) berichtete über messbare Verzerrungen (z. B. nach Geschlecht und sozioökonomischem Hintergrund) sowohl für LLM-basierte als auch für klassische Machine-Learning-Verfahren. Dagegen fanden Oketch et al. (2025) keine systematischen Unterschiede zwischen ethnischen und Altersgruppen, und Rodrigues et al. (2025) beobachteten in der automatischen Bewertung kurzer Textantworten keine systematische Variation. Zugleich zeigen Yang et al. (2025), dass demografische Merkmale Verzerrungen verstärken können; insbesondere traten höhere Fehlerraten bei Nicht-Muttersprachler: innen auf, wenn das LLM diese korrekt als solche identifizierte. Für die Messung der Fairness können Regressionsmodelle eingesetzt werden, in denen Schüler: innenmerkmale zusätzlich zur menschlichen Bewertung die LLM-Scores erklären sollen. Die zugrunde liegende Rationale ist, dass Effekte von Schüler: innenmerkmalen, die unter 6 Dennis Föste-Eggers et al. Kontrolle des menschlichen Ratings stehen, als Indiz für eine Verletzung der Fairness im LLM- Scoring gelten können. Forschungslücke und Ziel der Studie Zusammenfassend bieten LLM-basierte Ansätze ein hohes Potenzial für die automatisierte Bewertung komplexer Schüler: innentexte. Zentrale psychometrische Anforderungen an Reliabilität, Validität und Fairness sind jedoch noch nicht hinreichend geklärt. Besonders für das holistische und teildimensionale Scoring deutschsprachiger argumentativer Texte im schulischen Kontext besteht ein Forschungsdefizit (vgl. Kubesch et al., 2026; Seßler et al., 2025). Bisherige Studien im deutschsprachigen Raum fokussieren primär auf andere Textsorten oder Altersgruppen, was die Übertragbarkeit der Ergebnisse weiter einschränkt. So untersuchen Seßler et al. (2025) die Beurteilung narrativer Schüler: innentexte, wobei sie ausschließlich einen Zero-Shot-Ansatz für das Rating verwenden. Die Ergebnisse zeigten, dass sich LLMs zur Bewertung eigneten, jedoch im Vergleich zu menschlichen Urteilen signifikant höhere Bewertungen vergaben. Inwiefern diese Befunde mit Few-Shot-Ansätzen anders ausgefallen wären, wird nicht adressiert. Zudem merken Seßler et al. (2025: 471) an, dass Studien zur Leistungsfähigkeit von LLMs bei der Bewertung von deutschen argumentativen Essays fehlen. Kubesch et al. (2026) nutzten Open-Source-LLMs zur Beurteilung von Texten österreichischer Maturand: innen (u. a. Kommentare und Textinterpretationen). Trotz spezifischer Prompting-Strategien (wie Few- Shots) erzielten sie jedoch nur schwache Übereinstimmungen mit den menschlichen Ratings (QWK ≤ .55 auf Dimensionsebene; QWK < .50 für die Gesamtnote). Fairnesskontrollen wurden in diesen Arbeiten nicht durchgeführt. Wenngleich erste Arbeiten das automatisierte Essay- Scoring deutschsprachigerTexte zum Gegenstand haben, fokussieren diese primär auf die Identifikation von Argumentationsstrukturen in materialgestützten Texten mittels klassischer Machine- Learning-Verfahren (Schaller et al., 2024). Vor diesem Hintergrund evaluiert die vorliegende Studie die Leistungsfähigkeit von LLMs bei der summativen Bewertung argumentativer Schüler: innentexte im Fach Deutsch. Auf mehreren Analyseebenen wird die Übereinstimmung der automatisierten Notenvergabe mit menschlichen Expert: innenurteilen untersucht, ergänzt durch Analysen zu systematischen Urteilstendenzen sowie durch die explorative Untersuchung potenzieller Zusammenhänge mit Schüler: innenmerkmalen (Fairness). Dies wird mittels folgender Forschungsfragen adressiert: 1. Wie akkurat können LLMs argumentative Texte von Lernenden der Sekundarstufe auf holistischer bzw. auf verschiedenen analytischen Ebenen (Inhalt, Sprache, Struktur) beurteilen? Und inwieweit variiert dies in Abhängigkeit von Modellgröße und Prompting- Ansatz (Zero-Shot vs. Few-Shot)? 2. Welches Potenzial zur Steigerung der Akkuratheit der LLM-basierten Urteile zeigt sich in explorativen Analysen durch den Einsatz aktueller Reasoning-Modelle unter systematischer Variation des Reasoning Efforts? 3. Weisen LLMs im direkten Vergleich zu menschlichen Beurteilungen systematische Urteilstendenzen auf (z. B. Über- oder Unterschätzung der Leistung sowie Restriktion der Urteilsvarianz)? 4. Zeigen LLM-basierte Beurteilungen unter Kontrolle menschlicher Referenzmaße systematische Verzerrungen hinsichtlich ausgewählter soziodemografischer Merkmale (Bildungsherkunft, Migrationshintergrund)? Methode Stichprobe und Design Die vorliegenden Analysen basieren auf Daten einer Ende 2024 an Schulen in Niedersachsen durchgeführten Erhebung. Im Rahmen dieser Erhebung absolvierten die Schüler: innen der Sekundarstufe (I und II) an sechs Terminen ein digitales Schreibstrategietraining zur Förderung der argumentativen Schreibkompetenz, das für Schüler: innen der Automatisierte Bewertung argumentativer Texte von Sekundarschüler: innen im Fach Deutsch 7 Sekundarstufe I ab Klassenstufe 8 entwickelt worden war. Die Stichprobe umfasste 608 Teilnehmende mit einem Durchschnittsalter von M = 15.5 Jahren (SD = 4.4; 47 % weiblich; 33 % mit Migrationshintergrund). Das Training dauerte sechs Wochen. Den Schüler: innen wurden wechselnde, schulnahe Themen, z. B. zur Smartphone-Nutzung im Unterricht, zum Verfassen argumentativer Texte in einer Online- Umgebung vorgegeben. Der genaue Wortlaut der Aufgabenstellungen findet sich in Anhang ESM 1. Abbildung A1 im Anhang zeigt den Screenshot der Weboberfläche bei der Aufgabenbearbeitung. Die Themenvorgabe erfolgte in individuell randomisierter Reihenfolge, um Reihenfolgeeffekte zu minimieren. Zudem wurde ab dem zweiten Termin eine systematische Möglichkeit zur Überarbeitung der Texte gegeben. Aus dem resultierenden Gesamtkorpus von 3.803 Texten wurde für die vorliegende Untersuchung ein Subsample von N = 1.000 Texten zufällig ausgewählt und sowohl von menschlichen Expert: innen als auch von LLMs bewertet. Soziodemografische Merkmale Zur exploratorischen Analyse von Fairnessaspekten wurden die Merkmale familiärer Bildungshintergrund und Migrationshintergrund herangezogen, da diese zum einen maßgebliche Determinanten für Bildungsungleichheiten und systematische Leistungsdisparitäten im deutschen Bildungssystem darstellen. Zum anderen hängen sie messbar mit dem Erwerb der deutschen Sprache - etwa bzgl. des Wortschatzes oder der Lesekompetenz - zusammen (Helbig et al., 2026; Henschel et al., 2023; Niemietz et al., 2023). So können diese Merkmale mit gruppenspezifischen Sprachmustern einhergehen, über welche die LLMbasierte Beurteilung z. B. zuungunsten von Jugendlichen mit Migrationshintergrund beeinflusst werden könnte. Die soziodemografischen Merkmale der Teilnehmenden wurden mittels des vom Rat für Sozial- und Wirtschaftsdaten bereitgestellten Standardfragenkatalogs erhoben (RatSWD, 2023). Hierin enthalten sind Fragen zu den Geburtsländern der Befragten und ihrer Eltern sowie zu den höchsten schulischen und beruflichen Abschlüssen der Eltern. Die Operationalisierung von Migrationshintergrund erfolgte auf Grundlage einer breiten Definition dieses Begriffs. Ausgehend von den Angaben zum Geburtsland der Befragten und ihrer Eltern wurde ein Migrationshintergrund festgestellt, sobald für mindestens eine dieser Personen ein anderes Geburtsland als Deutschland genannt wurde. Der familiäre Bildungshintergrund wurde über den höchsten elterlichen Bildungsabschluss (HISCED) operationalisiert. Hierzu wurden die Angaben zu den Schul- und Berufsabschlüssen für jedes Elternteil gemäß der Internationalen Standardklassifikation des Bildungswesens (ISCED) kodiert und für die Analysen in die Kategorien niedrig (ISCED 0 - 2), mittel (ISCED 3 - 4) und hoch (ISCED 5 - 8) aggregiert. Bei Unterschieden zwischen den Elternteilen war der höhere Abschluss maßgeblich. Menschliche Textbewertung Die Bewertung der Texte erfolgte sowohl anhand eines analytischen Bewertungsschemas mit den Dimensionen Inhalt, Struktur und Sprache als auch anhand eines holistischen Bewertungsschemas (Gesamteinschätzung). Alle Bewertungen erfolgten auf einer sechsstufigen Skala von 0 bis 5. Zur Sicherstellung der Bewertungsobjektivität wurde ein Kodiermanual mit detaillierten Bewertungsrubriken (Rubrics) entwickelt, das in einer vorgelagerten Schulungs- und Kalibrierungsphase mit den beiden menschlichen Rater: innen eingeübt wurde. Das Kodiermanual findet sich in Anhang ESM 2. Während der anschließenden Kodierphase fand kein direkter Austausch zwischen den Rater: innen mehr statt, um die Unabhängigkeit der Bewertungen sicherzustellen. Zur Qualitätssicherung wurden jedoch in regelmäßigen Abständen Rückfragen zur Anwendung der Bewertungsrubrik mit einer erfahrenen Projektmitarbeiterin geklärt. Darüber hinaus erfolgte ein regelmäßiges Reliabilitätsmonitoring. Das Analysesample (N = 1.000) wurde nach einem Teilstichprobendesign kodiert. Hierfür wurden die Texte zunächst in eine zufällige Reihenfolge gebracht und anschließend zufällig auf die beiden Rater: innen verteilt, wobei 150 Texte von beiden Rater: innen beurteilt wurden. Die Interraterreliabilität lag insgesamt in einem guten bis sehr guten Bereich (QWK holistisch = .82; QWK Inhalt = .80; QWK Sprache = .75; QWK Struktur = .67). LLM-basierte Bewertung Zur automatisierten, holistischen und analytischen Bewertung der Texte wurden verschiedene LLMs der GPT-Modellfamilie eingesetzt, deren Nutzung über 8 Dennis Föste-Eggers et al. die OpenAI-API erfolgte. Der Fokus lag dabei bewusst auf Modellen dieser Familie, da GPT-Modelle zu den bekanntesten zählen und zugleich die technische Basis für eine Vielzahl aktuell im Schulalltag genutzter KI-Anwendungen sind. Zudem zeigten bisherige Befunde zur automatisierten Beurteilung deutschsprachiger Texte, dass Open-Source- Modelle trotz rasanter Entwicklungen in diesem Bereich noch deutliche schwächere Leistungen zeigten als proprietäre Systeme (Kubesch et al., 2026; Seßler et al. 2025). 1 Die Modelle erhielten einen standardisierten System-Prompt, in dem die Grundregeln der Bewertung wie die Rubrik- Treue und die Zielgruppen-Kalibrierung (Sekundarstufe I) sowie das Ausgabeformat spezifiziert wurden. Die Variation des Prompting-Ansatzes (Zerovs. Few-Shot) erfolgte über den User-Prompt. Hierbei wurde eine strukturierte Markdown-Formatierung genutzt, um eine klare Trennung zwischen allgemeinen Bewertungsrichtlinien, spezifischen Bewertungsrubriken und ggf. gegebenen Ankertexten und Schüler: innentexten zu erreichen. In Anhang ESM 3 sind alle Prompts (incl. Textbeispiele für den Few- Prompt-Ansatz) aufgeführt, wie sie an das LLM übergeben wurden. Im Rahmen des In-Context-Learnings wurden zwei Few-Shot-Szenarien implementiert. In beiden Few-Shot-Szenarien wurden dem Modell authentische Beispieltexte (Ankertexte) aus dem Korpus samt Bewertungen bereitgestellt, um die Kalibrierung des LLM-Scorings zu ermöglichen. Die Auswahl der Ankertexte orientierte sich dabei an den Abstufungen (0 - 5) der Bewertungsrubriken, sodass für den Few-Shot-Ansatz mit sechs Ankertexten alle Skalenpunkte besetzt werden konnten. Von den verwendeten Ankertexten wurde ein Text (Referenzbeispiel 4) aus dem vorliegenden Analysesample (N = 1000) entnommen, während die übrigen Texte aus dem verbleibenden Korpus stammten. Die hieraus resultierende Überlappung von 0,1 Prozent ist für die Gesamtbefunde statistisch vernachlässigbar. Für das Few-Shot- Szenario mit zwei Ankertexten wurden nur die jeweiligen Ankertexte an den Rändern genutzt (0 und 5). Analysestrategie Um die Leistungsfähigkeit LLM-basierter Kodierungen hinsichtlich der holistischen und analytischen Bewertung argumentativer Texte von Lernenden der Sekundarstufe zu evaluieren, wurden vier aufeinander aufbauende Analyseschritte gewählt: 1. Evaluation von Prompting-Strategien und Modellwahl: In einem ersten Schritt wurde in Anlehnung an Choi et al. (2025) die Nutzung von Ankertexten als Prompting-Strategie mit GPT-4o evaluiert, indem die Ergebnisse der erzeugten Ratings aus dem Zero-Shot-Ansatz und zwei Few- Shot-Szenarien (2 vs. 6 Ankertexte) hinsichtlich ihrer Übereinstimmung mit menschlichen Bewertungen verglichen wurden. Zur Bestimmung der Übereinstimmung zwischen LLM-Scores und menschlichen Bewertungen wurden in Stata 18 mit dem Paket kappaetc (Klein, 2018) die QWKs berechnet und hinsichtlich signifikanter Unterschiede getestet (vgl. Gwet, 2016). Die Analysen wurden jeweils für das holistische Urteil sowie für die drei analytischen Dimensionen durchgeführt. An die Strategie-Optimierung schloss sich ein Vergleich innerhalb der GPT-4-Modellreihe (4o-mini, 4o, 4.1) unter der leistungsstärksten Prompting-Variante an. 2. Exploration von Reasoning-Effekten: Um das Potenzial gesteigerter interner Verarbeitungstiefe zu prüfen, wurde in einem weiteren Schritt das neueste Reasoning-Modell GPT-5.4 evaluiert, wobei der Reasoning Effort (low, medium, high) experimentell variiert wurde. Ziel dieses Schrittes war die Exploration, ob und ggf. unter welcher Effort-Spezifikation dieses Modell eine gesteigerte Mensch-Maschine-Übereinstimmung ermöglicht. 3. Analyse von Urteilstendenzen: Über die Korrelation hinaus wurden systematische Abweichungen zwischen den LLM- und den Expert: innenratings untersucht. Hierzu wurden Differenzwerte (LLM - Mensch) berechnet, um gerichtete Tendenzen zur systematischen Über- oder Unter- 1 Um die Leistungsfähigkeit aktueller Open-Source- Architekturen auf dem vorliegenden Datenkorpus zu prüfen, wurde ergänzend das Modell Llama 3.3 (70B) getestet. Die Übereinstimmungen mit den menschlichen Referenzratings lagen hierbei in allen Dimensionen auf einem moderaten bis substanziellen Niveau, jedoch unterhalb der in dieser Studie berichteten Werte für die GPT-4-Modellreihe: holistisch (QWK = .60, SE = 0.02, 95 % CI [.56, .65]); Inhalt (QWK = .63, SE = 0.02, 95 % CI [.58, .67]); Sprache (QWK = .61, SE = 0.03, 95 % CI [.56, .66]); Struktur (QWK = .54, SE = 0.02, 95 % CI [.49, .58]). Automatisierte Bewertung argumentativer Texte von Sekundarschüler: innen im Fach Deutsch 9 schätzung zu identifizieren. Verteilungsunterschiede und die Restriktion der Urteilsvarianz (Stauchung) wurden mittels Pitman-Morgan- Tests für korrelierte Varianzen abgesichert (Arratia et al., 2025). 4. Analysen zu Fairnessaspekten: In explorativen Analysen wurde die prädiktive Invarianz der LLM-Bewertung geprüft. Mittels multipler Regressionen wurde untersucht, ob die LLM- Scores systematisch mit Schüler: innenmerkmalen (HISCED, Migrationshintergrund) variieren, wenn die durch menschliche Rater: innen validierte Schreibleistung kontrolliert wird. Ziel war die Identifikation potenzieller Hinweise auf differentielle Bewertungsmuster, wobei die Ergebnisse aufgrund des korrelativen Designs als Forschungsdesiderat und nicht als abschließende Fairnessbewertung zu verstehen sind. Ergebnisse Evaluation von Prompting-Strategien und Modellwahl Hinsichtlich der Bewertungstreue der LLM- Scores gemessen an den menschlichen Referenzratings zeigte sich, dass der Few-Shot-Ansatz den Zero-Shot-Ansatz hinsichtlich des QWK deutlich übertraf (s. Abb. 1). Der Vergleich innerhalb des Modells GPT-4o (M2 bis M4) zeigte diesbezüglich über alle vier Bewertungen (Abb. 1 A - D), dass insbesondere das Few-Shot- Szenario mit sechs Ankertexten (M4) dem Zero-Shot-Ansatz (M2) klar überlegen war. So stieg etwa die Bewertungstreue des holistischen Urteils von QWK = .63 (Zero-Shot, M2) auf QWK = .73 (Few-Shot 6, M4). Bezüglich des 1.00 0.95 0.90 0.85 0.80 0.75 0.70 0.65 0.60 0.55 0.50 0.45 QWK A: Holistisch C: Sprache B: Inhalt D: Struktur 1.00 0.95 0.90 0.85 0.80 0.75 0.70 0.65 0.60 0.55 0.50 0.45 QWK HR M1 M2 M3 M4 M5 M6 M7 M8 HR M1 M2 M3 M4 M5 M6 M7 M8 Abb. 1: Modellvergleich auf Basis des Quadratic Weighted Kappa in vier Bewertungsdimensionen. Anmerkungen: Dargestellt sind die Punktschätzungen des Quadratic Weighted Kappa (QWK) mit den zugehörigen 95 %-Konfidenzintervallen für die vier Bewertungsdimensionen (holistische Bewertung, Inhalt, Sprache und Struktur). Die x-Achse verwendet aus Platzgründen Kurzbezeichnungen für die Bedingungen: HR = Human Raters; M1 = Few-Shot (6) (GPT-4o-mini); M2 = Zero-Shot (GPT-4o); M3 = Few-Shot (2) (GPT-4o); M4 = Few-Shot (6) (GPT-4o); M5 = Few-Shot (6) (GPT-4.1); M6 = Few-Shot (6) (GPT-5.4, Low Effort); M7 = Few-Shot (6) (GPT-5.4, Medium Effort); M8 = Few-Shot (6) (GPT-5.4, High Effort). HR bezeichnet die Inter-Rater-Reliabilität der menschlichen Beurteilenden im doppelt kodierten Subsample (n = 150). Je höher die QWK-Werte ausfallen, desto höher ist die Bewertungstreue der LLM-basierten Urteile des jeweiligen Modells gegenüber den menschlichen Referenzurteilen. 10 Dennis Föste-Eggers et al. Vergleichs zwischen den beiden Few-Shot-Szenarien zeigte sich ein weniger eindeutiges Bild. So fanden sich hinsichtlich des holistischen Urteils und der analytischen Scores für Inhalt und Struktur keine signifikanten QWK-Unterschiede zwischen den beiden Varianten. Erweitert man die Vergleichsperspektive um die Übereinstimmung innerhalb einer Score- Stufe, zeigt sich aber in Bezug auf den analytischen Score für Sprache (Panel C) eine signifikante Verbesserung durch die Nutzung von sechs anstelle von zwei Ankertexten (M3 vs. M4) (s. Abb. 2). Im Modellvergleich unter der Few-Shot-6- Bedingung zeigte sich, dass die leistungsfähigeren Modelle GPT-4o (M4) und GPT-4.1 (M5) deutlich bessere Ergebnisse erzielten als GPT-4o-mini (M1), das über alle Modelle hinweg die geringste Bewertungstreue aufwies (z. B. QWK holistisch = .63, Abb. 1 A, M1). Zwischen den leistungsfähigeren Modellen GPT-4o (M4) und GPT-4.1 (M5) der GPT-4-Modellreihe waren die Unterschiede weniger eindeutig: Während GPT-4.1 (z. B. QWK holistisch = .75) in allen Dimensionen numerisch höhere QWK-Werte aufwies als GPT-4o (z. B. QWK holistisch = .73), war keiner dieser Unterschiede statistisch signifikant (vgl. Abb. 1 A - D, M4 vs. M5). Beide Modelle erreichten bezogen auf den analytischen Score für die Struktur (Panel D) eine Bewertungstreue (QWK zwischen .64 und .66), die statistisch nicht von der menschlichen Inter-Rater- Reliabilität (QWK = .67) abwich. Hierbei bleibt allerdings festzuhalten, dass die menschliche 1.00 0.95 0.90 0.85 0.80 0.75 0.70 ±1-Übereinstimmung A: Holistisch C: Sprache B: Inhalt D: Struktur 1.00 0.95 0.90 0.85 0.80 0.75 0.70 ±1-Übereinstimmung HR M1 M2 M3 M4 M5 M6 M7 M8 HR M1 M2 M3 M4 M5 M6 M7 M8 Abb. 2: Modellvergleich auf Basis der ±1-Übereinstimmung in vier Bewertungsdimensionen. Anmerkungen: Dargestellt sind die Punktschätzungen der ±1-Übereinstimmung (Adjacent Agreement) mit den zugehörigen 95 %-Konfidenzintervallen für die vier Bewertungsdimensionen (holistische Bewertung, Inhalt, Sprache und Struktur). Das Maß gibt den relativen Anteil der LLM-basierten Urteile an, die exakt mit dem menschlichen Referenzurteil übereinstimmen oder maximal um einen Skalenpunkt davon abweichen. Die x-Achse verwendet aus Platzgründen Kurzbezeichnungen für die Bedingungen: HR = Human Raters; M1 = Few-Shot (6) (GPT-4o-mini); M2 = Zero-Shot (GPT-4o); M3 = Few-Shot (2) (GPT-4o); M4 = Few-Shot (6) (GPT-4o); M5 = Few-Shot (6) (GPT-4.1); M6 = Few-Shot (6) (GPT-5.4, Low Effort); M7 = Few-Shot (6) (GPT-5.4, Medium Effort); M8 = Few-Shot (6) (GPT-5.4, High Effort). HR bezeichnet die ±1-Übereinstimmung der menschlichen Beurteilenden im doppelt kodierten Subsample (n = 150). Automatisierte Bewertung argumentativer Texte von Sekundarschüler: innen im Fach Deutsch 11 Inter-Rater-Reliabilität bei der Beurteilung der Struktur im Vergleich zu den anderen Bewertungsdimensionen deutlich niedriger ausfiel. Bezogen auf die übrigen Bewertungsdimensionen blieb die Bewertungstreue der LLMs ebenfalls signifikant hinter dem menschlichen Referenzniveau zurück. Erweitert man die Vergleichsperspektive um die Übereinstimmung innerhalb einer Score-Stufe (Abb. 2), zeigte sich allein für die Bewertungsdimension Sprache (Panel C) ein signifikanter Vorteil von GPT-4.1 (M5, 90 %) gegenüber GPT-4o (M4, 87 %). Exploration von Reasoning-Effekten Die Evaluation des Reasoning-Modells GPT-5.4 (M6 - M8) ergab keine konsistente Steigerung der Akkuratheit gegenüber GPT-4.1 und GPT-4o. Entgegen der theoretischen Erwartung führte eine Erhöhung des Reasoning Efforts nicht zu einer höheren Bewertungstreue (Abb. 1 A - D). Hinsichtlich der Dimension Sprache fiel das Modell in der low-effort-Spezifikation (M6) mit QWK Sprache < .54 sogar signifikant hinter GPT-4.1 (M5; QWK Sprache = .63) zurück. Analyse von Urteilstendenzen Hinsichtlich systematischer Urteilsabweichungen vom menschlichen Referenzurteil zeigte die Analyse der Differenzwerte (LLM - Mensch) für die Modelle GPT-4o und GPT-4.1 ein nach Bewertungsdimensionen differenzierbares Muster (s. Abb. 3). Während GPT-4o hinsichtlich des holistischen Urteils im Mittel nicht signifikant von den menschlichen Ratings abwich (M = 0.04, SD = 0.92; Abb. 3 A), zeigte GPT-4.1 eine leichte Tendenz zur Überschätzung der holistischen Schreibleistung (M = 0.17, SD = 0.89; Abb. 3 B). Dagegen wies GPT-4.1 in Bezug auf den analytischen Score für den Inhalt keine signifikante Abweichung vom menschlichen Urteil auf (M = 0.02, SD = 0.96; Abb. 3 B), während GPT-4o diesen Wert leicht unterschätzte (M = -0.12, SD = 0.99; Abb. 3 A). In der Dimension Sprache trat sowohl in GPT-4.1 (M = -0.24, SD = 0.94) als auch in GPT-4o (M = -0.48, SD = 0.93) eine systematische Unterschätzung auf, wobei GPT-4o deutlich stärker vom menschlichen Referenzurteil abwich. Die Bewertungsdimension B: GPT-4.1 A: GPT- 4o Holistisch Inhalt Sprache Struktur -.6 -.4 -.2 0 .2 .4 .6 -.6 -.4 -.2 0 .2 .4 .6 Abb. 3: Systematische Urteilstendenzen von GPT-4o und GPT-4.1 in vier Bewertungsdimensionen. Anmerkungen: Dargestellt sind systematische Urteilstendenzen der Modelle GPT-4o (Panel A) und GPT-4.1 (Panel B) im Vergleich zum menschlichen Referenzurteil. Hierzu wurden Differenzwerte (LLM - Mensch) berechnet und gemittelt. Positive Werte weisen auf eine systematische Überschätzung, negative Werte auf eine systematische Unterschätzung hin. Die Punkte markieren die mittleren Differenzwerte, die horizontalen Fehlerbalken die 95 %-Konfidenzintervalle. Eine Urteilsverzerrung gilt als statistisch signifikant, wenn das Konfidenzintervall die Nulllinie (gestrichelte Referenzlinie) nicht einschließt. 12 Dennis Föste-Eggers et al. Struktur wurde hingegen von beiden Modellen überschätzt, wobei die mittlere Abweichung bei GPT-4.1 (M = 0.34, SD = 1.07; Abb. 3 B) höher ausfiel als die von GPT-4o (M = 0.20, SD = 1.09; Abb. 3 A). Über die Mittelwertabweichungen hinaus zeigten die Pitman-Morgan-Tests für korrelierte Varianzen eine signifikant geringere Streuung der LLM-Urteile im Vergleich zu den menschlichen Referenzbewertungen. Die Korrelationen zwischen den Differenz- und Summenwerten der Ratings waren über alle Modelle und Dimensionen hinweg positiv und signifikant (p < .001), was eine geringere Varianz der LLM-Scores belegt. Diese Varianzrestriktion ist ein Resultat einer LLM-inhärenten Tendenz zur Mitte, die sich auch in der Besetzung der Randkategorien zeigt. Während menschliche Rater: innen etwa im holistischen Urteil die Extremkategorien 0 und 5 insgesamt 206-mal besetzten (0: n = 35; 5: n = 171), vergab GPT-4.1 diese Scores nur 176-mal (0: n = 13; 5: n = 163) und GPT-4o lediglich 129-mal (0: n = 16; 5: n = 113). Analysen zu Fairnessaspekten In den explorativen Analysen zur Prüfung der diagnostischen Fairness wurde mittels multipler linearer Regressionen untersucht, inwieweit soziodemografische Hintergrundmerkmale systematische Effekte auf die LLM-basierte Bewertung aufwiesen (s. Abb. 4 und 5). Die menschliche Expertenbewertung erwies sich über alle Dimensionen hinweg als der dominante Prädiktor für die LLM-Scores (B zwischen 0.55 C: Sprache -.2 0 .2 .4 .6 -.2 0 .2 .4 .6 B: Inhalt A: Holistisch Menschliche Bewertung Migrationshintergrund HISCED: Niedrig HISCED: Hoch D: Struktur -.2 0 .2 .4 .6 -.2 0 .2 .4 .6 Menschliche Bewertung Migrationshintergrund HISCED: Niedrig HISCED: Hoch Abb. 4: Prädiktive Invarianz von GPT-4o gegenüber soziodemografischen Merkmalen. Anmerkungen: Dargestellt sind unstandardisierte Regressionskoeffizienten (B ) mit 95 %-Konfidenzintervallen (CI ) auf Basis robuster Standardfehler nach Bewertungsdimensionen (holistische Bewertung, Inhalt, Sprache und Struktur) (Panels A - D). Die abhängige Variable ist jeweils der GPT-4o-Score in der im Panel benannten Dimensionen. Als Prädiktoren gingen die menschliche Bewertung (Referenzmaßstab), der Migrationshintergrund sowie der familiäre Bildungshintergrund (HISCED; Referenzkategorie: Mittel) in die Modelle ein. Ein CI, das die gestrichelte Nulllinie nicht schneidet, indiziert einen statistisch signifikanten Effekt des Merkmals (p < .05). Automatisierte Bewertung argumentativer Texte von Sekundarschüler: innen im Fach Deutsch 13 und 0.68, jeweils p < .001). Hinsichtlich der prädiktiven Invarianz ergab sich ein weitgehend neutrales Bild, mit einer punktuellen Ausnahme: Während GPT-4.1 über alle Dimensionen hinweg keine signifikanten Effekte der Bildungsherkunft aufwies (Abb. 5), zeigte sich bei GPT-4o in der Dimension Struktur (Abb. 4, Panel D) ein geringfügiger, statistisch signifikanter Effekt für die Gruppe der Lernenden mit hohem elterlichem Bildungsabschluss. Unter Kontrolle der menschlichen Bewertung erhielten Lernende aus dieser Gruppe im Vergleich zu Schüler: innen mit einem mittleren familiären Bildungsstatus leicht höhere Struktur- Scores. In allen anderen Dimensionen (Holistisch, Inhalt, Sprache) sowie für die Gruppe HISCED Niedrig erwiesen sich beide Modelle als invariant. Diskussion Die vorliegende Studie untersuchte die Leistungsfähigkeit von LLMs zur automatisierten Bewertung argumentativer Texte von Lernenden der Sekundarstufe im Fach Deutsch. Insgesamt zeigen die Befunde, dass LLMs insbesondere bei holistischen Urteilen eine beachtliche Übereinstimmung mit menschlichen Bewertungen erreichen können, während die analytische Beurteilung einzelner Dimensionen (z.B. Sprache) deutlich anspruchsvoller bleibt. Damit schließen die Ergebnisse an internationale Arbeiten an, die für LLM-basiertes Essay-Scoring ebenfalls eine vergleichsweise gute Passung bei globalen Urteilen, aber geringere Genauigkeit bei stärker differenzierten Bewertungsformaten berichten (Choi et al., 2025; Huang et al., C: Sprache -.2 0 .2 .4 .6 -.2 0 .2 .4 .6 B: Inhalt A: Holistisch Menschliche Bewertung Migrationshintergrund HISCED: Niedrig HISCED: Hoch D: Struktur -.2 0 .2 .4 .6 -.2 0 .2 .4 .6 Menschliche Bewertung Migrationshintergrund HISCED: Niedrig HISCED: Hoch Abb. 5: Prädiktive Invarianz von GPT-4.1 gegenüber soziodemografischen Merkmalen. Anmerkungen: Dargestellt sind unstandardisierte Regressionskoeffizienten (B ) mit 95 %-Konfidenzintervallen (CI ) auf Basis robuster Standardfehler nach Bewertungsdimensionen (holistische Bewertung, Inhalt, Sprache und Struktur) (Panels A - D). Die abhängige Variable ist jeweils der GPT-4.1-Score in der im Panel benannten Dimensionen. Als Prädiktoren gingen die menschliche Bewertung (Referenzmaßstab), der Migrationshintergrund sowie der familiäre Bildungshintergrund (HISCED; Referenzkategorie: Mittel) in die Modelle ein. Ein CI, das die gestrichelte Nulllinie nicht schneidet, indiziert einen statistisch signifikanten Effekt des Merkmals (p < .05). 14 Dennis Föste-Eggers et al. 2025; Tate et al., 2024). Zugleich erweitert die Studie die bislang noch begrenzte Evidenz für deutschsprachige argumentative Schüler: innentexte. Die Ergebnisse unterstreichen die zentrale Bedeutung von Ankertexten für die modellseitige Urteilskalibrierung. Die Nutzung von Ankertexten führte in der GPT-4-Modellreihe zu einer signifikanten Steigerung der Beurteilungstreue gegenüber der Bewertung ohne Ankertexte. Insbesondere mit Blick auf die Dimension Sprache zeigte die Verwendung von sechs gegenüber zwei Ankertexten zudem einen Mehrwert. Dies steht im Einklang mit früheren Befunden, wonach bewertete Beispieltexte abstrakte Rubriken konkretisieren und dadurch Interpretationsspielräume reduzieren (Choi et al., 2025; Meyer et al., 2026; Song et al., 2024). Ankertexte übernehmen damit für LLMs funktional eine ähnliche Rolle wie Kalibrierungsmaterialien für menschliche Rater: innen. Der Befund unterstreicht, dass die Güte LLM-basierter Bewertungen nicht allein vom Modell abhängt, sondern wesentlich von der passenden Ausgestaltung der Bewertungsraster, der gezielten Auswahl von Ankertexten sowie dem zugrunde liegenden Prompt-Ansatz beeinflusst wird. Die Unterschiede zwischen holistischen und analytischen Urteilen sind theoretisch besonders aufschlussreich. Generell erzielten die Modelle GPT-4o und GPT-4.1 hinsichtlich des holistischen Urteils eine gute Übereinstimmung mit dem menschlichen Referenzurteil und zeigten keine (GPT-4o) oder nur geringfügige (GPT-4.1) systematische Urteilstendenzen. Demgegenüber fiel die Bewertungstreue bei den differenzierten analytischen Einzelurteilen, insbesondere in der Dimension Sprache, merklich ab. Dies weist darauf hin, dass LLMs eher zu global integrierenden Plausibilitätsurteilen fähig sind als zu einer trennscharfen Diagnose einzelner Qualitätsdimensionen. Während ein holistisches Urteil auf der übergreifenden Integration verschiedener Leistungskomponenten beruhen kann, setzt analytisches Scoring eine differenzierte Abgrenzung teilweise eng verflochtener Dimensionen wie Inhalt, Struktur und Sprache voraus. Diese Herausforderung betrifft nicht nur LLMs, sondern auch menschliche Rater: innen (Böhme et al., 2017; Neumann, 2017). Entsprechend geht eine gute holistische Textbeurteilung der LLMs nicht notwendigerweise mit einer hohen diagnostischen Präzision auf analytischer Ebene einher. Besteht ein Interesse an analytischen Bewertungen, ist GPT-4.1 aufgrund der höheren Übereinstimmung in der komplexen Dimension Sprache vorzuziehen. Trotz dieser besseren Eignung von GPT-4.1 zur Bewertung der Dimension Sprache zeigte sich über alle Modelle hinweg ein deutlicher Abfall der Bewertungstreue bei der LLM-basierten Beurteilung dieser Dimension. Dabei unterschätzen die getesteten LLMs die sprachliche Performanz der Schüler: innen systematisch. Eine mögliche Erklärung ist, dass sprachliche Qualität in schulischen Rubriken ein vergleichsweise breites Konstrukt darstellt, das unterschiedliche Teilaspekte wie Normangemessenheit, Kohäsion, Wortwahl und stilistische Passung bündelt. Für LLMs könnte diese Dimension daher schwerer operationalisierbar sein als der inhaltliche Gehalt eines Textes. Denkbar ist zudem, dass Modelle stärker auf standardsprachliche Oberflächenmerkmale reagieren und entwicklungsangemessene, funktional gelungene, aber sprachlich noch nicht voll elaborierte Schüler: innentexte dadurch systematisch niedriger bewerten. Dieser Befund ist auch deshalb bedeutsam, weil frühere Arbeiten bereits gezeigt haben, dass sprachliche Oberflächenmerkmale menschliche wie automatisierte Urteile beeinflussen können (Fleckenstein et al., 2020; Jansen et al., 2018). Hinsichtlich des untersuchten Reasoning- Modells (GPT-5.4) ergab sich überraschenderweise kein Mehrwert; eine Erhöhung des Reasoning Efforts führte zu keinem inkrementellen Zuwachs der Güte bei der Beurteilung argumentativer Texte. Anders als bei Aufgaben mit eindeutigem Lösungsraum könnte ein höherer Reasoning Effort bei der Beurteilung argumentativer Texte eine zu tiefe analytische Zerlegung Automatisierte Bewertung argumentativer Texte von Sekundarschüler: innen im Fach Deutsch 15 (Overthinking) auslösen, die zusätzliche Interpretationsspielräume eröffnet, ohne die Rubriktreue zu erhöhen. Zudem könnte der auf die GPT-4-Modellreihe optimierte Prompting- Ansatz (Few-Shot, hier mit sechs Ankern) der Funktionsweise aktueller Reasoning-Modelle zuwiderlaufen. Dessen ungeachtet legt der Befund nahe, dass mehr Reasoning bei subjektiven Urteilsaufgaben nicht unbedingt zu höherer Bewertungstreue führt. Dabei ist einschränkend festzuhalten, dass für eine abschließende Beurteilung von Reasoning-Modellen vertiefte Analysen, etwa unter Verwendung modifizierter Prompting-Strategien, notwendig wären. Zudem zeigten die Pitman-Morgan-Tests eine signifikante Varianzrestriktion der LLM- Urteile im Vergleich zu den menschlichen Referenzbewertungen (p < .001). Eine Tendenz zur Mitte bei LLM-basierten Urteilen führt dazu, dass Randkategorien seltener besetzt werden und die Urteilsverteilung im Vergleich zum Expert: innenrating gestaucht wird. Dies deckt sich mit aktuellen Befunden aus dem ‚LLMas-a-Judge‘-Paradigma. Studien von Steiss et al. (2024) oder Zheng et al. (2023) weisen bereits auf diese LLM-inhärente Urteilstendenz hin. Dies ist diagnostisch bedeutsam, weil eine akzeptable mittlere Übereinstimmung mit menschlichen Urteilen nicht zwangsläufig mit einer angemessenen Trennschärfe über die gesamte Leistungsverteilung einhergeht. Gerade in summativen Kontexten ist dies relevant, da sehr schwache oder sehr starke Leistungen möglicherweise weniger differenziert abgebildet werden. Insbesondere in diesen Bereichen erscheint eine menschliche Nachkalibrierung erforderlich. Die regressionsanalytische Prüfung zur Fairness ergab derweil keine Hinweise auf systematische Verzerrungen durch die Merkmale Migrationshintergrund oder Bildungsherkunft. Lediglich bei GPT-4o zeigte sich in der Dimension Struktur ein geringfügiger Bias zugunsten von Lernenden aus akademischen Elternhäusern. Damit unterscheiden sich die Befunde teilweise von Studien, die auf gruppenspezifische Verzerrungen hinweisen (Plasencia- Calaña, 2025; Tate et al., 2024), und liegen eher näher an Arbeiten ohne deutliche Fairnessverletzungen (Oketch et al., 2025; Rodrigues et al., 2025). Gleichwohl sollten diese Ergebnisse nicht als endgültiger Nachweis diagnostischer Fairness interpretiert werden. Berücksichtigt wurden nur ausgewählte soziodemografische Merkmale, und die Analysen basieren auf einem korrelativen Design. Zudem können subtile Verzerrungen, etwa hinsichtlich sprachlicher Register oder bestimmter Teilgruppen, mit dem vorliegenden Vorgehen unentdeckt bleiben. Damit verbunden ist die Frage nach dem Status der menschlichen Referenzurteile. Die Studie verwendet menschliche Expert: innenbewertungen als ökologisch valides Referenzmaß, ohne diese als fehlerfrei anzusehen. Diese Einschränkung ist relevant, da auch menschliche Textbeurteilungen mit systematischen Verzerrungen behaftet sein können. Dass die Interraterreliabilität zwischen den Dimensionen variierte und für Struktur niedriger ausfiel als für andere Bereiche, verdeutlicht diese Problematik zusätzlich. Eine hohe Mensch-LLM-Übereinstimmung belegt daher nicht automatisch eine präzisere Erfassung der wahren Textqualität; ebenso können Abweichungen zwischen menschlichen und automatisierten Urteilen zumindest teilweise auch auf Unschärfen des Referenzmaßes zurückgehen. Die Ergebnisse sind im Licht mehrerer Limitationen zu interpretieren. Erstens beziehen sie sich auf einen spezifischen Typ argumentativer, digital verfasster Schüler: innentexte; die Übertragbarkeit auf andere Aufgabenformate bleibt offen. Zweitens sind die Befunde an konkrete Modellversionen, Prompts und Rubriken gebunden, was insbesondere bei proprietären LLMs Fragen der Reproduzierbarkeit und Stabilität aufwirft. Praktisch sprechen die Ergebnisse dafür, dass LLMs in summativen Kontexten als nützliche Tools fungieren können: Denkbar erscheint ihr Einsatz etwa zur Ersteinschätzung oder als ergänzende Zweitmeinung. Für vollautomatisierte summative Entscheidungen erscheinen sie dagegen angesichts der Befunde zur 16 Dennis Föste-Eggers et al. Sprachdimension, zur Varianzrestriktion und zu punktuellen Fairnessauffälligkeiten derzeit nur eingeschränkt geeignet. Ethisch verweist die Studie darauf, dass auch bei weitgehend unauffälligen globalen Fairnessbefunden weiterhin Fragen nach Transparenz, Nachvollziehbarkeit und potenzieller Reproduktion sozialer Ungleichheiten bestehen. Die Weiterentwicklung LLM-basierter Bewertungssysteme sollte deshalb nicht nur auf Akkuratheit, sondern gleichermaßen auf Fairness, Transparenz und pädagogische Angemessenheit ausgerichtet sein. Fazit und Ausblick Zusammenfassend lässt sich festhalten, dass LLMs für summative Rückmeldungen im Deutschunterricht das Potenzial haben, eine Unterstützung, insbesondere hinsichtlich holistischer Urteile, zu bieten, sofern sie durch sorgfältig gewählte Ankertexte kalibriert werden. Die weitgehende diagnostische Fairness gegenüber Lernenden mit Migrationshintergrund oder unterschiedlicher Bildungsherkunft unterstreicht zugleich ihr Potenzial als Bewertungshilfe. Der Anhang zu diesem Artikel ist online verfügbar unter https: / / doi.org/ 10.17605/ OSF.IO/ TK63Q Literatur Arratia, A., Cabaña, A., Mordecki, E. & Rovira-Parra, G. (2025). The Morgan-Pitman Test of Equality of Variances and its Application to Machine Learning Model Evaluation and Selection. arXiv preprint, arXiv: 2509. 12185 Baker, R. S. & Hawn, A. (2022). Algorithmic bias in education. International Journal of Artificial intelligence in education, 32 (4), 1052 - 1092. https: / / doi.org/ 10.10 07/ s40593-021-00285-9 Becker-Mrotzek, M. (2014). Schreibkompetenz. In J. Grabowski (Hrsg.), Sinn und Unsinn von Kompetenzen. Fähigkeitskonzepte im Bereich von Sprache, Medien und Kultur (S. 51 - 71). Verlag Barbara Budrich. Becker-Mrotzek, M. (2022). Schreibkompetenz: Überlegungen zu einem didaktischen Konstrukt. In M. Becker- Mrotzek & J. Grabowski (Hrsg.), Schreibkompetenz in der Sekundarstufe: Theorie, Diagnose und Förderung (S. 9 - 27). Waxmann. Becker-Mrotzek, M., Schneider, F. & Tetling, K. (2010). Argumentierendes Schreiben - lehren und lernen. Vorschläge für einen systematischen Kompetenzaufbau in den Stufen 5 bis 8. Ministerium für Schule und Weiterbildung des Landes Nordrhein-Westfalen. Bennett, R. E. & Zhang, M. (2015). Validity and automated scoring. In F. Drasgow (Hrsg.), Technology and testing (S. 142 - 173). Routledge. https: / / doi.org/ 10.4324/ 97 81315871493 Böhme, K., Schipolowski, S., Canz, T., Krelle, M. & Bremerich-Vos, A. (2017). Kompetenzstufenmodelle im Bereich Schreiben. In M. Becker-Mrotzek, J. Grabowski & T. Steinhoff (Hrsg.), Forschungshandbuch empirische Schreibdidaktik (S. 55 - 74). Waxmann. Choi, J., Tate, T., Ritchie, D., Nixon, N. & Warschauer, M. (2025). Anchor is the key: Toward accessible automated essay scoring with large language models through prompting. OSF Preprints. https: / / osf.io/ preprints/ edarxiv/ cbhgz_ v1 Ercikan, K. & McCaffrey, D. F. (2022). Optimizing implementation of artificial-intelligence-based automated scoring: An evidence-centered design approach for designing assessments for AI-based scoring. Journal of Educational Measurement, 59 (3), 272 - 287. https: / / doi. org/ 10.1111/ jedm.12332 Feilke, H. (2010). Kontexte und Kompetenzen - am Beispiel schriftlichen Argumentierens. In P. Klotz & P. R. Portmann-Tselikas (Hrsg.), Kontexte und Texte Soziokulturelle Konstellationen literalen Handelns (S. 147 - 166). Narr. Fleckenstein, J., Liebenow, L. W. & Meyer, J. (2023). Automated Feedback and Writing: A Multi-level Meta-Analysis of Effects on Students’ Performance. Frontiers in Artificial Intelligence. https: / / doi.org/ 10.3389/ frai.20 23.1162454 Fleckenstein, J., Meyer, J., Jansen, T., Reble, R., Krüger, M., Raubach, E. & Keller, S. (2020). Was macht Feedback effektiv? Computerbasierte Leistungsrückmeldung anhand eines Rubrics beim Schreiben in der Fremdsprache Englisch. In K. Kaspar, M. Becker-Mrotzek, S. Hofhues, J. König & D. Schmeinck (Hrsg.), Bildung, Schule und Digitalisierung. Waxmann. Fleckenstein J., Meyer J., Jansen T., Keller S. & Köller, O. (2020). Is a long essay always a good essay? The effect of text length on writing assessment. Frontiers in Psychology, 11, 562462. https: / / doi.org/ 10.3389/ fpsyg.2020. 562462 Fleckenstein, J., Reble, R., Meyer, J., Jansen, T., Liebenow, L. W., Möller, J. & Köller, O. (2023). Digitale Schreibförderung im Bildungskontext: Ein systematisches Review. In: Scheiter, K., Gogolin, I. (Hrsg.), Bildung für eine digitale Zukunft. Edition ZfE, vol 15. Springer VS, Wiesbaden. https: / / doi.org/ 10.1007/ 978-3-658- 37895-0_1 Geckin, V., Kızıltaş, E., & Çınar, Ç. (2023). Assessing second-language academic writing: AI vs. Human raters. Journal of Educational Technology and Online Learning, 6 (4), 1096 - 1108. https: / / doi.org/ 10.31681/ jetol.13 36599 Grabowski, J. (2017). Operationalisierungen der Textqualität. In M. Becker-Mrotzek, J. Grabowski & T. Steinhoff (Hrsg.), Forschungshandbuch empirische Schreibdidaktik (S. 137 - 148). Waxmann. Graham, S. (2006). Writing. In P. A. Alexander & P. H. Winne (Hrsg.), Handbook of educational psycholog y (S. 457 - 478). Erlbaum. Automatisierte Bewertung argumentativer Texte von Sekundarschüler: innen im Fach Deutsch 17 Gwet, K. L. (2016). Testing the difference of correlated agreement coefficients for statistical significance. Educational and Psychological Measurement 76, 609 - 637. https: / / doi.org/ 10.1177/ 0013164415596420 Helbig, M., Karwath, C. & Kleinert, C. (2026). Von der Kita bis zur Uni: Wie soziale Ungleichheiten unseren Bildungsweg beeinflussen. Waxmann. https: / / doi.org/ 10.31 244/ 9783818850166 Henschel, S., Heppt, B. & Weirich, S. (2023). Zuwanderungsbezogene Disparitäten. In P. Stanat, S. Schipolowski, R. Schneider, S. Weirich, S. Henschel, & K. A. Sachse (Hrsg.), IQB-Bildungstrend 2022: Sprachliche Kompetenzen am Ende der 9. Jahrgangsstufe im dritten Ländervergleich (S. 299 - 344). Waxmann. https: / / doi. org/ 10.31244/ 9783830997771 Horbach, A., Laarman-Quante, R., Liebenow, L. W., Meyer, J., Jansen, T., Keller, S., Zesch, T. & Fleckenstein, J. (2022). Bringing Automatic Scoring into the Classroom - Measuring the Impact of Automated Analytic Feedback on Student Writing Performance. In: Proceedings of the 11th Natural Language Processing for Computer-Assisted Language Learning conference (NLP4CALL 2022). https: / / doi.org/ 10.3384/ ecp190 008 Huang, Y., Palermo, C., Liu, R. & He, Y. (2025). An Early Review of Generative Language Models in Automated Writing Evaluation: Advancements, Challenges, and Future Directions for Automated Essay Scoring and Feedback Generation. Chinese/ English Journal of Educational Measurement and Evaluation|, 6 (2), 5. https: / / doi.org/ 10.59863/ FAMJ7696 Jansen, T. (2019). Determinanten der Beurteilung von Schülertexten [Unveröffentlichte Dissertation]. Christian- Albrechts-Universität zu Kiel. Jansen, T., Vögelin, C., Machts, N., Keller, S. & Möller, J. (2018, April). Don’t just judge the spelling! The influence of spelling on assessing second language student essays [Roundtable-Präsentation]. AERA Annual Meeting 2018, New York City, USA. Keller, S. D., Lohmann, J., Trüb, R., Fleckenstein, J., Meyer, J., Jansen, T. & Möller, J. (2024). Language quality, content, structure: What analytic ratings tell us about EFL writing skills at upper secondary school level in Germany and Switzerland. Journal of Second Language Writing, 65. https: / / doi.org/ 10.1016/ j.jslw.2024.1011 29 Klein, D. (2018). Implementing a general framework for assessing interrater agreement in Stata. The Stata Journal, 18 (4), 871 - 901. https: / / doi.org/ 10.1177/ 1536867X 1801800408 Kubesch, J., Huber, L. & Havas, C. (2026). Evaluating Austrian A-Level German Essays with Large Language: Models for Automated Essay Scoring. arXiv preprint, arXiv: 2603.06066v1 Lan, G., Li, Y., Yang, J. & He, X. (2025). Investigating a customized generative AI chatbot for automated essay scoring in a disciplinary writing task. Assessing Writing, 66, 100959. https: / / doi.org/ 10.1016/ j.asw.2025.100959 Lohmann, J. F., Junge, F., Möller, J., Fleckenstein, J., Trüb, R., Keller, S., Jansen, T. & Horbach, A. (2024). Neural Networks or Linguistic Features? - Comparing Different Machine-Learning Approaches for Automated Assessment of Text Quality Traits Among L1and L2-Learners’ Argumentative Essays. International Journal of Artificial Intelligence in Education. https: / / doi. org/ 10.1007/ s40593-024-00426-w Lohmann, J. F., Lötscher, F., Junge, F., Keller, S., Jansen, T., Fleckenstein, J. & Möller, J. (2025). Testing Teacher Judgments Comprehensively: Accuracy, Halo, Frame of Reference, Strategy, and Personality Effects in Holistic and Analytic Assessments of Student Essays. Journal of Educational Psychology. https: / / doi.org/ 10.1037/ edu0000969 Liu, Y., Lu, X. & Qi, H. (2025). Comparing GPT-based approaches in automated writing evaluation. Assessing Writing, 66, 100961. https: / / doi.org/ 10.1016/ j.asw.20 25.100961 Meyer, J., Jansen, T., Fleckenstein, J., Keller, S. & Köller, O. (2021). Machine Learning im Bildungskontext: Evidenz für die Genauigkeit der automatisierten Beurteilung von Essays im Fach Englisch. Zeitschrift für Pädagogische Psychologie, 37 (3), 1 - 12. https: / / doi. org/ 10.1024/ 1010-0652/ a000296. Meyer, J., Schaller, N.-J., Liebenow, L. W., Mora, D., Horbach, A., Jansen, T., Keller, S. D., Köller, O. & Fleckenstein, J. (2026). Accuracy and fairness in LLM-based scoring of EFL learner essays [Manuskript eingereicht zur Publikation]. Zentrum für Lehrer*innenbildung, Universität Wien. Möller, J., Jansen, T., Fleckenstein, J., Machts, N., Meyer, J. & Reble, R. (2022). Judgment accuracy of German student texts: Do teacher experience and content knowledge matter? Teaching and Teacher Education, 119, 103879. https: / / doi.org/ 10.1016/ j.tate.2022.103 879 Neumann, A. (2017). Zugänge zur Bestimmung von Textqualität. In M. Becker-Mrotzek, J. Grabowski & T. Steinhoff (Hrsg.), Forschungshandbuch empirische Schreibdidaktik (S. 203 - 219). Waxmann. Niemietz, J., Jindra, C., Schneider, R., Schumann, K., Schipolowski, S. & Sachse, K. A. (2023). Soziale Disparitäten. In P. Stanat, S. Schipolowski, R. Schneider, S. Weirich, S. Henschel, & K. A. Sachse (Hrsg.), IQB-Bildungstrend 2022: Sprachliche Kompetenzen am Ende der 9. Jahrgangsstufe im dritten Ländervergleich (S. 261 - 298). Waxmann. https: / / doi.org/ 10.31244/ 9783830997771 Oketch, K., Lalor, J. P., Yang, Y. & Abbasi, A. (2025). Bridging the LLM accessibility divide? performance, fairness, and cost of closed versus open llms for automated essay scoring. arXiv preprint, arXiv: 2503.11827 Plasencia-Calaña, Y. (2025). Operationalizing automated essay Scoring: A human-aware approach. arXiv preprint, arXiv: 2506.21603 Rat für Sozial- und Wirtschaftsdaten [RatSWD] (2023). Standardfragenkatalog zur Erhebung soziodemographischer und krisenbezogener Variablen (RatSWD Output Series, 7. Berufungsperiode Nr. 4 b). Berlin. https: / / doi.org/ 10.17620/ 02671.76 Rodrigues, L., Xavier, C., Costa, N., Gasevic, D. & Mello, R. F. (2025). Is GPT-4 Fair? An empirical analysis in automatic short answer grading. Computers and Education: Artificial Intelligence, 100428. https: / / doi.org/ 10.1016/ j.caeai.2025.100428 Schaller, N.-J., Horbach, A., Höft, L. I., Ding, Y., Bahr, J. L., Meyer, J. & Jansen, T. (2024). DARIUS: A comprehensive learner corpus for argument mining in German-language essays. In N. Calzolari, M.-Y. Kan, V. Hoste, A. Lenci, S. Sakti & N. Xue (Hrsg.), Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024) (S. 4356 - 4367). ELRA and ICCL. https: / / aclanthology.org/ 2024.lrec-main.389 18 Dennis Föste-Eggers et al. Seßler, K., Fürstenberg, M., Bühler, B. & Kasneci, E. (2025). Can AI grade your essays? Proceedings of the 15th International Learning Analytics and Knowledge Conference, 462 - 472. Shermis, M. D. & Burstein, J. C. (2003). Automated essay scoring: A cross-disciplinary perspective. Routledge. Song, Y., Zhu, Q., Wang, H. & Zheng, Q. (2024). Automated essay scoring and revising based on open-source large language models. IEEE Transactions on Learning Technologies, 17, 1880 - 1890. Ständige Wissenschaftliche Kommission der Kultusministerkonferenz [SWK] (2024). Large Language Models und ihre Potenziale im Bildungssystem (Impulspapier). https: / / doi.org/ 10.25656/ 01: 28303 Steiss, J., Tate, T., Graham, S., Cruz, J., Hebert, M., Wang, J., Moon, Y., Tseng, W., Warschauer, M. & Olson, C. B. (2024). Comparing the quality of human and ChatGPT feedback of students’ writing. Learning and Instruction, 91, Artikel 101894. https: / / doi.org/ 10.1016/ j.learn instruc.2024.101894 Tate, T. P., Steiss, J., Bailey, D., Graham, S., Moon, Y., Ritchie, D., Tseng, W. & Warschauer, M. (2024). Can AI provide useful holistic essay scoring? Computers and Education: Artificial Intelligence, 7, Artikel 100255. https: / / doi.org/ 10.1016/ j.caeai.2024.100255 Uttamchandani, S. & Quick, J. (2022). An introduction to fairness, absence of bias, and equity in learning analytics. Handbook of learning analytics, 205 - 212. Williamson, D. M., Xi, X. & Breyer, F. J. (2012). A framework for evaluation and use of automated scoring. Educational measurement: issues and practice, 31 (1), 2 - 13. https: / / doi.org/ 10.1111/ j.1745-3992.2011.00223.x Winkler, I. (2003). Argumentierendes Schreiben im Deutschunterricht: Theorie und Praxis. Peter Lang. Wolfe, E. W., Song, T. & Jiao, H. (2016). Features of difficult-to-score essays. Assessing Writing, 27, 1 - 10. https: / / doi.org/ 10.1016/ j.asw.2015.06.002 Xiao, C., Ma, W., Song, Q., Xu, S. X., Zhang, K., Wang, Y. & Fu, Q. (2025). Human-AI Collaborative Essay Scoring: A Dual-Process Framework with LLMs. 15th International Conference on Learning Analytics and Knowledge, LAK 2025, 293 - 305. https: / / doi.org/ 10. 1145/ 3706468.3706507 Yan, L., Sha, L., Zhao, L., Li, Y., Martinez-Maldonado, R., Chen, G., … & Gašević, D. (2024). Practical and ethical challenges of large language models in education: A systematic scoping review. British Journal of Educational Technology, 55 (1), 90 - 112. https: / / doi.org/ 10. 1111/ bjet.13370 Yancey, K. P., LaFlair, G., Verardi, A. & Burstein, J. (2023, July). Rating short L2 essays on the CEFR scale with GPT-4. In: Proceedings of the 18th workshop on innovative use of NLP for building educational applications (BEA 2023) (pp. 576 - 584). Yang, K., Raković, M., Gašević, D. & Chen, G. (2025). Does the Prompt-based Large Language Model Recognize Students’ Demographics and Introduce Bias in Essay Scoring? https: / / doi.org/ 10.48550/ arxiv.2504.21330 Zheng, L., Chiang, W.-L., Sheng, Y., Zhuang, S., Wu, Z., Zhuang, Y., … Stoica, I. (2023). Judging LLM-as-a- Judge with MT-Bench and Chatbot Arena. arXiv preprint, arXiv: 2306.05685 Dennis Föste-Eggers Universität Hildesheim Universitätsplatz 1 D-31141 Hildesheim E-Mail: dennis.foesteeggers@uni-hildesheim.de Fabian T. C. Schmidt Lehrstuhl für Pädagogische Psychologie und Entwicklungspsychologie Charlotte Fresenius Hochschule University of Psychology Alte Rabenstr. 1 D-20148 Hamburg E-Mail: fabian.schmidt@charlotte-fresenius-uni.de Marit Kristine List Methodenzentrum Leuphana Universität Lüneburg Universitätsallee 1 D-21335 Lüneburg E-Mail: marit.list@leuphana.de Robert Glüsing Johanna Fleckenstein Institut für Erziehungswissenschaft Universität Hildesheim Universitätsplatz 1 D-31141 Hildesheim E-Mail: koeller@uni-hildesheim.de fleckenstein@uni-hildesheim.de
