Psychologie in Erziehung und Unterricht
3
0342-183X
Ernst Reinhardt Verlag, GmbH & Co. KG München
10.2378/peu2026.art10d
3_073_2026_Online-first/3_073_2026_Online-first.pdf11
2026
73Online-first
Empirische Arbeit: KI-Literacy von Lehrenden: Prompt Engineering und Modellwahl als Prädiktoren der Qualität von KI-Feedback
11
2026
Lucas Jasper Jacobsen
Julia Pargmann
Jonathan Rohlmann
Kira Elena Weber
Feedback ist zentral für die Förderung professioneller Kompetenzen von (angehenden) Lehrkräften. Sprachmodelle (Large Language Models = LLMs) wie ChatGPT werden zunehmend zur Bereitstellung von Feedback genutzt. Studien zeigen, dass LLM-Feedback hochwertiger sein kann als das von Expert:innen. Unklar ist, welche Einflussfaktoren die Qualität des Feedbacks vorhersagen. Zwei quasi-experimentelle Studien untersuchten, welche Promptmerkmale LLM-Feedback verbessern und ob Promptdesign oder Modellwahl den größeren Einfluss hat. Lehramtsstudierende formulierten Lernziele, für die Feedback verschiedener LLMs generiert wurde. In Studie 1 (N = 240 Feedbacks) wurden unterschiedliche Prompts mit mehreren LLMs getestet. Die besten Kombinationen wurden in Studie 2 (N = 345 Feedbacks) erneut eingesetzt, um ihre Prädiktionskraft für Feedbackqualität zu prüfen. Hierarchische Regressionen zeigen, dass die Wahl des LLMs und das Promptdesign signifikante Prädiktoren sind. Bereits wenige gezielt eingesetzte Prinzipien des Promptings genügen, um qualitativ hochwertiges Feedback zu erzeugen. Fachsprache ist besonders wirksam. Die Auswahl geeigneter LLMs und Prompting-Kompetenzen sollten als relevante Merkmale von KI-Literacy gefördert werden.
3_073_2026_Online-first_0002
n Empirische Arbeit KI-Literacy von Lehrenden: Prompt Engineering und Modellwahl als Prädiktoren der Qualität von KI-Feedback Lucas Jasper Jacobsen 1 , Julia Pargmann 1 , Jonathan Rohlmann 2 , Kira Elena Weber 1 1 Universität Hamburg, Hamburg, Deutschland 2 Leuphana Universität, Lüneburg, Deutschland Zusammenfassung: Feedback ist zentral für die Förderung professioneller Kompetenzen von (angehenden) Lehrkräften. Sprachmodelle (Large Language Models = LLMs) wie ChatGPT werden zunehmend zur Bereitstellung von Feedback genutzt. Studien zeigen, dass LLM-Feedback hochwertiger sein kann als das von Expert: innen. Unklar ist, welche Einflussfaktoren die Qualität des Feedbacks vorhersagen. Zwei quasi-experimentelle Studien untersuchten, welche Promptmerkmale LLM-Feedback verbessern und ob Promptdesign oder Modellwahl den größeren Einfluss hat. Lehramtsstudierende formulierten Lernziele, für die Feedback verschiedener LLMs generiert wurde. In Studie 1 (N = 240 Feedbacks) wurden unterschiedliche Prompts mit mehreren LLMs getestet. Die besten Kombinationen wurden in Studie 2 (N = 345 Feedbacks) erneut eingesetzt, um ihre Prädiktionskraft für Feedbackqualität zu prüfen. Hierarchische Regressionen zeigen, dass die Wahl des LLMs und das Promptdesign signifikante Prädiktoren sind. Bereits wenige gezielt eingesetzte Prinzipien des Promptings genügen, um qualitativ hochwertiges Feedback zu erzeugen. Fachsprache ist besonders wirksam. Die Auswahl geeigneter LLMs und Prompting-Kompetenzen sollten als relevante Merkmale von KI-Literacy gefördert werden. Schlüsselbegriffe: Lehrkräftebildung, Feedback, KI-Literacy, Prompt Engineering, Large Language Models (LLM) AI Literacy of Teachers: Prompt Engineering and Model Selection as Predictors of AI-Feedback Quality Summary: Feedback is central to promoting pre-service teachers’ professional skills. Large language models (LLMs) such as ChatGPT are increasingly used to provide feedback. Studies show that LLM feedback can be of higher quality than that provided by experts. It is unclear which factors predict feedback quality. Two quasi-experimental studies investigated which prompt characteristics improve LLM feedback and whether prompt quality or model choice has the greater influence. Pre-service teachers formulated learning goals, for which various LLMs generated feedback. In Study 1 (N = 240 feedbacks), different prompts were tested with several LLMs. The best combinations were used again in Study 2 (N = 345 feedbacks) to test their predictive power for feedback quality. Hierarchical regressions show that both the choice of LLM and prompt quality are significant predictors. Just a few targeted principles of prompt engineering are sufficient to generate high-quality feedback. Domain-specific language is particularly effective. The selection of suitable LLMs and prompting skills should therefore be fostered as relevant characteristics of AI literacy. Keywords: Teacher Education, Feedback, AI-Literacy, Prompt Engineering, Large Language Models (LLM) Psychologie in Erziehung und Unterricht, 2026, 73, Preprint Online DOI 10.2378/ peu2026.art10d © Ernst Reinhardt Verlag 2 Lucas Jasper Jacobsen, Julia Pargmann, Jonathan Rohlmann, Kira Elena Weber Feedback gilt als einer der einflussreichsten Faktoren für Lernen und Leistungsentwicklung (Hattie & Timperley, 2007; Wisniewski, Zierer & Hattie, 2020). Es kann Kompetenzen, Motivation und Reflexion fördern (Narciss, 2013; Henderson, Ajjawi, Boud & Molloy, 2019). Das Nutzen und das Geben von Feedback sind daher zentrale Bestandteile der Lehrkräftebildung (Prilop, Weber & Kleinknecht, 2020). Für die Nutzung von Feedback ist neben der Wahrnehmung vor allem die Qualität entscheidend (Strijbos et al., 2021; Jacobsen, Mertens, Jansen & Weber, 2025). In der Lehrkräftebildung mangelt es jedoch häufig an hochqualitativem Feedback (Ferguson, 2009), unter anderem aufgrund begrenzter zeitlicher Ressourcen der Dozierenden (Demszky, Liu, Hill, Jurafsky & Piech, 2023; Henderson et al., 2019). Generative Künstliche Intelligenz (GenKI) eröffnet neue Möglichkeiten zur Bereitstellung kontextsensiblen, zeitnahen und hochqualitativen Feedbacks (Bauer et al., 2025; Dai et al., 2024; Kinder et al., 2025). Die Qualität der Rückmeldungen hängt maßgeblich vom genutzten Sprachmodell (Chan et al., 2024; Kaplan et al., 2020) sowie vom Promptdesign, also der Gestaltung der Eingabeaufforderung, ab (Chen, Zhang, Langrené & Zhu, 2025). Die Fähigkeit von Lehrenden, einerseits effektive Prompts zu formulieren und andererseits geeignete Sprachmodelle auszuwählen, stellt somit eine zentrale Voraussetzung für den sinnvollen Einsatz von KI-Feedback im Bildungskontext dar (Federiakin, Molerov, Zlatkin-Troitschanskaia & Maur, 2024; Qian, 2025; Walter, 2024). Diese Fähigkeiten können als wesentlicher Bestandteil von KI- Literacy verstanden werden (Yan, Greiff, Teuber & Gašević, 2024; Ng et al., 2021), sind jedoch sowohl bei Lehramtsstudierenden als auch bei Lehrenden nur gering ausgeprägt (Mah, Knoth & Egloffstein, 2025; Prilop et al., 2025). Der bisherige Forschungsstand zum Prompt Engineering ist durch eine Vielzahl technischer Beiträge geprägt, die hochkomplexe Klassifikationen und taxonomische Analysen möglicher Prompttypen bereitstellen, jedoch kaum auf die pädagogisch-praktische Anschlussfähigkeit im Bildungskontext eingehen (Debnath, Siddiky, Rahman, Das & Guha 2025; Vatsal & Dubey, 2024). Erste Arbeiten entwickeln explizit pädagogisch ausgerichtete Benchmarks zur Evaluation von LLMs, so etwa Leliévre et al. (2025) für pädagogisches Wissen und Rittle-Johnson et al. (2025) für Fehlvorstellungen in der Mathematik. Andere Arbeiten betrachten das Thema aus einer bildungswissenschaftlich-normativen Perspektive, gehen dabei jedoch nicht auf die konkrete Ausarbeitung von Prompts ein (Cain, 2024; Federiakin et al., 2024; Walter, 2024) oder liefern zu gestalteten Prompts keine empirische Grundlage für deren Wirksamkeit (Jackson, 2025). Schließlich fassen aktuelle systematische Literaturübersichten sehr umfangreich genannte technische Literatur zum Prompting zusammen (Chen et al., 2025) oder bieten eine Übersicht über empirische Studien, in denen Prompts als Teil des Studiendesigns eingesetzt wurden (Qian, 2025), behandeln jedoch weder deren konkrete Ausgestaltung noch ihre empirische Wirkung. Ziel der Forschung & Forschungsfrage Bisherige Studien zum Prompt Engineering nehmen entweder eine theoretische, bildungswissenschaftliche (Cain, 2024; Federiakin et al., 2024; Walter, 2024) oder eine rein technische Perspektive ein (Debnath et al., 2025; Vatsal & Dubey, 2024). Somit liegt ein Forschungsdesiderat in der Untersuchung der genauen Wirkungen unterschiedlicher Prompts auf die Ausgabequalität von LLMs (Qin, 2025). Der vorliegende Beitrag greift dieses Desiderat auf und untersucht, inwiefern sich sowohl spezifische Promptmerkmale als auch die Wahl des Sprachmodells auf die Qualität von LLM-Feedback im Kontext der Lehrkräftebildung auswirken. Zur Transparenz und Replizierbarkeit stellen wir ein Supplement bereit, das als Grundlage für die Aufbereitung als Benchmark dienen kann. Zur Operationalisierung der Promptmerkmale wird das 3K-Modell (Tabelle 1) verwendet, das technische Prompt-Engineering-Strategien in elf pädagogisch-praktische Kategorien über- KI-Literacy von Lehrenden: Prompting und Modellwahl als Prädiktoren von Feedbackqualität 3 führt (Jacobsen & Weber, 2025). Für die experimentelle Variation wurden daraus drei besonders relevante Merkmale ausgewählt: Fachsprache, Beispiele und Nachdenken. Somit ergeben sich folgende Forschungsfragen: 1) Welchen Einfluss haben das Design des Prompts und die Wahl des Sprachmodells auf die Qualität des LLM-Feedbacks? 2) Welche Kategorien des 3K-Modells verbessern die Qualität von LLM-generiertem Feedback am stärksten? Theoretischer Hintergrund Feedback und Feedbackqualität in der Lehrkräftebildung Feedback kann als Information verstanden werden, die Lernenden dabei hilft, die Lücke zwischen ihrem aktuellen Wissens- oder Leistungsstand und dem gewünschten Ergebnis eines Lernprozesses zu erkennen und zu verringern (Kluger & DeNisi, 1996; Smith & Lipnevich, 2018). Es kann positiv auf motivationale, kognitive und metakognitive Prozesse wirken (Hattie & Timperley, 2007; Narciss, 2013). Voraussetzung dafür ist spezifisches, zeitnahes und adressatenorientiertes Feedback, das eine selbstregulierte Auseinandersetzung mit dem eigenen Lernstand ermöglicht (Panadero & Lipnevich, 2022). In der Lehrkräftebildung erfüllt Feedback eine doppelte Funktion: Es unterstützt die Reflexion und Entwicklung professionsbezogener Kompetenzen und gilt zugleich als zentrale berufliche Handlungskompetenz. Feedback Literacy umfasst dabei sowohl die Fähigkeit, Feedback zu verstehen und umzusetzen, als auch die Fähigkeit, es adressatengerecht und lernwirksam zu formulieren (Carless & Boud, 2018). Qualitativ hochwertiges Feedback ist daher eng mit professionellem Kompetenzerwerb verknüpft (Prilop et al., 2020; Prilop & Weber, 2023). Basierend auf Analysen von Expert: innen-Feedback extrahierten Sluijsmans, Brand-Gruwel und Van Merriënboer (2002) zentrale Merkmale hochqualitativen Feedbacks, die in späteren Studien weiterentwickelt und empirisch konsolidiert wurden. Dazu zählen der Bezug auf vereinbarte Ziele, konkrete Leistungskriterien, differenzierte Entwicklungsvorschläge, ein ausgewogenes Verhältnis von positiven und kritischen Kommentaren, reflektierende Fragen und Ich-Botschaften (Gielen & DeWever, 2015; Narciss, 2013). Als zentrales Hindernis für derlei individuelle Rückmeldungen benennen Lehrende vor allem zeitliche Restriktionen (Demszky et al., 2023; Henderson et al., 2019). KI-Feedback im Lehr-Lernprozess Um diesen zeitlichen Einschränkungen entgegenzuwirken, rückt Feedback von großen Sprachmodellen (Large Language Models = LLMs) zunehmend in den Fokus. Einzelne Studien zeigen, dass LLM-Feedback lernförderlich sein kann. So kann LLM-Feedback zu Verbesserungen im diagnostischen Denken (Sailer et al., 2023) oder bei didaktischen Analyseleistungen (Bauer et al., 2025) führen. Weitere Befunde weisen darauf hin, dass die Qualität von LLM- Feedback teilweise Expert: innen-Feedback übertrifft (Dai et al., 2024; Jacobsen & Weber, 2025). Lehramtsstudierende schätzen LLM-Feedback zudem als verständlich und lernförderlich ein (Kinder et al., 2025). Besonders deutlich zeigen sich Effekte bei Lernenden mit geringem Vorwissen (Liebenow, Schmidt, Meyer & Fleckenstein, 2025). Instrumentelle KI-Literacy für Lehrende Eine zentrale Voraussetzung für den effektiven Einsatz von LLM-Feedback ist die KI-Literacy der Lehrenden. Long und Magerko (2020) definieren KI-Literacy als eine Reihe von Kompetenzen, die es Individuen ermöglicht, KI-Technologien kritisch zu bewerten, effektiv mit KI zu kommunizieren und zusammenzuarbeiten sowie KI als Werkzeug zu nutzen. Im Anschluss an Yan et al. (2024) und Ng et al. (2021) lässt sich zwischen einer instrumentellen Dimension (Wissen, Anwendung) und einer kritischen Dimension (Bewertung, Ethik) unterscheiden. Im vorlie- 4 Lucas Jasper Jacobsen, Julia Pargmann, Jonathan Rohlmann, Kira Elena Weber genden Kontext umfasst instrumentelle KI- Literacy insbesondere Wissen über die Funktionsweise und Leistungsfähigkeit großer Sprachmodelle sowie deren gezielte Nutzung, etwa durch qualitativ hochwertiges Promptdesign und eine bewusste Modellwahl. Empirische Arbeiten zeigen, dass sich Modelle hinsichtlich ihrer Outputqualität systematisch unterscheiden (Chiang et al., 2024; Kaplan et al., 2020; UNESCO, 2024). Für Lehrende ist die Wahl des Sprachmodells daher keine rein technische Detailfrage, sondern eine didaktisch relevante Entscheidung, die die Qualität des Feedbacks mitbestimmt. Prompt Engineering Prompt Engineering als Facette der instrumentellen KI-Literacy beschränkt sich nicht nur auf formale Aspekte, sondern setzt voraus, dass Lehrende ihr pädagogisches Fachwissen explizit machen und in Prompts übersetzen können (Meincke et al., 2025; Xiao et al., 2025). Walter (2024) beschreibt es als Schnittstelle zwischen kognitiver Zielklarheit, sprachlicher Kontrolle und didaktischer Absicht. Federiakin et al. (2024) verstehen Prompt Engineering als eine eigenständige 21st-Century-Skill, die kreative Problemlösekompetenz, datenbezogenes Denken und kommunikative Steuerungsfähigkeit verbindet. Diese Vielschichtigkeit lässt sich in drei Ebenen unterscheiden: Die prozedurale Ebene des Promptdesigns umfasst Gestaltungsprinzipien, zum Beispiel das Setzen von Kontext oder die Integration von Beispielen, mit denen LLM-Ausgaben gezielt gesteuert werden können (Sahoo et al., 2025; Park & Choo, 2024). Die epistemische Ebene bezeichnet das Übersetzen fachlichen und fachdidaktischen Wissens (z. B. Bewertungskriterien, domänenspezifische Fachsprache) in Prompts, was ein tiefes Verständnis des Lerngegenstandes voraussetzt (Meincke et al., 2025; Park & Choo, 2024; Xiao et al., 2025). Die reflexive Ebene schließlich umfasst die Prüfung und iterative Überarbeitung der Outputs, da die Wirksamkeit einzelner Prompting- Techniken und Sprachmodelle variiert (Meincke et al., 2025; Xiao et al., 2025). Im Fokus der empirischen Untersuchung steht die prozedurale Ebene. Angesichts dieser Komplexität wird deutlich, dass Lehrende gezielt geschult werden müssen, um hochwertige Prompts zu formulieren. Empirische Studien zeigen jedoch, dass entsprechende Kompetenzen bei Lehramtsstudierenden und Lehrenden bislang nur wenig ausgeprägt sind und ein hoher Fortbildungsbedarf besteht (Mah et al., 2025; Prilop et al., 2025). In der technischen Fachliteratur wurden verschiedene Verfahren identifiziert, mit denen sich die Leistung von LLMs gezielt beeinflussen lässt. Für den Einsatz im Bildungsbereich bedarf es einer pädagogisch-praktischen Reduktion und Operationalisierung. Das von Jacobsen und Weber (2025) entwickelte und im Rahmen dieser Studie verfeinerte 3K-Modell (Kontext, Kernauftrag, Klarheit) übersetzt technische Strategien in elf praxisorientierte Kategorien (Tabelle 1). Diese Struktur ermöglicht die systematische Vereinfachung komplexer Techniken auf eine handhabbare Ebene (Chen et al., 2025). Lehrende können so auf Basis vorgegebener Kategorien eigene Prompts entwickeln. Im Folgenden werden zentrale Konzepte aus der Forschungsliteratur den Kategorien des 3K-Modells zugeordnet. Die erste Überkategorie des 3K-Modells, Kontext, subsumiert die Rolle, die Zielgruppe und das Zielmedium. Die Beschreibung der eigenen Rolle (Kategorie 1) und der des Sprachmodells wird als Persona Prompting bezeichnet. Dabei wird das LLM explizit in eine bestimmte Rolle versetzt, z. B. als Expert: in, Kritiker: in oder Mentor: in. Dies hilft den Tonfall, die Argumentationsstruktur und den Kontext der Ausgabe zu steuern (Chen et al., 2025; Park & Choo, 2024; Walter, 2024; White et al., 2023). Die Benennung der Zielgruppe (Kategorie 2) beeinflusst die sprachliche und inhaltliche Passung der generierten Texte (Park & Choo, 2024). Durch die Beschreibung des Zielmediums (Kategorie 3), bei der das gewünschte Ausgabeformat (z. B. E-Mail, Haiku, Liebesbrief ) spezifiziert wird, werden Struktur, Tonfall und Umfang gesteuert (Park & Choo, 2024). KI-Literacy von Lehrenden: Prompting und Modellwahl als Prädiktoren von Feedbackqualität 5 Kategorie Subkategorie Gut (Wertung: 2) Mittel (Wertung: 1) Suboptimal (Wertung: 0) Kontext Rolle Die Rolle des LLMs und die der Frage stellenden Person wird erläutert. Nur die Rolle des LLMs wird erläutert. Weder die Rolle des LLMs noch die Rolle derFragestellendenPersonwerdenerwähnt. Zielgruppe Es gibt eine klar definierte und beschriebene Zielgruppe. Die Zielgruppe wird grob beschrieben. Die Zielgruppe wird nicht benannt. Zielmedium Das Zielmedium, für den der Text geschrieben wird (Liebesbrief, Twitter-Post, Bachelorarbeit), wird klar beschrieben. Das Zielmedium, für den der Text geschrieben wird (Liebesbrief, Twitter-Post, Bachelorarbeit), wird grob beschrieben. Das Zielmedium, für den der Text geschrieben wird (Liebesbrief, Twitter-Post, Bachelorarbeit), wird nicht genannt. Kernauftrag Aufgabenstellung Der Auftrag wird klar und deutlich beschrieben. Der Auftrag an das LLM wird grob beschrieben. Der Auftrag an das LLM wird nicht deutlich. Fachbegriffe (Domänenspezifität) Fachbegriffe werden korrekt genutzt und geben dem LLM die Möglichkeit, in der Antwort auf diese Rekurs zu nehmen. Fachbegriffe werden vereinzelt oder ohne Erklärung genutzt. Es wird kein spezifisches Vokabular, das für den Fachbereich der Frage relevant ist, genutzt. Nachdenken (Chain-of- Thought) Das LLM wird angewiesen, langsam und Schritt-für-Schritt eine Antwort zu generieren. Das Chain-of-thought-Prinzip lässt sich erahnen. Eine langsame und Schritt-für-Schritt stattfindendende Antwort wird nicht verlangt. Klarheit und Spezifität Format und Beschränkungen Es werden sowohl stilistische Eigenschaften beschrieben als auch Längenangaben gemacht. Es werden entweder stilistische Eigenschaften beschrieben oder eine Längenangabe gemacht. Es werden weder stilistische Eigenschaften beschrieben noch Längenangaben gemacht. Prägnanz Der Prompt beinhaltet nur Informationen, die direkt auf die Ausgabe bezogen und für diese relevant sind. Er ist klar und prägnant. Der Prompt besteht aus einer prägnanten Eingabeaufforderung mit nur sehr wenig überflüssigen Informationen. DerPromptbeinhaltetvieleInformationen, die irrelevant für die Fragen/ Ausgabe sind. Logik Der Prompt besitzt einen sehr guten Lesefluss, innere logische Kohärenz, eine sehr stimmige Abfolge von Informationen und klar verständliche Verbindung von Inhalten und Aufforderungen. Der Prompt erfüllt nur Teile der Bedingungen der Kodierung eines guten Prompts dieser Kategorie. Der Prompt ist unlogisch aufgebaut. Beispiele Es werden mehrere konkrete Beispiele aufgeführt. Es wird lediglich ein Beispiel genutzt. Es wird kein Beispiel genutzt. Emotionalität Der Prompt besitzt eine klare emotionale Komponente. Der Prompt lässt eine emotionale Komponente erahnen. Der Prompt besitzt keine emotionale Komponente. Tab. 1: Das 3K-Modell zur Erstellung hochqualitativer Prompts. Erweiterung nach Jacobsen & Weber (2025). 6 Lucas Jasper Jacobsen, Julia Pargmann, Jonathan Rohlmann, Kira Elena Weber Die zweite Überkategorie des 3K-Modells, der Kernauftrag, umfasst die Aufgabenstellung, die Domänenspezifität und das Prinzip des Nachdenkens. Die Aufgabenstellung (Kategorie 4) bildet das Herzstück eines Prompts. Direct Instruction Prompting beschreibt die Technik, dem LLM eine explizite Handlungsanweisung zu geben (Choi & Chang, 2025). Präzise Formulierungen erhöhen die Genauigkeit der Ausgabe, während vage Fragestellungen zu uneindeutigen Ergebnissen führen (White et al., 2023). In Artikeln mit konkretem bildungswissenschaftlichem Bezug wird die Domänenspezifität (Kategorie 5), also die Verwendung fachspezifischer Terminologie und kontextbezogener Sprache, immer wieder betont (z. B. Chen et al., 2025; Choi & Chang, 2025). In technikzentrierten Arbeiten wird diese Kategorie jedoch kaum erwähnt (z. B. Vatsal & Dubey, 2024; Debnath et al., 2024). Das 3K-Modell berücksichtigt dies entsprechend. Der gezielte Einsatz von Fachterminologie kann die Qualität generierter Inhalte potenziell erhöhen, insbesondere in Kontexten, in denen inhaltliche Tiefe und kontextuelle Passung gefordert sind - etwa bei der Erstellung von Feedback. Empirische Befunde zur Wirksamkeit liegen bisher jedoch nicht vor. Die Technik des Nachdenkens (Kategorie 6), in der Literatur als Chain-of-Thought- Prinzip bekannt, fordert das LLM explizit auf, Schritt für Schritt über die Aufgabe nachzudenken. So zergliedert das Sprachmodell komplexe Anfragen in Teilaufgaben, was zu Fehlerreduktion und verbesserter Leistung bei komplexen Anfragen führen kann (Debnath et al., 2025; Vatsal & Dubey, 2024; Wei et al., 2023). Die dritte Überkategorie des 3K-Modells, Klarheit, subsumiert fünf Kategorien. Die Angabe von Längen-, Stil- oder Strukturvorgaben, wie in der Kategorie Format und Beschränkungen (Kategorie 7) beschrieben, führt laut Chen et al. (2025) zu konsistenteren und zielgerichteteren Ausgaben. In Bezug auf die Prägnanz (Kategorie 8), wird in der Literatur manchmal vom Minimal Effective Prompting gesprochen, ohne jedoch einheitlich definiert zu sein. Überfrachtete Prompts können die Modellleistung verschlechtern (Chen et al., 2025; Vatsal & Dubey, 2024). Ein logisch strukturierter Prompt (Kategorie 9, Logik) erleichtert dem LLM die Ableitung sinnvoller Schlüsse. Federiakin et al. (2024) fordern dazu eine klare, schrittweise Strukturierung der Information. Die Bereitstellung von Beispielen (Kategorie 10) wird in der Literatur häufig als few-shot prompting (Chen et al., 2025; Debnath et al., 2025) oder contrastive self-consistency Prompting (Vatsal & Dubey, 2024) bezeichnet. Beispiele, idealerweise Positiv- und Negativbeispiele im gleichen Prompt, sorgen für verbesserte Genauigkeit, eine schnelle Anpassung des Outputs an gewünschte Parameter und sorgen so für größere Kontrolle. Der Einbezug emotionaler Signale (Kategorie 11), im Modell als Emotionalität bezeichnet, kann die Kohärenz und Genauigkeit erhöhen sowie die Tendenz zu Halluzinationen reduzieren (Debnath et al., 2025). Das 3K-Modell (Tabelle 1) überführt zentrale Strategien des Prompt Engineerings in eine praxisorientierte und pädagogisch relevante Struktur. Lehrende erhalten damit ein konkretes Raster, um qualitativ hochwertige Prompts zu entwickeln und LLMs gezielt zu steuern. Methode Stichprobe Im Rahmen eines vierwöchigen Schulpraktikums im Jahr 2024 formulierten 153 Lehramtsstudierende (M Alter = 22,53, SD Alter = 3,14; 78 % weiblich, 22 % männlich) einer deutschen Universität ein Lernziel für eine selbstständig geplante Unterrichtsstunde. Die Teilnehmenden studierten Lehramt für Grundschulen oder Sekundarstufe 1 und befanden sich im vierten Fachsemester ihres Bachelorstudiums. Die Mehrheit verfügte über keine oder nur geringe schulpraktische Vorerfahrung. Die Lernziele wurden im Vorfeld des Unterrichts gemeinsam mit dem Verlaufsplan eingereicht, um die unterrichtsbegleitende Hospitation und Reflexion durch die Lehrenden im universitären Begleitseminar vorzubereiten. Auf dieser Grundlage standen die Lernziele, nach Zustimmung der Studierenden, vollständig in schriftlicher Form zur Verfügung. Die Inhalte bezogen sich auf eine breite fachliche Varianz KI-Literacy von Lehrenden: Prompting und Modellwahl als Prädiktoren von Feedbackqualität 7 und waren bspw. den Fächern Mathematik, Deutsch, Sport und Kunst zuzuordnen. Für die vorliegende Studie dienten diese Lernziele als Datengrundlage für die Generierung des LLM-Feedbacks. Alle Studierenden gaben ihr schriftliches Einverständnis zur wissenschaftlichen Nutzung ihrer anonymisierten Lernziele. Genutzte Prompts und Generierung des Feedbacks Zur Auswahl geeigneter Promptmerkmale wurden in einem Vortest sämtliche Kategorien des zugrunde liegenden Promptmanuals (3K-Modell) systematisch variiert. Aufbauend auf einem empirisch validierten Ausgangsprompt (Jacobsen & Weber, 2025), der bereits qualitativ hochwertiges Feedback erzeugte, wurde für jede der elf Kategorien ein Prompt erstellt, in dem gezielt eine Komponente ausgelassen oder ergänzt wurde. Mithilfe dieser elf Prompt-Varianten wurde mit allen drei LLMs eine Teilstichprobe generiert, die Feedback zu zehn strategisch ausgewählten Lernzielen enthält (N = 330 Feedbacks). Die Lernziele wurden so gewählt, dass sie unterschiedliche Qualitätsniveaus abdeckten. Die generierten Feedbacks wurden von zwei der Autor: innen unabhängig voneinander qualitativ gesichtet und hinsichtlich ihrer Feedbackqualität verglichen. Als Bewertungsgrundlage dienten dabei die neun Qualitätskriterien des später verwendeten Kodiermanuals (siehe Tabelle 2), die im Screening als Rahmen für eine hoch-inferente, vergleichende Bewertung herangezogen wurden. Die beiden Forschenden bewerteten unabhängig voneinander, ob das Weglassen oder Hinzufügen einer Kategorie im Prompt zu einer Verbesserung oder Verschlechterung der Feedbackqualität führte. Beide Forschenden diskutierten ihre Einschätzungen in einem strukturierten Abgleich und identifizierten konsensuell drei Promptmerkmale, deren Vorhandensein konsistent mit einer erkennbaren Verbesserung der Feedbackqualität assoziiert war: die Verwendung domänenspezifischer Fachsprache, die Integration konkreter Beispiele sowie der Einsatz des „Chain-of- Thought“-Promptings. Diese drei Kategorien wurden im Hauptexperiment gezielt variiert, um ihre Wirkung empirisch zu überprüfen. Zur Generierung des Feedbacks wurden drei LLMs anhand der Kriterien der Zugänglichkeit, Benutzerfreundlichkeit und der erwarteten Ausgabequalität ausgewählt: ChatGPT-4, Claude 3 und Gemini Advanced. Um konsistente Bedingungen zu gewährleisten, wurde jedes Feedback in separaten Gesprächen ohne Verlaufshistorie generiert, sodass jede Eingabe als eigenständiger Prompt behandelt und der Einfluss früherer Interaktionen ausgeschlossen wurde. Zudem kam pro LLM ein einheitliches Benutzerkonto zum Einsatz, um Unterschiede durch Modellkonfigurationen oder Zugriffsrechte auszuschließen. Prompt 1 (Baseline) erfüllt zehn von elf Kategorien des Promptmanuals, er enthält lediglich keine Beispiele. Im Folgenden wird Prompt 1 in Gänze dargelegt, wobei nach jeder erfüllten Kategorie des Manuals die jeweilige Kategorie kursiv in Klammern ausgewiesen wird. Die Kategorien der Prägnanz und Logik werden nicht im Prompt ausgewiesen, da diese über den gesamten Prompt hinweg beurteilt werden: „Ich möchte, dass Du ein harter Kritiker mit professionellem Feedback bist. Ich bin Dozent an einem Institut für Bildungswissenschaft und bilde zukünftige Lehrkräfte aus (Rolle & Zielgruppe). Ich möchte, dass Du ein Feedback zu einem Lernziel gibst, das für die Verlaufspläne von Lehrkräften verwendet wird. Das Feedback sollte bestimmte Kriterien erfüllen (Zielmedium & Mission/ Frage). Die Kriterien sind: Das Feedback sollte konkret, empathisch und aktivierend sein. Stelle anregende Fragen. Formuliere das Feedback in Form von Ich-Botschaften. Beziehe Dich auf den Inhalt des Lernziels. Erläutere Deine Bewertung. Ich werde Dir einige Kriterien für ein gutes Lernziel nennen. Beziehe diese in Dein Feedback mit ein. Ein gutes Lernziel enthält ein Tätigkeitsverb, beachte bitte Blooms Taxonomie der Tätigkeitsverben. Ein gutes Lernziel ist auf den Lernenden bezogen, enthält nur ein Lernziel, bezieht sich auf das Lernergebnis, ist konkret und verbindet Inhalt und Ziel (Domänenspezifität). Das Feedback sollte so klingen, als ob Du ein: e befreundete: r Kolleg: in wärst. Das Feedback sollte 200 - 300 Wörter umfassen und im Fließtext geschrieben sein (Format und Beschränkungen). Frage mich zuerst, zu welchem Lernziel ich ein Feedback haben möchte. Wenn Du das Gefühl hast, dass Du alle notwendigen Zusammenhänge kennst, überlege Dir Schritt für Schritt, wie Du Dein Feedback formulieren kannst (Nachdenken). Das Feedback sollte sich ausschließlich auf das formulierte Lernziel beziehen. Die Ergebnisse sind sehr wichtig für meinen Beruf und den Lernerfolg der Studierenden (Emotionalität).“ 8 Lucas Jasper Jacobsen, Julia Pargmann, Jonathan Rohlmann, Kira Elena Weber Prompt 2 (mit Beispielen) ist identisch mit Prompt 1, wurde jedoch um drei konkrete Beispiele für gute und schlechte Lernziele ergänzt. Prompt 3 (ohne Domänenspezifität) ist eine Variante von Prompt 1, bei der fachspezifische Begriffe und Modelle durch alltagssprachliche Umschreibungen ersetzt wurden. Prompt 4 (ohne Chain-of-Thought) ist eine Variante von Prompt 1 ohne explizite Aufforderung zur schrittweisen, reflektierten Antwortgenerierung. Eine Übersicht aller Prompts findet sich im Supplement S13. Kodierung des Feedbacks Zur Ermittlung der Feedbackqualität des LLM-Feedbacks wurde ein quantitatives Kodierungsverfahren genutzt. Zu diesem Zweck wurde ein ursprünglich von Prilop, Weber und Kleinknecht (2019) erstelltes und auf Prins et al. (2006) basierendes Kodiermanual an den Kontext von LLM-generiertem Feedback angepasst. Die angepasste Version wurde bereits in einer früheren Studie von Jacobsen und Weber (2025) verwendet und umfasst neun Kategorien hochqualitativen Feedbacks. Das Feedback wurde hinsichtlich jeder einzelnen Kategorie mit „2“ für hohe Qualität, „1“ für durchschnittliche Qualität und „0“ für suboptimale Qualität bewertet. Jedes Feedback diente als einzelne Analyseeinheit, um eine gründliche inhaltliche Bewertung zu ermöglichen. Die Qualität des Feedbacks wurde von drei geschulten Kodierer: innen analysiert. Das Forschungsteam hat etwaige Diskrepanzen in den Bewertungen der Kodierer: innen vor dem Kodieren des gesamten Feedbacks mithilfe von 20 % der Gesamtstichprobe ermittelt und durch gemeinsamen, iterativen Austausch mit den Kodierer: innen aufgelöst (Zottmann et al., 2013). Zur Bewertung der Interrater-Reliabilität wurde der Fleiss-Kappa- Koeffizient (κ) aus dieser doppelt kodierten Stichprobe berechnet. Die Interrater-Reliabilität lag zwischen 0,73 und 0,93 (Tabelle 2), was auf eine hohe Reliabilität hinweist (Fleiss & Cohen, 1973). Nach diesen ersten Schritten wurden den Kodierer: innen zufällig Feedbackkommentare zur Kodierung zugewiesen. Zur Illustration sind im Supplement zu diesem Beitrag drei beispielhafte Feedbacks (eins für jedes LLM) mit zugehöriger Kodierung aufgeführt. Kategorie Definition hochqualitativen Feedbacks Code Definition durchschnittlichen Feedbacks Code Definition suboptimalen Feedbacks Code κ Bewertungskriterien Die Aspekte eines guten Lernziels werden anhand von Fachbegriffen und theoretischen Modellen behandelt. 2 Die Aspekte eines guten Lernziels werden ohne Fachbegriffe/ theoretische Modelle behandelt. 1 Aspekte eines guten Lernziels werden nicht adressiert. 0 .79 Erklärung Es wird ausführlich erläutert, warum die Aspekte eines guten Lernziels relevant sind. 2 Es wird kurz erläutert, warum die Aspekte eines guten Lernziels relevant sind. 1 Es wird nicht erklärt, warum die Aspekte eines guten Lernziels relevant sind. 0 .93 Subjektive Perspektive Das Feedback ist durchgehend in der ersten Person geschrieben. 2 Das Feedback ist gelegentlich in der ersten Person geschrieben. 1 Das Feedback ist nicht in der ersten Person geschrieben. 0 .80 Valenz Gleichgewicht zwischen positivem und negativem Feedback. 2 Hauptsächlich positives Feedback. 1 Hauptsächlich negatives Feedback. 0 .78 Fragen Aktivierende Fragen werden gestellt. 2 Klärende Fragen werden gestellt. 1 Es werden keine Fragen gestellt. 0 .91 Tab. 2: Inhaltsanalyse der Feedbackqualität: Kategorien, Definitionen und Interrater-Reliabilität. ▲ KI-Literacy von Lehrenden: Prompting und Modellwahl als Prädiktoren von Feedbackqualität 9 Statistische Auswertung Zur Analyse der Effekte wurde eine multiple hierarchische Regression mit SPSS (Version Nr. 29.0.2.0) durchgeführt. Ziel war es, den Beitrag der unabhängigen Variablen LLM und Prompt zur Vorhersage der abhängigen Variable Feedbackqualität zu bestimmen. Die Feedbackqualität wurde als Mittelwert über neun Qualitätsdimensionen (siehe Tabelle 2) berechnet, wobei höhere Werte eine höhere Qualität des generierten Feedbacks widerspiegeln. Die Regression erfolgte blockweise per Einschluss: In Block 1 wurde das LLM aufgenommen, in Block 2 die verschiedenen Prompts, um die zusätzlich erklärte Varianz zu identifizieren. Insgesamt wurden zwei Analysen nacheinander durchgeführt, um zunächst die leistungsstärksten Prompts zu identifizieren und danach mehr Aufschluss über die Unterschiede bei verschiedenen LLM zu gewinnen. Zunächst wurde eine erste Regression mit allen vier Prompts und drei LLMs durchgeführt, wobei die kategorialen Prädiktoren mittels k-1-Dummy-Kodierung mit der jeweils ersten Kategorie als Referenz kodiert wurden (Studie 1). In der ersten Analyse wurden pro LLM und Prompt zwanzig Lernziele in die Auswertung einbezogen, was eine Stichprobengröße von N = 240 ergibt. Die Lernziele wurden dabei nach dem Zufallsprinzip zugeordnet. Um größere Rückschlüsse über die Rolle der Feedbackqualität ziehen zu können, wurde eine zweite Regressionsanalyse durchgeführt (Studie 2). Für diese wurden die zuvor leistungsstärksten Prompt- und Modellvarianten (Prompt 1 und 2, ChatGPT-4 und Claude-3) beibehalten, für die eine größere Stichprobe zur Verfügung stand. Die leistungsschwächsten Prompts (3 und 4) und das leistungsschwächste LLM (Gemini-Advanced) wurden nicht in die Berechnungen einbezogen. Hierfür wurden einerseits für beide LLM die 153 Lernziele mit dem jeweils besten Prompt ausgewählt (bei ChatGPT-4 Prompt 1, bei Claude-3 Prompt 2). Zur Berechnung von Unterschieden, die einen Vergleich ermöglichten, mussten jedoch auch Daten für den jeweils anderen Prompt (Prompt 2 bei ChatGPT-4, Prompt 1 bei Claude-3) zur Analyse hinzugefügt werden. Dies sind die Lernziele aus der ersten Regressionsanalyse, die anschließend mit den entsprechenden Datensätzen abgestimmt wurden (20 Lernziele bei ChatGPT-4, 19 bei Claude). Aufgrund einer fehlerhaften Aufzeichnung konnten bei Claude nur 19 statt 20 Lernzielen gematcht werden. Insgesamt beträgt die Stichprobengröße in der zweiten Analyse N = 345. Zu jedem Lernziel wurde pro benötigter LLM-Prompt-Kombination einmal Feedback generiert, sodass keine wiederholten Messungen derselben Einheit stattfanden. Dies wäre der Fall, wenn mit dem generierten Feedback wiederum neue Lernziele und neues Feedback generiert worden wäre. Die Lernziele wurden zufällig den Bedingungen zugeordnet, und es besteht keine hierarchische Struktur. Kategorie Definition hochqualitativen Feedbacks Code Definition durchschnittlichen Feedbacks Code Definition suboptimalen Feedbacks Code κ Alternativen Alternativen werden auf kognitiv anregende Weise vorgeschlagen. 2 Alternativen werden konkret dargestellt. 1 Es werden keine Alternativen genannt. 0 .73 Erklärung von Alternativen Die Alternativen werden ausführlich erläutert. 2 Die Alternativen werden kurz erläutert. 1 Die Alternativen werden nicht erläutert. 0 .75 Spezifität Alle Fehler im Lernziel werden benannt und ausführlich erläutert. 2 Manche der Fehler im Lernziel werden benannt und erklärt. 1 Kein Fehler wird benannt und erklärt. 0 .86 Fehler Das Feedback enthält keine inhaltlichen Fehler in Bezug zur Lernzielformulierung. 2 Das Feedback enthält einen inhaltlichen Fehler in Bezug zur Lernzielformulierung. 1 Das Feedback enthält mehrere inhaltliche Fehler in Bezug zur Lernzielformulierung. 0 .79 ▲ 10 Lucas Jasper Jacobsen, Julia Pargmann, Jonathan Rohlmann, Kira Elena Weber Ziel dieser Analyse war es, einen präziseren Vergleich der beiden vielversprechendsten Promptarten und Modelle vorzunehmen und deren kombinierte Wirkung auf die Feedbackqualität zu untersuchen. Durch dieses zweistufige Vorgehen lässt sich sowohl die breite Varianz unterschiedlicher Prompts abbilden als auch deren praxisrelevante Reduktion auf die wirksamsten Kombinationen, um konkrete Empfehlungen für den Einsatz von LLM-Feedback in der Lehrkräftebildung abzuleiten. Darüber hinaus lassen sich so Erkenntnisse darüber gewinnen, welche spezifischen Promptmerkmale besonders entscheidend für die Feedbackqualität sind. Ergebnisse Studie 1 In Modell 1 wurde ausschließlich die Variable „LLM“ aufgenommen. Das Modell erklärte 26,9 % der Varianz (korrigiertes R 2 ) in der Feedbackqualität, dies entspricht einem starken Effekt (vgl. Tabelle 3; Bühner & Ziegler, 2017). Gemini Advanced ( β = -0,519) und Claude-3 ( β = -0,518) wiesen signifikant niedrigere Werte in der generierten Feedbackqualität auf als das Referenzmodell ChatGPT-4. Dies ergibt sich, da die β -Werte im Vergleich zur Referenzkategorie negativ sind. In Modell 2 wurden zusätzlich Prompts 2 und 4 als Prädiktoren aufgenommen, Prompt 1 diente als Referenzkategorie. Dadurch erhöhte sich die erklärte Varianz signifikant um 15,9 %, sodass das Gesamtmodell 42,8 % der Varianz erklärte. Die Effekte der LLMs blieben in Richtung und Signifikanz stabil. Prompt 3 (ohne domänenspezifische Fachsprache) war signifikant negativ mit der Feedbackqualität assoziiert. Für Prompt 2 (mit Beispielen) und Prompt 4 (ohne das Chain-of-Thought-Prinzip) ergaben sich keine signifikanten Unterschiede im Vergleich zur Referenzkategorie Prompt 1. Prompt 4 wurde ausgeschlossen, da das Chain-of-Thought-Prinzip durch aktuelle Studien gut belegt ist (z. B. Wei et al., 2023), dieser Prompt jedoch ohne dieses Prinzip arbeitet und nur beim leistungsschwächsten Modell (Gemini Advanced) gute Ergebnisse erzielte. Studie 2 In einer zweiten hierarchischen Regression wurde untersucht, inwieweit Sprachmodell (ChatGPT-4 und Claude-3) und Promptdesign (Prompt 1 und 2) die Feedbackqualität bei einer zweiten Stichprobe (N = 153 Lernziele, N = 345 Feedbacks) vorhersagen. Modell 1 (nur LLM) zeigt, dass 18,4 % der Varianz durch das Sprachmodell erklärt wurden. Die Nutzung von Claude-3 statt ChatGPT-4 (Referenzkategorie) war signifikant mit einer niedrigeren Feedbackqualität assoziiert. In Modell 2 wurde zusätzlich der Einfluss des Prompts berücksichtigt. Die erklärte Varianz stieg signifikant auf 24,1 %, wobei der Zuwachs von 5,7 % ebenfalls signifikant war. Dieser Variable b SE b β R² korrigiertes R² Δ R² Modell 1 Gemini Advanced Claude-3 Modell 2 Gemini Advanced Claude-3 Prompt 2 Prompt 3 Prompt 4 -0,378 -0,376 -0,378 -0,376 -0,054 -0,326 0,009 0,047 0,047 0,042 0,042 0,048 0,048 0,048 -0,519** -0,518** -0,519** -0,518** -0,068 -0,412** 0,012 0,269 0,428 0,263 0,416 0,269** 0,159** Tab. 3: Ergebnisse der multiplen hierarchischen Regression der 20 Lernziele über drei LLMs und drei Prompts (N = 240). Anmerkung: ** p < 0,001; Referenzkategorie LLM: ChatGPT-4; Referenzkategorie Prompt: Prompt 1 KI-Literacy von Lehrenden: Prompting und Modellwahl als Prädiktoren von Feedbackqualität 11 Effekt kann als mittel bis groß interpretiert werden (Bühner & Ziegler, 2017). Der Effekt des Sprachmodells verstärkte sich in diesem Modell nochmals deutlich. Zugleich zeigte sich, dass der Einsatz von Prompt 2 ( β = 0,52) im Vergleich zu Prompt 1 signifikant positiv mit der Feedbackqualität zusammenhing. Diskussion Die Ergebnisse der Studien 1 und 2 zeigen, dass sowohl die Wahl des Sprachmodells als auch der genutzte Prompt signifikante Prädiktoren für die Qualität von LLM-Feedback sind. In der ersten Regressionsanalyse wurde durch die Kombination beider Faktoren ein Varianzanteil von 43 % aufgeklärt. Dies unterstreicht die Relevanz instrumenteller KI-Literacy für die Erstellung hochqualitativen LLM-Feedbacks. Die Ergebnisse zeigen ausgeprägte Unterschiede zwischen den untersuchten Sprachmodellen. Aktuelle Vergleichsstudien berichten ebenfalls, dass die Modellwahl einen substanziellen Einfluss auf die Qualität von genKI-Outputs hat (z. B. Jansen et al., 2025; Meincke et al., 2025). Solche Modellvergleiche sind jedoch in hohem Maße aufgaben-, versions-, kontext- und messdesignabhängig und sollten nicht als zeitstabile Überlegenheit einzelner Systeme missverstanden werden (Meincke et al., 2025; Lelièvre et al., 2025). Entsprechend werden die Unterschiede primär als Evidenz dafür gewertet, dass die Modellwahl im Sinne instrumenteller KI-Literacy eine relevante Kompetenz darstellt, deren Konsequenzen jedoch nur innerhalb der untersuchten Aufgabe und Bedingungen belastbar interpretierbar sind. Prompt Engineering ist dabei nicht als rein technische Fähigkeit zu verstehen, sondern als reflexive Handlungskompetenz an der Schnittstelle zwischen KI- und Feedback-Literacy (Carless & Boud, 2018; Walter, 2024; Yan et al., 2024). Vor diesem Hintergrund lässt sich, anlehnend an Dawson et al. (2023), die Interaktion mit Sprachmodellen als iterativer Feedbackzyklus beschreiben. Feedback-Literacy umfasst demnach fünf Bereiche: Feedback gezielt einholen (Seek feedback information, SF), Feedbackinformationen verstehen (Make sense of information, MS), Feedback nutzen (Use feedback information, UF), Feedback geben (Provide feedback information, PF) und affektive Reaktionen auf Feedback steuern (Manage affect, AF). Bezogen auf die kompetente Nutzung von Sprachmodellen bedeutet dies, dass Lehrende zunächst entscheiden, wozu sie Rückmeldungen benötigen, ein Modell wählen und einen Prompt formulieren (SF). Die generierten Antworten werden anschließend beurteilt und fachlich geprüft (MS). Auf dieser Basis werden sowohl das eigene Produkt (z. B. Lernziele, Aufgabenstellungen) als auch Folgeprompts überarbeitet (UF). Zugleich geben Lehrende Metafeedback an das LLM („Zu allgemein“, „Bitte konkreter“, „Kriterium X wurde nicht berücksichtigt“, „Wie war mein Prompt? “) und bereiten genKI-generierte Rückmeldungen zu eigenem Feedback für Studierende auf (PF). Schließlich erfordert die Arbeit mit LLMs den reflektierten Umgang mit eigenen affektiven Reaktionen - etwa Frustration über unpassende Antworten oder ein trügerisches Sicherheitsgefühl angesichts flüssiger Formulierungen (MA). Variable b SE b β R² korrigiertes R² Δ R² Modell 1 LLM Modell 2 LLM Prompt -0,313 -0,652 0,384 0,036 0,075 0,076 -0,43** -0,89** 0,52** 0,184 0,241 0,181 0,236 0,184** 0,057** Tab. 4: Ergebnisse der multiplen hierarchischen Regression der 153 Lernziele (2 Prompts, 2 LLMs, N= 345 Feedbacks). Anmerkung: ** p < 0,001 12 Lucas Jasper Jacobsen, Julia Pargmann, Jonathan Rohlmann, Kira Elena Weber Prompt Engineering bezeichnet damit die bewusste Gestaltung von LLM-gestützten Feedbackprozessen auf Basis von Feedback- und KI-Literacy. Die Auswahl eines geeigneten Sprachmodells stellt dabei eine zentrale Wissensfacette instrumenteller KI-Literacy dar und ergänzt die Kompetenz des Prompt-Engineerings. Themenspezifische Studien wie die hier vorliegende sowie die von Leliévere et al. (2025) und Rittle-Johnson et al. (2025) können Aufschluss über Modelle geben, die in konkreten Kontexten besonders geeignet sind. Als Daumenregel für die Praxis scheint es sinnvoll, stets das neueste Frontier-Modell zu wählen (Jansen et al., 2025). Besonders hervorzuheben ist die Rolle der domänenspezifischen Fachsprache. Die deutlich geringere Qualität des Feedbacks bei Verzicht auf fachspezifische Terminologie zeigt, dass fachliches Wissen auch im Kontext der Nutzung von genKI eine grundlegende Voraussetzung bleibt. Dies könnte dadurch zu erklären sein, dass Fachsprache dem LLM den Zugriff auf relevante Inhalte aus den Trainingsdaten erleichtert, in denen solche Begriffe vorkommen. Darüber hinaus setzt Fachsprache implizit einen professionellen Rahmen, ähnlich einem expliziten Rollenprompting, und kann dadurch Tonfall und Präzision erhöhen. Die Studie stützt damit theoretische Annahmen, wonach fachsprachliche Präzision und inhaltliches Wissen eine zentrale Grundlage für den professionellen Einsatz von LLMs in der Lehre bilden (z. B. Chen et al., 2025; Choi & Chang, 2025). In Studie 1 ergab sich für den Verzicht auf eine explizite Chain-of-Thought-Instruktion (Prompt 4) kein signifikanter Unterschied gegenüber der Referenz (Prompt 1). Dies ist anschlussfähig an Befunde, wonach Chain-of- Thought-Prompting vor allem bei komplexen, mehrschrittigen Reasoning-Aufgaben von Vorteil ist, während Effekte bei weniger anspruchsvollen Aufgaben ausbleiben oder je nach Modell variieren (Meincke et al., 2025; Sahoo et al., 2025; Wei et al., 2023). Angesichts der dynamischen Entwicklung von LLMs stellt sich die Frage, ob Prompt Engineering auch in Zukunft weiterhin bedeutsam bleibt. Zukünftige Modelle werden auch mit suboptimalen Prompts besser umgehen können und Prompting-Techniken zunehmend internalisieren. Chain-of-Thought ist bei neuen LLMs bereits ohne explizites Prompting aktiv. Daher verschiebt sich der Fokus beim Prompt Engineering vom rein regelbasierten Vorgehen hin zur metakognitiven Strategie der strukturierten Problemanalyse (Federiakin et al., 2024; Walter, Abb. 1: Der iterative Kommunikationszyklus mit Sprachmodellen Adaptiert nach Dawson et al. (2023), illustriert die Verbindung von AI Literacy, Prompt Engineering und Feedback Literacy. KI-Literacy von Lehrenden: Prompting und Modellwahl als Prädiktoren von Feedbackqualität 13 2024). Der Prompt fungiert als didaktisches Werkzeug, vergleichbar mit einer gut konzipierten Aufgabenstellung, die Lernprozesse anregt, fokussiert und unterstützt. Diese Studie liefert erste empirische Hinweise darauf, dass strukturierte Modelle wie das 3K-Modell als heuristische Orientierungshilfen für die Gestaltung qualitativ hochwertiger Prompts dienen können. Dabei sollte die Anwendung nicht schematisch, sondern adaptiv, kontextsensitiv und reflexiv erfolgen. Dies adressiert alle drei Ebenen des Prompt Engineerings: prozedurale Gestaltungsprinzipien, epistemische Übersetzung fachlichen Wissens und reflexive Iteration. Die Befunde zeigen, dass bereits wenige gezielte Maßnahmen, etwa der Einsatz fachspezifischer Sprache oder das Nutzen von Beispielen, die Qualität des Feedbacks deutlich verbessern. Prompt Engineering ist somit evidenzbasiert, erlernbar, didaktisch anschlussfähig und sollte gezielt in Aus- und Fortbildungskontexte von Lehrenden integriert werden (Mah et al., 2025; Federiakin et al., 2024). Limitationen und Desiderata Die vorliegende Studie weist mehrere Limitationen auf. Erstens sind die Befunde an spezifische Versionen der eingesetzten Sprachmodelle und an den Erhebungszeitpunkt gebunden. Da sich Architektur und Leistungsfähigkeit von LLMs dynamisch weiterentwickeln, sind Replikationsstudien mit zukünftigen Modellversionen erforderlich, und es ist unklar, ob die Replikation mit neuen Modellen zu denselben Ergebnissen führen würde. Zweitens betrifft dies die interne Validität der Promptmanipulation. Zwar wurden die Prompts systematisch variiert, jedoch blieb die sprachliche Formulierung innerhalb der jeweiligen Kategorien unverändert. Aktuelle Befunde deuten darauf hin, dass sprachliche Variationen im Prompt den generierten Output beeinflussen können (Debnath et al., 2025). Das Hinzuziehen weiterer Prompts, die dieselben Kategorien jedoch mit unterschiedlichen Formulierungsstilen abbilden, würde die Aussagekraft über die Effekte einzelner Kategorien der Prompts weiter erhöhen. Drittens beschränkt sich die Untersuchung auf Feedback zu Lernzielen in der Unterrichtsplanung. Die Übertragbarkeit auf andere Kontexte bedarf weiterer Prüfung. Schließlich basiert Studie 1 auf einer begrenzten Stichprobe von 20 Lernzielen pro Prompt und LLM, was die Aussagekraft einzelner Effekte einschränkt. Aus diesen Limitationen ergeben sich mehrere Forschungsdesiderata. Zunächst wäre es aufschlussreich zu untersuchen, ob fachspezifische Merkmale oder die Komplexität der Lernziele die Feedbackqualität systematisch beeinflussen - ein Aspekt, der in der vorliegenden Studie durch die randomisierte Zuordnung kontrolliert, aber nicht näher analysiert wurde. Insbesondere wäre es von Interesse zu untersuchen, ob Lehrende bei der Nutzung von Prompting-Guidelines wie dem 3K-Modell zu hochwertigeren Ergebnissen gelangen und wie Studierende das LLM-Feedback in der Praxis wahrnehmen, nutzen und umsetzen. Weiterhin ergibt sich aus den vorliegenden Daten die Frage, welche Aspekte professioneller Kompetenz - Fachwissen, Überzeugungen oder Motivation - sich in der Praxis am stärksten auf die Qualität von LLM-Outputs auswirken und welche Rolle dabei KI- und Feedback- Literacy spielen. Schließlich wäre für umfangreichere Datensätze, etwa zur Entwicklung einer pädagogischen Benchmark (Leliévre et al., 2025; Rittle-Johnson et al., 2025) für die Aufgabe „Feedback zu Lernzielen“, eine automatisierte Kodierung der Feedbackqualität von Interesse. Diese könnte mittels Software für Inhaltsanalysen auf Basis natürlicher Sprachverarbeitung (Natural Language Processing, NLP) oder mithilfe von LLMs selbst erfolgen. Ein beispielhaftes Softwarepaket ist das R-Package aifeducation (Berding et al., 2024), das für die maschinelle Kodierung ähnliche Reliabilitäten wie die rein menschliche Kodierung ermöglicht (Berding et al., 2022). 14 Lucas Jasper Jacobsen, Julia Pargmann, Jonathan Rohlmann, Kira Elena Weber Literatur Bauer, E., Sailer, M., Niklas, F., Greiff, S., Sarbu-Rothsching, S., Zottmann, J. M., Kiesewetter, J., Stadler, M., Fischer, M. R., Seidel, T., Urhahne, D., Sailer, M. & Fischer, F. (2025). AI-Based Adaptive Feedback in Simulations for Teacher Education: An Experimental Replication in the Field. Journal of Computer Assisted Learning, 41, e13123. https: / / doi.org/ 10.1111/ jcal.13123 Berding, F., Riebenbauer, E., Stütz, S., Jahncke, H., Slopinski, A. & Rebmann, K. (2022). Performance and Configuration of Artificial Intelligence in Educational Settings. Introducing a New Reliability Concept Based on Content Analysis. Frontiers in Education, 1 - 21. https: / / doi.org/ 10.3389/ feduc.2022.818365 Berding, F., Tykhonova, Y., Pargmann, J., Riebenbauer, E., Rebmann, K. & Slopinski, A. (2024). AI for Education (aifeducation). A R package for educators and researchers of the educational and social sciences. https: / / fberding. github.io/ aifeducation/ index.html Bühner, M. & Ziegler, M. (2017). Statistik für Psychologen und Sozialwissenschaftler. Pearson. Cain, W. (2024). Prompting change: Exploring prompt engineering in large language model AI and its potential to transform education. TechTrends, 68 (1), 47 - 57. https: / / doi.org/ 10.1007/ s11528-023-00896-0 Carless, D. & Boud, D. (2018). The development of student feedback literacy: enabling uptake of feedback. Assessment & Evaluation in Higher Education, 43 (8), 1315 - 1325. https: / / doi.org/ 10.1080/ 02602938.2018. 1463354 Chen, B., Zhang, Z., Langrené, N. & Zhu, S. (2025). Unleashing the potential of prompt engineering for large language models. Patterns, 6 (6), 101260. https: / / doi. org/ 10.1016/ j.patter.2025.101260 Chiang, W.-L., Zheng, L., Sheng, Y., Angelopoulos, A. N., Li, T., Li, D., Zhang, H., Zhu, B., Jordan, M. I., Gonzalez, J. E. & Stoica, I. (2024). Chatbot Arena: An open platform for evaluating LLMs by human preference. arXiv. https: / / doi.org/ 10.48550/ arXiv.2403.04132 Choi, W. C. & Chang, C. I. (2025). A Survey of Techniques, Key Components, Strategies, Challenges, and Student Perspectives on Prompt Engineering for Large Language Models (LLMs) in Education. [Preprint]. https: / / doi.org/ 10.20 944/ preprints202503.1808.v1 Dai, W., Tsai, Y. S., Lin, J., Aldino, A., Jin, H., Li, T., Gašević, D. & Chen, G. (2024). Assessing the Proficiency of Large Language Models in Automatic Feedback Generation: An Evaluation Study. Computers and Education: Artificial Intelligence, 7. https: / / doi.org/ 10.10 16/ j.caeai.2024.100299 Dawson, P., Yan, Z., Lipnevich, A., Tai, J., Boud, D. & Mahoney, P. (2023). Measuring what learners do in feedback: the feedback literacy behaviour scale. Assessment & Evaluation in Higher Education, 49 (3), 348 - 362. https: / / doi.org/ 10.1080/ 02602938.2023.2240983 Debnath, T., Siddiky, M. N. A., Rahman, M. E., Das, P. & Guha, A. K. (2025). A comprehensive survey of prompt engineering techniques in large language models [Preprint]. TechRxiv. https: / / doi.org/ 10.36227/ techrxiv.174140 719.96375390/ v1 Demszky, D., Liu, J., Hill, H. C., Jurafsky, D. & Piech, C. (2023). Can Automated Feedback Improve Teachers’ Uptake of Student Ideas? Evidence From a Randomized Controlled Trial in a Large-Scale Online Course. Educational Evaluation and Policy Analysis, 46 (3), 483 - 505. https: / / doi.org/ 10.3102/ 0162373723116 9270 Federiakin, D., Molerov, D., Zlatkin-Troitschanskaia, O. & Maur, A. (2024) Prompt engineering as a new 21st century skill. Frontiers in Education, 9, 1366434. https: / / doi.org/ 10.3389/ feduc.2024.1366434 Ferguson, P. (2009). Student perceptions of quality feedback in teacher education. Assessment & Evaluation in Higher Education, 36 (1), 51 - 62. https: / / doi.org/ 10. 1080/ 02602930903197883 Fleiss, J. L. & Cohen, J. (1973). The equivalence of weighted kappa and the intraclass correlation coefficient as measures of reliability. Educational and Psychological Measurement, 33 (3), 613 - 619. https: / / doi.org/ 10.1177/ 001316447303300309 Gielen, M. & De Wever, B. (2015). Structuring peer assessment: Comparing the impact of the degree of structure on peer feedback content. Computers in Human Behavior, 52, 315 - 325. https: / / doi.org/ 10.1016/ j.chb.20 15.06.019 Hattie, J. & Timperley, H. (2007). The power of feedback. Review of Educational Research, 77 (1), 81 - 112. https: / / doi.org/ 10.3102/ 003465430298487 Henderson, M., Ajjawi, R., Boud, D. & Molloy, E. (Eds.). (2019). The impact of feedback in higher education: Improving assessment outcomes for learners. Springer International Publishing. https: / / doi.org/ 10.1007/ 978- 3-030-25112-3 Jacobsen, L. J., Mertens, U., Jansen, T. & Weber, K. E. (2025). AI, expert or peer? Examining the impact of perceived feedback source on pre-service teachers’ feedback perception and uptake [Preprint]. arXiv. https: / / doi.org/ 10.48550/ arXiv.2507.16013 Jacobsen, L. J. & Weber, K. E. (2025). The promises and pitfalls of large language models as feedback providers: A study of prompt engineering and the quality of AIdriven feedback. AI, 6 (2), 35. https: / / doi.org/ 10.3390/ ai6020035 Jackson, J. (2025). Higher order prompting: Applying Bloom’s revised taxonomy to the use of large language models in higher education. Studies in Technology Enhanced Learning, 4 (1). https: / / doi.org/ 10.21428/ 8c225 f6e.0915c17e Jansen, T., Liebenow, L. W., Mertens, U., Schmidt, F.T. C., Lohmann, J. F., Fleckenstein, J. & Meyer, J. (2025). Data extraction by generative artificial intelligence: Assessing determinants of accuracy using human-extracted data from systematic review databases. Psychological Bulletin, 151 (10), 1280 - 1306. https: / / doi.org/ 10.10 37/ bul0000501 Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., Gray, S., Radford, A., Wu, J. & Amodei, D. (2020). Scaling laws for neural language models. arXiv. https: / / arxiv.org/ abs/ 2001.08361 Kinder, A., Briese, F. J., Jacobs, M., Dern, N., Glodny, N., Jacobs, S. & Leßmann, S. (2025). Effects of adaptive feedback generated by a large language model: A case study in teacher education. Computers and Education: Artificial Intelligence, 8, 100349. https: / / doi.org/ 10.10 16/ j.caeai.2024.100349 Kluger, A. N. & DeNisi, A. (1996). The effects of feedback interventions on performance: A historical review, a meta-analysis and a preliminary feedback intervention theory. Psychological Bulletin, 119 (2), 254 - 284. KI-Literacy von Lehrenden: Prompting und Modellwahl als Prädiktoren von Feedbackqualität 15 Lelièvre, M., Waldock, A., Liu, M., Aspillaga, N.V., Mackintosh, A., Portela, M. J. O., Lee, J., Atherton, P., Ince, R. A. A. & Garrod, O. G. B. (2025). Benchmarking the pedagogical knowledge of large language models (arXiv: 2506.18710). arXiv. https: / / doi.org/ 10.48550/ arXiv.2506.18710 Liebenow, L. W., Schmidt, F.T. C., Meyer, J. & Fleckenstein, J. (2025). Self-assessment accuracy in the age of artificial intelligence: Differential effects of LLM-generated feedback. Computers & Education, 237, 105385. https: / / doi.org/ 10.1016/ j.compedu.2025.105385 Long, D. & Magerko, B. (2020). What is AI Literacy? Competencies and Design Considerations. Proceedings of the 2020 CHI Conference on Human Factors in Computing Systems, 1 - 16. https: / / doi.org/ 10.1145/ 3313831.3376 727 Mah, D.-K., Knoth, N. & Egloffstein, M. (2025). Perspectives of academic staff on artificial intelligence in higher education: Exploring areas of relevance. Frontiers in Education, 10, 1484904. https: / / doi.org/ 10.3389/ feduc. 2025.1484904 Meincke, L., Mollick, E., Mollick, L. & Shapiro, D. (2025). Prompting Science Report 1: Prompt Engineering is Complicated and Contingent (No. arXiv: 2503.04818). arXiv. https: / / doi.org/ 10.48550/ arXiv.2503.04818 Narciss, S. (2013). Designing and evaluating tutoring feedback strategies for digital learning environments on the basis of the interactive feedback model. Digital Education Review, 23 (1), 7 - 26. Panadero, E. & Lipnevich, A. A. (2022). A review of feedback models and typologies: Towards an integrative model of feedback elements. Educational Research Review, 35, 100416. https: / / doi.org/ 10.1016/ j.edurev.2021.10 0416 Prilop, C. N., Mah, D.-K., Jacobsen, L. J., Hansen, R. R., Weber, K. E. & Hoya, F. (2025). Generative AI in teacher education: Educators’ perceptions of transformative potentials and the triadic nature of AI literacy explored through AI-enhanced methods. Computers and Education: Artificial Intelligence, 9, 100471. https: / / doi.org/ 10.1016/ j.caeai.2025.100471 Prilop, C. N. & Weber, K. E. (2023). Digital video-based peer feedback training: the effect of expert feedback on pre-service teachers’ peer feedback beliefs and peer feedback quality. Teaching and Teacher Education, 127, 104099. https: / / doi.org/ 10.1016/ j.tate.2023.104099 Prilop, C. N., Weber, K. E. & Kleinknecht, M. (2020). Effects of digital video-based feedback environments on pre-service teachers’ feedback competence. Computers in Human Behavior, 102, 120 - 131. https: / / doi. org/ 10.1016/ j.chb.2019.08.011 Prilop, C. N., Weber, K. & Kleinknecht, M. (2019). Entwicklung eines video- und textbasierten Instruments zur Messung kollegialer Feedbackkompetenz von Lehrkräften. In T. Ehmke, P. Kuhl, & M. Pietsch (Eds.), Lehrer. Bildung. Gestalten: Beiträge zur empirischen Forschung in der Lehrerbildung (pp. 153 - 163). Beltz Juventa Verlag. Prins, F., Sluijsmans, D. & Kirschner, P. A. (2006). Feedback for general practitioners in training: Quality, styles and preferences. Advances in Health Sciences Education, 11, 289 - 303. https: / / doi.org/ 10.1007/ s104 59-005-3250-z Qian, Y. (2025). Prompt Engineering in Education: A Systematic Review of Approaches and Educational Applications. Journal of Educational Computing Research, 63 (7 - 8). https: / / doi.org/ 10.1177/ 07356331251365 189 Rittle-Johnson, B., Adler, R., Durkin, K., Burleigh, L., King, J. & Crossley, S. (2025). Detecting math misconceptions: An AI benchmark dataset. In: Proceedings of the Artificial Intelligence in Measurement and Education Conference (AIME-Con) - Volume 2: Works in Progress (pp. 20 - 24). National Council on Measurement in Education. Sahoo, P., Singh, A. K., Saha, S., Jain, V., Mondal, S. & Chadha, A. (2025). A Systematic Survey of Prompt Engineering in Large Language Models: Techniques and Applications (No. arXiv: 2402.07927). arXiv. https: / / doi.org/ 10.48550/ arXiv.2402.07927 Sailer, M., Bauer, E, Hofmann, R., Kiesewetter, J., Glas, J., Gurevych, I. & Fischer, F. (2023). Adaptive feedback from artificial neural networks facilitates pre-service teachers’ diagnostic reasoning in simulation-based learning. Learning and Instruction, 83, 101620. https: / / doi.org/ 10.1016/ j.learninstruc.2022.101620 Sluijsmans, D. M. A., Brand-Gruwel, S. & Van Merriënboer, J. J. G. (2002). Peer assessment training in teacher education: Effects on performance and perceptions. Assessment & Evaluation in Higher Education, 27 (5), 443 - 454. https: / / doi.org/ 10.1080/ 026029302200000 9311 Smith, J. K. & Lipnevich, A. A. (2018). Instructional feedback: Analysis, synthesis, and extrapolation. In A. A. Lipnevich & J. K. Smith (Eds.), The Cambridge handbook of instructional feedback (Cambridge handbooks in psychology, pp. 591 - 604). Cambridge University Press. https: / / doi.org/ 10.1017/ 9781316832134. 021 UNESCO (2024). AI competency framework for students. UNESCO. https: / / doi.org/ 10.54675/ JKJB9835 Vatsal, S. & Dubey, H. (2024). A survey of prompt engineering methods in large language models for different NLP tasks [Preprint]. arXiv. https: / / arxiv.org/ abs/ 24 07.12994 Walter, Y. (2024). Embracing the future of Artificial Intelligence in the classroom: the relevance of AI literacy, prompt engineering, and critical thinking in modern education. International Journal of Educational Technology in Higher Education 21 (15). https: / / doi.org/ 10. 1186/ s41239-024-00448-3 Wei, J., Ichter, B., Wang, X., Xia, F., Schuurmans, D., Chi, E. H. & Le, Q. V. (2023). Chain-of-thought prompting elicits reasoning in large language models (Version 6) [Preprint]. arXiv. https: / / arxiv.org/ abs/ 2201.11903 White, J., Fu, Q., Hays, S., Sandborn, M., Olea, C., Gilbert, H., Elnashar, A., Spencer-Smith, J. & Schmidt, D. C. (2023). A prompt pattern catalog to enhance prompt engineering with ChatGPT [Preprint]. arXiv. https: / / doi.org/ 10.48550/ arXiv.2302.11382 Wisniewski, B., Zierer, K. & Hattie, J. (2020). The power of feedback revisited: A meta-analysis of educational feedback research. Frontiers in Psycholog y, 10, 3087. https: / / doi.org/ 10.3389/ fpsyg.2019.03087 Xiao, R., Hou, X., Tseng, Y.-J., Nieu, H., Liao, G., Stamper, J. & Koedinger, K. R. (2025). Learning to Use AI for Learning: How Can We Effectively Teach and Measure Prompting Literacy for K-12 Students? (No. arXiv: 2508.13962). arXiv. https: / / doi.org/ 10.48550/ arXiv.2508.13962 16 Lucas Jasper Jacobsen, Julia Pargmann, Jonathan Rohlmann, Kira Elena Weber Yan, L., Greiff, S., Teuber, Z. & Gašević, D. (2024). Promises and challenges of generative artificial intelligence for human learning. Nature Human Behaviour, 8 (10), 1839 - 1850. https: / / doi.org/ 10.1038/ s41562-024- 02004-5 Zottmann, J. M., Stegmann, K., Strijbos, J.-W., Vogel, F., Wecker, C. & Fischer, F. (2013). Computer-supported collaborative learning with digital video cases in teacher education: The impact of teaching experience on knowledge convergence. Computers in Human Behavior, 29 (5), 2100 - 2108. https: / / doi.org/ 10.1016/ j.chb.2013. 04.014 Lucas Jasper Jacobsen Erstautor, Korrespondenzautor Universität Hamburg Sedanstr. 19 D-20146 Hamburg ORCID: 0009-0001-6967-3751 E-Mail: lucas.jacobsen@uni-hamburg.de Julia Pargmann Universität Hamburg Sedanstr. 19 D-20146 Hamburg ORCID: 0000-0003-3616-0172 E-Mail: julia.pargmann@uni-hamburg.de Jonathan Rohlmann Leuphana Universität Universitätsallee 1 D-21335 Lüneburg E-Mail: jonathan.rohlmann@leuphana.de Kira Elena Weber Universität Hamburg Sedanstr. 19 D-20146 Hamburg ORCID: 0000-0002-6564-9578 E-Mail: kira.weber@uni-hamburg.de
