eJournals Psychologie in Erziehung und Unterricht 68/3

Psychologie in Erziehung und Unterricht
3
0342-183X
Ernst Reinhardt Verlag, GmbH & Co. KG München
71
2021
683

Empirische Arbeit: Wo gelehrt wird, wird auch gelernt?

71
2021
Rebecca Schneider
Sarah Schwabe
Julia Ruby
Jörn R. Sparfeldt
Zentrales Ziel universitärer Lehre im Lehramtsstudium ist ein Kompetenzerwerb. Der Forschungsfrage zum Kompetenzerwerb in einem bildungswissenschaftlichen Diagnostik-Seminar wurde mit einem Feldexperiment mit zeitversetzter Intervention und drei Messzeitpunkten nachgegangen. In vier Parallelseminaren (N=78) erfolgte eine Zufallszuweisung der Studierenden zu Gruppe 1 mit Intervention zwischen T1 und T2 sowie Gruppe 2 mit Intervention zwischen T2 und T3. Die standardisierte Intervention zu „geschlossenen Aufgabenformaten“ umfasste zwei Seminarsitzungen à 90 Minuten mit wechselnden Phasen der Vermittlung theoretischen Wissens und der Wissensanwendung (Aufgabenkonstruktion). Zwischen T1 und T2 zeigte Gruppe 1 einen deutlicheren Kompetenzaufbau (Wissen/Anwenden d=1.69/2.73) als Gruppe 2 (Wissen/Anwenden d=0.41/0.54). Der Kompetenzzuwachs von T2 zu T3 war in Gruppe 2 (Wissen/Anwenden d=2.55/3.22) größer als in Gruppe 1 (Wissen/Anwenden d=0.94/1.51). Zu Semesteranfang und -ende differierten die Kompetenzausprägungen beider Gruppen nicht. Implikationen für die Hochschullehre und deren Evaluation anhand von Kompetenzzuwächsen in Leistungstests werden diskutiert.
3_068_2021_003_0170
n Empirische Arbeit Psychologie in Erziehung und Unterricht, 2021, 68, 170 -182 DOI 10.2378/ peu2021.art12d © Ernst Reinhardt Verlag München Basel Wo gelehrt wird, wird auch gelernt? Kompetenzaufbau in einem Diagnostikseminar im Lehramtsstudium Rebecca Schneider 1 , Sarah Schwabe 2 , Julia Ruby 2 & Jörn R. Sparfeldt 2 1 Institut zur Qualitätsentwicklung im Bildungswesen 2 Universität des Saarlandes Zusammenfassung: Zentrales Ziel universitärer Lehre im Lehramtsstudium ist ein Kompetenzerwerb. Der Forschungsfrage zum Kompetenzerwerb in einem bildungswissenschaftlichen Diagnostik-Seminar wurde mit einem Feldexperiment mit zeitversetzter Intervention und drei Messzeitpunkten nachgegangen. In vier Parallelseminaren (N = 78) erfolgte eine Zufallszuweisung der Studierenden zu Gruppe 1 mit Intervention zwischen T1 und T2 sowie Gruppe 2 mit Intervention zwischen T2 und T3. Die standardisierte Intervention zu „geschlossenen Aufgabenformaten“ umfasste zwei Seminarsitzungen à 90 Minuten mit wechselnden Phasen der Vermittlung theoretischen Wissens und der Wissensanwendung (Aufgabenkonstruktion). Zwischen T1 und T2 zeigte Gruppe 1 einen deutlicheren Kompetenzaufbau (Wissen/ Anwenden d = 1.69/ 2.73) als Gruppe 2 (Wissen/ Anwenden d = 0.41/ 0.54). Der Kompetenzzuwachs von T2 zu T3 war in Gruppe 2 (Wissen/ Anwenden d = 2.55/ 3.22) größer als in Gruppe 1 (Wissen/ Anwenden d = 0.94/ 1.51). Zu Semesteranfang und -ende differierten die Kompetenzausprägungen beider Gruppen nicht. Implikationen für die Hochschullehre und deren Evaluation anhand von Kompetenzzuwächsen in Leistungstests werden diskutiert. Schlüsselbegriffe: Lehramtsstudium, Kompetenzerwerb, Diagnostik-Kompetenz, Seminar, Evaluation Competence acquisition in a university course on educational assessment for teacher education candidates Summary: The acquisition of competences is one major goal of university education. In this experiment with three measurement points, we examined the competence acquisition in teacher-education candidates attending a one-semester course on “educational assessment”. The students of four courses (N = 78) were randomly assigned to group 1 receiving the intervention between T1 and T2 or group 2 receiving the intervention between T2 and T3. The intervention concerning selectiontype items consisted of instruction phases alternating with phases of knowledge application. Between T1 and T2, a higher competence gain was shown for group 1-students (knowledge/ application d = 1.69/ 2.73) than group 2-students (knowledge/ application d = 0.41/ 0.54). Between T2 and T3, group 2-students showed higher competence gains (knowledge/ application d = 2.55/ 3.22) than group 1-students (knowledge/ application d = 0.94/ 1.51). At the beginning and at the end of the semester, competences did not differ between groups. Implications for academic teaching and its test-based evaluations were discussed. Keywords: Teacher education, acquisition of competence, diagnostic competency, university course, evaluation Autorenhinweis Die Erstellung dieses Manuskripts wurde im Rahmen des Verbundvorhabens der Universität des Saarlandes, der Hochschule der Bildenden Künste Saar und der Hochschule für Musik Saar der gemeinsamen „Qualitätsoffensive Lehrerbildung“ von Bund und Ländern aus Mitteln des Bundesministeriums für Bildung und Forschung (Förderkennzeichen 01JA1606A) gefördert. Die Verantwortung für den Inhalt dieser Veröffentlichung liegt bei den Autorinnen und Autoren. Kompetenzaufbau in einem Diagnostikseminar 171 Ein wesentliches Ziel universitärer Lehre im Lehramtsstudium ist der Kompetenzaufbau bei Studierenden, um diese zu erfolgreichem beruflichen Handeln als Lehrkraft zu befähigen (Kunter & Gräsel, 2018; Voss, Kunina-Habenicht, Hoehne & Kunter, 2015; vgl. dazu Bologna Working Group on Qualification Frameworks, 2005). Als wichtig werden neben fachwissenschaftlichen und fachdidaktischen Kompetenzen auch fachübergreifende, bildungswissenschaftliche Kompetenzen erachtet (Voss & Kunter, 2011), wobei insbesondere universitären Lehrangeboten als formalen Lerngelegenheiten (Vorlesungen, Seminare) eine bedeutende Rolle im Aufbau dieser Kompetenzen zugeschrieben wird (Kunter, Kleickmann, Klusmann & Richter, 2011; vgl. Voss, 2019). Umso überraschender ist, dass bisher nur wenige Studien den Aufbau bildungswissenschaftlicher Kompetenzen im Studium untersucht haben. Diese wenigen und häufig querschnittlichen Studien zeigen ein inkonsistentes Befundmuster für „Diagnostik“ als einen Kernbereich der Bildungswissenschaften: Während einige Studien den gewünschten und erwarteten Zuwachs an diagnostischen Kompetenzen dokumentierten (z. B. König, 2012; Linninger et al., 2015; Römer, Rothland & König, 2017), konnten andere solche Zuwächse nicht oder nur teilweise feststellen (z. B. Hohenstein, Kleickmann, Zimmermann, Köller & Möller, 2017; Kunina-Habenicht et al., 2013; Wedel, Müller, Pfetsch & Ittel, 2019). Vor dem Hintergrund der knappen credit points bildungswissenschaftlicher Lehre gewinnt jedoch nicht nur die Effektivität (substanzielle Kompetenzzuwächse), sondern auch die Effizienz (Kompetenzzuwächse bei knappen Zeitressourcen) entsprechender Lehrangebote an Bedeutung. Daher erscheint insbesondere ein Blick auf Kompetenzzuwächse bei Studierenden im Umfeld einer spezifischen Lehrveranstaltung lohnenswert für Forschung und Praxis. Entsprechend betrachtet der vorliegende Beitrag den Kompetenzaufbau in einem bildungswissenschaftlichen Seminar in dem für Lehramtsstudierende relevanten Bereich pädagogischer bzw. pädagogisch-psychologischer Diagnostik. Um ein differenziertes Bild vom Kompetenzzuwachs im Semesterverlauf zu erhalten, erfolgten die Analysen für grundlegendes (theoretisches) Wissen und die Anwendung des Wissens. Erwerb von Diagnostik-Kompetenzen Pädagogische Diagnostik stellt einen wichtigen Bereich der Bildungswissenschaften im Lehramtsstudium dar (z. B. KMK, 2019). Zur Ausübung professionellen diagnostischen Handelns benötigen Lehrkräfte neben fachwissenschaftlichen und fachdidaktischen Kompetenzen auch fachübergreifende Kompetenzen im Diagnostizieren, Prüfen und Bewerten (vgl. z. B. Brunner, Anders, Hachfeld & Krauss, 2011). Lange wurden diagnostische Inhalte in Lehramtsstudiengängen allgemeinbildender Schulformen nur sehr eingeschränkt gelehrt; dies hat sich spätestens mit Aufkommen einschlägiger Standards der Lehrerbildung (z. B. KMK, 2019) und entsprechenden Kompetenzmodellen (z. B. Baumert & Kunter, 2006; vgl. Kunter & Gräsel, 2018) geändert. Der Aufbau von Diagnostik-Kompetenzen stellt also eine Querschnittsaufgabe im Lehramtsstudium dar (vgl. Buch & Sparfeldt, 2020). Die universitäre Lehre in der ersten Phase der Lehramtsausbildung bildet eine wesentliche Lerngelegenheit zur Aneignung und zur Weiterentwicklung eben dieser als erlern- und veränderbar geltenden professionellen (Diagnostik-)Kompetenzen (Kunter et al., 2011; vgl. Baumert & Kunter, 2006). Formale Lehrangebote wie Vorlesungen und Seminare haben den Aufbau professionellen Wissens zum Ziel (Cortina & Thames, 2013); zudem können dort erste praktische Handlungskompetenzen unter idealisierten Bedingungen eingeübt werden (vgl. Voss, 2019). Ein Kompetenzzuwachs solcher Lernangebote kann mithilfe verbreiteter subjektiver Studierendeneinschätzungen zur Lehrqualität (vgl. Spinath et al., 2018) und zum wahrgenommenen Kompetenzaufbau jedoch nur eingeschränkt dokumentiert werden. Dafür bedarf es Evaluationsstudien, die den Leistungsstand der Studierenden mithilfe von Leistungstests zu verschiedenen Zeitpunkten (z. B. Semesteranfang und -ende) 172 Rebecca Schneider, Sarah Schwabe, Julia Ruby, Jörn R. Sparfeldt erheben. Die wenigen einschlägigen Studien zum Aufbau professioneller Lehrkraftkompetenzen wurden zumeist zum bildungswissenschaftlichen Wissen bzw. zu bildungswissenschaftlichen Kompetenzen 1 durchgeführt (für eine Übersicht siehe Hohenstein et al., 2017; Voss et al., 2015). Erste Hinweise auf Zuwächse diagnostischer Kompetenzen in der Lehramtsausbildung liefern querschnittliche Kohortenvergleiche; das bisherige Befundmuster für „Diagnostik“ ist allerdings inkonsistent. So fanden sich bei Lehramtsstudierenden keine statistisch bedeutsamen (Hohenstein et al., 2017) oder nur kleine (Kunina-Habenicht et al., 2020) Zusammenhänge des Diagnostik-Wissens mit der Semesterzahl im bildungswissenschaftlichen Studium oder der durchschnittlichen bildungswissenschaftlichen Note. Zudem zeigten Referendarinnen und Referendare mit abgeschlossenem Lehramtsstudium kein bedeutsam höheres diagnostisches Wissen im Vergleich zu Quereinsteigerinnen und Quereinsteigern (Kunina-Habenicht et al., 2013; im Gegensatz zu anderen bildungswissenschaftlichen Dimensionen); auch wiesen Referendarinnen und Referendare am Anfang und im zweiten Jahr des Referendariats keine bedeutsamen Unterschiede in ihrem Diagnostik- Wissen auf (Voss, Kunter & Baumert, 2011). Hingegen zeigten (a) Studierende im vierten Semester gegenüber Studierenden im ersten Semester (standardisiertes Regressionsgewicht der Kohortenzugehörigkeit von β = .34; König, 2012) und (b) Referendarinnen und Referendare gegenüber Studienanfängerinnen und -anfängern (d = 0.55; Linninger et al., 2015) höhere Diagnostik-Wissenswerte. Überzeugendere Hinweise zum Kompetenzaufbau stammen aus über mehrere Semester oder Studienabschnitte angelegten längsschnittlichen Studien. So fanden sich bedeutsame Zuwächse für Lehramtsstudierende vom ersten zum zweiten Studienjahr (d = 0.95; Römer et al., 2017) und vom ersten zum vierten Semester im pädagogischen/ pädagogisch-psychologischen Wissen (d = 1.22; König, 2012) sowie vom ersten zum vierten Semester im Bereich Diagnostik (d = 0.71; König, 2012). Wenige Studien nahmen einen Kompetenzzuwachs im Umfeld einer spezifischen Lehrveranstaltung im Semesterverlauf in den Blick. Dies überrascht, da doch die einzelne Lehrveranstaltung ein zentrales Element im Studium und entsprechend zentral für den Kompetenzaufbau sein sollte. Unseres Wissens untersuchten bisher nur zwei Studien einen solchen potenziellen Kompetenzzuwachs im Bereich Diagnostik (Wedel et al., 2019; siehe auch Wedel, Müller, Pfetsch & Ittel, 2020): In einer quasi-experimentellen längsschnittlichen Interventionsstudie konnte im Kompetenz-Globalwert zu pädagogischer Diagnostik (umfasst Kompetenzaspekte Wissen und Anwendung) zwar ein bedeutsamer Zuwachs zwischen beiden Messzeitpunkten (Semesteranfang, Semesterende) dokumentiert werden - allerdings nicht bedeutsam verschieden zwischen Experimentalgruppenseminar und Kontrollgruppenseminar (Studie 1 in Wedel et al., 2019; Wedel et al., 2020). Für die Wissenssubskalen „Erkennen“, „Verstehen“ sowie für den Kompetenzaspekt „Anwendung“ des selbstkonstruierten Tests zu im Seminar behandelten Themen waren die Kompetenzwerte der Experimentalgruppe zum zweiten Messzeitpunkt jeweils erwartungsgemäß höher als zum ersten; allerdings überraschte die Abnahme der Kompetenzwerte für die Wissenssubskala „Verstehen“ sowie den Kompetenzaspekt „Anwendung“ zwischen den Messzeitpunkten in der Kontrollgruppe. In Studie 2 (Wedel et al., 2019) - einer direkten Replikation von Studie 1 - unterschied sich der Kompetenz-Globalwert hingegen über beide Gruppen hinweg nicht bedeutsam zwischen den Messzeitpunkten 1 Die Begriffe Kompetenz, Wissen und Anwendung werden in der Literatur nicht einheitlich verwendet. Bei der nachfolgenden Beschreibung früherer Studien verwenden wir - teils nicht mit der Begriffswahl der Autorenteams übereinstimmend - den Kompetenz-Begriff als Oberbegriff für Wissen und Anwendung. Wissen umfasst deklaratives (Faktenwissen zu z. B. Theorien, Konzepten oder Modellen) und konzeptuelles Wissen (Verknüpfungen zwischen Wissenskomponenten). Der Kompetenzaspekt Anwendung bezieht sich auf eine praktische Anwendung des Erlernten (z. B. beim Erstellen eigener Klausuraufgaben). Kompetenzaufbau in einem Diagnostikseminar 173 (Haupteffekt „Zeit“); allerdings zeigten sich in beiden Gruppen unterschiedliche Verläufe (bedeutsame Interaktion) mit einem numerischen Zuwachs in der Experimentalgruppe und einem numerischen Abfall in der Kontrollgruppe. Für die Wissenssubskalen sowie den Aspekt Anwendung fanden sich keine bedeutsamen Veränderungen (Haupteffekt „Zeit“ und Interaktion jeweils nicht statistisch bedeutsam). Diese uneinheitlichen Befunde mit teils erwartungswidrig niedrigeren Kompetenzwerten zum Semesterende bei Wedel et al. (2019) weisen auf weiteren Forschungsbedarf bezogen auf einen potenziellen Kompetenzaufbau bei Lehramtsstudierenden im Rahmen einsemestriger Diagnostik-Lehrveranstaltungen hin. Aufgaben und Aufgabenformate als Inhalt pädagogischer Diagnostik Bildungswissenschaftliche Diagnostik-Kompetenzen gelten als wichtige Voraussetzung für professionelles Handeln von Lehrkräften (vgl. Kunter et al., 2017; Linninger et al., 2015). So dienen im schulischen Alltag idealerweise weitgehend reliabel und valide messende, zumeist selbst erstellte Aufgaben der Erfassung von Lernvoraussetzungen, Lernfortschritten sowie Lernergebnissen - inklusive Leistungsstärken und -schwächen - einzelner Schülerinnen und Schüler sowie der Lerngruppe (z. B. Brookhart & Nitko, 2019; Waugh & Gronlund, 2013). Die korrekte oder nicht korrekte Bearbeitung sowie der Lösungsweg solcher, im Idealfall systematisch und theoriegeleitet konstruierter Aufgaben können Lehrenden wertvolle Informationen für die Unterstützung des weiteren Lernprozesses bereitstellen (Körndle, Narciss & Proske, 2004). Diagnostik-Veranstaltungen im bildungswissenschaftlichen Teil des Lehramtsstudiums haben entsprechend einen Aufbau von Wissen (u. a. zu Aufgabenarten und -formaten, Konstruktionsprinzipien guter Aufgaben, Beurteilungskriterien der Aufgabenqualität) und Kompetenzen in der Wissensanwendung (u. a. Entwicklung und Formulierung von Aufgaben, Konstruktion und Optimierung diagnostischer Instrumente wie Klassenarbeiten) zum Ziel. Aus lernpsychologischer Perspektive sowie aus der Perspektive von Unterricht und Lehre gilt insbesondere das Potenzial zur kognitiven Aktivierung als wichtige Voraussetzung für erfolgreiches Lernen und einen damit verbundenen Kompetenzaufbau (vgl. Kunter & Trautwein, 2013; siehe auch Klieme, 2019). So könnten Lehrende den Kompetenzaufbau beispielsweise durch das Stellen von anregenden Fragen, die gemeinsame Erarbeitung von Inhalten und/ oder informatives Feedback unterstützen (vgl. Astleitner, Wageneder, Lengenfelder & Jekel, 2015; Schneider & Mustafic´, 2015). Eine Umsetzung dieser Prinzipien in der Lehre zu Aufgaben und Aufgabenformaten könnte innerhalb eines Seminars realisiert werden, indem beispielsweise Vor- und Nachteile von verschiedenen Antwortformaten sowie spezifische Konstruktionsprinzipien kritisch diskutiert, Aufgaben begründet optimiert, eigene Aufgaben entwickelt sowie im Anschluss gemeinsam besprochen und revidiert werden. Fragestellungen Vor dem Hintergrund des beschriebenen Mangels an einschlägigen Evaluationsstudien zum Kompetenzaufbau im Umfeld einer Lehrveranstaltung im Lehramtsstudium nahm die vorliegende Studie den Kompetenzerwerb in einem bildungswissenschaftlichen Seminarangebot in dem für Lehramtsstudierende relevanten Bereich pädagogischer bzw. pädagogisch-psychologischer Diagnostik anhand des exemplarischen diagnostischen Themas geschlossene Aufgabenformate in den Blick. Dies erfolgte anhand einer experimentellen Interventionsstudie mit zeitversetzter Intervention und drei Messzeitpunkten (Prä- Post-Design mit Follow-up) für die Kompetenzaspekte Wissen und Anwendung. Trotz widersprüchlicher Befunde gingen wir in Übereinstimmung mit einem zentralen Ziel universitärer Lehrangebote von einem Kompetenzzuwachs im Umfeld einer Lehrveranstaltung aus. 174 Rebecca Schneider, Sarah Schwabe, Julia Ruby, Jörn R. Sparfeldt Im Rahmen der ersten Fragestellung erwarteten wir für die Kompetenzaspekte Wissen und Anwendung (1 a) keine substanziellen Unterschiede zwischen beiden Gruppen zum ersten Messzeitpunkt T1 vor der Intervention, (1 b) aufgrund der Intervention in Gruppe 1 substanziell höhere Kompetenzwerte zum zweiten Messzeitpunkt T2 nach der Intervention als zu T1 in Gruppe 1, (1 c) keine substanziellen Kompetenzunterschiede oder nur gering ausgeprägte Kompetenzzuwächse zwischen T1 und T2 in Gruppe 2 (keine Intervention) und folglich (1 d) substanziell höhere Kompetenzwerte in Gruppe 1 als Gruppe 2 zu T2. Für die zweite Fragestellung erwarteten wir aufgrund der nachgeholten, zeitversetzten Intervention in Gruppe 2 zwischen T2 und dem dritten Messzeitpunkt T3 sowie der Vorbereitung auf die Seminarabschlussklausur zu T3 für Wissen und Anwendung außerdem (2 a) gering ausgeprägte Kompetenzzuwächse zwischen T2 und T3 in Gruppe 1 (ohne Intervention zwischen T2 und T3), (2 b) substanziell höhere Kompetenzwerte zu T3 als zu T2 in Gruppe 2 (mit Intervention zwischen T2 und T3) sowie (2 c) keine substanziellen Unterschiede in den Kompetenzwerten zwischen beiden Gruppen zu T3 am Semesterende. In der dritten Fragestellung sollte im Hinblick auf eventuelle spezifische und differenzielle Effekte der Intervention explorativ der Kompetenzzuwachs in nicht in der Intervention, aber im weiteren Seminarverlauf behandelten diagnostischen Themen betrachtet werden. Diese weiteren Themen wurden - im Anschluss an die Intervention zu geschlossenen Aufgabenformaten in Gruppe 2 - im Seminar mit allen Studierenden behandelt (ebenfalls zwischen T2 und T3). Wir vermuteten in beiden Gruppen (3 a) keine oder nur geringe Kompetenzzuwächse zwischen T1 und T2 sowie (3 b) substanzielle Kompetenzzuwächse von T2 zu T3. Methode Stichprobe und Ablauf Im Rahmen von vier parallelen Diagnostik-Pflichtseminaren für Lehramtsstudierende einer deutschen Universität nahmen 83 Studierende an der Studie teil; von fünf Personen lagen nicht zu allen drei Messzeitpunkten Daten vor. Somit umfasste die finale Stichprobe N = 78 Studierende (23 % männlich, 77 % weiblich; Alter T1 : M = 23.58 Jahre, SD = 4.39; Semesterzahl: M = 5.09, SD = 1.95), die - pro Seminar (n = 26/ 13/ 27/ 12) - randomisiert einer von zwei Gruppen zugeteilt wurden (Gruppe 1: n G1 = 41, Gruppe 2: n G2 = 37). Teilnahmevoraussetzung im Seminar war das Bestehen einer Pflichtklausur einer einführenden, einsemestrigen Diagnostik-Vorlesung (2 SWS; gemäß Studienverlaufsplan vorgesehen für das dritte Semester); somit verfügten die Studierenden bereits zu Beginn des Seminars über etwas Vorwissen. Zu Beginn der ersten Seminarsitzung bearbeiteten alle Studierenden den Diagnostik-Prätest (T1; Abb. 1). Im Anschluss an die randomisierte Gruppe 1 Gruppe 2 Zeit T3 Klausur T1 Beginn des Seminars T2 Intervention andere und weitere diagnostische Themen andere diagnostische Themen Intervention weitere diagnostische Themen Abb. 1: Ablauf der Studie mit den drei Messzeitpunkten (T1, T2, T3) im Rahmen des Seminars Pädagogischpsychologische Diagnostik und Intervention im Semesterverlauf Kompetenzaufbau in einem Diagnostikseminar 175 Gruppenaufteilung pro Seminar wurden mit den Studierenden der Gruppe 1 in zwei folgenden Seminarsitzungen die Interventionsinhalte zu Aufgaben mit geschlossenem Antwortformat behandelt, während die Studierenden der Gruppe 2 in einem anderen Raum andere diagnostische Themen behandelten. Im Anschluss bearbeiteten alle Studierenden erneut den Diagnostik-Test (T2; Gruppe 1: Posttest, Gruppe 2: Prätest 2). In zwei weiteren Seminarsitzungen wurden die Themen zwischen den Gruppen getauscht. Im Anschluss an die Intervention in Gruppe 2 wurden - gemeinsam mit den Studierenden beider Gruppen pro Seminar in einem Raum - weitere diagnostische Themen behandelt. Zum Semesterende bearbeiteten alle Studierenden erneut den Diagnostik-Test (T3; Gruppe 1: Follow-up, Gruppe 2: Posttest). Der Diagnostik-Test war zu den drei Zeitpunkten identisch. Variablen Uns sind keine psychometrisch geprüften Testverfahren zur Erfassung der in unserer Intervention adressierten Inhalte bekannt; insbesondere erschien uns die Erfassung von einerseits Wissensinhalten und andererseits einer Anwendung im Sinne u. a. einer Konstruktion eigener Klausuraufgaben bedeutsam. Der folglich selbstkonstruierte Diagnostik-Test bestand aus 25 Wissens- und 10 Anwendungsaufgaben zu Aufgaben mit geschlossenem Antwortformat sowie 5 Aufgaben, die sich auf weitere, nicht-interventionsspezifische diagnostische Inhalte bezogen. Die offenen und halboffenen Aufgaben wurden von zwei unabhängigen Beurteilern bepunktet - mit sehr guter Übereinstimmung (Cohens Kappa κ = .87 - 1.00; vgl. Landis & Koch, 1977). Die Wissensaufgaben (19 geschlossene, 3 halboffene, 3 offene Aufgaben; max. 28 Punkte) bezogen sich u. a. auf Definitionen, Fachbegriffe oder Eigenschaften geschlossener Antwortformate (z. B. „Wie heißt der Fachbegriff für falsche Antwortalternativen bei Multiple-Choice-Aufgaben? “ [freies Antwortformat]). Bei Aufgaben mit geschlossenem und halboffenem Antwortformat wurden pro richtiger Antwort ein Punkt sowie für nicht richtige Antworten und nicht bearbeitete Aufgaben keine Punkte vergeben. Bei Aufgaben mit offenem Antwortformat wurden - in Abhängigkeit von der Antwortqualität - bis zu 2 Punkte für die Antwort vergeben. Die Spearman- Brown adjustierte split-half Reliabilität betrug zu T1 r tt = .51. Die Anwendungsaufgaben (5 geschlossene, 5 offene Aufgaben; bei offenen Aufgaben bis zu 5 Punkte pro Aufgabe; max. 21 Punkte; Spearman-Brown adjustierte split-half Reliabilität zu T1: r tt = .65) zielten u. a. darauf ab, Aufgaben anhand bestimmter Kriterien zu formulieren oder nicht optimale Aufgaben zu verbessern (z. B. „Im Folgenden finden Sie eine Multiple-Choice-Aufgabe, die gegen typische Konstruktionsregeln von Multiple-Choice Aufgaben (z. B. nach Waugh & Gronlund, 2013) verstößt. Benennen Sie zwei Konstruktionsfehler und geben Sie pro Fehler einen Verbesserungsvorschlag. [Abbildung einer Aufgabe mit kleineren Verstößen gegen Konstruktionsregeln]“ [offenes Antwortformat]). Die Inhalte der weiteren, nicht-interventionsspezifischen diagnostischen Aufgaben (4 geschlossene Aufgaben und eine offene Aufgabe; bei der offenen Aufgabe bis zu 2 Punkte; max. 6 Punkte; Spearman- Brown adjustierte split-half Reliabilität zu T1: r tt = .65) bezogen sich auf Themen wie Trennschärfe, Reliabilität oder Aufgaben mit offenem Antwortformat (z. B. „Nennen Sie die zwei Subtypen, in welche offene Aufgaben unterteilt werden (z. B. nach Waugh & Gronlund, 2013)“ [freies Antwortformat]). Aufbau der Intervention Die Intervention umfasste zwei Seminarsitzungen (à 90 Minuten) zu Aufgaben mit geschlossenem Antwortformat. Lehrziele waren einerseits der Aufbau von Wissen über Aufgaben mit geschlossenem Antwortformat und zentrale Subformen, über deren Eignung zur Erfassung spezifischer Lehrziele und Inhalte sowie über formale Aspekte bei der Erstellung. An dieses Wissen anknüpfend sollten die Studierenden andererseits Kompetenzen erwerben, vorgegebene Aufgaben zu optimieren sowie eigenständig diagnostisch hochwertige geschlossene Aufgaben zu konzipieren und deren Eignung zu reflektieren (Anwendung). In der ersten Sitzung lag der Schwerpunkt auf allgemeinen Grundlagen und Prinzipien von Aufgaben mit geschlossenem Antwortformat sowie der zentralen Subform Multiple-Choice-Aufgaben. In der zweiten Sitzung standen Richtig-Falsch-, Zuordnungs- und Umordnungsaufgaben im Fokus. Für jede Subform wurden zentrale Merkmale, der Aufbau einer prototypischen Aufgabe sowie verschiedene gute Beispielaufgaben besprochen (z. B. Brookhart & Nitko, 2019; Haladyna & Rodriguez, 2013; Waugh & Gronlund, 2013). Im Anschluss konstruierten die Studierenden Aufgaben in einem 176 Rebecca Schneider, Sarah Schwabe, Julia Ruby, Jörn R. Sparfeldt ihrer Unterrichtsfächer. Hier formulierten die Studierenden eigene Aufgaben, reflektierten Stärken und Schwächen unter Rückgriff auf die Grundlagen allein und kooperativ in der Klein- und Großgruppe und optimierten anschließend sukzessive diese Aufgaben. Im Wechsel fanden Phasen der Wissensvermittlung zu Grundlagen und formalen Konstruktionsprinzipien der Aufgaben-Subformen sowie der Anwendung des Gelernten statt. Die Studierenden erstellten als Hausaufgabe weitere Aufgaben, zu denen sie individuell Feedback von der Seminarleitung erhielten. Stärken und häufig auftretende Schwächen (z. B. Passung Lehrzieltaxonomiestufe/ verwendeter Operator) wurden im Seminar besprochen. Den Studierenden wurden Präsentationen, Handouts sowie Vertiefungsliteratur zur Verfügung gestellt. Um Testleitereffekte möglichst auszuschließen, übernahm dieselbe Dozentin die Seminarleitung in allen Interventionssitzungen der vier Gruppen der Gruppe 1 zwischen T1 und T2; ein hochgradig standardisiertes Vorgehen sicherten entsprechende Materialien und Ablaufpläne (u. a. ausführlich kommentierte Präsentationen und Arbeitsaufträge, standardisierte Antworten auf typische Fragen der Studierenden). Zwischen T2 und T3 übernahmen andere Dozierende nach intensiver Schulung und unter Nutzung der standardisierten Materialien die Intervention für die vier Gruppen der Gruppe 2. Auswertung Zur Beantwortung der ersten Fragestellung wurden - getrennt für Wissen und Anwendung - 2 × 2 ANOVAs mit den beiden zweigestuften Faktoren „Gruppe“ (Gruppe 1, Gruppe 2) und „Zeit“ (T1, T2) berechnet. In nachgelagerten unabhängigen t-Tests prüften wir, ob sich die Kompetenzen beider Gruppen zu T1 (1 a) und zu T2 (1 d) statistisch signifikant unterschieden. Zur Beantwortung der Forschungsfragen 1 b (Zuwachs in Gruppe 1 von T1 zu T2) und 1 c (Zuwachs in Gruppe 2 von T1 zu T2) berechneten wir t-Tests für abhängige Stichproben. Zur Beantwortung der zweiten sowie der explorativen dritten Fragestellung gingen wir analog vor (2 × 2 ANOVA mit im Falle statistisch bedeutsamer Effekte nachgelagerten t-Tests). Für die inferenzstatistischen Tests wurde ein Signifikanzniveau von α = .05 zugrunde gelegt. Ergänzend berechneten wir die Effektgrößen partielles η 2 bzw. d (jeweils basierend auf unabhängigen Stichproben sowie der gepoolten Streuung; Interpretation nach Cohen, 1988). Ergebnisse Die zur Beantwortung der ersten Fragestellung und dem Vergleich der beiden Gruppen zu den beiden ersten Testzeitpunkten berechneten beiden zweifaktoriellen ANOVAs zeigten statistisch bedeutsame Effekte für Gruppe (Wissen: F 1,76 = 10.51, p < .01, η 2 = .12; Anwendung: F 1,76 = 22.12, p < .01, η 2 = .23), Zeit (Wissen: F 1,76 = 91.24, p < .01, η 2 = .55; Anwendung: F 1,76 = 199.60, p < .01, η 2 = .72) sowie die Interaktionen (Wissen: F 1,76 = 34.86, p < .01, η 2 = .31; Anwendung: F 1,76 = 85.27, p < .01, η 2 = .53). Auch die anschließenden t-Tests ergaben für Wissen und Anwendung vergleichbare Befundmuster: Zum ersten Messzeitpunkt unterschieden sich die beiden Gruppen erwartungsgemäß nicht bedeutsam (1 a; Wissen: t 76 = -0.06, p = .95, d = 0.01; Anwendung: t 76 = -0.55, p = .58, d = 0.13; vgl. Tabelle 1 für die deskriptiven Kennwerte). Von T1 zu T2 zeigte sich ein erwarteter statistisch bedeutsamer Zuwachs in Gruppe 1, in der die Intervention stattfand (1 b; Wissen: t 40 = 11.47, P max T1 T2 T3 G2 M ( SD) G1 M ( SD) G2 M ( SD) G1 M ( SD) G2 M ( SD) G1 M ( SD) Wissen Anwendung Weitere 28 21 6 14.70 (3.29) 8.64 (2.38) 2.19 (1.05) 14.66 (3.14) 8.33 (2.49) 2.61 (1.20) 15.95 (2.73) 9.99 (2.62) 2.62 (1.21) 19.93 (3.09) 14.78 (2.23) 2.93 (1.59) 22.54 (2.43) 17.46 (1.97) 5.19 (0.97) 22.61 (2.61) 17.70 (1.57) 5.15 (0.91) Tab. 1: Mittelwerte (M) und Standardabweichungen (SD) pro Zeitpunkt (T1, T2, T3) in der Gruppe 1 (G1) und Gruppe 2 (G2) für die drei Skalen (vgl. Text) Anmerkungen: P max = maximale Punktzahl, N G1 = 41, N G2 = 37. Kompetenzaufbau in einem Diagnostikseminar 177 p < .01, d = 1.69; Anwendung: t 40 = 15.96, p < .01, d = 2.73), sowie nicht erwartungsgemäß auch in Gruppe 2 (1 c; Wissen: t 36 = 2.46, p = .02, d = 0.41; Anwendung: t 36 = 3.65, p < .01, d = 0.54). Zu T2 fand sich ein statistisch bedeutsamer Gruppenunterschied - erwartungsgemäß zugunsten der Studierenden in Gruppe 1, in der die Intervention realisiert worden war (1 d; Wissen: t 76 = 6.01, p < .01, d = 1.36; Anwendung: t 76 = 8.73, p < .01, d = 1.98). Eine Darstellung der Ergebnisse zeigt Abbildung 2. Die zur Beantwortung der zweiten Fragestellung - also der Vergleiche beider Gruppen zu T2 und T3 - berechneten zweifaktoriellen ANOVAs ergaben für die beiden Kompetenzbereiche Wissen und Anwendung vergleichbare Befundmuster mit statistisch bedeutsamen Effekten für Gruppe (Wissen: F 1,76 = 15.39, p < .01, η 2 = .17; Anwendung: F 1,76 = 47.40, p < .01, η 2 = .38), Zeit (Wissen: F 1,76 = 183.90, p < .01, η 2 = .71; Anwendung: F 1,76 = 275.50, p < .01, η 2 = .78) sowie die Interaktionen (Wissen: F 1,76 = 32.69, p < .01, η 2 = .30; Anwendung: F 1,76 = 53.05, p < .01, η 2 = .41). Wie zu Fragestellung 1 d berichtet, unterschieden sich die beiden Gruppen zu T2 erwartungsgemäß zugunsten der Gruppe 1 statistisch bedeutsam. Von T2 zu T3 zeigten sich die erwarteten statistisch bedeutsamen Zuwächse in Gruppe 2 (2 b; Wissen: t 36 = 12.40, p < .01, d = 2.55; Anwendung: t 36 = 13.72, p < .01, d = 3.22), in der die spezifische Intervention stattgefunden hatte. Auch die Studierenden in Gruppe 1 verbesserten sich von T2 zu T3 statistisch bedeutsam (2 a; Wissen: t 40 = 6.12, p < .01, d = 0.94; Anwendung: t 40 = 8.72, p < .01, d = 1.51). Erwartungsgemäß differierten beide Gruppen zum dritten Testzeitpunkt, nachdem die Intervention in beiden Gruppen umgesetzt worden war, wieder nicht statistisch bedeutsam (2 c; Wissen: t 76 = 0.12, p = .90, d = 0.03; Anwendung: t 76 = 0.59, p = .56, d = 0.14). Zur Beantwortung der dritten Fragestellung betrachteten wir die Kompetenzentwicklung in den weiteren nicht-interventionsspezifischen Themen. Die ANOVAs zeigten jeweils statistisch bedeutsame Wissenszuwächse über die Zeit (T1 -T2: F 1,76 = 6.59, p = .01, η 2 = .08 entspricht d = 0.59; T2 -T3: F 1,76 = 190.18, p < .01, η 2 = .71 entspricht d = 3.13), jedoch keine statistisch bedeutsamen Haupteffekte für Gruppe (T1 -T2: F 1,76 = 2.07, p = .15, η 2 = .03; T2 -T3: F 1,76 = 0.39, p = .54, η 2 = .00) und keine statistisch bedeutsamen Interaktionen (T1 - T2: F 1,76 = 0.16, p = .69, η 2 = .00; T2 - T3: F 1,76 = 1.01, p = .32, η 2 = .01). Somit zeigten sich in beiden Gruppen entsprechende Kompetenzzuwächse zwischen T1 und T2 (nicht erwartet) sowie zwischen T2 und T3 (erwartet); die Zuwächse differierten - jeweils erwartungsgemäß - nicht zwischen beiden Gruppen. Rohpunktwerte Rohpunktwerte Rohpunktwerte 28 21 14 7 0 21 14 7 0 6 5 4 3 2 1 0 T1 T2 T3 Zeitpunkt T1 T2 T3 Zeitpunkt T1 T2 T3 Zeitpunkt Gruppe 1 Gruppe 2 Gruppe 1 Gruppe 2 Gruppe 1 Gruppe 2 Wissen Anwendung Weitere Abb. 2: Kompetenzausprägung in den beiden Gruppen pro Skala und pro Zeitpunkt (vgl. Text). Die Whiskers geben das 95 %-Konfidenzintervall der Mittelwerte an. 178 Rebecca Schneider, Sarah Schwabe, Julia Ruby, Jörn R. Sparfeldt Diskussion Ausgangspunkt unserer Studie war die aus Hochschulperspektive relevante Frage nach dem Kompetenzerwerb von Studierenden im Umfeld einer spezifischen Lehrveranstaltung im Lehramtsstudium. Daher betrachteten wir den Kompetenzzuwachs in einem bildungswissenschaftlichen Seminar für Lehramtsstudierende zur pädagogischen bzw. pädagogisch-psychologischen Diagnostik und insbesondere das exemplarische Thema geschlossene Aufgabenformate. Dabei untersuchten wir den Kompetenzzuwachs einerseits im Sinne einer Wissenszunahme und andererseits in der für künftiges Lehrkrafthandeln bedeutsamen Wissensanwendung - mit vergleichbarem Befundmuster: In der ersten Interventionsphase zeigte sich ein bedeutsamer Kompetenzaufbau in den beiden Seminarsitzungen zwischen T1 und T2 erwartungsgemäß bei den Studierenden der Gruppe 1 mit Intervention, nicht erwartungsgemäß und mit geringeren Effektstärken jedoch auch bei den Studierenden der Gruppe 2 ohne Intervention. Im weiteren Seminarverlauf mit nachgelagerter, zeitversetzter Intervention für Gruppe 2 sowie weiteren diagnostischen Inhalten (in beiden Gruppen) konnte in beiden Gruppen ein substanzieller Kompetenzzuwachs in der zweiten Interventionsphase zwischen T2 und T3 dokumentiert werden - mit deutlicherem Kompetenzzuwachs in Gruppe 2 mit nachgelagerter Intervention. Für die weiteren, nicht-interventionsspezifischen diagnostischen Inhalte ergaben sich für beide Gruppen substanzielle und nicht verschiedene, also vergleichbare Kompetenzzuwächse mit deutlich größeren Effekten in der zweiten verglichen mit der ersten Interventionsphase. In Kompetenztests dokumentierte Kompetenzzuwächse der Studierenden liefern - ggf. neben verbreiteten Rückmeldungen von Studierenden im Rahmen von Lehrevaluationen und Selbsteinschätzungen der Lehrenden - relevante Informationen zur Beurteilung der Effektivität universitärer Lehrangebote; dies ist insbesondere vor dem Hintergrund knapper Zeitressourcen bedeutsam. Der in der ersten Fragestellung angesprochene und dokumentierte bedeutsame Kompetenzzuwachs im Zuge unserer kurzen Intervention zwischen T1 und T2 in Gruppe 1 ist bemerkenswert. Unser Befund steht sowohl mit denjenigen bisherigen quer- und längsschnittlichen Befunden im Einklang, die einen bedeutsamen Kompetenzerwerb bei Lehramtsstudierenden über einen Zeitraum von mehreren Semestern berichteten (z. B. König, 2012; Linninger et al., 2015; Römer et al., 2017), als auch mit den eingangs erwähnten und teils schwer zu interpretierenden Veränderungen im Rahmen einer einsemestrigen Lehrveranstaltung (Wedel et al., 2019). Die Effektgrößen für den Kompetenzzuwachs zwischen T1 und T2 in Gruppe 1 unserer Studie fielen sowohl für Wissen (d = 1.69) als auch Anwendung (d = 2.73) sehr hoch und zudem numerisch höher als in früheren Studien aus (0.55 ≤ d ≤ 1.22; König, 2012; Linninger et al., 2015; Römer et al., 2017; Wedel et al., 2019). Einige Erklärungen für die verschiedenen Effektstärken liegen nahe: Neben differenter zeitlicher Anlage unserer und früherer Studien (zwei Seminarsitzungen zwischen T1 und T2 vs. ein oder mehrere Semester) und damit zusammenhängenden Unterschieden im Umfang behandelter Themen (eng umgrenztes diagnostisches Thema vs. eine oder mehrere Lehrveranstaltungen) unterschied sich (vermutlich) die didaktische Gestaltung der Lehrveranstaltungen. Unsere Studierenden wurden in den beiden Interventionssitzungen durch abwechselnde Phasen der Wissensvermittlung und der Anwendung des Gelernten allein oder kooperativ in Gruppen intensiv zu einer kognitiv aktiven Auseinandersetzung angeregt. Ob ein ähnlicher Kompetenzaufbau im Rahmen anderer Lehr- Lernformate (z. B. in einer Lernwerkstatt oder verbreiteten Referateseminaren) mit vergleichbarem Zeitumfang und thematischer Breite realisiert werden kann, wäre in weiterführenden Studien zu untersuchen. Die (unsystematisch durch die Dozentin beobachtete) hohe kognitive Aktivierung der Teilnehmenden unserer Seminare lässt Unterschiede im Kompetenzzuwachs zwischen entsprechenden Lehrveranstaltungsformaten erwarten. Kompetenzaufbau in einem Diagnostikseminar 179 Neben den erwähnten Kompetenzzuwächsen zwischen T1 und T2 in Gruppe 1 mit Intervention konnten wir in Gruppe 2 ohne Intervention in diesem Zeitraum ebenfalls bedeutsame Kompetenzzuwächse dokumentieren. Unsere Befunde in Gruppe 2 für diesen Zeitraum stehen damit teilweise im Einklang mit früheren Befunden zu Kompetenzveränderungen in der Kontrollgruppe (Zuwachs im Kompetenz-Globalwert bei Wedel et al., 2019, Studie 1) sowie teilweise im Gegensatz zu der dort berichteten nicht bedeutsamen Veränderung oder dem irritierenden (numerischen) Kompetenzabfall in der Kontrollgruppe (Wedel et al., 2019, Studie 2). Als Erklärung für den in unserer Studie bedeutsamen, jedoch im Vergleich zu Gruppe 1 numerisch geringeren Kompetenzzuwachs in Gruppe 2 ohne Intervention liegen positive Transfereffekte der in Gruppe 2 währenddessen behandelten anderen diagnostischen Themen auf die abhängigen Variablen nahe. Bezogen auf die zweite Fragestellung fanden wir auch zwischen dem zweiten (T2) und dritten Messzeitpunkt zum Semesterende (T3) bedeutsame Kompetenzzuwächse in beiden Gruppen. In Gruppe 2 mit nachgeholter Intervention fielen die Effektstärken für den Kompetenzaufbau im Wissen (d = 2.55) und Anwenden (d = 3.22) sehr groß aus. Auch diese Effekte stehen im Einklang mit Studien, welche für längere Zeiträume und andere diagnostische Inhalte bedeutsame Kompetenzzuwächse bei Lehramtsstudierenden dokumentieren konnten (z. B. König, 2012; Linninger et al., 2015; Römer et al., 2017; Wedel et al., 2019). Für die Interpretation unserer Ergebnisse von T2 zu T3 scheinen zwei Aspekte besonders beachtenswert: Zum einen wurden die beiden Interventionsseminarsitzungen zwischen T2 und T3 in Gruppe 2 durch verschiedene Dozierende der Seminare geleitet - im Gegensatz zur Intervention in Gruppe 1 zwischen T1 und T2 mit identischer Dozentin. Die Ergebnisse verweisen auf eine gewisse Robustheit der Effekte gegenüber Testleitereinflüssen, zumindest bei hochgradig standardisiertem Vorgehen (u. a. standardisierte Materialien, Ablaufpläne). Zum anderen wurden zwischen T2 und T3 - neben der zwei Seminarsitzungen umfassenden Intervention für Gruppe 2 - zusätzliche Seminarinhalte in der Gesamtgruppe thematisiert. Die Studierenden erstellten u. a. eine Probeklausur zu seminarrelevanten Themen (Aufgaben verschiedener Formate, Grundlagen der Klausurerstellung). Die in den Seminargruppen dafür konstruierten Aufgaben wurden in der Seminargruppe analysiert und optimiert; dabei wurden implizit und teilweise explizit die in der Interventionsphase erarbeiteten Grundlagen und formalen Prinzipien zur Erstellung guter Aufgaben erneut angesprochen. Da diese Probeklausur jeweils in einem Parallelseminar geschrieben wurde, lagen weitere Rückmeldungen zu Stärken und Schwächen der einzelnen Aufgaben und der gesamten Probeklausur vor, die anschließend im Seminar thematisiert wurden. Darüber hinaus stellte der Diagnostik-Test zu T3 einen Teil der Seminarabschlussklausur dar, weshalb die interventionsspezifischen Inhalte von den Studierenden im Zuge der Klausurvorbereitung noch einmal wiederholt und ggf. vertieft worden sein dürften. Während also die Kompetenzzuwächse der Gruppe 1 zwischen T1 und T2 als Effekte der Intervention interpretiert werden können, sind die Kompetenzzuwächse der Gruppe 2 zwischen T2 und T3 weniger eindeutig auf die Intervention zurückzuführen (zumal die Studierenden beider Gruppen pro Seminar im Anschluss an die Intervention in Gruppe 2 gemeinsam am Seminar teilgenommen hatten). Nichtsdestotrotz sind die Effektgrößen beachtlich und weisen auf die Generalisierbarkeit der Interventionseffekte hin. Wir erwarten (und hoffen), dass die in den Diagnostik-Seminaren erworbenen Kompetenzen mit im weiteren Studium behandelten Inhalten verknüpft werden. Die im Seminar behandelten übergreifenden Themen wie allgemeine Prinzipien schriftlicher und mündlicher Prüfungen, die Erstellung guter Aufgaben und Gütekriterien könnten in späteren, beispielsweise fachdidaktischen Lehrveranstaltungen aufgegriffen werden. Während der Fokus in den ersten beiden Fragestellungen auf dem Kompetenzerwerb im eng umgrenzten Thema geschlossene Antwortformate lag, wurde in der dritten explorativen Fragestellung der Kompetenzzuwachs in nicht- 180 Rebecca Schneider, Sarah Schwabe, Julia Ruby, Jörn R. Sparfeldt interventionsspezifischen, also allgemeineren diagnostischen Themen im Semesterverlauf untersucht. Möglicherweise überrascht der Kompetenzzuwachs zwischen T1 und T2 in beiden Gruppen. Als Erklärung liegen erneut Transfereffekte nahe: Die in der Intervention angesprochenen spezifischen diagnostischen Prinzipien bei geschlossenen Aufgaben sind nämlich nicht nur für die spezifisch angesprochenen geschlossenen Aufgaben bedeutsam, sondern von allgemeinerer Relevanz bei beispielsweise der Formulierung unterschiedlichster Aufgaben. Die deutlichen Kompetenzzuwächse zwischen T2 und T3 sind insbesondere mit den über die Intervention hinausgehend behandelten Seminarinhalten erklärbar. Bedeutsam für die Interpretation ist aus unserer Sicht, dass hier weder zwischen T1 und T2 noch zwischen T2 und T3 substanzielle statistische Wechselwirkungen gesichert werden konnten, was gegen differenzielle und mithin für vergleichbare Kompetenzzuwächse in beiden Gruppen spricht. Aus methodischer Perspektive erscheinen insbesondere fünf Punkte diskussionswürdig: (1) Die von uns entwickelten Instrumente zur Kompetenzmessung erfassen einerseits Wissen über zentrale diagnostische Inhalte und andererseits deren Anwendung in der Konstruktion und Optimierung eigener Aufgaben. Das Ausbleiben von Bodeneffekten zu T1 sowie von Deckeneffekten zu T3 für beide Gruppen und alle Skalen weist auf die diesbezügliche Eignung der Instrumente hin. Allerdings sind die Skalen teils sehr kurz; eine entsprechende Verlängerung wäre aus psychometrischer Perspektive begrüßenswert. Die dokumentierten, statistisch bedeutsamen Kompetenzveränderungen sprechen jedoch gegen interpretationsbeeinträchtigende (massive) Reliabilitätsmängel. (2) Im Zuge der Interventionskonzeption und der Konstruktion der eingesetzten Instrumente bemühten wir uns um eine hohe Passung im Sinne der curricularen Validität (vgl. constructive alignment; Biggs, 1996). Das in Abbildung 2 wiedergegebene Befundmuster mit stets numerisch deutlicheren Zuwächsen während der spezifischen Intervention steht hiermit im Einklang. (3) Da wir identische Leistungstests zu den drei Messzeitpunkten einsetzten, dürfte ein Teil der Rohpunkterhöhungen zu T2 und T3 auf Testwiederholungseffekte zurückzuführen sein. Eine Schätzung der Obergrenze solcher Testwiederholungseffekte in unseren Daten könnten die Zuwächse von Gruppe 2 zwischenT1 und T2 sein. Das Befundmuster mit insbesondere deutlich größeren Effektstärken in Gruppe 1 mit Intervention in der ersten Interventionsphase sowie, etwas eingeschränkt, deutlich größeren Effektstärken in Gruppe 2 mit nachgeholter, zeitversetzter Intervention in der zweiten Interventionsphase spricht für substanzielle und spezifische Interventionseffekte, die über reine Testwiederholungseffekte deutlich hinausgehen. (4) Aus versuchsplanerischer Perspektive weist unser experimentelles Design ein hohes Maß an interner Validität auf (insbesondere für die erste Interventionsphase zwischen T1 und T2). Das differenzielle, aber für die Skalen Wissen und Anwendung vergleichbare Befundmuster (vergleichbare Kompetenzausprägungen von beiden Gruppen zu T1, höhere Kompetenzausprägung in Gruppe 1 als in Gruppe 2 zu T2 sowie erneut vergleichbare, aber höhere Kompetenzausprägungen von beiden Gruppen zu T3) mit entsprechend statistisch signifikanten und praktisch bedeutsamen Effektgrößen spricht gegen eine eingeschränkte Teststärke sowie diesbezüglich zu kleine Stichprobengrößen. (5) Die typischen Herausforderungen von Feldstudien lassen sich nicht immer und vollständig mit einem aus wissenschaftlicher Sicht wünschenswerten Vorgehen vereinbaren - zumal, wenn Feldstudien wie hier in den regulären Lehrbetrieb integriert sind. So wiesen die vier Parallelseminare teils unterschiedliche Gruppengrößen auf (vermutlich mit den Seminarzeiten in der Woche zusammenhängend). Informelle Rückmeldungen der Dozierenden verweisen jedoch auf eine gute und erfolgreiche Umsetzbarkeit des Seminarkonzepts mit entsprechend unterschiedlichen Teilnehmendenzahlen, was für dasTransferpotenzial an andere Standorte spricht. Die Umsetzung unseres Seminarkonzepts im Rahmen des regulären Lehrangebots des Hochschulstandorts lässt eine erfolgreiche Implementation eines solchen oder vergleichbaren Seminarkonzepts auch an anderen Standorten als Kompetenzaufbau in einem Diagnostikseminar 181 wahrscheinlich erscheinen. Beachtenswert erscheinen einige Spezifika - beispielsweise die Verortung des Seminars im Curriculum (bis zum Zeitpunkt des Seminarbesuchs u. a. einführende fachwissenschaftliche und bildungswissenschaftliche Veranstaltungen im Rahmen eines „Grundstudiums“ sowie eines 5-wöchigen orientierenden bildungswissenschaftlichen Schul-Praktikums) und dem damit verbundenen spezifischen Diagnostik-Vorwissen der Studierenden (u. a. als Pflichtseminar im Anschluss an eine einführende Diagnostik-Vorlesung und bestandene Vorlesungsklausur), den Scheinkriterien (aktive Teilnahme, Sitzungsgestaltung, Hausaufgaben, Abschlussklausur) und dem weitgehend standardisierten Vorgehen im Seminar. Bei dem exemplarisch gewählten Interventionsinhalt (Aufgaben mit geschlossenem Antwortformat) lässt sich ein standardisiertes Vorgehen gut umsetzen; ein derart standardisiertes Vorgehen mag für weniger standardisierte Inhalte der pädagogisch-psychologischen Diagnostik oder weiterer bildungswissenschaftlicher Themen weniger gelingen und/ oder sinnvoll sein. Nichtsdestotrotz können die realisierten (u. a. didaktischen und instruktionspsychologischen) Prinzipien auch bei der Konzeption anderer Seminare sinnvoll umgesetzt werden. Entsprechende Evaluationsstudien an anderen Standorten könnten weitere Hinweise auf die Generalisierbarkeit unserer Befunde liefern. In der Qualitätsoffensive Lehrerbildung sind bereits an vielen Standorten Pädagogische Psychologinnen und Psychologen maßgeblich in der Projektkonzeption und Evaluation der Einzelmaßnahmen beteiligt. Entsprechende Erfahrungen und Kompetenzen könnten die Hochschuldidaktik samt der Evaluation von Hochschullehre künftig zu noch attraktiveren Betätigungsfeldern für die Pädagogische Psychologie machen (vgl. Spinath, 2018). Zudem dürfte eine Evaluation eigener Lehrangebote grundsätzlich der Lehrqualität zuträglich sein. In unserer Studie nahmen wir ein bildungswissenschaftliches Lehrangebot genauer in den Blick - ein Pflichtseminar in pädagogischer bzw. pädagogisch-psychologischer Diagnostik für Lehramtsstudierende. Zusammenfassend weisen unsere Befunde auf einen bedeutsamen Kompetenzaufbau sowohl im Wissen über Aufgaben mit geschlossenem Antwortformat als auch dessen Anwendung im Zuge der Erstellung eigener Aufgaben hin. Wir konnten substanzielle Kompetenzzuwächse - im Sinne einer Effizienz - sogar nach nur zwei Seminarsitzungen sichern. Interpretiert man den dritten Messzeitpunkt bezogen auf Gruppe 1 mit Intervention zwischen T1 und T2 als Follow-up, weisen unsere Ergebnisse zudem auf eine gewisse Stabilität der Kompetenzzuwächse hin. Unsere ermutigenden Befunde erweitern zudem den bisher begrenzten Forschungsstand zur angenommenen Wirksamkeit universitärer Lehrveranstaltungen und unterstreichen - bei Berücksichtigung einer psychologisch angemessenen Gestaltung - das Potenzial selbst kurzer, spezifischer Lehrangebote für den Kompetenzaufbau bei Studierenden. Literatur Astleitner, H., Wageneder, G., Lengenfelder, P. & Jekel, A. (2015). 12 Tipps für eine kompetenzorientierte Lehre. Abgerufen am 4. 6. 2020 unter http: / / www.uni-salz burg.at/ fileadmin/ multimedia/ Qualitaetsmanage ment/ documents/ Handbuecher/ 12_Tipps_f%C3% BCr_eine_kompetenzorientierte_Lehre.pdf Baumert, J. & Kunter, M. (2006). Stichwort: Professionelle Kompetenz von Lehrkräften. Zeitschrift für Erziehungswissenschaft, 9, 469 - 520. Biggs, J. (1996). Enhancing teaching through constructive alignment. Higher Education, 32, 347 - 364. Bologna Working Group on Qualifications Frameworks (2005). A framework for qualifications of the European Higher Education Area. Copenhagen, Denmark: Danish Ministry of Science, Technology and Innovation. Brookhart, S. M. & Nitko, A. J. (2019). Educational assessment of students (8 th ed.). Boston, MA: Pearson Education. Brunner, M., Anders, Y., Hachfeld, A. & Krauss, S. (2011). Diagnostische Fähigkeiten von Mathematiklehrkräften. In M. Kunter, J. Baumert, W. Blum, U. Klusmann, S. Krauss & M. Neubrand (Hrsg.), Professionelle Kompetenz von Lehrkräften: Ergebnisse des Forschungsprogramms COACTIV (S. 215 - 234). Münster: Waxmann. Buch, S. R. & Sparfeldt, J. R. (2020). Diagnostik, Beurteilung und Förderung als Gegenstand der Lehrerinnen- und Lehrerbildung. In C. Cramer, J. König, M. Rothland & S. Blömeke (Hrsg.), Handbuch Lehrerinnen- und Lehrerbildung (S. 39 - 46). Bad Heilbrunn: Klinkhardt/ UTB. Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed). New York, NY: Psychology Press. Cortina, K. S. & Thames, M. H. (2013). Teacher education in Germany. In M. Kunter, J. Baumert, W. Blum, U. Klusmann, S. Krauss & M. Neubrand (Eds.), Cognitive activation in the mathematics classroom and professional competence of the teachers. Results from the COACTIV project (p. 49 - 62). New York, NY: Springer. 182 Rebecca Schneider, Sarah Schwabe, Julia Ruby, Jörn R. Sparfeldt Haladyna, T. M. & Rodriguez, M. C. (2013). Developing and validating test items. New York, NY: Routledge. Hohenstein, F., Kleickmann, T., Zimmermann, F., Köller, O. & Möller, J. (2017). Erfassung von pädagogischem und psychologischem Wissen in der Lehramtsausbildung: Entwicklung eines Messinstruments. Zeitschrift für Pädagogik, 1, 91 - 113. Klieme, E. (2019). Unterrichtsqualität. In M. Harring, C. Rohlfs & M. Gläser-Zikuda (Hrsg.), Handbuch Schulpädagogik (S. 393 - 408). Münster: Waxmann. KMK (2019). Standards für die Lehrerbildung: Bildungswissenschaften (Beschluss der Kultusministerkonferenz vom 16. 12. 2004 i. d. F. vom 16. 5. 2019). Abgerufen am 20. 10. 2020 unter https: / / www.kmk.org/ fileadmin/ veroeffentlichungen_beschluesse/ 2004/ 2004_12_16- Standards-Lehrerbildung-Bildungswissenschaften.pdf König, J. (2012). Die Entwicklung von pädagogischem Unterrichtswissen: Theoretischer Rahmen, Testinstrument, Skalierung und Ergebnisse. In J. König & A. Seifert (Hrsg.), Lehramtsstudierende erwerben pädagogisches Professionswissen. Ergebnisse der Längsschnittstudie LEK zur Wirksamkeit der erziehungswissenschaftlichen Lehrerbildung (S. 141 - 182). Münster: Waxmann. Körndle, H., Narciss, S. & Proske, A. (2004). Konstruktion interaktiver Lernaufgaben für die universitäre Lehre. Abgerufen am 4. 6. 2020 unter https: / / www.research gate.net/ publication/ 242700237_Konstruktion_inter aktiver_Lernaufgaben_fur_die_universitare_Lehre Kunina-Habenicht, O., Maurer, C., Wolf, K., Holzberger, D., Schmidt, M. Dicke, T.,… Kunter, M. (2020). Der BillWiss-2.0-Test. Diagnostica, 66, 80 - 92. Kunina-Habenicht, O., Schulze-Stocker, F., Kunter, M., Baumert, J., Leutner, D., Förster, D., …Terhart, E. (2013). Die Bedeutung der Lerngelegenheiten im Lehramtsstudium und deren individuelle Nutzung für den Aufbau des bildungswissenschaftlichen Wissens. Zeitschrift für Pädagogik, 59, 1 - 23. Kunter, M. & Gräsel, C. (2018). Lehrerexpertise und Lehrerkompetenzen. In D. H. Rost, J. R. Sparfeldt & S. R. Buch (Hrsg.), Handwörterbuch Pädagogische Psychologie (5. Aufl., S. 400 - 407). Weinheim: Beltz. Kunter, M., Kleickmann, T., Klusmann, U. & Richter, D. (2011). Die Entwicklung professioneller Kompetenz von Lehrkräften. In M. Kunter, J. Baumert, W. Blum, U. Klusmann, S. Krauss & M. Neubrandt (Hrsg.), Professionelle Kompetenz von Lehrkräften - Ergebnisse des Forschungsprogramms COACTIV (S. 55 - 68). Münster: Waxmann. Kunter, M., Kunina-Habenicht, O., Baumert, J., Dicke, T., Holzberger, D., Lohse-Bossenz, H.,…Terhart, E. (2017). Bildungswissenschaftliches Wissen und professionelle Kompetenz in der Lehramtsausbildung: Ergebnisse des Projekts BilWiss. In C. Gräsel & K. Templer (Hrsg.), Entwicklung von Professionalität pädagogischen Personals. Interdisziplinäre Beobachtungen, Befunde und Perspektiven (S. 37 - 54). Heidelberg: Springer VS. Kunter, M. & Trautwein, U. (2013). Psychologie des Unterrichts. Paderborn: Ferdinand Schöningh. Landis, J. R., & Koch, G. G. (1977). The Measurement of Observer Agreement for Categorical Data. Biometrics, 33, 159 - 174. Linninger, C., Kunina-Habenicht, O., Emmenlauer, S., Dicke T., Schulze-Stocker, F., Leutner, D.,… Kunter, M. (2015). Assessing teachers’ educational knowledge: Construct specification and validation using mixed methods. Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 47, 62 - 74. Römer, J., Rothland, M. & König, J. (2017). Persönlichkeitsfaktoren und Kompetenzentwicklung in der Lehrerbildung: Zusammenhänge zwischen NEO-FFI, AVEM und Pädagogischem Wissen bei Lehramtsstudierenden. Psychologie in Erziehung und Unterricht, 64, 203 - 222. Schneider, M. & Mustafic´, M. (2015). Gute Hochschullehre: Eine evidenzbasierte Orientierungshilfe. Berlin: Springer. Spinath, B. (2018). Berufsfelder der Pädagogischen Psychologie. In D. H. Rost, J. R. Sparfeldt & S. R. Buch (Hrsg.), Handwörterbuch Pädagogische Psychologie (5. Aufl., S. 50 - 56). Weinheim: Beltz. Spinath, B., Antoni, C., Bühner, M., Elsner, B., Erdfelder, E., Fydrich, T.,…Vaterrodt, B. (2018). Empfehlungen zur Qualitätssicherung in Studium und Lehre. Psychologische Rundschau, 69, 183 - 192. Voss, T. (2019). Lehrkraftwissen und dessen Erwerb. In N. McElvany, F. Schwabe, W. Bos & H. G. Holtappels (Hrsg.), Lehrerbildung - Potentiale und Herausforderungen in den drei Phasen (S. 9 - 28). Münster: Waxmann. Voss, T., Kunina-Habenicht, O., Hoehne, V. & Kunter, M. (2015). Stichwort Pädagogisches Wissen von Lehrkräften: Empirische Zugänge und Befunde. Zeitschrift für Erziehungswissenschaft, 18, 187 - 223. Voss, T. & Kunter, M. (2011). Pädagogisch-psychologisches Wissen von Lehrkräften. In M. Kunter, J. Baumert, W. Blum, U. Klusmann, S. Krauss & M. Neubrand (Hrsg.), Professionelle Kompetenz von Lehrkräften - Ergebnisse des Forschungsprogramms COACTIV (S. 193 - 214). Münster: Waxmann. Voss, T., Kunter, M. & Baumert, J. (2011). Assessing teacher candidates’ general pedagogical/ psychological knowledge. Test construction and validation. Journal of Educational Psychology, 103, 952 - 969. Waugh, C. K. & Gronlund, N. E. (2013). Assessment of student achievement (10 th ed.). Upper Saddle River, NJ: Pearson. Wedel, A., Müller, C. R., Pfetsch, J. & Ittel, A. (2019). Training teachers’ diagnostic competence with problembased learning: A pilot and replication study. Teaching and Teacher Education, 86, 102909. Wedel, A., Müller, C. R., Pfetsch, J. & Ittel, A. (2020). Entwicklung diagnostischer Kompetenz in der Lehramtsausbildung - Effekte problemorientierten Lernens mit Textfällen. In I. Gogolin, B. Hannover & A. Scheunpflug (Hrsg.), Evidenzbasierung in der Lehrkräftebildung (S. 95 - 121). Wiesbaden: Springer. Rebecca Schneider Institut zur Qualitätsentwicklung im Bildungswesen Unter den Linden 6 D-10099 Berlin E-Mail: rebecca.schneider@iqb.hu-berlin.de Sarah Schwabe Julia Ruby Jörn R. Sparfeldt Universität des Saarlandes Bildungswissenschaften Campus A5 4 D-66123 Saarbrücken E-Mail: sarah.schwabe@uni-saarland.de julia.ruby@uni-saarland.de j.sparfeldt@mx.uni-saarland.de