eJournals Psychologie in Erziehung und Unterricht67/2

Psychologie in Erziehung und Unterricht
3
0342-183X
Ernst Reinhardt Verlag, GmbH & Co. KG München
10.2378/peu2020.art10d
3_067_2020_2/3_067_2020_2.pdf41
2020
672

Empirische Arbeit: Entwicklung eines Online-Fragebogens zur Erhebung von Unterrichtsqualität durch Lernendenfeedback und erste Validierungsschritte

41
2020
Benedikt Wisniewski
Klaus Zierer
Feedback durch Lernende zu Unterrichtsmerkmalen ist dazu geeignet, die Lernwirksamkeit von Unterricht zu steigern (Buhren & Reitz, 2007; Hattie, 2008; Helmke, 2017). Eine tatsächliche Wirksamkeit lässt sich aber nur beobachten, wenn die Rückmeldungen aussagekräftig sind. In diesem Beitrag wird der Fragebogen teaCh vorgestellt, ein Online-Fragebogen für Feedback durch Lernende, der in der Sekundarstufe eingesetzt und mithilfe einer Smartphone-App anonym beantwortet werden kann. Die Items wurden auf der Grundlage von Studien und Meta-analysen zu lernwirksamem Unterricht generiert, anhand von ausführlichen Expertenbefragungen modifiziert sowie selektiert und schließlich anhand einer umfangreichen Stichprobe statistisch geprüft. Die ersten Validierungsschritte erfolgten mithilfe einer explorativen und einer konfirmatorischen Faktorenanalyse. Es zeigte sich, dass die Items mit den besten Kennwerten auf sieben Faktoren laden. Diese bilden inhaltlich größtenteils die Kategorien effektiven Unterrichts („7 Cs“) der Gates Foundation (2012, 2013) ab, für die aus dem englischsprachigen Raum bereits umfangreiche Validierungsbefunde vorliegen.
3_067_2020_2_0006
n Empirische Arbeit Psychologie in Erziehung und Unterricht, 2020, 67, 138 -155 DOI 10.2378/ peu2020.art10d © Ernst Reinhardt Verlag München Basel Entwicklung eines Online-Fragebogens zur Erhebung von Unterrichtsqualität durch Lernendenfeedback und erste Validierungsschritte Benedikt Wisniewski, Klaus Zierer Universität Augsburg Zusammenfassung: Feedback durch Lernende zu Unterrichtsmerkmalen ist dazu geeignet, die Lernwirksamkeit von Unterricht zu steigern (Buhren & Reitz, 2007; Hattie, 2008; Helmke, 2017). Eine tatsächliche Wirksamkeit lässt sich aber nur beobachten, wenn die Rückmeldungen aussagekräftig sind. In diesem Beitrag wird der Fragebogen teaCh vorgestellt, ein Online-Fragebogen für Feedback durch Lernende, der in der Sekundarstufe eingesetzt und mithilfe einer Smartphone-App anonym beantwortet werden kann. Die Items wurden auf der Grundlage von Studien und Metaanalysen zu lernwirksamem Unterricht generiert, anhand von ausführlichen Expertenbefragungen modifiziert sowie selektiert und schließlich anhand einer umfangreichen Stichprobe statistisch geprüft. Die ersten Validierungsschritte erfolgten mithilfe einer explorativen und einer konfirmatorischen Faktorenanalyse. Es zeigte sich, dass die Items mit den besten Kennwerten auf sieben Faktoren laden. Diese bilden inhaltlich größtenteils die Kategorien effektiven Unterrichts („7 Cs“) der Gates Foundation (2012, 2013) ab, für die aus dem englischsprachigen Raum bereits umfangreiche Validierungsbefunde vorliegen. Schlüsselbegriffe: Feedback durch Lernende, Fragebogen, Unterrichtsqualität, Validierung Development and First Validation of an Online Questionnaire for Student-Teacher-Feedback on Instructional Quality Summary: Student feedback about instructional characteristics is useful for increasing the effectiveness of teaching (Buhren & Reitz, 2007; Hattie, 2008; Helmke, 2017). However, actual effectiveness can only be observed if the feedback is meaningful. In this paper, the questionnaire teaCh is presented, an online questionnaire for student feedback that can be used in secondary education and can be answered anonymously with the help of a smartphone app. The items were generated on the basis of studies and meta-analyses on effective teaching, modified and selected on the basis of detailed expert interviews and finally statistically tested on the basis of a large sample. The first validation steps were carried out by means of an explorative and a confirmatory factor analysis. It turned out that the best model fit for the items with the best item statistics could be found for seven factors. These factors largely reflect the categories of effective teaching („7 Cs“) found by the Gates Foundation (2012, 2013), for which extensive validation results are already available from Englishspeaking countries. Keywords: Student feedback, questionnaire, quality of teaching, validation Der Einfluss von Unterricht auf die Lernleistung von Schülerinnen und Schülern hängt weniger von Oberflächenstrukturen, also direkt beobachtbaren Merkmalen (Sozialformen, Unterrichtsformen, Methoden, Medieneinsatz), als vielmehr von Tiefenstrukturen, also Merkmalen der Lehr-Lern- und Interaktionsprozesse, welche über die Interpretation des Unterrichtsgeschehens sichtbar werden, ab (Kunter & Voss, 2011). Insofern spielt die Mikrosteuerung eine, wenn Entwicklung eines Online-Fragebogens 139 nicht die entscheidende Rolle. Darunter lassen sich all jene Faktoren subsumieren, die von Lehrkräften unmittelbar zu verantworten sind (vgl. Hattie, 2008; Helmke, 2017; Kunter et al., 2013). Schulleistung ist insgesamt betrachtet hoch mit der Qualität des Unterrichts korreliert (r = .48; vgl. Schnabel, 2001), wobei diese allgemeine Feststellung allerdings offenlässt, was unter dem Begriff Unterrichtsqualität zu verstehen ist. Es handelt sich dabei um ein mehrdimensionales Konstrukt (vgl. Ditton & Arnoldt, 2004; Helmke, 2017; Klieme, Lipowsky, Rakoczy & Ratzka, 2006) und die jeweilige Ausprägung der basalen und überfachlichen Merkmale kann in der konkreten Umsetzung von Unterricht durch Lernende grundsätzlich zuverlässig eingeschätzt werden (vgl. Feldman, 2007; Ferguson, 2012; Ferguson & Danielsen, 2014; Göllner et al., 2016; Spooren, Brockx & Mortelmans, 2013). Sollen Lernende jedoch verwertbare Rückmeldungen zu Merkmalen der Unterrichtsqualität geben, setzt dies voraus, dass eine zielführende Fragestellung erfolgt, also eine solche, die sich auf die Einschätzung lernerfolgsrelevanter Merkmale von Unterricht bezieht. Daher ist es sinnvoll, hierzu Instrumente zur Verfügung zu stellen. Während die Lehrevaluation im Universitätskontext seit Langem erforscht und in der Praxis selbstverständlich umgesetzt wird, werden systematische Rückmeldungen von Lernenden zum Unterricht im Kontext der Sekundarstufe in den OECD-Ländern kaum herangezogen (Isoré, 2009; Marsh, Dicke & Pfeiffer, 2019). Obschon bereits eine Reihe von Fragebögen für den Sekundarschulkontext vorliegt (z. B. „Evidenzbasierte Methoden der Unterrichtsdiagnostik und -entwicklung“ [EMU], oder „Schüler als Experten für Unterricht“ [SEfU]), bleibt die Frage nach einer empirischen Absicherung eine stete Herausforderung, die vor allem im Zug digitaler Medien neue Perspektiven eröffnet. Der vorliegende Beitrag setzt an diesem Punkt an und stellt einen Online-Fragebogen vor, der mittels Smartphone-App oder Webanwendung effizient zur Einholung von Feedback durch Lernende eingesetzt werden kann. Theoretische Grundlagen Begriffsbestimmung von Unterrichtsqualität Die Frage, was unter qualitätsvollem Unterricht zu verstehen ist, wird kontrovers diskutiert, wobei sich die Betrachtungsweisen der Allgemeinen Didaktik und der empirischen Unterrichtsforschung unterscheiden. Übereinstimmend wird in beiden zwischen einem guten Unterricht (u. a. normative Aspekte von Unterricht, Input) und einem effektiven Unterricht (u. a. messbarer Lernerfolg, Prozess, Output) differenziert, wobei sich die Betrachtungsweisen unterscheiden: Während in der Allgemeinen Didaktik der gute Unterricht als umfassender Begriff gesehen wird (vgl. Zierer, 2008), findet sich in der empirischen Unterrichtsforschung die Position, wonach der gute Unterricht und der effektive Unterricht als zwei separate Felder betrachtet werden können. Davon abgesehen herrscht wiederum Konsens, dass effektiver Unterricht durch messbare Effekte gekennzeichnet werden kann und insofern empirische Forschungsmethoden im Zentrum stehen (Berliner, 2005; Klieme & Rakoczy, 2008; Kunter & Ewald, 2016). Unterrichtsqualität wird in der Regel in dieser Weise operationalisiert. Als Dimensionen werden aus empirischer Sicht häufig diejenigen Tiefenstrukturen bezeichnet, von denen theoretisch ein bedeutsamer Einfluss auf beobachtbare Zielvariablen zu erwarten ist, insbesondere Leistungszuwächse von Lernenden (Clausen, 2002; Helmke, 2017; Klieme et al., 2006). Dabei zeigt die Zusammenfassung bisher vorliegender Studien, dass es einen „fächerübergreifenden Konsens an Merkmalen zu geben scheint, die mehr oder weniger als basale Voraussetzungen/ Fundament für einen guten bzw. effektiven Unterricht in verschiedenen Fächern und auf unterschiedlichen Schulstufen gewertet werden können“ (Lipowsky, 2007, 26f ). Daher werden Dimensionen von Unterrichtsqualität als fächerübergreifend und unabhängig von fächerspezifischen Aspekten konzeptualisiert (Praetorius, Klieme, Herbert & Pinger, 2018). Im Zentrum einer empirischen Erforschung von Unterrichtsqualität steht die Frage nach 140 Benedikt Wisniewski, Klaus Zierer effektivem Unterricht, also dem Unterricht, der erfolgreiches Lernen ermöglicht. Zur Frage, welche Merkmale dies im Einzelnen sind, existieren verschiedene Modellvorstellungen, von denen fünf im Folgenden exemplarisch erläutert werden, die besonders sowohl im deutschen Sprachraum als auch im internationalen Diskurs eine breitere Rezeption erfahren haben. Modelle der allgemeinen Unterrichtsqualität Die hier angeführten Modelle bilden Unterrichtsqualität im Sinne effektiven Unterrichts ab und identifizieren jeweils verschiedene Prädiktoren, die das Kriterium Lernerfolg vorhersagen. Zudem beziehen sich die Modelle auf eine fächerübergreifende Dimensionalität von Unterrichtsqualität, welche fächerspezifische Aspekte außer Acht lässt. Lipowsky, Drollinger-Vetter, Klieme, Pauli & Reusser (2018) diskutieren am Beispiel des Mathematikunterrichts die Unterschiede zwischen generischen und fachdidaktischen Aspekten der Unterrichtsqualität. Sie konnten zeigen, dass sich zusätzlich zu den Basisdimensionen allgemeiner Unterrichtsqualität ein Faktor zweiter Ordnung fachdidaktische Qualität mit den Faktoren erster Ordnung Repräsentationsformen und strukturelle Klarheit bilden lässt, wobei die generischen und fachdidaktischen Faktoren weitgehend unabhängig voneinander sind. Obwohl sich die Modelle zum Teil überschneiden, bleibt offen, welches dieser das Konstrukt Unterrichtsqualität am besten abbildet. Zudem kann nicht ausgeschlossen werden, dass für unterschiedliche Kontexte (z. B. Schularten, Altersstufen, Fächer) unterschiedliche Prädiktoren den Lernerfolg von Schülerinnen und Schülern am besten vorhersagen. Die vorgestellten Modelle haben einen Kern an Dimensionen gemein, nämlich - in unterschiedlichen Formulierungen - den Bereich der Klassenführung, den Bereich der Strukturierung des Unterrichts sowie den Bereich der Aktivierung, Motivierung und Unterstützung der Schülerinnen und Schüler. Diese Dimensionen werden jedoch von den unterschiedlichen Autoren auf unterschiedliche Art differenziert. Erstens legten Brophy und Good (1986) einen der ersten empirisch abgesicherten Definitionsversuche von Unterrichtsqualität vor. Abweichend zur damals herrschenden Meinung war deren zentraler Befund, dass das Verhalten von Lehrpersonen einen wesentlichen Effekt auf den Lernerfolg von Schülerinnen und Schülern hat. Nach mehreren Überarbeitungen schlägt Brophy (2000) 12 Merkmale vor, die mit hohem Lernerfolg zusammenhängen: Hilfreiches Klassenklima, Lerngelegenheiten, Lehrplanorientierung, Herstellen einer Lernorientierung, Inhaltliche Kohärenz, Übung und Anwendung, Überlegte Unterrichtsgespräche, Stützen der Aufgabenbearbeitung durch die Schülerinnen und Schüler, Vermittlung von Lernstrategien, Kooperatives Lernen, Zielorientierte Bewertung, Hohe Leistungserwartungen. Dieses Modell weist einen hohen Differenzierungsgrad der Kategorien auf und der in allen anderen Modellen zentrale Aspekt der Klassenführung wird nur als Teilbereich eines hilfreichen Klassenklimas aufgefasst. Zweitens stellt das QuAIT-Modell von Slavin (1987, 1994) ein vierdimensionales Modell von Unterrichtsqualität dar, das insofern besonders relevant ist, da es als Grundlage für den weit verbreiteten Fragebogen SEfU dient. Es enthält die Dimensionen a) Instruktionsqualität (Strukturqualität, Strukturiertheit des Unterrichts, Klarheit, Verständlichkeit, Prägnanz, Variabilität der Unterrichtsformen, Medieneinsatz, Übungsintensität, Stoffumfang); b) Motivierung (Bedeutungsvolle Lehrinhalte und Lernziele, bekannte Erwartungen und Ziele, Vermeidung von Leistungsangst, Wecken von Interesse und Neugier, Verstärkung der Lernerfolge, positives Sozialklima in der Klasse); c) Angemessenheit (Anpassung von Schwierigkeit und Tempo, Niveau der Leistungserwartungen / Adaptivität, diagnostische Sensibilität, individuelle Unterstützung und Beratung, Differenzierung und Individualisierung, Förderorientierung), d) Zeitnutzung (Verfügbare Zeit, Lerngelegenheiten, genutzte Lernzeit, Orientierung auf Lehrstoff und Inhalte, Klassenmanagement, Klassenführung). Entwicklung eines Online-Fragebogens 141 Drittens nennt Helmke (2017) zehn Kriterien, die durch empirische Studien abgesichert sind und die die Grundlage für den Fragebogen EMU bilden. Das Modell weist große Ähnlichkeiten zu Brophys (2000) Modell auf, wobei der Aspekt der Klassenführung deutlicher betont wird. Die mit diesem Modell verbundene Forschung wurde von der Kultusministerkonferenz (KMK) in Auftrag gegeben (Helmke et al., 2011) und hat gerade im deutschen Sprachraum eine breite Rezeption erfahren: a) Strukturiertheit, Klarheit, Verständlichkeit b) Effiziente Klassenführung und Zeitnutzung c) Lernförderliches Unterrichtsklima d) Ziel-, Wirkungs- und Kompetenzorientierung e) Schülerorientierung, Unterstützung f ) Angemessene Variation von Methoden und Sozialformen g) Aktivierung: Förderung aktiven, selbstständigen Lernens h) Konsolidierung, Sicherung, intelligentes Üben i) Vielfältige Motivierung j) Passung: Umgang mit heterogenen Lernvoraussetzungen Viertens weisen Klieme et al. (2006) drei Basisdimensionen der Unterrichtsqualität aus: a) kognitive Aktivierung; b) Klassenführung, Regelklarheit, Struktur; c) unterstützendes Unterrichtsklima. Diese drei Basisdimensionen fassen inhaltlich sehr ähnliche Aspekte zusammen, die auch in den anderen angeführten Modellen genannt werden. Der Aspekt der kognitiven Aktivierung umfasst die Bereitstellung anspruchsvoller Lehrgegenstände und Aufgabenstellungen sowie eine angemessene inhaltliche Strukturierung. Das Modell ermöglicht es, zwischen motivations- und leistungsfördernden Merkmalen zu unterscheiden. Ein motivations- und leistungsfördernder Unterricht erfüllt alle drei Basismerkmale. Und fünftens liegt im englischsprachigen Raum ein Rahmenmodell zur Erfassung der Unterrichtsqualität anhand von Schülereinschätzungen vor, das aus einem der größten Forschungsprojekte in den USA, dem MET-Projekt („Measures of Effective Teaching“), stammt (Ferguson & Danielson, 2014; Gates Foundation, 2012, 2013). Es werden sieben Prinzipien postuliert, die zur reliablen und validen Vorhersage von Unterrichtserfolg durch Feedback von Lernenden herangezogen werden können. Das zugehörige Instrument ist der Tripod-Fragebogen. Da die enthaltenen Prinzipien im Englischen jeweils mit dem Buchstaben C beginnen, wird pointiert von den 7 Cs gesprochen: a) Challenge (Leistungserwartung, Förderung der Anstrengungsbereitschaft, der Ausdauer und Persistenz); b) Control (Effiziente Klassenführung, aktive Zeitnutzung, Einhaltung von Regeln; c) Care (emotionale Zuwendung und Unterstützung, Ermutigung); d) Confer (Fördern und Gewähren von Schülerurteilen, Annahme von Schülerfeedback); e) Captivate (Faszination für das Fach entwickeln und aufrechterhalten); f ) Clarify (Klarheit, Transparenz, vielfältige Erklärungen und Zugänge); g) Consolidate (Festigung, Sicherung, Zusammenfassung, Rückmeldung). Diese sieben Kategorien lassen sich nach Ferguson, Phillips, Rowley und Friedlander (2015) theoretisch in drei übergeordnete Kategorien gruppieren: persönliche (care, confer), curriculare (captivate, clarify, consolidate) und akademische (challenge, control) Unterstützung. Diese weisen wiederum große inhaltliche Nähe zu Kliemes et al. (2006) drei Basisdimensionen auf. Eine Analyse der zugrunde liegenden Struktur des Tripod-Fragebogens an einer Stichprobe von 25.423 Lernenden legt nahe, dass sieben Gruppenfaktoren und ein Bifaktor die Tripod- Items statistisch am besten abbilden (Wallace, Kelcey & Ruzek, 2016). Forschungsstand zur Reliabilität, Validität, Wahrnehmungstendenzen und Generalisierbarkeit des Feedbacks von Lernenden Die bisherigen Ausführungen zur Unterrichtsqualität beziehen sich auf den Aspekt der Konstruktvalidität. Verwendet man Feedback durch 142 Benedikt Wisniewski, Klaus Zierer Lernende als Einschätzung einer Gruppe von Personen, um dieses Konstrukt zu erfassen, stellt sich zwangsläufig die Frage, inwieweit Lernende überhaupt dazu in der Lage sind, diese Merkmale reliabel und valide einzuschätzen, ab welchem Alter sie dies können, welche Kontextfaktoren eine Rolle spielen und inwiefern Ergebnisse generalisierbar sind. Studienergebnisse zu diesen Fragen stammen zum Teil aus dem Bereich der higher education. Diese sind zwar nicht ohne Einschränkungen auf den Sekundarschulbereich übertragbar, können aber zumindest als Anhaltspunkt dienen. Reliabilität Im schulischen Kontext korrelieren Rückmeldungen von Schülerinnen und Schülern von einem Schuljahr zum nächsten hoch (r > .80). Auch Zusammenhänge zwischen mehreren Rückmeldungen zur selben Lehrperson bzw. zum selben Kurs sind mit r = .70 bis r = .87 hoch (Kyriakides et al., 2014). Marsh (2007) stellt in Bezug auf Feedback von Universitätsstudierenden fest, dass dieses reliabel, stabil und relativ unabhängig von verschiedenen häufig vermuteten Bias-Effekten ist. Carle (2009) zeigt, dass Feedback von Studierenden an deren Professorinnen und Professoren relativ stabil über den zeitlichen Kontext ist. Die Test-Retest-Reliabilität von Studierendenrückmeldungen ist sogar dann hoch, wenn ausgedehnte Zeiträume zwischen den Testzeitpunkten liegen, und Interrater-Reliabilitäten einer Studierendengruppe fallen hoch aus, wenn die Gruppe aus mehr als zehn Studierenden besteht (Richardson, 2005). Zudem bestehen hohe Übereinstimmungen zwischen den Rückmeldungen zu verschiedenen Kursangeboten ein und derselben Lehrperson, aber geringe bis keine Überstimmungen zwischen Rückmeldungen, die das gleiche Kursangebot bei verschiedenen Lehrpersonen wahrnehmen. Dies deutet darauf hin, dass das Feedback der Studierenden vom Verhalten der Lehrperson und nicht vom Kursangebot (z. B. Fach, Inhalte) abhängt (ebd.). Validität Es ist zu bestimmen, wie das Zielkonstrukt der allgemeinen Unterrichtsqualität durch geeignete Items zu erfassen ist. Beeinträchtigungen der Validität können sich aus einer ungeeigneten Definition des Konstruktes und bzw. oder aus ungeeigneten Instrumenten zur Erfassung des Konstruktes ergeben (Konstrukt- und Inhaltsvalidität). Die an Schulen eingesetzten Fragebögen zur Erhebung von Feedback durch Lernende unterscheiden sich erheblich voneinander, was ihre theoretische Fundierung und ihr zugrunde liegendes Modell von Unterrichtsqualität betrifft (Onwuegbuzie, Daniel & Collins, 2009). Auch werden immer noch zahlreiche Instrumente entwickelt, denen keine fundierte Theorie der Unterrichtsqualität zugrunde liegt (Ory & Ryan, 2001). Schließlich gibt es das Konstrukt Unterrichtsqualität betreffend zwischen verschiedenen Forschenden zwar Überschneidungen, aber eben keinen umfassenden Konsens. Zur Sicherung der Konstruktvalidität bei der Messung von Unterrichtsqualität werden in der Regel Expertengremien herangezogen, wobei deren subjektive Annahmen in die Konstruktdefinition miteinfließen (Kember & Leung, 2008). Wenn die eindeutige Definition eines Konstruktes nicht möglich ist, ist es ebenfalls unmöglich zu entscheiden, ob ein Item-Pool das zu messende Konstrukt im Sinn der Inhaltsvalidität hinreichend abbildet oder ob ausgewählte Fragestellungen eine repräsentative Stichprobe von Items darstellen (Diekmann, 2007). Aus den genannten Gründen sind neben Expertengremien statistische Verfahren nötig, um zu prüfen, ob Annahmen über ein theoretisches Konstrukt sich auch anhand empirischer Daten abbilden lassen und die Items geeignet sind, dieses Konstrukt abzubilden. Der Zusammenhang von Feedback durch Lernende und praktisch bedeutsamen Außenkriterien (Kriteriumsvalidität) sowie sein prädiktiver Wert können dadurch festgestellt werden, dass die subjektiven Einschätzungen der Lernenden mit einem objektiv messbaren Kriterium des Lernerfolgs korrelieren, das von lehrerunabhängigen Einflussfaktoren bereinigt wurde. Im an- Entwicklung eines Online-Fragebogens 143 gloamerikanischen Raum existieren zu diesem Zweck value-added Scores. Verschiedene Reviews deuten mit Werten zwischen r = .10 und r = .47 auf einen moderaten positiven Zusammenhang zwischen Feedback durch Lernende für eine bestimmte Lehrperson und dem durch diese Lehrperson bedingten tatsächlichen Lernerfolg hin (Onwuegbuzie et al., 2009). Wilkerson, Manatt, Rogers und Maughan (2000) stellen hohe Zusammenhänge zwischen Feedback durch Lernende und tatsächlichem Lernerfolg von r = .67 für Mathematik und r = .75 für den Bereich Lesen fest. Das Feedback wurde mithilfe eines Fragebogens mit 20 likertskalierten Items zu Unterrichtsmerkmalen erhoben. Die Rückmeldungen wurden dann mit kriterienbezogenen Schulleistungstests verglichen. Hohe bis sehr hohe Zusammenhänge bestehen außerdem zwischen dem von Lernenden selbst wahrgenommenen Kompetenzzuwachs und der Einschätzung des Lehrerverhaltens (Braun & Leidner, 2009). Als weiteres Validitätskriterium kann die Übereinstimmung der Einschätzung von Unterrichtsqualitätsmerkmalen Lernender mit der Einschätzung von Lehrpersonen herangezogen werden. Fauth, Decristan, Rieser, Klieme und Büttner (2014) untersuchten für den Grundschulkontext den Zusammenhang zwischen Lernendeneinschätzungen von Basisdimensionen der Unterrichtsqualität nach Klieme et al. (2006) mit den Selbsteinschätzungen der Lehrpersonen sowie mit Einschätzungen externer Beobachterinnen und Beobachter. Es zeigten sich substanzielle Zusammenhänge für alle drei Perspektiven bezüglich des Merkmals strukturierte Klassenführung, jedoch keine Zusammenhänge für den Bereich kognitive Aktivierung. Für den Bereich unterstützendes Klima konnten lediglich zwischen Lernenden und Lehrpersonen signifikante Zusammenhänge festgestellt werden. Wahrnehmungstendenzen Unter dem Aspekt der Wahrnehmungstendenzen sind diejenigen Variablen zu betrachten, die sich auf das Ergebnis von Rückmeldungen Lernender auswirken, jedoch nicht durch die Lehrperson beeinflusst werden können, z. B. Vorwissen, Interessenslage der Lernenden, Relevanz oder Attraktivität des Faches. Typische Bedenken zu Wahrnehmungstendenzen bezüglich der Rückmeldungen Lernender an ihre Lehrenden wurden bereits 1987 von Aleamoni für den Kontext der higher education untersucht. Zu nennen sind hierbei Annahmen über die Inkonsistenz der Einschätzungen von Lernenden aufgrund von Unreife und mangelnden didaktischen Verständnisses, die Wahrnehmung, dass Rückmeldungen mehr die Beliebtheit der Lehrenden als deren Unterrichtsqualität abbilden, und der angenommene hohe Zusammenhang zwischen erhaltenen Zensuren der Lernenden und deren Einschätzung des Unterrichts. Aleamoni (1987) konnte diese Annahmen weitgehend widerlegen und fand außerdem keinen signifikanten Einfluss von potenziell konfundierenden Variablen wie Klassengröße, Geschlecht der Lernenden, Geschlecht der Lehrenden oder Tageszeit, zu der die entsprechende Unterrichtsstunde stattfindet. In einem Review von Feldman (2007) wurden die bereits von Aleamoni (1987) untersuchten Beeinträchtigungen anhand neuerer Studien beleuchtet. Ein grading leniency effect (Tendenz von Lernenden, ein besseres Feedback zum Unterricht zu geben, wenn man selbst gute Zensuren erhält) konnte zwar in manchen Studien nachgewiesen werden, die einzelnen Effektstärken sind aber gering und inkonsistent. Feedback durch Lernende hängt substanziell mit Merkmalen des Unterrichts und mit der Beziehung zur Lehrperson zusammen, während Fachnoten der Lernenden eine geringe Rolle spielen (Ditton & Arnoldt, 2004). Auch für den Bereich der Primar- und Sekundarstufe liegen Ergebnisse zu Wahrnehmungstendenzen vor. Fauth et al. (2015) überprüften für Lernende der Primarstufe Zusammenhänge zwischen den drei Basisdimensionen von Unterrichtsqualität nach Klieme et al. (2006) und der Popularität der Lehrpersonen. Für die Faktoren Klassenführung und kognitive Aktivierung fallen diese niedrig aus, ein substanzieller Zusammenhang besteht jedoch zum Faktor unterstützendes Klima. Lernende der Sekundarstufe 144 Benedikt Wisniewski, Klaus Zierer sind in der Lage, zwischen effektivem und ineffektivem Unterricht zu unterscheiden, und Wahrnehmungstendenzen lassen sich für diese Gruppe in ähnlich niedrigem Maße nachweisen wie für Studierende (Worrell & Kuterbach, 2016). Generalisierbarkeit Die Frage der Generalisierbarkeit bezieht sich darauf, inwieweit Rückmeldungen Lernender zu Merkmalen der allgemeinen Unterrichtsqualität über unterschiedliche Kontexte (z. B. Fächer oder unterschiedliche Schulklassen) hinweg verallgemeinert werden können. Relevant ist die Generalisierbarkeit dann, wenn verschiedene Kontexte bezüglich der Ausprägung der erfassten Merkmale verglichen werden sollen. Für die Reflexion des eigenen Unterrichts durch eine Lehrperson anhand von Lernendenfeedback ist die Generalisierbarkeit zunächst von untergeordneter Bedeutung. Im Sinne des Angebots-Nutzungs-Modells (Helmke, 2017) wirken sich die jeweiligen Lernpotenziale der Lernenden (Motivation, Vorkenntnisse, Anstrengungsbereitschaft, Lern- und Gedächtnisstrategien) auf die Wahrnehmung von Merkmalen der Unterrichtsqualität aus. Diese Wirkung kann in unterschiedlichen Kontexten unterschiedlich stark sein. Merkmale der Unterrichtsqualität, die durch einen hohen Schülerbezug (d. h. Schüler als Bestandteil eines gelingenden Unterrichts) gekennzeichnet sind (d. h. Motivierung, Schülerorientierung und Verständlichkeit), sind demnach nur bedingt für die Vergleiche über verschiedene Kontexte hinweg geeignet (Göllner et al., 2016; Wagner et al., 2016). Feldman (2007) weist Einschränkungen der Generalisierbarkeit von Lernendenfeedback in dem Sinn nach, dass dieses abhängig vom jeweiligen Unterrichtsfach unterschiedlich ausfällt. So wird die Qualität von Unterricht in geisteswissenschaftlichen Fächern tendenziell günstiger eingeschätzt als die des Unterrichts in Mathematik, naturwissenschaftlichen und sozialwissenschaftlichen Fächern. Auch hier fallen die Effekte aber klein aus und der Autor relativiert diese dadurch, dass fächerbedingte Unterschiede der Schülereinschätzungen nicht zwangsläufig durch Urteilsverzerrungen zustande kommen müssen, sondern auch Folge tatsächlicher Unterschiede im fächerspezifischen Lehrverhalten sein können. Ziel Die Intention der vorliegenden Studie ist die Entwicklung eines deutschsprachigen Online- Fragebogens, der von Lehrpersonen für Feedback durch Lernende in der Sekundarstufe verwendet werden kann und objektiv, reliabel und valide diejenigen Dimensionen von Unterricht aus Schülersicht erfasst, die gesichert zu dessen Lernwirksamkeit beitragen. Zweck des Fragebogens ist die Erhebung von Feedback, das Lehrpersonen zur Reflexion und Entwicklung des eigenen Unterrichts dient, nicht zu ihrer Bewertung oder Beurteilung. Feedback wird als formatives Assessment im Sinne von Black und Williams (1998) verstanden, also als Form von Rückmeldung, welche Unterstützung während des Unterrichts bietet, sodass Lehrpersonen ihren Unterricht anpassen können, um die Erreichung der geplanten Unterrichtsergebnisse zu verbessern. Basis des Feedbacks der Lernenden ist deren Wahrnehmung von Merkmalen der generischen Unterrichtsqualität. Die Items sollen sich jeweils auf eine bestimmte Unterrichtsstunde beziehen und das Feedback wird direkt nach Stundenende über mobile Endgeräte abgegeben. Wie jedes Instrument, das dem Einholen von Feedback durch Lernende dienen soll, ist der Fragebogen im Hinblick auf seine psychometrischen Eigenschaften zu überprüfen (Richardson, 2005; Spooren et al., 2013). Das neue Instrumentarium soll als Online-Fragebogen Lehrpersonen die Entwicklung ihres Unterrichts erleichtern, indem eine manuelle Auswertung von Rückmeldungen unnötig wird. Es liegen bisher keine Studien vor, die Feedback durch Lernende untersuchen, welches mithilfe von mobilen Endgeräten direkt am Ende einer Unterrichtsstunde abgegeben wurde. Entwicklung eines Online-Fragebogens 145 Methode Stichproben Insgesamt lagen Rückmeldungen von 1049 Lernenden vor, die aus zwei Stichproben (n = 549 und n = 500) stammten. Diese setzten sich jeweils aus Lernenden aus dem Sekundarschulbereich (Gymnasien und Realschulen) in ganz Deutschland zusammen und die Zuordnung zu den beiden Stichproben erfolgte nach dem Zeitpunkt der Erhebung. Die Lehrkräfte der teilnehmenden Schulen haben einer Auswertung ihrer Feedback-Daten in anonymisierter Form zugestimmt. Von den Schülerinnen und Schülern wurden keine personenbezogenen Daten erhoben. Die Datenschutzbestimmungen, die bei der Untersuchung eingehalten werden mussten, beinhalteten auch die Vorgabe, dass die Zuordnung eines Datensatzes zu einer konkreten Schülerin oder einem konkreten Schüler ausgeschlossen sein musste. Dies brachte aber den Nachteil mit sich, dass Personenmerkmale wie Alter, Geschlecht oder besuchte Schulart bei der Analyse der Daten nicht berücksichtigt werden konnten. Auch wenn diese Daten für bestimmte Fragestellungen durchaus Relevanz besitzen (Lavin, Korte & Davies, 2012), sind sie für die Fragestellung dieser Studie aus drei Gründen von untergeordneter Bedeutung: Erstens beeinflussen Alter und Geschlecht die Einschätzung von Dimensionen lernwirksamen Unterrichts nicht signifikant (Ogunkola & Akinsola, 2013), zweitens ist aufgrund der Stichprobengröße beim Geschlecht und beim Alter von einer diskreten Gleichverteilung auszugehen und drittens geht es nicht um eine Testnormierung, bei der Kennwerte für bestimmte Versuchspersonengruppen relevant sind, sondern um die statistische Prüfung von personenunabhängigen Interkorrelationen. Auch die jeweiligen Fächer, auf die sich das Feedback durch Lernende bezieht, konnten aus oben genanntem Grund nicht erhoben werden. Es wurden alle Fächer berücksichtigt, die an den teilnehmenden Realschulen und Gymnasien unterrichtet werden, wobei die Fächer Musik, Kunsterziehung und Sport, für die vornehmlich nicht-kognitive Lernziele angenommen werden (Bauer, 2011) von vorneherein ausgeschlossen wurden. Für die Studie ist dies aber zunächst von untergeordneter Bedeutung, da Merkmale der allgemeinen Unterrichtsqualität (im Gegensatz zu fachspezifischen Aspekten) abgefragt wurden. Design Um ein Instrument zur Verfügung stellen zu können, welches zum einen den testtheoretischen Anforderungen und zum anderen den Bedürfnissen von Schulpraktikern genügt, wurde der Fragebogen mehreren Entwicklungsschritten unterzogen. Im Folgenden werden die einzelnen Schritte der Fragebogenentwicklung erläutert: Literaturrecherche und Itemkonstruktion Zur Generierung von Items wurde eine systematische Literaturrecherche in einschlägigen Online-Datenbanken (PSYNDEX, PsycINFO, PsycARTICLES) durchgeführt, um Studien zu finden, welche Aussagen über Prädiktoren lernwirksamen Unterrichts treffen. Es wurde nach empirischen Artikeln zu den Schlüsselbegriffen effective teaching, instructional quality, student achievement, Unterrichtsqualität, lernwirksam, sowie nach Schlüsselwörtern aus gängigen Modellen zur Unterrichtsqualität gesucht. Aus 21 Metaanalysen und über 200 Einzelstudien, die empirische Ergebnisse zur allgemeinen Unterrichtsqualität enthielten, wurden diejenigen ausgewählt, die nicht älter als 15 Jahre sind und sich auf Aspekte beziehen, die primär vom Verhalten der Lehrperson abhängen. Auf der Basis dieser Studien und Metaanalysen wurden Items generiert, welche sich auf Merkmale lernwirksamen Unterrichts beziehen. Zu diesem frühen Zeitpunkt des Entwicklungsprozesses wurde der Fokus auf die jeweiligen Iteminhalte gelegt, nicht auf die Zusammenhänge der Items untereinander. Es lagen dem Entwicklungsprozess zu diesem Zeitpunkt noch keine gesicherten Modellannahmen zugrunde. Vielmehr wurde jedes Item zunächst anhand pragmatischer Erwägungen einer der acht folgenden Kategorien Berücksichtigung von Vorkenntnissen (VK), Klarheit und Strukturierung (KS), Klassenführung (KF), Lernklima (LK), Motivierung (MO), Nutzung von Lernzeit (LZ), Schüleraktivierung (SA) und Sicherung des Lernerfolgs (SI) zugewiesen. Diese Kategorien orientierten sich zum Teil an den Modellen von Slavin (1994), Helmke (2017) und Klieme et al. (2006) 1 , jedoch stand im Vordergrund, die generierten Items inhaltlich passenden Kategorien zuordnen zu können. 1 Dabei orientierten sich VK an Slavins (1994) Faktor Angemessenheit, KS an Helmkes (2017) Faktor Strukturiertheit, Klarheit, Verständlichkeit, KF am Faktor Klassenführung bei Helmke (1997) und Klieme et al. (2006), LK an Kliemes et al. (2006) Faktor unterstützendes Unterrichtsklima, MO und LZ an Slavins (1994) Faktoren Motivierung und Zeitnutzung, SA and Kliemes et al. (2006) Faktor kognitive Aktivierung und SI an Helmkes (2017) Faktor Konsolidierung. 146 Benedikt Wisniewski, Klaus Zierer Items wurden als Aussagen so formuliert, dass sie eine vierstufig likertskalierte Beantwortung (trifft nicht zu, trifft eher nicht zu, trifft eher zu und trifft zu) zulassen und dass die Ausprägung trifft zu jeweils die erwünschte Antwortalternative darstellt. Expertengremium und Befragung Eine erste Fragebogen-Rohform, bestehend aus 52 Items, wurde zunächst durch eine Gruppe von fünf Wissenschaftlerinnen und Wissenschaftlern des Lehrstuhls für Schulpädagogik an der Universität Augsburg begutachtet und dann durch drei Seminarlehrkräfte (einmal mit 2-jähriger, einmal mit 5-jähriger und einmal mit über 10-jähriger Berufserfahrung) und zwei Schulleitungen (mit jeweils mehr als 10-jähriger Berufserfahrung) daraufhin geprüft, ob die enthaltenen Items zum einen relevant für das Konstrukt Unterrichtsqualität und zum anderen eindeutig formuliert sind. Aus der ersten Rohform wurden für 12 Items durch die Praxisexperten Modifikationen vorgeschlagen, die sich zum Teil auf Formulierungen, zum Teil auf Iteminhalte bezogen - 9 dieser Modifikationen konnten in Einklang mit der Forschungsliteratur übernommen werden. Sechs Items wurden aufgrund der Einschätzung der Praxisexperten geringer unterrichtspraktischer Relevanz ausgeschlossen, ein Item wurde aufgrund einer Doppelaussage auf zwei Items aufgeteilt. Anhand der verwendeten Literatur und der Praxisexperteneinschätzungen konnten so 47 Items formuliert werden. Zwei dieser Items wurden aufgrund inhaltlicher Redundanz wieder aus dem Item-Pool entfernt. Die zweite Rohform des Fragebogens umfasste somit 45 Items. Diese 45 Items wurden fünf Schulklassen der Jahrgangsstufen 5 (Gymnasium), 6 (Gymnasium), 7 (einmal Realschule, einmal Gymnasium) und 10 (Realschule) vorgelegt, die diese auf Verständlichkeit prüften. Auf Grundlage der Rückmeldungen der Schülerinnen und Schüler wurden bei insgesamt 6 Items Veränderungen von einzelnen Worten u. bei 3 Items Satzstrukturen geändert. Der Fragebogen wurde von Stichprobe 1 und Stichprobe 2 per Smartphone-App oder Webfragebogen beantwortet. Datenanalyse und Ergebnisse Anhand des vorliegenden Datensatzes erfolgte die Datenanalyse. Hierbei wurde die Software R-Studio, Version 1.0.136 mit den Paketen „lavaan“ und „lavaan.survey“ verwendet. Reliabilitätsanalyse Die 45 Items wurden mithilfe einer Reliabilitätsanalyse geprüft. Mithilfe der an der Stichprobe 1 erhobenen Daten sollten weniger gut geeignete Items identifiziert und entfernt werden. Hierzu wurden die Maße des Zustimmungsindex und der Trennschärfe herangezogen. Die Trennschärfe der einzelnen Items wurde einmal in Bezug auf den gesamten Item-Pool und einmal innerhalb der Kategorien über corrected-item-total-correlation bestimmt. Items mit einer niedrigen Trennschärfe (r itc < .30) wären ausgeschlossen worden. Dies war aber für kein Item der Fall. Explorative Faktorenanalyse Eine konfirmatorische Faktorenanalyse anhand der acht generierten Kategorien lieferte einen ungenügenden Modellfit (CFI: .856; TLI: .844; RMSA: .054; SRMR: .063). Das Achtkategorienmodell ist nicht geeignet, die anhand der Stichprobe erhobenen Daten adäquat abzubilden. Um ein besseres Modell zu gewinnen, wurde daher eine explorative Faktorenanalyse (Hauptkomponentenanalyse) zur Identifizierung einer alternativen Faktorenstruktur durchgeführt. Im Anschluss wurden die Items mit den höchsten Faktorenladungen selektiert. Zur Prüfung der Eignung der Interkorrelationsmatrix für die Durchführung einer Faktorenanalyse wurde das Kaiser-Meyer-Olkin- Kriterium (Kaiser & Rice, 1974) herangezogen. Mit einem Wert von .93 ist die Eignung der Daten als sehr gut zu bewerten. Die Stichprobengröße beeinflusst ebenfalls das Ergebnis. Ein Verhältnis der Itemanzahl zur Stichprobengröße von 1 : 3 bis 1 : 10 kann als grobe Regel genannt werden, jedoch ist die Eignung dieser Regel nicht hinreichend erwiesen (Bryant & Yarnold, 1995). Als Kriterium für die Bestimmung der Faktorenzahl für die explorative Faktorenanalyse wurde eine Parallelanalyse (Horn, 1965; Moosbrugger & Schermelleh-Engel, 2012) verwen- Entwicklung eines Online-Fragebogens 147 det. Bei dieser werden die Eigenwerte, die durch die Faktorenanalyse empirisch gewonnenen werden, mit denen einer Faktorenanalyse eines Datensatzes mit normalverteilten Zufallsdaten verglichen. Es werden so viele Faktoren beibehalten, wie es Eigenwerte gibt, die größer als die Eigenwerte des Zufallsdatensatzes sind. Die beibehaltenen Faktoren sollen mindestens so viel Varianz aufklären, wie die Analyse der Zufallsdaten ergibt. Der Vergleich des Eigenwertverlaufes der empirischen Daten mit demjenigen der Zufallsdaten ist im Scree-Plot in Abbildung 1 dargestellt. Es werden die sieben Faktoren beibehalten, deren Eigenwerte in der Grafik über den Zufallseigenwerten liegen. In einem nächsten Schritt wurde die Interpretation der Daten durch eine Rotation der Faktoren erleichtert. Hierfür wurde das Promax-Verfahren verwendet, welches durch eine oblique Faktorenrotation darauf zielt, die Faktorenladungen zu maximieren und die Anzahl der Faktoren zu minimieren, wobei die Faktoren korreliert sein dürfen. Die rotierte Lösung ist in Tabelle 1 dargestellt. 15 10 5 0 0 10 20 30 40 Nummer der Hauptkomponente Eigenwert Empirischer Datensatz Datensatz mit normalverteilten Zufallsdaten Abb. 1: Scree-Plot der Parallel-Analyse nach Horn (1965) zur Ermittlung der Faktorenzahl. Faktor Summe der Quadrate der Faktorenladungen % der Varianz kumuliert % 1 2 3 4 5 6 7 6.37 5.20 4.44 3.62 3.30 3.07 2.74 14,2 % 11,6 % 9,9 % 8,0 % 7,3 % 6,8 % 6,1 % 14,2 % 25,7 % 35,6 % 43,6 % 50,9 % 57,8 % 63,8 % Tab. 1: Eigenwerte nach der Rotation und Varianzaufklärung durch die extrahierten Faktoren 148 Benedikt Wisniewski, Klaus Zierer Auf der Basis der rotierten Lösung wurden die Faktorladungen auf ihre Bedeutsamkeit geprüft, also ab welcher Höhe die Faktorladungen einzelner Items eine sinnvolle Zuordnung des Items zu einem Faktor ermöglichen. Als Selektionskriterium diente hierbei eine Ladung von mindestens .50 als Cut-Off-Wert (Costello & Osborne, 2005). Zudem wurde darauf geachtet, dass Items nicht mit mehr als .32 auf mehr als einem Faktor laden (ebd.). Anhand dieser Kriterien erfolgte eine Selektion der besten Items. Es wurden 29 Items selektiert. Konfirmatorische Faktorenanalyse Die konfirmatorische Faktorenanalyse zielte darauf, die Homogenität der Items innerhalb des neu gebildeten Modells der sieben Faktoren zu prüfen. Hierfür wurde die selektierte Version 2 des Fragebogens von Stichprobe 2 per Smartphone-App oder Webfragebogen beantwortet, um zu prüfen, ob sich die anhand Stichprobe 1 identifizierte Faktorenstruktur auch an Daten einer anderen, unabhängigen Personengruppe abbilden lässt. Generell sollte der aus dem Modelltest resultierende χ 2 -Wert möglichst klein sein. Für einen guten Modellfit spricht ein χ 2 -Wert ≤ 3df (Hu & Bentler, 1999). Da der χ 2 -Wert nicht nur bei mangelndem Modellfit, sondern auch in Abhängigkeit vom Stichprobenumfang größer wird, wurden zur Prüfung des Modellfits deskriptive Gütemaße berücksichtigt: Mit einem akzeptablen Comparative Fit Index (CFI) von .937 und einem akzeptablen Tucker-Lewis Index (TLI) von .928 ist davon auszugehen, dass das untersuchte Modell besser ist als die Annahme, dass alle Variablen nicht miteinander korreliert sind. Auch der Standardized Root Mean Square Residual (SRMR) von .049 ist gut und spricht dafür, dass das gewählte Modell eine sinnvolle Reduktion der Daten ermöglicht. Der Root Mean Square Error of Approximation (RMSEA) von .048 ist akzeptabel. Der Modellfit wurde mit einem Einfaktormodell und mehreren plausiblen Alternativmodellen verglichen, einer Einfaktorlösung, einem 3-Faktoren-Modell 2 und einem 7-Faktoren- Modell mit zusätzlichen drei Faktoren höherer Ordnung 3 . Sowohl das Einfaktormodell, das 3-Faktoren-Modell (kognitive Aktivierung / Klassenführung, Regelklarheit, Struktur/ unterstützendes Unterrichtsklima) bilden die empirischen Daten wesentlich schlechter ab als das 7-Faktoren-Modell (s. Tab. 2) Eine Verschlechterung des CFI um weniger als .02 und ein Anstieg des RMSEA um weniger als .015 würde darauf hindeuten, dass zwei verglichene Modelle die Datenstruktur gleichermaßen gut abbilden (Chen, 2007). Dies war für die Alternativmodelle nicht der Fall, mit der Ausnahme des 7-Faktoren-Modelles mit drei Faktoren höherer Ordnung. Letzteres erklärt die Daten annähernd genauso gut wie das einfache 7-Faktoren-Modell. Zusätzlich wurde auch noch ein Bifaktormodell (mit sieben Gruppenfaktoren und einem Bifaktor) geprüft, das auch bei einer hohen Zahl von Iterationen nicht konvergierte und deshalb in Tabelle 2 nicht berichtet wird. Zusätzlich zum Vergleich von CFI und RMSEA wurde schließlich für alle Alternativmodelle ein χ 2 - Modellvergleich gerechnet, dessen Ergebnis für alle Vergleiche mit Ausnahme des 7-Faktoren- Modells mit drei übergeordneten Faktoren signifikant war. In Tabelle 3 werden die Parameterschätzungen der selektierten Items auf die sieben Faktoren berichtet. Da eine hierarchische Datenstruktur vorliegt (Schüler aus verschiedenen Klassen), wurden die Standardfehler der Schätzung korrigiert, indem Schülerinnen und Schüler einer Klasse geclustert und anhand der Cluster eine gewichtete Kovarianzmatrix gebildet wurde (Muthen & Satorra, 1995). Die Schätzungen der 2 Zusammenfassung der Items 6, 14 - 17 und 18 - 23 zu einem Faktor Klassenführung, Regelklarheit, Struktur, Items 4 - 5 und 7 - 9 und 24 - 29 zu einem Faktor kognitive Aktivierung und 1 - 3 und 10 - 13 zu einem Faktor unterstützendes Unterrichtsklima. 3 Zusammenfassung der Faktoren care und confer zum Faktor höherer Ordnung persönliche Unterstützung, captivate, clarify und consolidate zu curriculare Unterstützung sowie challenge und control zu akademische Unterstützung. Entwicklung eines Online-Fragebogens 149 Modell χ² df χ²/ df CFI TLI RMSEA SRMR ΔCFI ΔRMSEA 7 Faktoren 1 Faktor 3 Faktoren 7 Faktoren und 3 Faktoren höherer Ordnung 8 Faktoren 948.86 5599.80 3375.53 957.13 1525.90 356 377 374 367 349 2.67 14.85 9.03 2.61 4.37 .937 .363 .635 .928 .857 .928 .314 .603 .920 .833 .048 .165 .126 .056 .081 .049 .147 .137 .054 .070 -.574 -.302 -.009 -.080 .117 .078 .008 .033 Tab. 2: Vergleich der Fit-Statistiken zwischen dem erwarteten 7-Faktoren-Modell und alternativen Modellen Anmerkungen: Modellvergleich Δ erfolgte mit dem 7-Faktoren-Modell, CFI (Comparative Fit Index); TLI (Tucker-Lewis Index); RMSEA (Root-Mean-Square Error of Approximation); SRMR (Standardized Root Mean Square Residual). Faktor Item Nr. Itemformulierung Standardisierte Schätzung der Ladung SE z p (> |z|) Care 1 Die Lehrperson begegnete mir freundlich und wertschätzend. 0.90 0.04 20.30 < .001 2 Die Lehrperson sorgte für eine angstfreie Atmosphäre. 0.88 0.05 17.50 < .001 3 Die Lehrperson hat sich dafür interessiert, ob ich wirklich etwas gelernt habe. 0.84 0.04 21.71 < .001 Challenge 4 Die Aufgabenstellungen in der Stunde waren für mich herausfordernd. 0.94 0.15 6.36 < .001 5 Die Lehrperson hat hohe Erwartungen an mich gestellt. 0.52 0.10 5.34 < .001 Clarify 6 Die Stunde hatte einen klar erkennbaren roten Faden. 0.74 0.04 19.41 7 Die Lehrperson hat an Inhalte angeknüpft, die mir schon bekannt waren. 0.81 0.04 18.53 < .001 8 Die Lehrperson hat mir gezeigt, womit die neuen Inhalte zusammenhängen. 0.79 0.03 23.80 < .001 9 Die Lehrperson hat mir gezeigt, wofür ich die neuen Inhalte brauchen kann. 0.81 0.02 36.18 < .001 Confer 10 Die Lehrperson beurteilte meine Leistungen fair. 0.65 0.04 18.35 11 Die Lehrperson gab mir zu meinen Leistungen ein hilfreiches Feedback. 0.89 0.02 44.24 < .001 12 Die Lehrperson hat sich mir und meinen Mitschülern gegenüber fair und unvoreingenommen gezeigt. 0.91 0.02 50.99 < .001 13 Die Lehrperson hat mir sinnvolle Rückmeldungen zu meinen Beiträgen gegeben. 0.74 0.03 22.72 < .001 Tab. 3: Parameterschätzungen der konfirmatorischen Faktorenanalyse (Standardisierte Lösung) u 150 Benedikt Wisniewski, Klaus Zierer Faktor Item Nr. Itemformulierung Standardisierte Schätzung der Ladung SE z p (> |z|) Consolidate 14 Ich hatte genügend Zeit, mich intensiv mit den Inhalten der Stunde zu beschäftigen. 0.68 0.04 15.80 < .001 15 In der Stunde wechselten sich Lern- und Übungsphasen ab. 0.71 0.03 20.90 < .001 16 In der Stunde gab es ausreichend Gelegenheiten, die neuen Inhalte zu üben. 0.76 0.03 26.52 < .001 17 Die Lehrperson hat mir genau gezeigt, wie ich eine bestimmte Aufgabenstellung lösen kann. 0.74 0.04 19.19 < .001 Control 18 Die Lehrperson verschwendete keine Zeit durch Verzögerungen oder Leerlauf. 0.84 0.04 19.81 < .001 19 Die Lehrperson hat für eine störungsfreie Arbeitsatmosphäre gesorgt. 0.86 0.04 20.43 < .001 20 Die Lehrperson hatte einen guten Überblick über das Geschehen in der Klasse. 0.90 0.03 32.69 < .001 21 In der Stunde waren klare Regeln erkennbar, die die Lehrperson vorgab und durchsetzte. 0.86 0.03 27.09 < .001 22 Bei Regelübertretungen durch Schüler griff die Lehrperson schnell und konsequent ein. 0.83 0.04 20.12 < .001 23 Der Unterrichtsverlauf war reibungslos. 0.87 0.04 23.54 < .001 Captivate 24 Die Inhalte der Stunde wurden durch die Lehrperson auf interessante Art vermittelt. 0.67 0.04 16.16 < .001 25 Ich konnte während der Stunde einen persönlichen Lernfortschritt feststellen. 0.71 0.03 22.35 < .001 26 Der Ablauf der Stunde war abwechslungsreich. 0.62 0.04 15.99 < .001 27 Das Anforderungsniveau der Stunde war für mich angemessen. 0.54 0.04 13.70 < .001 28 Das Lerntempo in der Stunde war für mich angemessen. 0.47 0.05 9.92 < .001 29 Im Unterricht konnte ich Strategien anwenden, die auch für andere Probleme/ Themen/ Gebiete nützlich sind. 0.53 0.04 12.67 < .001 u Entwicklung eines Online-Fragebogens 151 Ladungen unterscheiden sich ausnahmslos signifikant von Null und sind durchweg hoch bis sehr hoch. Die Interkorrelationen der Faktoren bewegen sich in einem Bereich zwischen .06 und .66. Daher liegt keine Multikollinearität vor (Interkorrelationen > .85), welche bei konfirmatorischen Faktorenanalysen zu Schätzproblemen führen kann und für eine niedrige diskriminative Validität des Modells sprechen würde. Inhaltlich bilden die sieben Faktoren Merkmale der Fürsorge (Faktor 1), der Herausforderung (Faktor 2), der Klarheit (Faktor 3), der Rückmeldepraxis (Faktor 4), der Lernerfolgssicherung (Faktor 5), der Klassenführung (Faktor 6) und der motivierenden Gestaltung des Unterrichts (Faktor 7) ab. Diskussion Die Forschung zu Feedback Lernender an Lehrende ist im schulischen Bereich im Vergleich zum Kontext der higher education unterrepräsentiert, insbesondere was die faktorielle Struktur einzelner Instrumente betrifft (Marsh et al., 2019). Mit teaCh steht ein Instrument zur Verfügung, das sieben Dimensionen von Unterrichtsqualität aus Sicht von Lernenden objektiv, hinreichend reliabel und konstruktvalide messen kann. Als Online-Instrument wird teaCh den Anforderungen der Praxis einer ökonomischen Erhebung vom Feedback Lernender in besonderer Weise gerecht. Mittels Faktorenanalysen konnten in zwei Teiluntersuchungen sieben Subskalen identifiziert werden, welche Unterrichtsqualität aus Schülersicht abbilden. Der Fragebogen in der Selektionsform 2 stellt ein Instrument dar, das auf der Basis eines faktorenanalytisch gewonnenen Modells die Einschätzung von Merkmalen der allgemeinen Unterrichtsqualität aus Schülersicht ermöglicht. Da der Fragebogen als Online-Version vorliegt, die sowohl elektronisch ausgefüllt als auch ausgewertet wird, sind eine uneingeschränkte Durchführungs- und Auswertungsobjektivität sowie eine praktische Durchführbarkeit gegeben. Übereinstimmend mit der bisherigen Unterrichtsforschung (Brophy & Good, 1986; Ferguson & Danielson, 2014; Helmke, 2017; Klieme et al., 2006; Slavin, 1987, 1994) konnte gezeigt werden, dass Unterrichtsqualität als mehrdimensionales Konstrukt aufzufassen ist. Eine Einfaktorlösung ist nicht geeignet, die empirischen Daten adäquat abzubilden. Die Faktorenanalyse bestätigte aber nicht unsere a priori gewählte Einteilung der Items anhand von acht intuitiv gewählten Kategorien, sondern legte eine Siebenfaktorenstruktur offen. Damit stützt unsere Studie grundsätzlich das bereits empirisch abgesicherte Modell der 7 Cs. Inhaltlich weichen die von uns identifizierten sieben Faktoren jedoch zum Teil von den 7 Cs des MET-Projektes ab, wie sie mit dem Tripod-Fragebogen gemessen werden. Während sich die Kategorien control, challenge, care, consolidate inhaltlich sehr stark mit den 7 Cs des MET überschneiden, ergab unser Vorgehen für die Kategorien confer, clarify und captivate einen Item-Pool, der das jeweilige Konstrukt abweichend operationalisiert. Die Kategorie confer enthält in unserem Fragebogen Items, die sich auf Rückmeldungen von Lehrpersonen an die Lernenden richten, während die MET-Kategorie sich vor allem auf Schüler- Lehrer-Rückmeldungen bezieht. Auf dem Faktor clarify luden in unserem Item-Pool vor allem Items, die Vorwissens- und Verknüpfungsaspekte abdecken, die im Tripod-Fragebogen in dieser Kategorie nicht auftauchen. Schließlich enthält der motivationsfördernde Aspekt von Unterricht captivate in unserem Fragebogen zwei Items, die sich auf das Anforderungsniveau und Lerntempo von Unterricht beziehen. Der Zusammenhang zur Motivierung ist zwar theoretisch gegeben (insofern, dass sich Leistungsmotivation optimal entwickelt, wenn eine Passung von Anforderungen und individuellen Voraussetzungen der Lernenden vorliegen; z. B. Heckhausen, 1989), weicht aber ebenfalls von der Konstruktdefinition des Tripod-Fragebogens ab. Insgesamt erfasst unser Fragebogen Unterrichtsqualität aus Schülersicht auf der Basis eines Messmodells, das den 7 Cs aus dem MET-Projekt stark ähnelt, aber nicht identisch mit diesem ist. 152 Benedikt Wisniewski, Klaus Zierer Die konfirmatorische Faktorenanalyse weist einen akzeptablen bis guten Modellfit nach, der die Daten wesentlich besser erklären kann als ein Einfaktormodell, ein 3-Faktoren-Modell, ein 4-Faktoren-Modell oder das ursprünglich angenommene 8-Faktoren-Modell. Offensichtlich bildet dieses Modell Unterrichtsqualität aus Schülersicht bei Verwendung unserer Items am besten ab. Während die Items des Tripod-Fragebogens aus dem MET-Projekt am besten durch ein Bifaktor-Modell (mit sieben Gruppenfaktoren und einem Bifaktor) beschrieben werden können, bieten die sieben Faktoren für unseren Datensatz das beste Rahmenmodell. Ordnet man die sieben Faktoren drei Faktoren höherer Ordnung zu, wie dies von Ferguson et al. (2015) vorgeschlagen wird, führt dies nicht zu einer Verbesserung des Modellfits, aber auch zu keiner wesentlichen Verschlechterung. Die hohen bis sehr hohen Ladungen der Items auf die Faktoren sprechen ebenfalls für die Güte des Messmodells. Die Interkorrelationen der Faktoren zeigen insgesamt niedrige Zusammenhänge, was auf eine hinreichende inhaltliche Eigenständigkeit der sieben Subskalen hinweist. Die Relevanz unserer Studie ergibt sich zum einen daraus, dass sie erste Hinweise auf die Reliabilität und interne Validität des entwickelten Fragebogeninstruments liefert, welches Rückmeldungen durch Lernende zur allgemeinen Unterrichtsqualität ermöglicht. Da die Perspektive einer Lehrperson auf ihren Unterricht häufig nicht mit den Perspektiven der Lernenden übereinstimmt und jede Perspektive spezifische blinde Flecken aufweist (Clausen, 2002), bietet ein Fokus auf Perspektivenabweichungen zwischen Lehrperson und Lernenden eine Grundbedingung für gelingende Unterrichtsentwicklung (Helmke & Lenske, 2013). Perspektivisch kann der hier entwickelte Fragebogen genau für einen solchen Vergleich unterschiedlicher Blickwinkel herangezogen werden. Zum anderen wird durch unsere Studie die faktorielle Struktur der Rückmeldungen von Lernenden zum Unterricht weiter beleuchtet. Eine 7-Faktorenstruktur hat sich für die praktische Auswertung von Lernendenrückmeldungen bereits als sinnvolle Differenzierung erwiesen (Ferguson & Danielson, 2014), konnte für andere Instrumente bisher faktorenanalytisch aber noch nicht bestätigt werden (Wallace et al., 2016). Einschränkungen der Aussagekraft der vorliegenden Studie ergeben sich daraus, dass keine Mehrebenen-Modellierung stattfand, für welche der Datensatz nicht umfangreich genug war. Die Daten wurden ohne Berücksichtigung der Klassenebene analysiert. Schweig (2014) beschreibt, wie Faktorenanalysen, die eine Invarianz über mehrere Ebenen annehmen, zu Ergebnisverzerrungen führen können. Faktorenstrukturen können sich zwischen verschiedenen Ebenen teilweise erheblich unterscheiden. Ein wesentlicher nächster Schritt zur internen Validierung stellt daher die statistische Prüfung mithilfe eines Mehrebenen-Messmodells dar, mit dem die Faktorstruktur zur Erfassung von Unterrichtsqualität simultan sowohl auf der Ebene der individuellen Schülerinnen und Schüler als auch auf Ebene der Klasse abgebildet werden kann. Zudem kann eine Messinvarianzprüfung Aufschluss über die Generalisierbarkeit über verschiedene Kontexte (Schulart, Unterrichtsfach) liefern. Diese Aufgabe wird im Rahmen einer weiteren Studie angegangen, für die aber eine wesentlich größere Stichprobe nötig ist. Das beschriebene Vorgehen stellt zudem eine Validierungsstrategie dar, welche die inneren Zusammenhänge eines Fragebogeninstruments untersucht und nachweist, inwiefern empirisch erhobene Daten Modellannahmen über das gemessene Konstrukt belegen. Um Klarheit darüber zu gewinnen, inwiefern das Instrument auch in der Lage ist, externe Kriterien wie Motivierung oder Lernerfolg vorherzusagen, wäre eine zusätzliche Erfassung entsprechender Kriteriumsvariablen nötig. Dies war im Rahmen dieser Studie nicht möglich. Bei der Interpretation der Ergebnisse ist zu berücksichtigen, dass generische Aspekte von Unterrichtsqualität erfasst werden. Unterrichtsqualität umfasst neben diesen auch fachspezi- Entwicklung eines Online-Fragebogens 153 fische Aspekte (Lipowsky et al., 2018), weshalb es auch ein zukünftiges Forschungsanliegen sein sollte, Fragebögen zu entwickeln, die diese fachspezifischen Aspekte erfassen können. Zusammenfassend ist die vorliegende Studie als erster Schritt einer umfassenden Validierungsstrategie anzusehen, die sich mit einem Online-Fragebogen zu Feedback durch Lernende befasst. Sie liefert erste Hinweise auf eine Möglichkeit für Lehrende, zu Merkmalen der Unterrichtsqualität von Lernenden auf der Basis eines statistisch abgesicherten Modells Rückmeldungen zu erhalten. Dem bisherigen Vorgehen müssen weitere Datenerhebungen und -analysen folgen. Literatur Aleamoni, L. M. (1987). Typical faculty concerns about student evaluation of teaching. New Directions for Teaching and Learning, 31, 25 - 31. https: / / dx.doi.org/ 10.1002/ tl.37219873105 Bauer, K.-O. (2011). Modelle der Unterrichtsqualität. In K.-O. Bauer & N. Logemann (Hrsg.), Unterrichtsqualität und fachdidaktische Forschung. Modelle und Instrumente zur Messung fachspezifischer Lernbedingungen und Kompetenzen (S. 51 - 74). Münster: Waxmann. Berliner, D. C. (2005). The near impossibility of testing for teacher quality. Journal of Teacher Education, 56, 205 - 213. https: / / dx.doi.org/ 10.1177/ 0022487105275904 Black, P. & William, D. (1998). Assessment and classroom learning. Assessment in Education, 5 (1), 7 - 74. Braun, E. & Leidner, B. (2009). Academic course evaluation: Theoretical and empirical distinctions between self-rated gain in competences and satisfaction with teaching behavior. European Psychologist, 14, 297 - 306. https: / / dx.doi.org/ 10.1027/ 1016-9040.14.4.297 Brophy, J. E. (2000). Teaching. Zugriff am 20. 12. 2018 unter http: / / www.ibe.unesco.org/ publications/ EducationalPracticesSeriesPdf/ prac01e.pdf Brophy, J. E. & Good, T. L. (1986). Teacher behavior and student achievement. In M. C. Wittrock (Hrsg.), Handbook of Research on Teaching (pp. 328 - 375). New York, NY: Mc Millan. Bryant, F. B. & Yarnold, P. R. (1995). Principal-components analysis and exploratory and confirmatory factor analysis. In L. G. Grimm & P. R. Yarnold (Hrsg.), Reading and Understanding Multivariate Statistics (pp. 99 - 136). Washington, DC: American Psychological Association. Buhren, C. G. & Reitz, N. (2007). Evaluation an Schulen: Schülerselbstbeobachtung. In K.-O. Bauer (Hrsg.), Evaluation an Schulen (S. 53 - 80). Weinheim: Juventa. Carle, A. C. (2009). Evaluating college students’ evaluations of a professor’s teaching effectiveness across time and instruction mode (online vs. face-to-face) using a multilevel growth modeling approach. Computers & Education, 53, 429 - 435. https: / / dx.doi.org/ 10.1016/ j. compedu.2009.03.001 Chen, F. F. (2007). Sensitivity of goodness of fit indices to lack of measurement invariance. Structural Equation Modeling, 14, 464 - 504. https: / / dx.doi.org/ 10.1080/ 10705510701301834 Clausen, M. (2002). Unterrichtsqualität: Eine Frage der Perspektive? Münster: Waxmann. Costello, A. B. & Osborne, J. W. (2005). Best practices in exploratory factor analysis: Four recommendations for getting the most from your analysis. Practical Assessment, Research & Evaluation, 10 (7), 1 - 9. https: / / dx.doi.org/ 10.4135/ 9781412995627.d8 Diekmann, A. (2007). Empirische Sozialforschung: Grundlagen, Methoden, Anwendungen (18. Aufl.). Reinbek: Rowohlt. Ditton, H. & Arnoldt, B. (2004). Schülerbefragungen zum Fachunterricht - Feedback an Lehrkräfte. Empirische Pädagogik, 18 (1), 115 - 139. Fauth, B., Decristan, J., Rieser, S., Klieme, E. & Büttner, G. (2014). Grundschulunterricht aus Schüler-, Lehrer- und Beobachterperspektive: Zusammenhange und Vorhersage von Lernerfolg. Zeitschrift für Pädagogische Psychologie, 28, 127 - 137. https: / / dx.doi.org/ 10.1024/ 1010-0652/ a000129 Fauth, B., Decristan, J., Rieser, S., Büttner, G. & Klieme, E. (2015). Urteile zur Unterrichtsqualität von Grundschüler/ innen: Mehr als „Ich mag meine Lehrerin? Jahrbuch Grundschulforschung, 20, 157 - 162. Feldman, K. A. (2007). Identifying exemplary teachers and teaching: Evidence from student ratings. In The scholarship of teaching and learning in higher education: An evidence-based perspective (pp. 93 - 143). Amsterdam: Springer. https: / / dx.doi.org/ 10.1007/ 1-4020-5742-3_5 Ferguson, R. (2012). Can student surveys measure teaching quality? Phi Delta Kappan, 94 (3), 24 - 28. https: / / dx. doi.org/ 10.1177/ 003172171209400306 Ferguson, R. & Danielson, C. (2014). How framework for teaching and Tripod 7Cs evidence distinguish key components of effective teaching. In T. Kane, K. Kerr & R. Pianta (Hrsg.), Designing Teacher Evaluation Systems: New Guidance from the Measures of Effective Teaching Project (pp. 98 - 143). San Francisco, CA: Jossey-Bass. Ferguson, R., Phillips, S. F., Rowley, J. F. S. & Friedlander, J. W. (2015). The influence of teaching beyond standardized test scores: Engagement, mindsets, and agency [report from The Achievement Gap Initiative at Harvard University]. Zugriff am 10. 5. 2018 unter http: / / www. agi.harvard.edu/ projects/ TeachingandAgency.pdf Gates Foundation (2012). Gathering feedback for teaching. Combining high-quality observations with student surveys and achievement gains. Zugriff am 14. 12. 2017 unter http: / / www.metproject.org/ downloads/ MET_ Gathering_Feedback_Practioner_Brief.pdf Gates Foundation (2013). Ensuring fair and reliable measures of effective teaching. Culminating findings from MET Project’s three year study. Zugriff am 14. 12. 2017 unter http: / / www.metproject.org/ downloads/ MET_ Ensuring_Fair_and_Reliable_Measures_Practitioner_ Brief.pdf Göllner, R., Wagner, W., Klieme, E., Lüdtke, O., Nagengast, B. & Trautwein, U. (2016). Erfassung der Unterrichtsqualität mithilfe von Schülerurteilen: Chancen, Grenzen und Forschungsperspektiven. In Bundesministerium für Bildung und Forschung (Hrsg.), Forschungsvorhaben in Ankopplung an Large-Scale-Assessments. Bildungsforschung, Bd. 44 (S. 63 - 82). Bielefeld: Bertelsmann. 154 Benedikt Wisniewski, Klaus Zierer Hattie, J. (2008). Visible learning: A synthesis of over 800 meta-analyses relating to achievement. London: Routledge. Heckhausen, H. (1989). Leistungsmotivation. In ebd. (Hrsg.). Motivation und Handeln (S. 231 - 278). Berlin: Springer. Helmke, A. (2017). Unterrichtsqualität und Lehrerprofessionalität. Diagnose, Evaluation und Verbesserung des Unterrichts (7. Aufl.). Seelze: Klett-Kallmeyer. Helmke, A., Helmke, T., Lenske, G., Pham, G., Praetorius, A.-K., Schrader, F.-W. & Ade-Thurow, M. (2011). EMU - Unterrichtsdiagnostik. Version 3.2 Kultusministerkonferenz. Landau: Universität Koblenz-Landau. Helmke, A. & Lenske, G. (2013). Unterrichtsdiagnostik als Voraussetzung für Unterrichtsentwicklung. Beiträge zur Lehrerinnen- und Lehrerbildung, 31 (2), 214 - 233. Horn, J. L. (1965). A rationale and test for the number of factors in factor analysis. Psychometrika, 30, 179 - 185. https: / / doi.org/ 10.1007/ BF02289447 Hu, L.T. & Bentler, P. M. (1999). Cutoff criteria for fit indexes in covariance structure analysis: Conventional criteria versus new alternatives. Structural Equation Modeling, 6 (1), 1 - 55. https: / / dx.doi.org/ 10.1080/ 107 05519909540118 Isoré, M. (2009). Teacher Evaluation: Current Practices in OECD Countries and a Literature Review, OECD Education Working Papers, No. 23. Paris: OECD Publishing. https: / / dx.doi.org/ 10.1787/ 223283631428 Kaiser, H. F., Rice, J. (1974). Little jiffy, Mark IV. Educational and Psychological Measurement, 34, 11 - 117. https: / / dx.doi.org/ 10.1177/ 001316447403400115 Kember, D. & Leung, D. Y. (2008). Establishing the validity and reliability of course evaluation questionnaires. Assessment & Evaluation in Higher Education, 33, 341 - 353. https: / / dx.doi.org/ 10.1080/ 02602930701 563070 Klieme, E., Lipowsky, F., Rakoczy, K. & Ratzka, N. (2006). Qualitätsdimensionen und Wirksamkeit von Mathematikunterricht. Untersuchungen zur Bildungsqualität von Schule, 127 - 146. Klieme, E. & Rakoczy, K. (2008). Empirische Unterrichtsforschung und Fachdidaktik. Outcome-orientierte Messung und Prozessqualität des Unterrichts. Zeitschrift für Pädagogik, 54, 222 - 237. Kunter, M. & Voss, T. (2011). Das Modell der Unterrichtsqualität in COACTIV: Eine multikriteriale Analyse. In M. Kunter, J. Baumert, W. Blum, U. Klusmann, S. Krauss & M. Neubrand (Hrsg.). Professionelle Kompetenz von Lehrkräften - Ergebnisse des Forschungsprogramms COACTIV (S. 85 - 113). Münster: Waxmann. Kunter, M. & Ewald, S. (2016). Bedingungen und Effekte von Unterricht: Aktuelle Forschungsperspektiven aus der pädagogischen Psychologie. Bedingungen und Effekte guten Unterrichts, 9 - 31. Kunter, M., Klusmann, U., Baumert, J., Richter, D., Voss, T. & Hachfeld, A. (2013). Professional competence of teachers: Effects on instructional quality and student development. Journal of Educational Psychology, 105, 805 - 820. https: / / dx.doi.org/ 10.1037/ a0032583 Kyriakides, L., Creemers, B. P., Panayiotou, A., Vanlaar, G., Pfeifer, M., Cankar, G. & McMahon, L. (2014). Using student ratings to measure quality of teaching in six European countries. European Journal of Teacher Education, 37, 125 - 143. https: / / dx.doi.org/ 10.1080/ 026 19768.2014.882311 Lavin, A., Korte, L. & Davies, T. (2012). Student gender and perceptions of teaching effectiveness. Research in Higher Education Journal, 18, 1 - 13. https: / / dx.doi.org/ 10.19030/ tlc.v10i3.7933 Lipowsky, F. (2007). Was wissen wir über guten Unterricht? In G. Becker, A. Feindt, H. Meyer, M. Rothland, L. Stäudel & E. Terhart (Hrsg.), Guter Unterricht. Maßstäbe & Merkmale - Wege und Werkzeuge. Friedrich Jahresheft XXV (S. 26 - 30). Seelze: Friedrich. Lipowsky, F. Drollinger-Vetter, B., Klieme, E., Pauli, C. & Reusser, K. (2018). Generische und fachdidaktische Dimensionen von Unterrichtsqualität - Zwei Seiten einer Medaille? In M. Martens, K. Rabenstein, K. Bräu, M. Fetzer, H. Gresch, I. Hardy & C. Schelle (Hrsg.), Konstruktionen von Fachlichkeit: Ansätze, Erträge und Diskussionen in der empirischen Unterrichtsforschung (S. 183 - 202). Bad Heilbrunn: Klinkhardt. Marsh, H. W. (2007). Students’ evaluations of university teaching: Dimensionality, reliability, validity, potential biases and usefulness. In The scholarship of teaching and learning in higher education: An evidence-based perspective (S. 319 - 383). Springer Netherlands. Marsh, H. W., Dicke, T. & Pfeiffer, M. (2019). A tale of two quests: The (almost) non-overlapping research literatures on students’ evaluations of secondary-school and university teachers. Contemporary Educational Psychology, 58, 1 - 18. https: / / dx.doi.org/ 10.1016/ j.cedpsych. 2019.01.011 Moosbrugger, H. & Schermelleh-Engel, K. (2012). Exploratorische (EFA) und Konfirmatorische Faktorenanalyse (CFA). Testtheorie und Fragebogenkonstruktion (S. 325 - 343). Berlin: Springer. Muthen, B. O. & Satorra, A. (1995). Complex sample data in structural equation modeling. Sociological Methodology, 25, 267 - 316. https: / / dx.doi.org/ 10.2307/ 2710 70 Ogunkola, B. J. & Akinsola, O. S. (2013). Influence of gender and age on science and non-science students’ evaluation of teaching effectiveness of university lecturers. Mediterranean Journal of Social Sciences, 4 (14), 491 - 500. https: / / dx.doi.org/ 10.5901/ mjss.2013.v4n 14p491 Onwuegbuzie, A. J., Daniel, L. G. & Collins, K. M. (2009). A meta-validation model for assessing the score-validity of student teaching evaluations. Quality & Quantity, 43 (2), 197 - 209. https: / / dx.doi.org/ 10.1007/ s11135- 007-9112-4 Ory, J. C. & Ryan, K. (2001). How do student ratings measure up to a new validity framework? New directions for institutional research, 2001 (109), 27 - 44. https: / / dx.doi.org/ 10.1002/ ir.2 Praetorius, A. K., Klieme, E., Herbert, B. & Pinger, P. (2018). Generic dimensions of teaching quality: The German framework of Three Basic Dimensions. ZDM, 50, 407 - 426. https: / / dx.doi.org/ 10.1007/ s11858-018- 0918-4 Richardson, J.T. E. (2005). Instruments for obtaining student feedback: A review of the literature. Assessment and Evaluation in Higher Education, 30, 387 - 415. https: / / dx.doi.org/ 10.1080/ 02602930500099193 Schnabel, K. U. (2001). Psychologie der Lernumwelt. In A. Krapp & B. Weidenmann. Pädagogische Psychologie (S. 467 - 511). Weinheim: Beltz. Schweig, J. (2014). Cross-level measurement invariance in school and classroom environment surveys: Implications for policy and practice. Educational Evaluation and Policy Analysis, 36, 259 - 280. https: / / dx.doi.org/ 10.3102/ 0162373713509880 Entwicklung eines Online-Fragebogens 155 Slavin, R. E. (1987). A theory of school and classroom organization. Educational Psychologist, 22, 89 - 108. https: / / dx.doi.org/ 10.4324/ 9780203056950-1 Slavin, R. E. (1994). Quality, appropriateness, incentive, and time: A model of instructional effectiveness. International Journal of Educational Research, 21, 141 - 157. https: / / dx.doi.org/ 10.1016/ 0883-0355(94)900 29-9 Spooren, P., Brockx, B. & Mortelmans, D. (2013). On the validity of student evaluation of teaching: The state of the art. Review of Educational Research, 83, 598 - 642. https: / / dx.doi.org/ 10.3102/ 0034654313496870 Wagner, W., Göllner, R., Werth, S., Voss, T., Schmitz, B. & Trautwein, U. (2016). Student and teacher ratings of instructional quality: Consistency of ratings over time, agreement, and predictive power. Journal of Educational Psychology, 108, 705 - 721. https: / / dx.doi.org/ 10.1037/ edu0000075 Wallace, T. L., Kelcey, B. & Ruzek, E. (2016). What can student perception surveys tell us about teaching? Empirically testing the underlying structure of the tripod student perception survey. American Educational Research Journal, 53, 1834 - 1868. https: / / dx.doi.org/ 10. 3102/ 0002831216671864 Wilkerson, D. J., Manatt, R. P., Rogers, M. A. & Maughan, R. (2000). Validation of student, principal, and selfratings in 360 feedback for teacher evaluation. Journal of personnel evaluation in education, 14 (2), 179 - 192. https: / / dx.doi.org/ 10.1023/ a: 1008158904681 Worrell, F. C. & Kuterbach, L. D. (2016). The use of student ratings of teacher behaviors with academically talented high school students. Journal of Secondary Gifted Education, 12 (4), 236 - 247. https: / / dx.doi.org/ 10.4219/ jsge-2001-670. Zierer, K. (2008): Quo vadis, Allgemeine Didaktik? Pädagogische Rundschau, 62 (5), 573 - 582. Dr. Benedikt Wisniewski Prof. Dr. Klaus Zierer Lehrstuhl für Schulpädagogik der Universität Augsburg Universitätsstraße 10 D-86159 Augsburg E-Mail: benedikt.wisniewski@phil.uni-augsburg.de klaus.zierer@phil.uni-augsburg.de