Psychologie in Erziehung und Unterricht
3
0342-183X
Ernst Reinhardt Verlag, GmbH & Co. KG München
10.2378/peu2018.art16d
101
2018
654
Empirische Arbeit: Erkennen Lehramtsstudierende das akademische Fähigkeitsselbstkonzept in Aussagen von Schülerinnen und Schülern?
101
2018
Annett Wolgast
Joachim Stiensmeier-Pelster
Jens Möller
Johanna Kaiser
Claudia von Aufschnaiter
Forschungsergebnisse weisen auf das akademische Fähigkeitsselbstkonzept (aFSK) von Lernenden als bedeutenden Prädiktor für spätere schulische Leistungen hin. Deshalb sollten Lehramtsstudierende das aFSK kennen und niedrige oder hohe Niveaus in Aussagen von Schülerinnen und Schülern während einer Unterrichtssituation erkennen können. Anzunehmen ist die Wirkung einer universitären Lehreinheit auf die Beurteilungsgenauigkeit von Lehramtsstudierenden in Bezug auf das aFSK von simulierten Lernenden, mit denen einfache Interaktionen möglich waren. Zur Prüfung dieser Annahme mittels eines Zwei-Gruppen-Prä-Posttest-Designs nahmen N=56 Lehramtsstudierende im 2. Fachsemester teil, die randomisiert einer Experimental- oder Wartekontrollgruppe zugewiesen wurden (jeweils ein pädagogisch-psychologisches Seminar). Die Experimentalgruppe bearbeitete in einer Seminarsitzung Fallbeispiele zur Beurteilung des aFSK in Unterrichtssituationen. Im Posttest unterschied sich die Beurteilungsgenauigkeit in Bezug auf das aFSK zugunsten der Experimentalgruppe. Die Studie zeigt, dass sich der Simulierte Klassenraum für die Erfassung der Wirkung universitärer Lehre auf die Beurteilungsgenauigkeit eignet. Die Verwendung in Trainingsmaßnahmen und Evaluationen von Lehramtsstudiengängen wird diskutiert.
3_065_2018_4_0005
n Empirische Arbeit Psychologie in Erziehung und Unterricht, 2018, 65, 275 -287 DOI 10.2378/ peu2018.art16d © Ernst Reinhardt Verlag München Basel Erkennen Lehramtsstudierende das akademische Fähigkeitsselbstkonzept in Aussagen von Schülerinnen und Schülern? Die Wirkung einer universitären Lehreinheit auf die Beurteilungsgenauigkeit im Simulierten Klassenraum 1 Anett Wolgast 2 , Joachim Stiensmeier-Pelster 3 , Jens Möller 4 , Johanna Kaiser 4 , Claudia von Aufschnaiter 3 2 Martin-Luther-Universität Halle-Wittenberg 3 Justus-Liebig-Universität Gießen 4 Christian-Albrechts-Universität zu Kiel Zusammenfassung: Forschungsergebnisse weisen auf das akademische Fähigkeitsselbstkonzept (aFSK) von Lernenden als bedeutenden Prädiktor für spätere schulische Leistungen hin. Deshalb sollten Lehramtsstudierende das aFSK kennen und niedrige oder hohe Niveaus in Aussagen von Schülerinnen und Schülern während einer Unterrichtssituation erkennen können. Anzunehmen ist die Wirkung einer universitären Lehreinheit auf die Beurteilungsgenauigkeit von Lehramtsstudierenden in Bezug auf das aFSK von simulierten Lernenden, mit denen einfache Interaktionen möglich waren. Zur Prüfung dieser Annahme mittels eines Zwei-Gruppen-Prä-Posttest-Designs nahmen N = 56 Lehramtsstudierende im 2. Fachsemester teil, die randomisiert einer Experimental- oder Wartekontrollgruppe zugewiesen wurden (jeweils ein pädagogisch-psychologisches Seminar). Die Experimentalgruppe bearbeitete in einer Seminarsitzung Fallbeispiele zur Beurteilung des aFSK in Unterrichtssituationen. Im Posttest unterschied sich die Beurteilungsgenauigkeit in Bezug auf das aFSK zugunsten der Experimentalgruppe. Die Studie zeigt, dass sich der Simulierte Klassenraum für die Erfassung der Wirkung universitärer Lehre auf die Beurteilungsgenauigkeit eignet. Die Verwendung in Trainingsmaßnahmen und Evaluationen von Lehramtsstudiengängen wird diskutiert. Schlüsselbegriffe: Akademisches Fähigkeitsselbstkonzept, Beurteilungsgenauigkeit, Lehramtsstudiengänge, Simulierter Klassenraum Do Teacher Undergraduates Recognize the Academic Self-Concept in Student’s Statements? University Course Effects on Judgement Accuracy in the Virtual Classroom Summary: Research results indicate the academic self-concept (ASC) as a predictor of students’ later academic achievements. Therefore, teachers should have knowledge about the ASC and recognize low or high levels of ASC in student’s statements during a teaching situation. We assumed a university course unit affects teaching undergraduates’ judgment accuracy regarding the ASC of virtual simulated students based on interactions with them. We tested our assumption by a two-groupprae-posttest-design including N = 56 teaching undergraduates in the first year at university. They were assigned to an experimental or a waiting control group (one of two educational-psychological courses). In one course appointment, the experimental group discussed cases involving judging student’s ASC in classes. The results indicated accurate judgements in favor of the experimental group. Thus, the Virtual Classroom is an appropriate instrument to test effects of a university course on judgement accuracy. We discuss applications in training and evaluation of teacher education. Keywords: Academic self-concept, judgement accuracy, teacher education, Virtual Classroom 1 Vorarbeiten zum Manuskript wurden aus Mitteln des BMBF gefördert (Förderkennziffer: 01PH08007). 276 Anett Wolgast, Joachim Stiensmeier-Pelster, Jens Möller, Johanna Kaiser, Claudia von Aufschnaiter Wenn eine Lehrperson Unterricht auf Merkmale und Vorwissen von Schülerinnen und Schülern abgestimmt gestaltet, unterstützt sie deren lernförderliches Verhalten und kann die Leistungen der Lernenden effektiv fördern (z. B. Karing, Dörfler & Artelt, 2013; Marsh & Martin, 2011; Rakoczy, Harks, Klieme, Blum & Hochweber, 2013). Erkennt eine Lehrperson beispielsweise ein niedriges akademisches Fähigkeitsselbstkonzept (aFSK) bei einem Kind frühzeitig, so hat sie die Gelegenheit, durch individuelle Förderung einer Stabilisierung des niedrigen aFSK entgegenzuwirken. Dadurch kann sie einen möglichen, durch das niedrige aFSK verursachten späteren Leistungsabfall verhindern (Green et al., 2012; Parker, Marsh, Ciarrochi, Marshall & Abduljabbar, 2013). Für die angemessene Förderung von aFSK, Lernverhalten und Lernleistungen ist daher relevant (Hornerya, Seaton, Traceya, Craven & Yeung, 2014), dass Lehramtsstudierende die Fähigkeit erwerben, das aFSK von Schülerinnen und Schülern in Unterrichtssituationen zutreffend zu beurteilen (Praetorius et al., 2015; Schrader, 2017). Seit 2004 sind diagnostische Kompetenzen, und darin eingeschlossen die Beurteilungsgenauigkeit von Lehrkräften, ein Bestandteil der Lehrerbildungsstandards (KMK, 2004). Studienergebnisse zeigten allerdings, dass sogar erfahrene Lehrkräfte bei der Beurteilung von aFSK durchschnittlich eine niedrige Akkuratesse aufweisen (z. B. Praetorius et al., 2015). Bisher blieb weitgehend unerforscht, ob bei Lehramtsstudierenden bereits eine kleinste Lehreinheit in Form einer Seminarsitzung über 90 Minuten die Beurteilungsgenauigkeit des aFSK erhöhen kann. An dieser Forschungslücke setzte die vorliegende Studie an. Es wurde untersucht, ob Lehramtsstudierende im zweiten Fachsemester in einer simulierten Unterrichtssituation das aFSK in Aussagen von Schülerinnen und Schülern erkennen und damit das aFSK akkurat beurteilen können. Theorie und Forschungsstand zum aFSK Als aFSK einer Person werden deren gesamte Vorstellungen über die eigenen bildungsbezogenen Fähigkeiten bezeichnet (z. B. Möller & Trautwein, 2015; Stiensmeier-Pelster & Schöne, 2008). Diese Repräsentationen (eigener Fähigkeiten) können nach Höhe, hierarchischer Struktur und Stabilität im zeitlichen Verlauf differenziert werden (z. B. Stiensmeier-Pelster & Schöne, 2008). Das aFSK gilt als wichtiger Prädiktor für Lernverhalten und Leistung von Schülerinnen und Schülern (zsf. Schöne & Stiensmeier-Pelster, 2011). Verschiedene Studien zeigten, dass mithilfe der Kenntnis über das aFSK Fachleistungen vorhergesagt werden können (Green et al., 2012; Parker et al., 2013). Zudem zeigten Interventionsstudien, dass beispielsweise geeignete Rückmeldungen (z. B. O’Mara, Marsh, Craven & Debus, 2006) und die gezielte Stärkung der für das aFSK relevanten Fähigkeiten (Hornerya et al., 2014) eine Steigerung des aFSK bewirken können. Allerdings ist eine notwendige Voraussetzung für geeignete Rückmeldungen und für die gezielte Stärkung der Fähigkeiten, dass die Lehrperson das aFSK in Aussagen von Schülerinnen und Schülern erkennt und akkurat diagnostizieren kann. Dabei ist das Erkennen und die zutreffende Beurteilung eines niedrigen Niveaus des aFSK im Unterricht von besonderer Bedeutsamkeit. Beurteilungsgenauigkeit als Faktor kompetenter Diagnosen Genaue Urteile einzelner Merkmale Lernender (z. B. Südkamp, Kaiser & Möller, 2012) sind im Unterricht erforderlich, um deren Lernverhalten zu erklären und als Lehrperson konstruktiv darauf zu reagieren (z. B. Anders, Kunter, Brunner, Krauss & Baumert, 2010). Unterrichtssituationen sind komplex und je nach Wahrnehmungsdisposition oder Situation kann das Produkt aus einer subjektiven Auswahl von Faktoren im Sinne einer Linse (Brunswik, 1947) wahrgenommen werden. Kompetente Diagnosen von Lehrkräften werden mit Bezug auf das Linsenmodell als Produkt angenommen (z. B. Förster & Böhmer, 2017; Schrader, 2017). Das Beurteilen der Höhe des aFSK aufgrund der Aussagen von Lernenden erfordert zunächst die akkurate Wahrnehmung von fähigkeitsbezogenen Informationen in den Aussagen. Vier we- Erkennen Lehramtsstudierende das akademische Selbstkonzept von Kindern? 277 sentliche Schritte sind für eine realistisch akkurate Wahrnehmung nötig (Funder, 1995). Dies sind die Relevanz, Verfügbarkeit, Entdeckung und Nutzung von Informationen (Funder, 1995). Demnach sollte das aFSK in Aussagen realistisch akkurat wahrgenommen werden, wenn es als relevant bewertet wird, in Aussagen repräsentiert ist, erkannt wird und für eine mehrere Aussagen zusammenfassende Beurteilung genutzt wird. Ermöglicht eine Test- oder Trainingssituation die Schritte der realistisch akkuraten Wahrnehmung, so kann sogar von unerfahrenen Lehramtsstudierenden das aFSK von Lernenden unbedenklich und hinreichend zutreffend beurteilt werden. In Bezug auf die Beurteilung ist davon auszugehen, dass mehrere Aussagen von mehreren Schülerinnen und Schülern verschieden hohe aFSK repräsentieren können. Diese Niveaus des aFSK können unter- oder überschätzt werden oder es erfolgt eine exakte Einschätzung. Werden niedrige Niveaus unterschätzt und hohe Niveaus überschätzt, wird die Streuung überschätzt. Werden niedrige Niveaus überschätzt und hohe Niveaus unterschätzt, wird die Streuung mit einer Tendenz zur Mitte unterschätzt. Tatsächliche Niveaus hängen statistisch weniger mit unter- oder überschätzten Niveaus zusammen als mit zutreffend eingeschätzten Niveaus. Werden die Schritte der realistisch akkuraten Wahrnehmung nach Funder (1995) trainiert, so sollten die in Aussagen repräsentierten Niveaus des aFSK und die Streuung verschieden hoher aFSK zutreffender eingeschätzt werden als vor einer Test- oder Trainingssituation. Für die Bewertung der Beurteilungsgenauigkeit in Bezug auf das Merkmal Fachleistungen von Lernenden wurden in verschiedenen Studien die Niveau-, Differenzierungs- und Rangkomponente berechnet (z. B. Schrader & Helmke, 1987; Südkamp, Möller & Pohlmann, 2008). Für die Niveaukomponente (NK) gilt: Ist das Ergebnis NK = 0, so wurde das zu diagnostizierende Merkmal exakt beurteilt. Liegt die Niveaukomponente im Bereich NK > 0, deutet dies auf eine Überschätzung des Ausprägungsniveaus hin. Bei einem Wert von NK < 0 wurde das Niveau des Merkmals unterschätzt. Für die Differenzierungskomponente (DK) gilt: Wenn DK = 1 ist, sind die diagnostizierte Streuung für das Merkmal und die tatsächliche Streuung kongruent. Zu hoch eingeschätzte Streuungen (DK > 1) weisen darauf hin, dass eine zu hohe Heterogenität für das Merkmal diagnostiziert wurde. Ein Wert von DK < 1 bedeutet, dass die Streuung des Merkmals unterschätzt wird, also die Schülerinnen und Schüler in Bezug auf das Merkmal als zu homogen wahrgenommen wurden. Zur Prüfung der Beurteilungsgenauigkeit anhand der Rangkomponente (RK) werden zwischen den tatsächlichen Werten von Lernenden und den diagnostizierten Werten Rangkorrelationen (r sB ) für singuläre Daten mit Rangbindungen berechnet (z. B. Eid, Gollwitzer & Schmitt, 2010). Zur Ermittlung des Durchschnitts dieser Rangkorrelationen (r sB ) werden die Korrelationskoeffizienten in Z-Werte nach Fisher transformiert (z. B. Eid et al., 2010). Der Mittelwert dieser Z-Werte, nach Fisher rücktransformiert, repräsentiert die Rangkomponente. Studienergebnisse stützen die Annahme, dass Beurteilungsgenauigkeit durch Training gefördert werden kann (z. B. Vollmer, Spada, Caspar & Burri, 2013). Lehramtsstudierende befinden sich überwiegend in Lehrveranstaltungen, die auf den Erwerb von professionellem Handlungswissen ausgerichtet sind (Kunter et al., 2013). Die Erfassung des Transfers dieses Wissens in Handlungskompetenzen wird ermöglicht durch Instrumente, die die Analyse professioneller Handlungen und Interaktionen in simulierten Unterrichtssituationen erlauben. Möglichkeiten zur Erfassung der Beurteilungsgenauigkeit bei Studierenden Verschiedene Methoden können angewendet werden, um die Beurteilungsgenauigkeit von Lehramtsstudierenden in Bezug auf leistungsrelevante Schülermerkmale wie das aFSK zu untersuchen. Beispiele sind Selbstversus Fremdeinschätzungen mittels standardisierter Inventare oder eine videobasierte kurze Unterrichtssequenz, die in Kombination mit zusätzlichen 278 Anett Wolgast, Joachim Stiensmeier-Pelster, Jens Möller, Johanna Kaiser, Claudia von Aufschnaiter Informationen die Beurteilung von Merkmalen Lernender erlaubt (Praetorius et al., 2015). Einerseits gelten Untersuchungen der Beurteilungsgenauigkeit in Schulen als extern valide, weil die Messung von Merkmalen oder Zuständen in realen Kontexten erfolgt (z. B. Carr & Kurtz-Costes, 1991; Herfordt-Stöpel & Hörstermann, 2012). Andererseits beeinträchtigen in realen Unterrichtssituationen unkontrollierbare Störvariablen die Beurteilungsgenauigkeit, wodurch sich eine mögliche Verzerrung von Forschungsergebnissen ergeben kann, deren Ausmaß sich kaum einschätzen lässt (z. B. Kaiser, Möller, Helm & Kunter, 2015; McPherson, Tyler-Wood, Ellison & Peak, 2011; Südkamp et al., 2008). Deshalb scheint eine Kombination aus Experimenten und quasi-experimentellen Feldstudien den höchsten Erkenntnisgewinn zu versprechen. Eine Möglichkeit zur experimentellen Untersuchung der Genauigkeit diagnostischer Urteile von Lehrkräften bietet die Simulation einer Unterrichtssituation in einer virtuellen Umgebung. Im Vergleich zu papierbasierten Verfahren zur Messung der Beurteilungsgenauigkeit in Bezug auf das aFSK hat eine computerbasiert simulierte Unterrichtssituation den Vorteil, dass eine Versuchsperson (Vp) praxisorientierte Entscheidungen in (simulierte) Handlungen umsetzt. Beispielsweise kann die Vp den Schülerinnen und Schülern eine Aufgabe stellen und dann einen Schüler (aus der Gruppe der sich meldenden oder passiven Schülerinnen und Schüler) auswählen und auffordern zu antworten. Mit der Antwort erhält die Vp ggf. auch Informationen über das aFSK des Schülers. Damit ist es je nach Gestaltung der simulierten Unterrichtssituation möglich, Einflussfaktoren kontrolliert in die Testsituation einzubeziehen oder auszuschließen. Beispielsweise können Aussagen, die das aFSK von Lernenden repräsentieren, eingefügt werden und dann untersucht werden, wie diese die Fremdeinschätzung des aFSK durch die Lehrperson beeinflussen. In verschiedenen experimentellen Studien wurden in computerbasiert simulierten Unterrichtssituationen beispielsweise die Beurteilungsgenauigkeit von Leistungen Lernender (z. B. Südkamp et al., 2008; Südkamp et al., 2012) oder der Umgang mit heterogenen Persönlichkeitsmerkmalen und Lernbeeinträchtigungen (z. B. Taubheit; McPherson et al., 2011) von Schülerinnen und Schülern untersucht. Die vorliegende Studie nutzt das Konzept eines virtuellen Klassenzimmers, das von Fiedler, Walther, Freytag und Plessner (2002) entwickelt wurde. Südkamp et al. (2008) modifizierten das virtuelle Klassenzimmer so, dass Untersuchungen in Bezug auf das Studium des Lehramts relevanter Fragestellungen möglich sind. Ein Ergebnis der Studien mit dem virtuellen Klassenzimmer war der Urteilstrend zur Mitte, d. h. Vpn (Studierende) überschätzten tatsächlich gezeigte niedrige Fähigkeiten von simulierten Schülerinnen und Schülern systematisch und unterschätzten deren hohe Fähigkeiten (z. B. Fiedler et al., 2002; Südkamp et al., 2008). Obwohl Studien der letzten zwei Jahrzehnte (z. B. Green et al., 2012; Möller & Trautwein, 2015; O’Mara et al., 2006; Parker et al., 2013; Schöne & Stiensmeier-Pelster, 2011) auf die hohe Bedeutung des aFSK für die Bildungslaufbahn von Schülerinnen und Schülern hinweisen, ist bislang ungeklärt, ob bereits eine zeitlich kurze, inhaltlich auf das aFSK fokussierte universitäre Lehreinheit in Form einer Seminarsitzung die Beurteilungsgenauigkeit in Bezug auf das aFSK erhöht. Daher war dies die Forschungsfrage der vorliegenden Studie: Kann eine thematisch einschlägige Lehreinheit in Form einer Seminarsitzung die Beurteilungsgenauigkeit der teilnehmenden Lehramtsstudierenden in Bezug auf das aFSK erhöhen? Die Hypothese war: Lehramtsstudierende können das aFSK von Schülerinnen und Schülern nach einer 90-minütigen, thematisch einschlägigen Seminarsitzung akkurater beurteilen als vor der Seminarsitzung. Dies zeigt sich in der Niveau-, Differenzierungs- und Rangkomponente. Angenommen wurde zudem, dass sich dieser Prä-/ Post-Effekt in einer Wartekontrollgruppe nicht zeigt. Die Hypothese wurde anhand eines Zwei-Gruppen-Prä-Posttest-Designs überprüft, das im folgenden Abschnitt vorgestellt wird. Erkennen Lehramtsstudierende das akademische Selbstkonzept von Kindern? 279 Methode Stichprobe Mit Orientierung an bekannten Effekten aus vorangegangener Forschung (zsf. Südkamp et al., 2012) führten wir Power-Analysen (Champely, 2017) durch, wonach eine Stichprobengröße von mindestens N = 40 für die Untersuchung von zwei Gruppen erforderlich ist, um mittlere bis starke Effekte aufzudecken. Nach den Power-Analysen wurde an einer deutschen Universität ermittelt, wie viele Lehramtsstudierende für das zweite Fachsemester gemeldet waren (Grundgesamtheit P = 1219). Über eine Lernplattform wurde per Zufall jede zehnte Person dieser Kohorte aufgefordert, an der vorliegenden Studie teilzunehmen. Nach der Aufforderung meldeten sich N = 73 Studierende, die der Angabe ihrer Abiturnote und einer Teilnahme am Prä- und Posttest zustimmten. Im zeitlichen Verlauf vor der Studie zogen 17 Studierende ihre Zustimmung aufgrund von terminlichen Überschneidungen zurück. Von den verbliebenen n = 56 Studierenden wurden n = 28 Studierende randomisiert der Experimentalgruppe (EG) und n = 28 Vpn der Wartekontrollgruppe (WKG) zugewiesen. Die Studierenden der EG (46 % weiblich) waren im Mittel 21 Jahre alt (SD = 2.95), der Durchschnitt ihrer Abiturnoten lag bei M = 2.63 (SD = 0.50). Aus der EG studierten 12 Personen für ein Lehramt an Gymnasien und 12 Personen für ein Lehramt an Haupt- und Realschulen. Vier Personen studierten für eine Tätigkeit an einer Berufsschule. Die Studierenden der WKG (75 % weiblich) waren zum Zeitpunkt der Testung im Mittel 22 Jahre alt (SD = 3.43). Der Durchschnitt ihrer Abiturnoten lag bei M = 2.51 (SD = 0.51). Studienziel war für 15 Studierende ein Lehramt an Gymnasien und für sieben Studierende ein Lehramt an Haupt- und Realschulen. Sechs Personen strebten einen Abschluss für eine Tätigkeit an einer Berufsschule an. Die Studierenden hatten sehr heterogene Fachkombinationen gewählt, wobei beide Fächer dem Bereich MINT (Mathematik, Informatik, Naturwissenschaften, Technik) oder dem Bereich Sprache entstammten oder aber je ein Fach dem Bereich MINT und dem Bereich Sprache, oder aber ein Fach aus dem Bereich MINT bzw. Sprache mit einem anderen Fach (Sport, Musik, Religion etc.) kombiniert war. Die Teilnahme an der Studie war für alle Vpn freiwillig. Alle Teilnehmenden erhielten nach dem Posttest eine Aufwandsentschädigung in Höhe von € 15,-. Zweigruppen-Prätest-Posttest-Design Vor dem Prätest wurden beide Gruppen über ihre Aufgabe informiert, dass sie mithilfe eines virtuellen Klassenraums die Gelegenheit erhalten, simulierte Schülerinnen und Schüler einzuschätzen. Die Teilnehmenden waren nicht darüber informiert, dass sie am Ende der simulierten Unterrichtssequenz aufgefordert wurden, das aFSK jeder simulierten Person einzuschätzen. Notizen waren für beide Gruppen untersagt. Beide Gruppen absolvierten den Prätest. Sieben Tage später bearbeitete nur die EG Fallbeispiele zur Diagnostik des aFSK in Unterrichtssituationen (ca. 70 Minuten zwischen organisatorischen Lehrinhalten). Im Treatment-Check am Ende dieser Sitzung wurden 90 % von 21 auf Unterrichtssituationen bezogenen Aussagen und darin 10 Aussagen in Bezug auf das aFSK richtig beantwortet. Weitere sieben Tage später nahmen beide Gruppen an einem Posttest teil. Lehreinheit Alle Vpn hatten in einer pädagogisch-psychologischen Vorlesung im laufenden Monat eine Einführung in die Konstrukte aFSK und Motivation gehört. In der Seminarsitzung für die EG bestand eine Aufgabe für Zwei-Personen-Teams darin, mögliche Hinweise auf das aFSK oder andere Aspekte der Motivation von Lernenden in Fallbeispielen (Hesse & Latzko, 2011) auszuschließen oder zu entdecken. Die Ergebnisse der Aufgabe wurden anschließend in einem Lehrgespräch diskutiert. In einem zweiten Schritt erhielten die Studierenden die Aufgabe, mögliche Aussagen von Schülerinnen und Schülern zu erfinden und zu entscheiden, ob sie das aFSK oder andere Apekte der Motivation repräsentieren. In einem dritten Schritt waren die diskutierten Fallbeispiele in den gleichen Teams um Fragen an die darin beschriebenen Lernenden zu erweitern, auf die Antworten mit Informationen über das aFSK oder die Motivation der Schülerin oder des Schülers hätten folgen können. Die Ergebnisse wurden wieder im Lehrgespräch diskutiert. Danach führte die Seminarleiterin (keine der Autorinnen) eine Lernstandserhebung durch (Treatment Check), in der aus praxisnahen Beschreibungen verschiedener Lernvoraussetzungen diejenigen zu wählen waren, die das aFSK oder andere Aspekte der Motivation repräsentierten. 280 Anett Wolgast, Joachim Stiensmeier-Pelster, Jens Möller, Johanna Kaiser, Claudia von Aufschnaiter Instrument Der Simulierte Klassenraum (z. B. Südkamp et al., 2008) ist auf Basis der Programmiersprache Java ohne Datenbank-Abruf entwickelt worden und für die hier verfolgte Fragestellung so modifiziert, dass er die Beurteilung des aFSK von programmierten Schülerinnen und Schülern ermöglicht. Den Kern der Untersuchungseinheit bildet eine Unterrichtssequenz von 17 Minuten. Darin stellt die Vp in der Rolle einer Lehrperson Fragen an simulierte Schülerinnen und Schüler, worauf sich einige der Schülerinnen und Schüler melden und die angehende Lehrperson eine Person aus dieser simulierten Klasse auffordert zu antworten. Dabei kann sie auch Schülerinnen und Schüler auffordern, die sich nicht gemeldet haben. Die Bedienung des Programms wird nach dem Startvorgang im ersten Teil der Testeinheit in einem Video mit Ton erklärt. Anhand der Erklärung und einer Instruktion erhält die Vp einen Überblick über den Ablauf der simulierten Unterrichtssequenz, insbesondere über Angaben und Aktionen, die vor, während und nach der Unterrichtssequenz von ihr erwartet werden. Im zweiten Teil der Testeinheit gibt die Vp ihr Alter, Geschlecht und Fachsemester an. Anschließend kann sie den Ablauf des simulierten Unterrichts in einer Sequenz von vier Minuten erproben. In einer Vorstudie wurde geprüft, ob Studierende Fotos von Mädchen und Jungen hinsichtlich Gesichts- und Persönlichkeitseindruck (anhand von Adjektiven, z. B. „hellwach“, „intelligent“, „selbstbewusst“; Henss, 1998) vergleichbar einschätzen. In der Programmversion für die vorliegende Studie sind Fotografien von vier Mädchen und vier Jungen im Alter von elf Jahren eingesetzt worden, die nicht unterschiedlich bewertet wurden. Mögliche Geschlechtseffekte konnten Südkamp et al. (2008) bereits ausschließen, sofern sich die gleiche Anzahl Mädchen und Jungen im Simulierten Klassenraum befinden. Dementsprechend diente die gleiche Anzahl Fotografien je Geschlecht (vier Mädchen und vier Jungen) in der vorliegenden Untersuchung der Ausschaltung von Geschlechtseffekten. Die Fotografien, Namen und das jeweilige Antwortverhalten werden durch das Programm randomisiert kombiniert. Während einer Unterrichtssequenz wählt die Vp eine Frage aus Aufgabensätzen verschiedener Themenbereiche (z. B. Grundrechenarten oder Sachaufgaben, aus Lehrplänen für die dritte Klassenstufe, z. B. Südkamp et al., 2008) und stellt sie den vier Schülerinnen und vier Schülern. Als simulierte Reaktion melden sich randomisiert einige Schülerinnen und Schüler. Dies wird mit einem gelben Hintergrund an den entsprechenden Fotografien dargestellt. Die Vp wählt nun beispielsweise eine Schülerin aus, die antwortet. Die Antwort der Schülerin wird in einem Feld unterhalb der Fotos angezeigt. Mit den Farben Grün oder Rot wird jeweils angezeigt, ob die Antwort fachlich richtig oder falsch ist, wie oben bereits beschrieben. Im Unterschied zu vorangegangenen Studien mit dem Simulierten Klassenraum erscheint in der Version für die vorliegende Studie neben jeder fachlichen Antwort ein zusätzliches Feld mit einer Aussage von einer Schülerin oder einem Schüler, die Rückschlüsse auf das aFSK erlaubt (z. B. „Wenn ich mir allgemein angucke, was wir in der Schule können müssen, halte ich mich für sehr begabt“). Für die weitgehende Vermeidung einer Wiederholung der gleichen Aussage nach verschiedenen Fragen war eine hohe Anzahl an Items notwendig. Um die hohe Anzahl möglicher Aussagen zu generieren, wurde jedes der 22 positiv und negativ formulierten Items der Skalen zur Erfassung des schulischen Selbstkonzepts (SESSKO; Schöne, Dickhäuser, Spinath & Stiensmeier-Pelster, 2012) mit Füllwörtern, wie „… allgemein …“ oder „…im Unterricht…“ angepasst (z. B. „Wenn ich mir im Unterricht angucke, was wir in der Schule können müssen, halte ich mich für sehr begabt“, „Wenn ich mir jetzt angucke, was wir in der Schule können müssen, halte ich mich für sehr begabt“). Der Einsatz von sieben solcher Füllwörter ergab 440 Items, die von dem Programm randomisiert als Aussagen von Schülerinnen und Schülern angezeigt werden konnten. Das Vorgehen diente der standardisierten Darbietung des aFSK. Die fachliche (hier mathematische) Beurteilung der Fachleistung war in dieser Version des Simulierten Klassenraums vorweggenommen: Die Antworten zu den Mathematikaufgaben und deren fachlichen Beurteilung wurden gleichzeitig angezeigt (programmiert), d. h. richtig beantwortete Aufgaben vor grünem Hintergrund, falsch beantwortete Aufgaben vor rotem Hintergrund. Synchron damit wurden Aussagen dargeboten, die ein hohes bzw. niedriges aFSK repräsentieren. Das bedeutet, bei hoher (niedriger) Fachleistung wurde ein hohes (niedriges) aFSK in einer Aussage von Lernenden angezeigt, weil in einer realen Unterrichtssituation hohe Fachleistung mit einem hohen aFSK einhergehen können (z. B. O’Mara et al., 2006; Skinner, Wellborn & Connell, 1990). Diese Synchronisationen dienten der Kontrolle der möglichen Störvariable Fachleistung. Statistische Beziehungen zwischen den Störvariablen und den AV wurden in der Auswertung geprüft. Erkennen Lehramtsstudierende das akademische Selbstkonzept von Kindern? 281 Positiv formulierte Aussagen repräsentierten somit ein hohes aFSK. Negativ formulierte Aussagen drückten ein niedriges aFSK aus. In jeder Sequenz zeigten zwei Mädchen und zwei Jungen ein hohes aFSK (Anzeige von 80 % positiv und 20 % negativ formulierten Aussagen). Weitere zwei Mädchen und zwei Jungen äußerten ein niedriges aFSK (80 % Anzeige von negativ und 20 % positiv formulierten Aussagen). Nach der Unterrichtssequenz mit der Dauer von 17 Minuten hatte die Vp das aFSK der einzelnen Schülerinnen und Schüler einzuschätzen. Dazu gab die Vp mit einem Regler auf einer Skala zwischen 0 (niedrig) und 100 (hoch) ihre Beurteilung (z. B. 73) des aFSK je Schülerin oder Schüler ein. In die Auswertung gehen diese Einschätzungen zwischen 0 und 100 % (z. B. 22 %, 17 %, 73 %, 69 %) als Werte einer Ordinalskala ein. Je höher ein eingeschätzter Wert (z. B. 73 %), desto höher wurde das aFSK einer Schülerin eingeschätzt. Je niedriger ein eingeschätzter Wert (z. B. 17 %), desto niedriger schätzte eine Vp das aFSK eines Schülers ein. Unabhängige Variablen waren die Anzahl der Aufrufe einzelner Schülerinnen oder Schüler durch eine Vp (UV: Aufrufe), die Zeit (Prä-/ Posttest, UV: Zeit) und die Gruppenzugehörigkeit (UV: EG versus WKG). Abhängige Variablen waren die Einschätzung des Niveaus, der Differenzierung und des Ranges der aFSK als Maße für die Beurteilungsgenauigkeit (AV1: Niveau-, AV2: Differenzierungs-, AV3: Rangkomponente). Auswertung Den N = 56 Vpn wurden durch das Computerprogramm jeweils acht virtuelle Schülerinnen und Schüler randomisiert zugeordnet, sodass diese für die Auswertung als statistisch voneinander unabhängige Personen gelten. Für die Bewertung der Beurteilungsgenauigkeit (z. B. Südkamp et al., 2008) in Bezug auf das aFSK wurden die Niveau-, Differenzierungs- und Rangkomponente (z. B. Schrader & Helmke, 1987) berechnet. Zur Prüfung der Beurteilungsgenauigkeit anhand der Rangkomponente (RK) wurden mit den Werten der acht Schülerinnen und Schüler Rangkorrelationen (r sB ) für singuläre Daten mit Rangbindungen (z. B. Eid et al., 2010) zwischen den eingeschätzten aFSK und den durch das Programm angezeigten aFSK berechnet. Diese Berechnung der Zusammenhänge zwischen den eingeschätzten und den angezeigten aFSK der acht Schülerinnen und Schüler erfolgte für jede Vp. Zur Ermittlung des Durchschnitts dieser Rangkorrelationen (r sB ) wurden die Korrelationskoeffizienten in Z-Werte nach Fisher transformiert (z. B. Eid et al., 2010). Der Mittelwert dieser Z-Werte, nach Fisher rücktransformiert, repräsentiert in der vorliegenden Studie die Rangkomponente. Ergebnisse Die Beurteilungsgenauigkeit jeder Vp in Bezug auf das aFSK der virtuellen Schülerinnen und Schüler wurde mit dem von den virtuellen Schülerinnen und Schülern gezeigten aFSK verglichen. Da die programmierten Werte bei jeweils zwei Mädchen und zwei Jungen gleich hoch bzw. niedrig programmiert waren, sind deren Werte in der Tabelle 1 zu zwei Analyseeinheiten (Codierung hohes bzw. niedriges aFSK; vgl. Fiedler et al., 2002) zusammengefasst. Die Hypothese war: Die Beurteilungsgenauigkeit (Niveau-, Differenzierungs- und Rangkomponente) von Lehramtsstudierenden in Bezug auf das aFSK ist nach Besuch der Lehrveranstaltung (90-minütiges Seminar, vgl. Lehreinheit oben) in der EG statistisch bedeutsam höher als vorher. Angenommen wurde ferner, dass sich dieser Prä-/ Post-Effekt in der WKG nicht zeigt. Während der 17 Minuten einer Sequenz hat eine Vp durchschnittlich vier Aufrufe je Minute vollzogen (s. Tab. 1). Im Prä- und Posttest war die Anzahl der Aufrufe je Schülerin oder Schüler zwischen der EG und der WKG vergleichbar (F(1, 54) = 1.16, p > .05). Eine Berechnung der Produkt-Moment- Korrelation zwischen den Aufrufen jeder Vp und den diagnostizierten Niveaus des aFSK ergab keinen statistisch signifikanten Zusammenhang (Prätest: r = .06, p > .05, Posttest: r = .15, p > .05). Zur Feststellung, inwiefern richtige Schülerantworten (Fachleistung) mit den diagnostizierten aFSK zusammenhängen, wurden Rangkorrelationen berechnet. Die Rangkorrelationen (r sB ) für singuläre Daten mit Rangbindungen (z. B. Eid et al., 2010) zwischen der Anzahl der angezeigten 20 % (z. B. erster Schüler 21, erste Schülerin 19) und 80 % (z. B. vierter Schüler 79, vierte Schülerin 81) richtigen Schülerantworten mit den diagnostizierten aFSK (Prätest: r sB = .03, p > .10, Posttest: r sB = .11, p > .10) waren statistisch nicht signifikant. 282 Anett Wolgast, Joachim Stiensmeier-Pelster, Jens Möller, Johanna Kaiser, Claudia von Aufschnaiter Lehramtsstudierende EG-Prätest (n = 28) EG-Posttest (n = 28) WKG-Prätest (n = 28) WKG-Posttest (n = 28) M SD Min/ Max M SD Min/ Max M SD Min/ Max M SD Min/ Max Anzahl der Aufrufe je Schulkind 8.83 3.31 2.25/ 18.00 9.03 3.24 4.25/ 19.00 7.38 2.89 3.45/ 13.88 8.54 3.96 0.08/ 21.05 NK, niedriges aFSK 1 .19 .17 -0.07/ 0.63 .10 .15 -0.15/ 0.31 .20 .13 -0.08/ 0.50 .16 .16 -0.11/ 0.45 F(1, 27) = 5.05; p < .05; η p 2 = .16; d = 0.56 F(1, 27) = 1.39; p > .10; η p 2 = .05; d = 0.27 NK, hohes aFSK 1 -.04 .13 -0.47/ 0.15 .02 .15 -0.33/ 0.29 -.05 .14 -0.48/ 0.20 -.02 .17 -0.45/ 0.20 F(1, 27) = 2.56; p > .10; η p 2 = .09; d = 0.42 F(1, 27) = 1.04; p > .10; η p 2 = .04; d = 0.19 DK .60 .31 0.13/ 1.33 .51 .25 0.07/ 1.06 .64 .25 0.33/ 1.24 .62 .25 0.32/ 1.12 F(1, 27) = 2.17; p > .10; η p 2 = .07; d = 0.32 F(1, 27) = 0.09; p > .10; η p 2 = .003; d = 0.08 Fishers-Z-Werte 2 .92 .57 -1.42/ 1.40 1.19 .67 0.00/ 3.80 .92 .58 -1.44/ 1.44 1.09 .78 -1.15/ 3.08 F(1, 27) = 3.67; p < .10; η p 2 = .12; d = 0.43 F(1, 27) = 0.98; p > .10; η p 2 = .04; d = 0.25 Rangkomponente .73 - .83 - .73 - .80 - Beurteilungssicherheit 4.26 0.99 2.38/ 6.00 4.86 0.93 2.00/ 6.00 4.18 0.73 2.75/ 5.13 4.22 1.20 1.13/ 6.00 F(1, 27) = 5.96; p < .05; η p 2 = .18; d = 0.63 F(1, 27) = 0.03; p > .10; η p 2 = .001; d = 0.04 Tab. 1: Beurteilungsgenauigkeit von Lehramtsstudierenden in Bezug auf das aFSK bei Lernenden Anmerkungen: 1 akademisches Fähigkeitsselbstkonzept, 2 Rangkorrelationen in Fisher-Z-Werte transformiert; ANOVA mit Messwiederholung: Beurteilungsgenauigkeit bei der Niveaukomponente NK = 0, der Differenzierungskomponente DK = 1 und der Rangkomponente RK = 1 (Mittelwert der Fisher-Z-Werte rücktransformiert). d = Cohens d. Erkennen Lehramtsstudierende das akademische Selbstkonzept von Kindern? 283 Die Niveaukomponente wurde jeweils für das niedrige und für das hohe angezeigte aFSK berechnet (vgl. Tab. 1). Die für das niedrige Niveau des aFSK im Prätest und im Posttest errechneten Niveaukomponenten unterscheiden sich signifikant von dem Wert Null (Prätest: t(55) = 9.61, p < .001, Cohens d = 1.30; Posttest: t(55) = 6.01, p < .001, Cohens d = 0.84). Die EG überschätzte das aFSK derjenigen Schülerinnen und Schüler, die ein niedriges aFSK zeigten. Diese Überschätzung war im Posttest (M NK = 0.10, SD NK = 0.15) signifikant geringer ausgeprägt als im Prätest (M NK = 0.19, SD NK = 0.17), F(1, 27) = 5.05; p < .05; η p 2 = .16; Cohens d = 0.56). Auch die Vpn der WKG überschätzten das aFSK derjenigen Schülerinnen und Schüler, für die ein niedriges aFSK angezeigt wurde. Das Ausmaß der Überschätzung unterschied sich nicht zwischen Posttest (M NK =0.16, SD NK =0.16) und Prätest(M NK =0.20, SD NK = 0.13); F(1, 27) = 1.39; p > .05; η p 2 = .05; Cohens d = 0.27. Die Einschätzungen der Vpn ergaben somit für das niedrige Niveau des aFSK eine Niveaukomponente über Null (s. Tab. 1). Die für das hohe Niveau des aFSK in der EG errechnete Niveaukomponente liegt im Posttest nahe Null. Vpn der EG schätzten hohe Niveaus des aFSK im Posttest exakt ein (M NK = 0.02, SD NK = 0.15), jedoch ohne signifikanten Unterschied gegenüber dem Prätest (M NK = -0.04, SD NK = 0.13), F(1, 27) = 2.56, p > .05; η p 2 = .09; Cohens d = 0.43. Gleichermaßen statistisch unbedeutsam sind auch die Unterschiede in der Niveaukomponente zwischen Posttest (M NK = -0.02, SD NK = 0.17) und Prätest (M NK = -0.05, SD NK = 0.14) bei den Vpn der WKG, F(1, 27) = 1.04, p > .05; η p 2 = .04; Cohens d = 0.19. Die Streuungen des aFSK wurden durch die Vpn unterschätzt: Die Differenzierungskomponenten für beide Gruppen unterscheiden sich statistisch bedeutsam von dem Wert 1, das gilt für den Posttest, t(55) = -12.92, p < .001, Cohens d = 1.74, und für den Prätest, t(55) = -10.26, p < .001, Cohens d = 1.36. Die Differenzierungskomponenten unterscheiden sich zwischen Post- und Prätest weder in der EG noch in der WKG (s. Tab. 1). Auch waren die Differenzierungskomponenten im Posttest zwischen den Gruppen vergleichbar, EG: M DK = 0.51, SD DK = 0.25, WKG: M DK = 0.61, SD DK = 0.25; F(1, 54) = 0.57; p > .05; η p 2 = .01; Cohens d = 0.40. Für die Ermittlung der Rangkomponenten aus den Rangkorrelationen für singuläre Daten mit Rangbindungen wurden zunächst Fisher- Z-Werte berechnet. Ein gerichteter einseitiger Test der Fisher- Z-Werte deckte einen praktisch relevanten Unterschied zwischen Post- und Prätest in der Experimentalgruppe auf, F(1, 27) = 3.67, p < .07, η p 2 = .12; Cohens d = 0.43. In der WKG unterschieden sich die Werte nicht signifikant zwischen Post- und Prätest, F(1, 27) = 0.98; p > .10; η p 2 = .04; Cohens d = 0.25. Das arithmetische Mittel der Fisher-Z-Werte je Gruppe und Messzeitpunkt wurde rücktransformiert und repräsentiert die Rangkomponente, die in Tabelle 1 enthalten ist. Als Indikatoren für Lernvoraussetzungen jeder Vp dienten ihre Abiturnoten und diese unterschieden sich nicht statistisch bedeutsam zwischen den Gruppen (F(1, 55) = .77, p > .10). Im Prätest korrelierten die Abiturnoten auch nicht statistisch bedeutsam mit den diagnostizierten Niveaus des aFSK (jeweils z-standardisiert, Produkt-Moment-Korrelation: r = .10, p > .10). Eine Produkt-Moment-Korrelation der Fisher-Z-transformierten Werte und der Abiturnote ergibt einen niedrigen statistisch nicht bedeutsamen Zusammenhang (r = -.14, p > .10; N = 56). Diskussion In einem Zwei-Gruppen-Prä-Posttest-Design wurde untersucht, ob Lehramtsstudierende nach einer Seminarsitzung das aFSK von Schülerinnen und Schülern genauer beurteilen als vor der Sitzung und genauer als eine Wartekontrollgruppe ohne diese Lerngelegenheit. Für reale Schülerinnen und Schüler und ihre Zukunft ist von hoher Bedeutung, dass Lehrpersonen das aFSK in Aussagen Lernender erkennen. Mehrfach replizierte Forschungsergebnisse weisen darauf hin, dass ein niedriges aFSK von 284 Anett Wolgast, Joachim Stiensmeier-Pelster, Jens Möller, Johanna Kaiser, Claudia von Aufschnaiter Schülerinnen und Schülern spätere niedrige Schulleistungen vorhersagt (z. B. Parker et al., 2013). Ausgangspunkt war das Linsenmodell (Brunswik, 1947; Förster & Böhmer, 2017), wonach kompetente Diagnosen durch die Wahrnehmung und Verarbeitung verschiedener Faktoren zustande kommen (Schrader, 2017). Das aFSK von Lernenden wird im Gegensatz zu Fachleistungen in Unterrichtssituationen selten formal oder systematisch erfasst, sodass die Relevanz des aFSK, die Verfügbarkeit von Informationen über das aFSK der Lernenden, das Entdecken und die Nutzung dieser Informationen maßgebliche Schritte zu realistisch akkuraten Urteilen sind (in Anlehnung an Funder, 1995). Für die Untersuchung der Beurteilungsgenauigkeit in Bezug auf das aFSK kam der Simulierte Klassenraum (Südkamp et al., 2008) zum Einsatz, ein Computerprogramm, das eine Unterrichtssituation mit einer realen Person in der Rolle einer Lehrperson und programmierten Schülerinnen und Schülern simuliert. Dabei ging es darum, ob Lehramtsstudierende bereits nach einer kleinsten Lehreinheit (innerhalb einer Seminarsitzung) das Niveau, die Streuung und den Rang der aFSK von virtuellen Schülerinnen und Schülern zutreffender einschätzen als vorher und im Vergleich mit einer Wartekontrollgruppe. In die Auswertungen ist das von den Lehramtsstudierenden auf einer Ordinalskala von 0 bis 100 eingeschätzte aFSK der virtuellen Schülerinnen und Schüler eingegangen. Die berechneten Niveau-, Differenzierungs-, und Rangkomponenten (z. B. Schrader & Helmke, 1987) zeigen, dass die Lehramtsstudierenden während einer simulierten Unterrichtssituation in der Lage waren, zwischen einem niedrigen und einem hohen aFSK in Aussagen von virtuellen Schülerinnen und Schülern zu unterscheiden. Allerdings überschätzten die Lehramtsstudierenden niedrige Niveaus und unterschätzten hohe Niveaus des aFSK, wie in unseren theoretischen Überlegungen beschrieben. Mit der Überschätzung niedriger Niveaus und der Unterschätzung der Streuung des aFSK zeigten die Studierenden eine Tendenz zur Mitte, die bekannt ist aus Studien zur Beurteilungsgenauigkeit der Leistung virtuell simulierter Lernender (Fiedler et al., 2002; Südkamp et al., 2008). Die Lehramtsstudierenden schätzten das aFSK nach der Experimentalbedingung exakter ein als im Prätest und exakter als die WKG. Insbesondere an den statistisch bedeutsamen und praktisch relevanten Prä-Posttest-Unterschieden der niedrigen Niveaukomponenten und Rangzuordnungen wird deutlich, dass Studierende des Lehramts nach nur einer thematisch einschlägigen Seminarsitzung das aFSK deutlich akkurater diagnostizieren können als vor der Sitzung und als Studierende ohne diese Lerngelegenheit. Nach Cohen (1988) gilt eine Rangkorrelation ab r sB = .30 als ein moderater Effekt und ab r sB = .50 als ein starker Effekt. Demnach handelt es sich bei den Rangkorrelationen aus beiden Messzeitpunkten um einen starken Effekt. Diese starken Effekte stehen im Einklang mit der berichteten Beurteilungsgenauigkeit in Bezug auf Fachleistungen Lernender aus anderen Studien, die auch anhand von Rangkorrelationen geprüft wurde (z. B. r s = .66, Südkamp et al., 2012). Die starken Effekte führen wir darauf zurück, dass die Lehramtsstudierenden mit dem Konstrukt aFSK bereits rudimentär vertraut waren, da dieses in Vorlesungen zur Pädagogischen Psychologie in unterschiedlichen Kontexten erwähnt wird (u. a. im Kontext des selbstregulierten Lernens, im Kontext von Erwartungs-/ Werttheorien). Aus anderen Studien (z. B. Praetorius et al., 2015, S. 5) sind mittlere Rangkorrelationen (.31 ≤ r ≤ .39) für die Einschätzung realer Lernender bekannt. Ein Erklärungsansatz für den Unterschied zwischen diesen Rangkorrelationen (Praetorius et al., 2015) und den Rangkorrelationen der vorliegenden Studie ist die hohe Varianz im Vorwissen über das aFSK, das (angehende) Lehrende bei der Beurteilung realer Lernender vermutlich hinzugezogen haben. Antwortqualität und Fachleistung wurden in dieser Studie als Störgrößen aufgefasst und dadurch kontrolliert, dass sie synchron zu den Schüleraussagen präsentiert wurden. In zukünf- Erkennen Lehramtsstudierende das akademische Selbstkonzept von Kindern? 285 tigen Studien wäre es sinnvoll zu prüfen, ob Schüleraussagen, die Rückschlüsse auf ihr aFSK erlauben, unabhängig von Fachleistungen präsentiert werden können. Ggf. wäre dann auch zu prüfen, ob die Beurteilungsgenauigkeit des aFSK durch asynchrone Niveaus von Fachleistung und Niveaus des aFSK gefördert oder beeinträchtigt wird. Für die Unterrichtspraxis könnte dies relevant sein, da das aFSK von Schülerinnen und Schülern oft nicht realistisch ist und daher aFSK bezogene Aussagen asynchron zur Fachleistung sein können. Der inkrementelle Nutzen der Methode Simulierter Klassenraum liegt darin, dass die Beurteilerin oder der Beurteiler (also beispielsweise eine angehende Lehrperson) mit Schülerinnen und Schülern im Simulierten Klassenraum interagieren kann. Reale Unterrichtssituationen im Video dargeboten erlauben solche Interaktionen nicht. Im Gegensatz zur simulierten Unterrichtssequenz (ohne erlaubte Notizen) im Simulierten Klassenraum kann die schriftliche Darbietung des Schülerverhaltens in einem Transkript oder in einem Fragebogen mehrmals gelesen werden, was mit geringer ökologischer Validität verbunden ist. Eine Unterrichtssequenz von 17 Minuten, in der eine Schülerin oder ein Schüler durchschnittlich 19 mal aufgerufen wird, übersteigt bei weitem die Itemspanne des Arbeitsgedächtnisses (z. B. Berti, 2010). So kann ausgeschlossen werden, dass die Lehramtsstudierenden das in Aussagen von Lernenden dargebotene aFSK für die spätere Beurteilung einfach im Arbeitsgedächtnis gehalten haben. Die Ergebnisse stützen vor allem die Annahme, dass die Lehramtsstudierenden einen Transfer von theoretischen Kenntnissen zu professionellen Reaktionen unter den einfachen Bedingungen einer spezifischen Unterrichtssituation vollzogen haben. Aus den Ergebnissen unserer Studie leiten wir ab, dass sich der Simulierte Klassenraum als Beurteilungsinstrument in Lehramtsstudiengängen auch zur Erfassung der Beurteilungsgenauigkeit in Bezug auf andere Schülermerkmale als fachliche Leistungen eignet. Beispiele für andere Schülermerkmale sind Lern- und Leistungsziele oder Einstellungen zu Lernmaterialien (s. die Beiträge in dieser Ausgabe). Weitere simulierte Unterrichtssequenzen, in denen jeweils andere Schülermerkmale (z. B. Lern- und Leistungsziele) in Aussagen von Schülerinnen und Schülern eingeschätzt werden sollen, ermöglichen einen Abgleich mit Lehrerbildungsstandards zu diagnostischen Kompetenzen von Lehramtsstudierenden (KMK, 2004). Beispielsweise kann das in den Lehrerbildungsstandards (KMK, 2004) geforderte Erkennen der Lernvoraussetzungen von Schülerinnen und Schülern systematisch getestet und trainiert werden. In einer qualitativen Vorstudie ermittelte reale Aussagen von Schülerinnen und Schülern, die auf ihr aFSK schließen lassen und nach einer Validierungsstudie in das Programm integriert werden, würden eine Steigerung der ökologischen Validität im Simulierten Klassenraum ermöglichen. Zu wenig individuelle Rückmeldungen oder unangemessene Reaktionen einer Lehrperson können simuliert werden und vor allem deren negative Wirkung auf das aFSK oder auf motivationale Faktoren von Schülerinnen und Schülern untersucht werden. Simulierte Schülerinnen und Schüler könnten nach einem ungünstigen Feedback durch die Person, die die Rolle einer Lehrperson einnimmt, zunehmend negative Aussagen zeigen, die ein sinkendes aFSK oder sinkende Leistungszielmotivation repräsentieren. So könnten Lehramtsstudierende dafür sensibilisiert werden, welche motivational relevanten Folgen gutes oder auch weniger gutes Feedback gegenüber Schülerinnen und Schülern hat. Bei der Interpretation der vorliegenden Ergebnisse ist zu berücksichtigen, dass es sich um eine kleine Stichprobe Lehramtsstudierender lediglich an einer Universität handelt, sodass eine vergleichbare Untersuchung mit einer größeren Stichprobe an einem anderen Studienstandort für angehende Lehrkräfte zu anderen Ergebnissen führen kann (z. B. Bauer et al., 2010). Wahrnehmung und Urteilsgenauigkeit 286 Anett Wolgast, Joachim Stiensmeier-Pelster, Jens Möller, Johanna Kaiser, Claudia von Aufschnaiter hängen von kognitiven Prozessen ab, die mit bestimmten kognitiven Fähigkeiten in Zusammenhang stehen (z. B. Funder, 1995). Kognitive Fähigkeiten wurden nicht in die Untersuchung einbezogen. Da die Methode des Simulierten Klassenraums hochgradig standardisiert ist, sind methodisch adäquate Replikationen an anderen Standorten realistisch. Auch sind Erweiterungen (u. a. die oben angesprochene asynchrone Darbietung von unterschiedlichen Niveaus der Fachleistungen und des aFSK) leicht realisierbar. In der vorliegenden Studie könnten die Effekte in beiden Gruppen durch andere Lehrveranstaltungen konfundiert sein. Eine systematische Verzerrung der Effekte (zugunsten der EG oder der WKG) ist jedoch auszuschließen, da die Zuweisung der Probanden auf die Gruppen randomisiert war. In der Durchführung handelt es sich um ein testökonomisches Instrument, das mit mobiler Hardware auch einer hohen Anzahl Lehramtsstudierender dargeboten werden kann. In der vorliegenden Studie ist es erstmals gelungen, die Beurteilungsgenauigkeit von Lehramtsstudierenden in Bezug auf das aFSK in Abhängigkeit von einer Seminarsitzung zu prüfen. Somit konnte gezeigt werden, dass die Beurteilungsgenauigkeit sehr ökonomisch nicht nur in Bezug auf Fachleistungen trainiert werden kann, sondern auch in Bezug auf für gelingendes Lernen relevante Motivations- und Persönlichkeitsmerkmale wie das aFSK. Literatur Anders, Y., Kunter, M., Brunner, M., Krauss, S. & Baumert, J. (2010). Diagnostische Fähigkeiten von Mathematiklehrkräften und ihre Auswirkungen auf die Leistungen ihrer Schülerinnen und Schüler. Psychologie in Erziehung und Unterricht, 57, 175 - 193. https: / / dx.doi.org/ 10.2378/ peu2010.art13d Bauer, J., Drechsel, B., Retelsdorf, J., Sporer, T., Rösler, L., Prenzel, M. & Möller, J. (2010). Panel zum Lehramtsstudium - PaLea: Entwicklungsverläufe zukünftiger Lehrkräfte im Kontext der Reform der Lehrerbildung. Beiträge zur Hochschulforschung, 32, 34 - 55. ISSN: 0171-645x Berti, S. (2010). Arbeitsgedächtnis: Vergangenheit, Gegenwart und Zukunft eines theoretischen Konstrukts. Psychologische Rundschau, 61, 3 - 9. https: / / dx.doi.org/ 10. 1026/ 0033-3042/ a000004 Brunswik, E. (1947). Systematic and representative design of psychological experiments. Verfügbar unter https: / / digi talassets.lib.berkeley.edu/ math/ ucb/ text/ math_s1_ article-10.pdf Carr, M. & Kurtz-Costes, B. E. (1991). Teachers’ perceptions of their students’ metacognition, attributions and self-concept. British Journal for Educational Psychology, 61, 197 - 206. https: / / dx.doi.org/ 10.1111/ j.2044-82 79.1991.tb00975.x Champely, S. (2017). pwr: Basic functions for power analysis. R package version 1.2-1. https: / / CRAN.R-project.org/ package=pwr Cohen, J. (1988). Statistical power analysis for the behavioral sciences. Hillsdale, NJ: Lawrence Erlbaum. Eid, M., Gollwitzer, M. & Schmitt, M. (2010). Statistik und Forschungsmethoden. Weinheim: Beltz. Fiedler, K., Walther, E., Freytag, P. & Plessner, H. (2002). Judgment biases in a simulated classroom - A cognitive-environmental approach. Organizational Behavior and Human Decision Processes, 88, 527 - 561. https: / / dx.doi.org/ 10.1006/ obhd.2001.2981 Förster, N. & Böhmer, I. (2017). Das Linsenmodell - Grundlagen und Anwendungen in der pädagogischpsychologischen Diagnostik. In A. Südkamp & A.-K. Praetorius (Hrsg.), Diagnostische Kompetenz von Lehrkräften (S. 46 - 50). Münster: Waxmann. Funder, D. C. (1995). On the accuracy of personality judgment: A realistic approach. Psychological Review, 102, 652 - 670. Green, J., Liem, G. A. D., Martin, A. J., Colmar, S., Marsh, H. W. & McInerney, D. (2012). Academic motivation, self-concept, engagement, and performance in high school: Key processes from a longitudinal perspective. Journal of Adolescence, 35, 1111 - 1122. https: / / dx.doi. org/ 10.1016/ j.adolescence.2012.02.016 Henss, R. (1998). Gesicht und Persönlichkeitseindruck (Schriftenreihe Lehr- und Forschungstexte Psychologie, Bd. 7). Göttingen: Hogrefe. Herfordt-Stöpel, J. E. & Hörstermann, T. (2012). The influence of accountability on teachers’ decision making in a simulated classroom. International Journal for Cross- Disciplinary Subjects in Education, 2, 985 - 992. https: / / dx.doi.org/ 10.20533/ ijcdse.2042.6364.2012.0140 Hesse, I. & Latzko, B. (2011). Diagnostik für Lehrkräfte. Regensburg: UTB. Hornerya, S., Seaton, M., Traceya, D., Craven, R. G. & Yeung, A.S. (2014). Enhancing reading skills and reading self-concept of children with reading difficulties: Adopting a dual approach intervention. Australian Journal of Educational & Developmental Psychology, 14, 131 - 143. Verfügbar unter https: / / www.newcastle.edu. au/ __data/ assets/ pdf_file/ 0004/ 139081/ self-6-horneryet-al-2014.pdf Kaiser, J., Möller, J., Helm, F. & Kunter, M. (2015). Das Schülerinventar: Welche Schülermerkmale die Leistungsurteile von Lehrkräften beeinflussen. Zeitschrift für Erziehungswissenschaft, 18, 1 - 24. https: / / dx.doi. org/ 10.1007/ s11618-015-0619-5 Karing, C., Dörfler, T. & Artelt, C. (2013). How accurate are teacher and parent judgments of lower secondary school children’s test anxiety? Educational Psychology, 35, 909 - 925. https: / / dx.doi.org/ 10.1080/ 01443410. 2013.814200 KMK (2014). Standards für die Lehrerbildung: Bildungswissenschaften. Beschluss der Kultusministerkonferenz vom 16. 12. 2004 i. d. F. vom 12. 6. 2014, Anlage IV. Berlin: Erkennen Lehramtsstudierende das akademische Selbstkonzept von Kindern? 287 Sekretariat der ständigen Konferenz der Kultusminister der Länder in der Bundesrepublik Deutschland. Verfügbar unter https: / / www.kmk.org/ themen/ allge meinbildende-schulen/ lehrkraefte/ lehrerbildung.html Kunter, M., Klusmann, U., Baumert, J., Richter, D., Voss, T. & Hachfeld, A. (2013). Professional competence of teachers: Effects on instructional quality and student development. Journal of Educational Psychology, 105, 805 - 820. https: / / dx.doi.org/ 10.1037/ a0032583 Marsh, H. W. & Martin, A. J. (2011). Academic self-concept and academic achievement: Relations and causal ordering. British Journal of Educational Psychology, 81, 59 - 77. https: / / dx.doi.org/ 10.1348/ 000709910X50 3501 McPherson, R., Tyler-Wood, T. L., Ellison, A. & Peak, P. (2011). Using a computerized classroom simulation to prepare pre-service teachers. Journal of Technology and Teacher Education, 18, 345 - 368. Verfügbar unter https: / / www.editlib.org/ p/ 31438 Möller, J. & Trautwein, U. (2015). Selbstkonzept. In E. Wild & J. Möller (Hrsg.), Pädagogische Psychologie (S. 178 - 199). Heidelberg: Springer. O’Mara, A. J., Marsh, H. W., Craven, R. G. & Debus, R. (2006). Do self-concept interventions make a difference? A synergistic blend of construct validation and meta-analysis. Educational Psychologist, 41, 181 - 206. https: / / dx.doi.org/ 10.1207/ s15326985ep4103_4 Parker, P. D., Marsh, H. W., Ciarrochi, J., Marshall, S. & Abduljabbar, A. S. (2013). Juxtaposing math self-efficacy and self-concept as predictors of long-term achievement outcomes. Educational Psychology, 34, 29 - 48. https: / / dx.doi.org/ 10.1080/ 01443410.2013.797339 Praetorius, A.-K., Drexler, K., Rösch, L., Christophel, E., Heyne, N., Scheunpflug, A., … Dresel, M. (2015). Judging students’ self-concepts within 30 seconds? An application of the zero-acquaintance approach to research on teachers’ judgment accuracy. Learning and Individual Differences, 37, 231 - 236. https: / / dx.doi. org/ 10.1016/ j.lindif.2014.11.015 Rakoczy, K., Harks, B., Klieme, E., Blum, W. & Hochweber, J. (2013). Written feedback in mathematics: Mediated by students’ perception, moderated by goal orientation. Learning and Instruction, 27, 63 - 73. https: / / dx. doi.org/ 10.1016/ j.learninstruc.2013.03.002 Schöne, C., Dickhäuser, O., Spinath, B. & Stiensmeier- Pelster J. (2012). SESSKO: Skalen zur Erfassung des schulischen Selbstkonzepts. Göttingen: Hogrefe. Schöne, C. & Stiensmeier-Pelster, J. (2011). Fähigkeitsselbstkonzept in der Grundschule: Struktur, Erfassung und Determinanten. In F. Hellmich (Hrsg.), Selbstkonzepte im Grundschulalter - Modelle, empirische Ergebnisse, pädagogische Konsequenzen. Stuttgart: Kohlhammer. Schrader, F.-W. (2017). Diagnostische Kompetenz von Lehrkräften. In A. Südkamp & A.-K. Praetorius (Hrsg.), Diagnostische Kompetenz von Lehrkräften (S. 247 - 256). Münster: Waxmann. Schrader, F.-W. & Helmke, A. (1987). Diagnostische Kompetenz von Lehrern: Komponenten und Wirkungen. Empirische Pädagogik, 1, 27 - 52. Skinner, E., Wellborn, J. G. & Connell, J. P. (1990). What it takes to do well in school and whether I’ve got it: A process model of perceived control and children’s engagement and achievement in school. Journal of Educational Psychology, 82, 22 - 32. https: / / dx.doi.org/ 10. 1037/ / 0022-0663.82.1.22 Stiensmeier-Pelster, J. & Schöne, C. (2008) Fähigkeitsselbstkonzept. In W. Schneider & M. Hasselhorn (Hrsg.), Handbuch der Pädagogischen Psychologie (S. 62 - 83) Göttingen: Hogrefe. Südkamp, A., Kaiser, J. & Möller, J. (2012). Accuracy of teachers’ judgements of students’ academic achievement: A meta-analysis. Journal of Educational Psychology, 104, 743 - 762. https: / / dx.doi.org/ 10.1037/ a0027627 Südkamp, A., Möller, J. & Pohlmann, B. (2008). Der Simulierte Klassenraum: Eine experimentelle Untersuchung zur diagnostischen Kompetenz. Zeitschrift für Pädagogische Psychologie, 22, 261-276. https: / / dx.doi.org/ 10.1024/ 1010-0652.22.34.261 Vollmer, S., Spada, H., Caspar, F. & Burri, S. (2013). Expertise in clinical psychology. The effects of university training and practical experience on expertise in clinical psychology. Frontiers in Psychology, 4, 1 - 12. https: / / dx.doi.org/ 10.3389/ fpsyg.2013.00141 Prof. Dr. Anett Wolgast Martin-Luther-Universität Halle-Wittenberg Pädagogische Psychologie Franckeplatz 1 06110 Halle (Saale) E-Mail: anett.wolgast@paedagogik.uni-halle.de Prof. Dr. Joachim Stiensmeier-Pelster Justus-Liebig-Universität Gießen Pädagogische Psychologie Otto-Behaghel-Str. 10 F 35394 Gießen E-Mail: Joachim.Stiensmeier-Pelster@ psychol.uni-giessen.de Prof. Dr. Jens Möller 2 Dr. Johanna Kaiser Christian-Albrechts-Universität zu Kiel Pädagogische Psychologie Olshausenstraße 75 24118 Kiel E-Mail: jmoeller@psychologie.uni-kiel.de Prof. Dr. Claudia von Aufschnaiter Justus-Liebig-Universität Gießen Institut für Didaktik der Physik Karl-Glöckner-Str. 21 C 35394 Gießen E-Mail: Claudia.von-Aufschnaiter@ didaktik.physik.uni-giessen.de 2 Jens Möller arbeitet nun am Institut für Pädagogisch- Psychologische Lehr- und Lernforschung an der Christian-Albrechts-Universität zu Kiel.
