Psychologie in Erziehung und Unterricht
3
0342-183X
Ernst Reinhardt Verlag, GmbH & Co. KG München
41
2023
702
Empirische Arbeit: Inkompetent, ohne es zu merken?
41
2023
Benedikt Wisniewski
Jonas Tögel
Klaus Zierer
Diese Studie vergleicht die Selbsteinschätzung Lehramtsstudierender bezüglich ihrer Kenntnisse in der Schulpädagogik mit der tatsächlich erzielten Leistung in einer Klausur. Die Ergebnisse bestätigen grundsätzlich den für zahlreiche andere Leistungsbereiche bereits nachgewiesenen Dunning-Kruger-Effekt, weisen aber auch auf eine Regression zur Mitte bei der Selbsteinschätzung hin. Lehramtsstudierende schätzen ihre Kenntnisse in der Schulpädagogik zwar insgesamt relativ genau ein, jedoch überschätzen sich Studierende, die in der Klausur schlecht abschneiden, deutlich, während Studierende im obersten Leistungsspektrum sich deutlich unterschätzen. Die Tendenz und Genauigkeit der Selbsteinschätzung sind abhängig vom Geschlecht, wobei weibliche Personen sich tendenziell genauer und ungünstiger einschätzen. Es konnte nachgewiesen werden, dass die Zeit, die Lehramtsstudierende aufwenden, um sich auf die Prüfung vorzubereiten, mit der Genauigkeit der Vorhersage der Note zusammenhängt. Aufbauend auf den Befunden wird diskutiert, unter welchen Bedingungen fehlerhafte Selbsteinschätzungen durch Feedback korrigiert werden können. Die vorliegende Studie liefert Ergebnisse bezüglich der differenziellen Selbsteinschätzungsfähigkeit Studierender der Lehrämter und begründet damit die Notwendigkeit adaptiven Feedbacks.
3_070_2023_002_0079
n Empirische Arbeit Psychologie in Erziehung und Unterricht, 2023, 70, 79 -92 DOI 10.2378/ peu2023.art09d © Ernst Reinhardt Verlag Inkompetent, ohne es zu merken? Tendenzen der Selbsteinschätzung am Beispiel von Lehramtsstudierenden Benedikt Wisniewski 1 , Jonas Tögel 2 , Klaus Zierer 3 1 Staatliche Schulberatungsstelle für die Oberpfalz 2 Universität Regensburg 3 Universität Augsburg Zusammenfassung: Diese Studie vergleicht die Selbsteinschätzung Lehramtsstudierender bezüglich ihrer Kenntnisse in der Schulpädagogik mit der tatsächlich erzielten Leistung in einer Klausur. Die Ergebnisse bestätigen grundsätzlich den für zahlreiche andere Leistungsbereiche bereits nachgewiesenen Dunning-Kruger-Effekt, weisen aber auch auf eine Regression zur Mitte bei der Selbsteinschätzung hin. Lehramtsstudierende schätzen ihre Kenntnisse in der Schulpädagogik zwar insgesamt relativ genau ein, jedoch überschätzen sich Studierende, die in der Klausur schlecht abschneiden, deutlich, während Studierende im obersten Leistungsspektrum sich deutlich unterschätzen. Die Tendenz und Genauigkeit der Selbsteinschätzung sind abhängig vom Geschlecht, wobei weibliche Personen sich tendenziell genauer und ungünstiger einschätzen. Es konnte nachgewiesen werden, dass die Zeit, die Lehramtsstudierende aufwenden, um sich auf die Prüfung vorzubereiten, mit der Genauigkeit der Vorhersage der Note zusammenhängt. Aufbauend auf den Befunden wird diskutiert, unter welchen Bedingungen fehlerhafte Selbsteinschätzungen durch Feedback korrigiert werden können. Die vorliegende Studie liefert Ergebnisse bezüglich der differenziellen Selbsteinschätzungsfähigkeit Studierender der Lehrämter und begründet damit die Notwendigkeit adaptiven Feedbacks. Schlüsselbegriffe: Dunning-Kruger-Effekt, Lehramtsstudierende, Selbsteinschätzungsfähigkeit, Note, Schulpädagogik Incompetent without realizing it? Self-assessment trends among students for the teaching profession Summary: This study compares the self-assessment of students in university courses for the teaching profession regarding their knowledge of school pedagogy with their actual performance in a written exam. The results basically confirm the Dunning-Kruger effect, which has already been replicated for numerous other performance areas, but also point to a regression to the middle for the selfassessment. Overall, students assessed their knowledge of school pedagogy relatively accurately, but those who did poorly in the exam clearly overestimated themselves, while students in the uppermost performance spectrum clearly underestimated themselves. The tendency and accuracy of the self-assessment depend on gender, with female students tending to assess themselves more accurately and less favorably. It could be shown that students’ test preparation time was systematically related to the prediction of their grade. Based on our findings, we discuss under which conditions erroneous self-assessments can be corrected by feedback. The present study provides results regarding the differential self-assessment ability of students of the teaching professions and thus justifies the need for adaptive feedback. Keywords: Dunning-Kruger effect, students for the teaching profession, self-assessment ability, grade, school education 80 Benedikt Wisniewski, Jonas Tögel, Klaus Zierer Die Selbstwahrnehmung von Fähigkeiten stimmt nicht immer mit der Realität überein. Eine günstige Selbsteinschätzung kann günstige Auswirkungen haben (vgl. Fox, Ridgewell & Ashwin, 2009; Mosing, Zietsch, Shekar, Wright & Martin, 2009) und sich leistungsförderlich - und zwar unabhängig von den tatsächlichen Fähigkeiten - auswirken (Bandura, 1977; Bandura, 1997; Röder, 2009). Optimistische Selbstwirksamkeitserwartungen beeinflussen das Lernverhalten, die Wahl der Aufgabenschwierigkeit sowie das Verhalten bei Misserfolg und führen so zu einer allgemein höheren Leistungsfähigkeit (Scheier & Carver 1987; Schwarzer & Jerusalem, 2010). Insofern stellen Selbsteinschätzungen ein wichtiges Feld der Lehrerbildungsforschung dar. Selbsteinschätzungen in der Lehrerbildungsforschung Die Lehrerbildungsforschung verwendet Selbsteinschätzungen mit unterschiedlichen Intentionen. So werden beispielsweise Stärken und Schwächen bezüglich berufsrelevanter Dimensionen wie Selbstständigkeit, Kooperationsfähigkeit, Konfliktfähigkeit oder situationsgerechtem Auftreten als Prädiktoren für die berufliche Eignung erfasst (Bodensohn, Schneider & Jäger, 2006) oder die Wirksamkeit der Lehrerbildung auf die Entwicklung von selbsteingeschätzten Kompetenzen überprüft (Oser & Oelkers, 2001; Gehrmann, 2007). Dabei merkt Cramer (2010) jedoch an, dass Selbsteinschätzungen „nicht als vermeintlicher Indikator ‚realer Kompetenzen‘ missverstanden oder fehlinterpretiert werden [sollten], denn sie sind weder gemessene noch beobachtbare Performanz“ (S. 94). Zudem liefern sie keine objektiven, validen und reliablen Aussagen in Bezug auf das eingeschätzte Merkmal (Oser et al., 2007). Die Ungenauigkeit von Selbsteinschätzungen zeigt sich auch darin, dass Zusammenhänge zwischen selbsteingeschätzten Merkmalen des eigenen Unterrichts mit den Perspektiven von Beobachtenden deutlich niedriger ausfallen als Zusammenhänge zwischen den Einschätzungen verschiedener Gruppen von Beobachtenden (Thiel, Ophardt & Piwowar, 2013). Innerhalb der Stichprobe Studierender der Lehrämter lässt sich nachweisen, dass Selbstbeurteilungen bezüglich prospektiver, also zukünftiger beruflicher Kompetenzen meist über dem Mittelpunkt einer Skala liegen (Moser, 1999) und damit eine generelle Tendenz zur Überschätzung vorliegt. Berufsanfängerinnen und Berufsanfänger beurteilen sich selbst sogar besser als berufserfahrene Lehrpersonen (Rauin & Meier, 2007; Hartmann & Weiser, 2007). Dies kann darauf hindeuten, dass die entsprechenden Kompetenzanforderungen während des Studiums und am Anfang der beruflichen Laufbahn noch nicht vollständig eingeschätzt werden können und daher eine Überschätzung der eigenen Kompetenz stattfindet. Wie auf diese Art Verzerrungen der Selbsteinschätzung genau zustande kommen können, wird im nächsten Abschnitt thematisiert. Der Dunning-Kruger-Effekt Der Dunning-Kruger-Effekt (DKE) beschreibt das Phänomen, dass inkompetente Personen ihre Inkompetenz nicht erkennen können (Dunning, Johnson, Ehrlinger & Kruger, 2003; Kruger & Dunning, 1999). Dieses Nichterkennen kann weitreichende Auswirkungen haben, da eine der Voraussetzungen für eine freiwillige Veränderung des eigenen Verhaltens darin besteht, die Notwendigkeit von Verbesserungen festzustellen. Kruger und Dunning (1999) untersuchten, wie Probanden verschiedene Fertigkeiten (Humor, logisches Denken, Grammatik-Kenntnisse) einschätzten und verglichen die Selbsteinschätzungen mit ihren tatsächlichen Fähigkeiten in diesen Gebieten. Die Ergebnisse waren für jeden Bereich ähnlich: Ein Teil der Probanden neigte dazu, die eigene Leistungsfähigkeit zu überschätzen. Je niedriger dabei ihre tatsächlichen Fähigkeiten waren, desto schlechter konnten sie sich selbst einschätzen. Kruger und Dunning (1999) konnten empirisch nachweisen, dass Menschen mit „limitiertem Wissen“ eine „doppelte Bürde“ zu tragen haben: sie kommen nicht nur zu falschen Schlussfolgerungen und machen mehr Fehler, sondern ihre Inkompetenz hindert sie Tendenzen der Selbsteinschätzung am Beispiel von Lehramtsstudierenden 81 auch daran, genau das zu erkennen (Kruger & Dunning, 1999). Abbildung 1 zeigt beispielhaft für den Bereich „logisches Denken“ die häufig replizierten charakteristischen Abweichungen (Bell & Volckmann, 2011; Feld, Sauermann & de Grip, 2017; Lindsey & Nagel, 2015; Mahmood, 2017) zwischen tatsächlicher Leistung und Selbsteinschätzung, wenn die Versuchspersonen anhand ihrer tatsächlichen Leistung absteigend in vier Quartile eingeteilt werden. Zwar besteht eine mittelhohe Korrelation (r = .39, p < .001) zwischen Selbsteinschätzung und tatsächlicher Fähigkeit, aber vor allem diejenigen, die besonders schlecht abschnitten, waren sich ihrer Inkompetenz überhaupt nicht bewusst (Kruger & Dunning, 1999). Dies wird deutlich an der starken Diskrepanz zwischen Selbsteinschätzung und tatsächlich erbrachter Leistung für die Versuchspersonen des 4. Quartils. Gleichzeitig lässt sich erkennen, dass diejenigen Probanden, die besonders gute Leistungen zeigten (1. Quartil), dazu neigten, sich zu unterschätzen und sich ihrer guten Leistung im Vergleich zur Peergroup nicht in vollem Umfang bewusst zu sein (Kruger & Dunning, 1999), was jedoch nicht lernhinderlich ist. Erklärungen für den DKE Kruger und Dunning (1999) führen den Effekt darauf zurück, dass die gleichen Fähigkeiten, die nötig sind, um eine Aufgabe zu lösen, auch nötig sind, um zu erkennen, ob die Bearbeitung dieser Aufgabe erfolgreich war. Weil inkompetente Personen kein korrektes Ergebnis produzieren können, können sie auch kein korrektes Ergebnis erkennen. Kruger und Dunning (1999) bezeichnen dies als metakognitives Defizit. Dieses führt dazu, dass sie ihre eigenen Fähigkeiten überschätzen. Kompetente Personen demgegenüber kennen die Komplexität von Aufgaben, was zur Folge hat, dass sie stets unerwartete Fehler in Betracht ziehen. Der Erklärung des DKE wurden verschiedene Alternativen gegenübergestellt: Krueger und Mueller (2002) argumentieren, dass es sich beim beobachtbaren Effekt um Verzerrungen handelt, die als Folge einer Regression zur Mitte bei der Selbsteinschätzung entstehen. Sowohl überdurchschnittlich kompetente wie auch unterdurchschnittlich kompetente Personen tendieren dazu, sich wie durchschnittlich kompetente Personen einzuschätzen. Dies könne auch Perzentil der Selbsteinschätzung 100 90 80 70 60 50 40 30 20 10 0 1 2 3 4 Leistungsquartil tatsächlich Vorhersage Abb. 1: Selbsteinschätzung und tatsächliches Testergebnis für den Bereich „logisches Denken“ (Kruger und Dunning, 1999, S. 1124) 82 Benedikt Wisniewski, Jonas Tögel, Klaus Zierer erklären, warum in Krugers und Dunnings (1999) Versuchen die Personen, die in den jeweiligen Aufgaben am besten abschnitten, ihre Leistung unterschätzten. Feld et al. (2017) erklären einen großen Anteil des beobachteten DKE durch einen Messfehler, der für sich zu einer negativen Korrelation von gemessener Leistung und Überschätzung der Leistung führen kann, auch wenn die Fähigkeiten, die der gemessenen Leistung zugrunde liegen, und die Überschätzung der Leistung unkorreliert sind. Krajcˇ und Ortmann (2008) legen eine weitere alternative Erklärung vor. Sie nehmen an, dass kompetente und inkompetente Personen in etwa die gleichen Fähigkeiten zur Selbsteinschätzung der eigenen Leistung haben, jedoch die Verteilung der tatsächlichen Fähigkeiten innerhalb der typischerweise für die DKE-Versuche verwendeten Versuchspersonen asymmetrisch ist, nämlich viel mehr leistungsschwache als leistungsstarke Personen enthält. Leistungsschwache Personen können sich nicht unterschätzen, sodass die einzigen möglichen Fehler, die auftreten können, in einer positiven Richtung liegen. Leistungsstarke Personen können sich dagegen nicht überschätzen. Schlösser et al. (2009) merken dazu an, dass die von Krajcˇ und Ortmann (2008) postulierte Selektivität in Bezug auf die Versuchspersonen unzutreffend ist und die in den Versuchen zum DKE getesteten Fähigkeiten in den Stichproben als nahezu normalverteilt angenommen werden können. Einflussfaktoren Verschiedene Faktoren beeinflussen die Fehleinschätzung der eigenen Fähigkeiten. Dazu gehören das Geschlecht (Lundeberg et al., 2000), kulturelle Unterschiede (Lundeberg, Fox, Brown & Elbedour, 2000; Yates, Lee & Bush, 1997), die Aufgabenschwierigkeit (Burson, Larrick & Klayman, 2006; Kruger & Dunning, 1999) und die Vorbereitung auf die gestellten Aufgaben (Cohen, 2012; McGregor & Elliot, 2002). Obwohl Männer sich in verschiedenen beruflichen Aufgabenfeldern positiver einschätzen als Frauen (Lindeman, Sundvik & Rouhiainen, 1995), konnten Kruger und Dunning (1999) weder für Aufgaben zum Humor, zum logischen Denken, noch zu grammatischen Fähigkeiten Geschlechterunterschiede bezüglich der Selbsteinschätzung feststellen. Auch Lundeberg et al. (2000) fanden in Bezug auf die Überschätzung der eigenen Fähigkeiten nur niedrige und nicht signifikante Geschlechterunterschiede. Harrington, Peng, Jin und Khan (2018) stellten keine Unterschiede zwischen weiblichen und männlichen Studierenden bezüglich der erzielten Noten in einer Informatikklausur fest, jedoch zeigte sich ein signifikanter Unterschied zwischen den Geschlechtern bei der Vorhersage der Note, wobei sich männliche Probanden deutlich besser einschätzten. Die Zeit, welche Personen aufwenden, um sich für eine Prüfung vorzubereiten, scheint mit der Selbsteinschätzung zu interagieren: Während auf der einen Seite eine zeitlich intensivere Vorbereitung zu einer günstigeren Einschätzung der eigenen Fähigkeiten führt, bedingt eine Überschätzung der eigenen Fähigkeiten andererseits eine „falsche Sicherheit“ und folglich eine Beschränkung der Vorbereitungszeit (Cohen, 2012; McGregor & Elliot, 2002). Indirekt wird der DKE auch in John Hatties Synthese von Meta-Analysen „Visible Learning“ (2008) betrachtet, insbesondere im Faktor „Self-reported grades“. Die von Lernenden vorhergesagten Noten bzw. die Noten, die sie sich selbst geben würden, und die tatsächlichen Noten stimmen mit einer aus sechs Metanalysen gemittelten Korrelation von .55 zu einem hohen Grad überein. Lernende sind also generell in der Lage, ihre tatsächlichen Noten zu benennen, allerdings zeigen die Primärstudien, welche in Hatties Analyse eingingen, auch, dass die Vorhersage umso besser gelingt, je besser ihre Lernleistungen im entsprechenden Fach sind. Tendenzen der Selbsteinschätzung am Beispiel von Lehramtsstudierenden 83 Forschungsfragen und Hypothesen Bisherige Forschungsergebnisse zu Selbsteinschätzungen von angehenden Lehrpersonen zeigen, dass das Wissen von Studierenden der Lehrämter gar nicht bis niedrig mit deren beruflichem Selbstkonzept zusammenhängen (Retelsdorf, Bauer, Gebauer, Kauper & Möller, 2014), dass das Wissen nicht bis niedrig mit der selbsteingeschätzten prospektiven Kompetenz zusammenhängt (König, Kaiser & Felbrich, 2012) und dass die Selbsteinschätzung des eigenen Wissens über unterrichtsrelevante Themen Studierender nur sehr niedrig mit deren tatsächlichem Wissen korreliert (Thiel et al., 2013). Jedoch wurde unserer Kenntnis nach noch nicht untersucht, ob die Zusammenhänge zwischen selbsteingeschätztem und tatsächlichem professionsbezogenen Wissen differenzielle Über- und Unterschätzungsmuster ergeben, welche im Sinne des Dunning-Kruger-Effektes interpretiert werden können. Befunde hierzu liegen im Bereich der Hochschullehre lediglich für andere Fächer vor (Battistelli, Cadamuro, Farneti & Versari, 2009; Karatjas & Webb, 2017). Es ist jedoch aus unserer Sicht entscheidend, ob die Fähigkeit zur genauen Selbsteinschätzung über die gesamte Population der Studierenden der Lehrämter hinweg niedrig ist (vgl. Thiel et al., 2013) oder ob sie innerhalb der Population stark variiert, sich also manche Personen sehr schlecht, andere aber gut oder sogar sehr gut selbst einschätzen können. Die vorliegende Studie setzt an diesem Desiderat an: Sie möchte den Zusammenhang zwischen Selbsteinschätzung und tatsächlicher Leistung in der Schulpädagogik, am Beispiel einer verbindlichen schulpädagogischen Modulklausur für Lehramtsstudierende erfassen. Aufgrund der vorliegenden Forschungsbefunde zur Selbsteinschätzung Studierender allgemein (Dunning et al., 2003; Ehrlinger, Johnson, Banner, Dunning & Kruger, 2008; Ehrlinger & Dunning, 2003; Kruger & Dunning, 1999; Miller & Geraci, 2011) und der Vorhersage von Klausurnoten im Speziellen (Battistelli et al., 2009; Bell & Volckmann, 2011; Hacker, Bol, Horgan & Rakow, 2000; Harrington et al., 2018; Karatjas & Webb, 2017; Kuncel, Credé & Thomas, 2005; Lundeberg, et al., 2000) überprüften wir folgende Forschungshypothesen: H1: Die Vorhersage der Klausurnote durch Studierende und das tatsächliche Ergebnis korrelieren mittelhoch miteinander. H2: Leistungsschwache Studierende überschätzen ihre tatsächlich erreichte Note. H3: Leistungsstarke Studierende sagen ihre Note genauer voraus als leistungsschwache. H4: Weibliche Versuchspersonen sagen ihre Leistung pessimistischer voraus als männliche. H5: Die aufgewendete Vorbereitungszeit hängt systematisch mit der Vorhersage der Leistung zusammen. Methode Stichprobe Die Teilnehmenden waren 432 Studierende der Schulpädagogik (77 % weiblich) an einer deutschen Universität in einem Studiengang für ein Lehramt an öffentlichen Schulen im Primar- und Sekundarbereich. Dieser umfasst ein verbindliches Modul bestehend aus drei Vorlesungen (Theorie der Schule, Theorie der Bildung und Theorie des Unterrichts), abzuschließen mit einer Pflichtklausur. Allen Kandidatinnen und Kandidaten wurde vor der Klausur mitgeteilt, dass sie im Anschluss an einer Studie zur Selbsteinschätzung bezüglich des Klausurergebnisses teilnehmen können. Nach Abschluss der Klausur gaben die Teilnehmenden an der Studie eine Vorhersage ihres erzielten Ergebnisses ab. Dazu beantworteten sie folgende Frage. „Schätzen Sie ein, welche Note Sie auf diese Prüfungsleistung erhalten werden.“ Dabei war die Angabe von Zwischennoten (.30; .50; .70) möglich. Zusätzlich gaben die Studentinnen und Studenten an, wie viele Stunden sie aufgewendet hatten, um sich auf die Klausur vorzubereiten. Alle Teilnehmerinnen und Teilnehmer beantworteten die Frage nach der Vorhersage der Klausurnote und 405 Teil- 84 Benedikt Wisniewski, Jonas Tögel, Klaus Zierer nehmerinnen und Teilnehmer beantworteten die Frage nach der Vorbereitungszeit. Die Teilnahme an der Studie war freiwillig. Für alle Versuchspersonen wurde nach erfolgter Korrektur das Klausurergebnis in Form der erreichten Gesamtpunktzahl sowie als Note (mit Zwischenstufen .30; .50; .70) ermittelt. Erhebungsinstrument Als Erhebungsinstrument zur Bestimmung der Kenntnisse der Teilnehmerinnen und Teilnehmer in der Schulpädagogik wurde eine Klausur verwendet. Diese bestand aus 21 Aufgaben, die die Kompetenzbereiche Reproduktion (8 Aufgaben), Reorganisation (7 Aufgaben) und Transfer/ Problemlösen (6 Aufgaben) umfassten. Diese Aufteilung orientiert sich an den Kompetenzstufen des Deutschen Bildungsrates (Deutscher Bildungsrat, 1974). Inhaltlich deckten die Fragen die Bereiche wichtiger erziehungswissenschaftlicher Grundbegriffe und Theorien, didaktischer Modelle und empirische Befunde zur Wirksamkeit von Unterricht ab. Die erreichbare Maximalpunktzahl lag bei 84. Bis 74 Punkte wurde die Klausur mit der Note 1 benotet, bis 64 Punkte mit der Note 2, bis 52 Punkte mit der Note 3, bis 42 Punkte mit der Note 4 und darunter mit der Note 5. Dieser Notenschlüssel wurde den Teilnehmenden auf dem Aufgabenblatt der Klausur mitgeteilt, um eine Vorhersage der Note zu erleichtern. Cronbach’s Alpha war hoch für die Gesamtklausur ( α = .88) und akzeptabel für die Subskalen. In Tabelle 1 sind die drei in der Klausur geprüften Kompetenzbereiche mit Beispielitems dargestellt. Statistische Analysen Die statistischen Analysen erfolgten mit R-Studio Version 1.0.136 (R Core Team, 2019). Entsprechend vorliegender Studien zum DKE (Dunning et al., 2003; Ehrlinger et al., 2008; Ehrlinger & Dunning, 2003; Kruger & Dunning, 1999), wurden die Versuchspersonen entsprechend ihres erzielten Klausurergebnisses (Gesamtpunktzahl) in Quartile eingeteilt, um zu vergleichen, wie sich kompetentere von weniger kompetenten Personen in Bezug auf ihre Selbsteinschätzung unterscheiden. Es wurde hierfür die erzielte Gesamtpunktzahl (nicht die erzielte Note) verwendet, da so eine genauere Bestimmung der Quartilsgrenzen möglich war. Es wurden zudem Mittelwertunterschiede zwischen männlichen und weiblichen Versuchspersonen geprüft. Darüber hinaus wurde analysiert, ob die aufgewendete Vorbereitungszeit der Studierenden systematisch mit der Selbsteinschätzung zusammenhängt. Für die Anwendung parametrischer Verfahren wie t-Tests zur Prüfung von Mittelwertunterschieden wird vorausgesetzt, dass die Werte intervallskaliert und normalverteilt sind und Homoskedastizität vorliegt. Da die Werte der Variablen „Note“ und „Vorhersage“ nicht normalverteilt (Shapiro-Wilk-Test auf Normalität W = 0.91, p < 0.001 für „Klausurnote“ und W = 0.95, p < 0.001 für „Vorhersage“) und ordinalskaliert (Noten und Vorhersage der Noten) waren, wurde für alle Mittelwertvergleiche der Wilcoxon-Vorzeichen-Rang-Test für abhängige bzw. unabhängige Stichproben (Wilcoxon, 1945) verwendet. Zusammenhänge zwischen ordinalskalierten Variablen (Note, Vorhersage) wurden als Spearmans ρ , Zusammenhänge zwischen intervallskalierten Variablen (erreichte Punkte, Vorbereitungszeit) mir Pearsons r berechnet. Kompetenzbereich α Beispielitems Reproduktion .78 Nennen Sie zwei aktuelle Kennzeichen einer veränderten Kindheit und Jugend. Nennen Sie die Grundfähigkeiten in Bezug auf Bildung nach Klafki. Reorganisation .77 Erläutern Sie zwei oberste Bildungs- und Erziehungsziele und beschreiben Sie jeweils ein Beispiel der Umsetzung in Schule und Unterricht. Erläutern Sie den Unterschied zwischen Integration und Inklusion und nennen Sie je ein Beispiel aus dem schulischen Kontext. Transfer .78 Reflektieren Sie anhand von vier Beispielen, worin Probleme in der Beratungstätigkeit von Lehrkräften liegen. Erklären und reflektieren Sie das Spannungsfeld zwischen einer geisteswissenschaftlichen Pädagogik und einer empirischen Bildungsforschung im Hinblick auf eine Theorie der Schule. Tab. 1: In der Klausur erfasste Kompetenzbereiche Anmerkungen: α : innere Konsistenz als Cronbach’s Alpha Tendenzen der Selbsteinschätzung am Beispiel von Lehramtsstudierenden 85 Ergebnisse In Abbildung 2 ist die Häufigkeit der erzielten Noten in der Klausur dargestellt. Das mittlere Klausurergebnis betrug 2.95 (SD = 1.24). Ein Anteil von 25.7 % der Versuchspersonen sagte sein Ergebnis exakt voraus, weitere 19 % lagen mit ihrer Vorhersage weniger oder gleich 0.5 Notenstufen unter oder über ihrer tatsächlichen Note. 25 % der Studierenden sagten eine bessere und 30 % eine schlechtere Note als die tatsächlich erhaltene voraus. Der mittlere Abweichungsbetrag zwischen Vorhersage und tatsächlicher Note betrug 0.77 für die Gesamtstichprobe. Die Teilnehmerinnen und Teilnehmer überschätzten ihre Kenntnisse insgesamt geringfügig. Abbildung 3 zeigt die Lage- und Streuungsmaße für tatsächliche Note und Vorhersage. Der Mittelwertunterschied zwischen tatsächlicher Note und Vorhersage der Note (M = 2.99; SD = 0.82) war nicht signifikant (V = 24314; z = 0.18; p > .50). Die Vorhersage korrelierte hoch sowohl mit der erzielten Note ( ρ = .60; p < .001) als auch mit der erreichten Gesamtpunktzahl ( ρ = .61; p < .001). Es zeigte sich jedoch kein signifikanter Zusammenhang zwischen Genauigkeit der Vorhersage (Betrag der Abweichung zur erzielten Note) und der Gesamtpunktzahl ( ρ = .04; p = .46). Basierend auf der Zuordnung der Versuchspersonen zu vier Quartilen anhand ihrer erreichten Gesamtpunktzahl konnten Unterschiede der Selbsteinschätzung verschieden kompetenter Personen in Bezug auf Kenntnisse im erfassten Gegenstandsbereich ermittelt werden. Wie in Abbildung 4 dargestellt, unterschätzten Personen der Quartile 1 und 2 ihre Leistung, während es bei Personen der Quartile 3 und 4 zu einer Überschätzung kam. 5 4 3 2 1 Note Vorhersage Abb. 3: Box Plot für erzielte Note und Vorhersage der Gesamtstichprobe 140 120 100 80 60 40 20 0 1 2 3 4 5 Abb. 2: Klausurergebnis 86 Benedikt Wisniewski, Jonas Tögel, Klaus Zierer Die deutlichste Abweichung zwischen Vorhersage und tatsächlicher Leistung liegt bei den Versuchspersonen des Quartils 4 (V = 3792; z = 1.79; p < .001) vor. Ebenfalls signifikante Mittelwertunterschiede zwischen Note und Vorhersage (jedoch im Sinne einer Unterschätzung der Leistung) liegen für die Quartile 1 (V = 29; z = 1.72; p < .001) und 2 (V = 207; z = 1.40; p < .001) vor. Dagegen ist der Mittelwertunterschied zwischen Note und Vorhersage nicht signifikant für das Quartil 3 (V = 1944; z = 0.16; p > .05). Die deskriptiven Statistiken für die vier Leistungsquartile, die dem nichtparametrischen Wilcoxon-Rangvergleich unterzogen wurden, sind in Tabelle 2 dargestellt. Einfluss des Geschlechts Weibliche und männliche Versuchspersonen unterscheiden sich signifikant bezüglich ihrer durchschnittlichen Vorhersage (W = 11388; z = 1.06; p < .001). Weibliche Versuchspersonen erreichten eine höhere Gesamtpunktzahl (M W = 59.31; SD W = 14.78; M M = 49.66; SD M = 15.28; W = 22761; z = 1.26; p < .01) und eine bessere Note (M W = 2.76; SD W = 1.21; M M = 3.57; SD M = 1.17; W = 10630; z = 1.25; p < .01). Im Vergleich zum Anteil weiblicher Versuchspersonen an der Gesamtstichprobe von 76,85 % lag ihr Anteil beim Erreichen des obersten Leistungsquartils Q1 bei 95 %. Die Lage- und Streuungsmaße nach Geschlechtern sind in Abbildung 5 dargestellt. 5 4,5 4 3,5 3 2,5 2 1,5 1 Note 1 2 3 4 Leistungsquartil tatsächlich Vorhersage Abb. 4: Erzielte Noten und Vorhersagen nach Leistungsquartilen Quartil n Note Vorhersage diff z p M SD M SD 1 2 3 4 98 93 129 112 1.46 2.15 3.26 4.55 0.50 0.36 0.44 0.50 2.31 2.70 3.18 3.58 0.62 0.60 0.67 0.76 -0.85 -0.55 -0.01 0.97 1.72 1.39 0.16 1.79 < .001 < .001 .47 < .001 Tab. 2: Deskriptive Statistiken nach Leistungsquartilen Anmerkungen: diff: absolute Differenz zwischen Note und Vorhersage. z: z-standardisierte Summe positiver/ negativer Rangzahlen des Wilcoxon-Vorzeichen-Rang-Tests mit Kontinuitätskorrektur. p: Signifikanzniveau Tendenzen der Selbsteinschätzung am Beispiel von Lehramtsstudierenden 87 5 4 3 2 1 Note (weiblich) Vorhersage (weiblich) Note (männlich) Vorhersage (männlich) Abb. 5: Box Plot für erzielte Note und Vorhersage nach Geschlechtern Geschlecht Quartil n Note Vorhersage diff z p M SD M SD weiblich 1234 77 89 75 91 1.45 2.15 3.24 4.47 0.50 0.36 0.43 0.50 2.32 2.73 3.09 3.53 0.62 0.55 0.69 0.77 -0.86 -0.58 0.15 0.94 1.70 1.31 0.40 1.42 < .001 < .001 .08 < .001 männlich 1234 25 25 24 26 2.04 3.08 4.12 5.00 0.45 0.28 0.34 0.00 2.52 3.48 3.37 3.85 0.75 0.54 0.51 0.80 -0.48 -0.43 0.76 1.15 0.57 0.59 0.80 0.88 < .05 < .01 < .001 < .001 Tab. 3: Deskriptive Statistiken nach Leistungsquartilen und Geschlechtern Anmerkungen: diff: absolute Differenz zwischen Note und Vorhersage. z: z-standardisierte Summe positiver/ negativer Rangzahlen des Wilcoxon-Vorzeichen-Rang-Tests mit Kontinuitätskorrektur. p: Signifikanzniveau Abb. 6: Erzielte Noten und Vorhersagen nach Leistungsquartilen und Geschlechtern 1 2 3 4 Leistungsquartil 5 4,5 4 3,5 3 2,5 2 1,5 1 Note weibliche Versuchspersonen männliche Versuchspersonen tatsächlich Vorhersage 5 4,5 4 3,5 3 2,5 2 1,5 1 Note 1 2 3 4 Leistungsquartil 88 Benedikt Wisniewski, Jonas Tögel, Klaus Zierer Während sich die weiblichen Versuchspersonen im Durchschnitt unterschätzten, lag für die männlichen Versuchspersonen insgesamt eine Überschätzung der Leistung vor. Die mittlere Abweichung der Vorhersage von der Leistung lag für weibliche Versuchspersonen bei 0.13 und für männliche bei 0.26. In Abbildung 6 sind die Quartilsmittelwerte für Note und Vorhersage getrennt nach Geschlechtern grafisch dargestellt. Die deskriptiven Statistiken für die vier Leistungsquartile getrennt nach Geschlechtern, die dem nichtparametrischen Wilcoxon-Rangvergleich unterzogen wurden, sind in Tabelle 3 dargestellt. Vorbereitungszeit Die durchschnittliche Zeit, in der sich die Versuchspersonen auf die Klausur vorbereiteten, lag bei 4.48 Stunden (SD = 2.31). Die Vorbereitungszeit korrelierte niedrig bis mittelhoch positiv (r = .28, p < .001) mit der erreichten Gesamtpunktzahl und mittelhoch negativ mit der vorhergesagten Note ( ρ = -.32, p < .001). Kein signifikanter Zusammenhang ergab sich zwischen Vorbereitungszeit und Genauigkeit der Selbsteinschätzung in Form der Abweichung zwischen tatsächlicher und vorhergesagter Note ( ρ = -.07, p = .14). Aufgeschlüsselt nach den vier Leistungsquartilen betrug die durchschnittliche Vorbereitungszeit 5.4 Stunden (SD = 2.12) für Q1, 4.76 Stunden (SD = 2.35) für Q2, 4.05 Stunden (SD = 2.24) für Q3 und 3.93 Stunden (SD = 2.28) für Q4. Diskussion Die vorliegende Studie untersuchte die Tendenz und Genauigkeit der Selbsteinschätzung Studierender des Lehramtes an öffentlichen Schulen in Bezug auf die Kenntnisse in der Schulpädagogik. Ziel war es, die Selbsteinschätzungen in Form der Vorhersage einer Klausurnote zu ermitteln und zu überprüfen, ob sich anhand des Vergleiches mit den tatsächlich erzielten Noten der erhobenen Daten der DKE replizieren lässt. Insofern stellt die Studie zum Teil eine Replikation aller Studien dar, die diesen Effekt bereits untersucht haben, und folgte soweit möglich dem dort verwendeten methodischen Vorgehen, um einen kritischen Vergleich mit deren Ergebnissen zu ermöglichen (Maxwell, Lau & Howard, 2015). Es konnten jedoch aufgrund von Vorgaben von Studienordnungen nicht alle Kriterien erfüllt werden, die für eine „echte“ Replikationsstudie gelten (Brandt et al., 2014), unter anderem wichen die Art der Stichprobe und das Erhebungsinstrument von der Originalstudie ab. Interpretation der zentralen Ergebnisse Erwartungskonform bestand zwischen Selbsteinschätzung und tatsächlich erreichter Note ein mittelhoher Zusammenhang (H1). Insgesamt sind Studierende des Lehramtes an öffentlichen Schulen also in der Lage, ihre Kenntnisse realistisch einzuschätzen. Die Mediane der Vorhersage und tatsächlichen Note sind annähernd gleich und auch die Mittelwerte unterscheiden sich nicht signifikant. Es zeigt sich aber, dass die einzelnen Noten deutlich weiter um den Mittelwert streuen als die einzelnen Vorhersagen. Unsere Ergebnisse deuten auf eine differenzielle Selbsteinschätzungsfähigkeit der Studierenden hin: Je nach tatsächlicher Leistung ist die Selbsteinschätzungsfähigkeit deutlich unterschiedlich. Es wurde erwartungskonform bestätigt, dass leistungsschwache Studierende ihre Leistung überschätzen (H2). Eine Selbstwerterhöhung (Brown, 1991; Filipp & Mayer, 2005) kann das Wohlbefinden von Menschen fördern und deren Leistungsfähigkeit steigern (Krapp & Ryan, 2010; McMillan & Hearn, 2008). Sie erweist sich jedoch als problematisch, wenn die positive Selbsteinschätzung zu weit von der Realität abweicht (Krapp & Ryan, 2010). Wie Miller und Geraci (2011) anmerken, wäre es interessant zu erheben, wie sicher sich die leistungsschwächeren Studierenden hinsichtlich ihrer Selbsteinschätzung sind. Die Autoren fanden, dass es zwar tatsächlich die „Überschätzer“ unter den Leistungsschwachen Tendenzen der Selbsteinschätzung am Beispiel von Lehramtsstudierenden 89 gibt, diese sich aber eher unsicher sind, was darauf hindeutet, dass ein gewisses Bewusstsein für die Leistungsschwäche durchaus vorhanden ist. In Abweichung zu bisherigen Befunden zum DKE muss die Hypothese verworfen werden, dass leistungsstarke Studierende sich genauer einschätzen als Leistungsschwache (H3). Der Grad der Unterschätzung des obersten Leistungsquartils war annähernd so hoch wie die Überschätzung des untersten Leistungsquartils. Es besteht kein signifikanter Zusammenhang zwischen der gezeigten Leistung in der Klausur und dem Grad der Fehleinschätzung. Es zeigte sich, dass die Abweichung zwischen vorhergesagter und tatsächlicher Note in den beiden mittleren Quartilen niedriger ausfiel und für das Quartil 3 sogar kein signifikanter Mittelwertunterschied zwischen Einschätzung und Note bestand. Zudem war die Standardabweichung der vorhergesagten Noten über 30 % niedriger als die der tatsächlichen Noten. Diese Ergebnisse stützen die Befunde von Krueger und Mueller (2002), die Fehler in der Selbsteinschätzung zumindest zum Teil als Folge einer Regression zur Mitte interpretieren. Während Kruger und Dunning (1999) in ihrer Originalstudie keinen Effekt des Geschlechts auf die Selbsteinschätzung der Versuchspersonen identifizierten, fanden wir, dass weibliche Versuchspersonen ihre Leistung pessimistischer voraussagten als männliche (H4). Dabei unterschätzten sich die besten weiblichen Versuchspersonen (Quartil 1) deutlich höher als die männlichen, während die schlechtesten weiblichen Versuchspersonen (Quartil 4) sich weniger deutlich überschätzten als die männlichen. Gleichzeitig war die Selbsteinschätzung der weiblichen Versuchspersonen genauer als die der männlichen. Schließlich konnte gezeigt werden, dass die aufgewendete Vorbereitungszeit systematisch mit der Vorhersage der Leistung zusammenhing (H6). Erwartungskonform (Cohen, 2012; McGregor & Elliot, 2002) ging eine zeitlich intensivere Vorbereitung mit einer günstigeren Vorhersage einher. Limitationen der Studie Wie Krajcˇ und Ortmann (2008) bemerken, kann es durch die Auswahl der Probanden (nur Lehramtsstudierende) bereits zu Verzerrungen kommen. Außerdem wurde zur Messung der „objektiven“ Leistungsfähigkeit die Klausurnote herangezogen, was Fragen zur Reliabilität dieser Daten mit sich bringt. Da zahlreiche empirische Befunde darauf hinweisen, dass die Reliabilität von Noten sowohl im schulischen Bereich als auch aus dem Bereich der Hochschule niedrig ist (Ingenkamp, 1995; Müller-Benedict & Grözinger, 2017), sind Abweichungen zwischen Selbsteinschätzungen und tatsächlicher Note zum Teil auch auf Verzerrungen der tatsächlichen Noten zurückzuführen. Darüber hinaus hätten zusätzliche Informationen, wie beispielsweise die Semesteranzahl, erhoben werden können. Zudem bringt die Selbsteinschätzung der Studierenden in Form einer vorhergesagten Note methodische Beschränkungen mit sich, insbesondere den Verzicht auf sämtliche Verfahren, welche intervallskalierte Daten voraussetzen. Gleichzeitig erscheint die derzeitige Erhebungsmethode praxistauglich, da die Studierenden in der Klausursituation nicht durch einen zu umfangreichen Fragebogen belastet werden sollen. Implikationen für die Praxis Trotz dieser Einschränkungen weist unsere Studie bedenkenswerte Implikationen für die universitäre Praxis auf: Zwar liefert ein Klausurergebnis nur begrenzt Informationen über die Professionalität einer angehenden Lehrperson, aber die gewonnenen Erkenntnisse können zum einen als Anlass genommen werden, die Rolle von Selbsteinschätzungen in allen Phasen der Lehrerbildung insgesamt kritischer zu betrachten. Im Gegensatz zu Leistungserhebungen, die später während der beiden Phasen der Lehrerbildung eingesetzt werden, wie etwa die Bewertung von Unterrichtshospitationen oder Lehrproben, bietet die Klausur zur allgemeinen Vorlesung in Schulpädagogik die Möglichkeit, bereits früh Selbsteinschätzungstendenzen zu identifizieren und entsprechende Reflexionsprozesse anzuregen. 90 Benedikt Wisniewski, Jonas Tögel, Klaus Zierer Um die Genauigkeit ihrer Selbstwahrnehmung zu erhöhen, brauchen Studierende Feedback (Miller & Geraci, 2011). Dies gilt insbesondere für angehende Lehrkräfte und somit auch für die Lehrerbildung (vgl. Cochran-Smith et al., 2011). Dabei benötigen sowohl Studierende, die schlechte Leistungen bringen und sich überschätzen, als auch Studierende, die gute Leistungen erbringen und sich unterschätzen, Feedback, da beide Fehleinschätzungen zu ungünstigen motivationalen Konsequenzen führen (Dunlosky & Rawson, 2012). Auch jene Studierenden, die ihre Leistung richtig einschätzen, können von Feedback profitieren, um zu verhindern, dass diese nur noch die von ihnen erwartete Leistung zeigen (Hattie, 2008). Jedoch benötigen die verschiedenen Gruppen unterschiedliche Arten von Feedback. Dieses muss folglich adaptiv gestaltet werden. Gerade für leistungsschwache Studierende stellt die Korrektur falscher Selbsteinschätzung eine große Herausforderung dar und Fehleinschätzungen bleiben auch trotz erhaltenem Feedback bestehen (Hacker et al., 2000; Dunning & Helzer, 2014; Simons, 2013). Inkompetente Personen können ihre Selbstwahrnehmung auch mithilfe von Feedback kaum kalibrieren, weil sie häufig den Grund für ihr schlechtes Abschneiden bei einer Aufgabe nicht erkennen (Kruger & Dunning, 1999). Außerdem profitieren sie weniger von Rückmeldungen, da sie häufiges negatives Feedback erhalten, auf das Personen tendenziell mit Ignorieren und Abwehr reagieren, um ihre Selbstwahrnehmung aufrechterhalten zu können (Brett & Atwater, 2001; Kluger & DeNisi, 1996). Miller und Geraci (2011) konnten jedoch zeigen, dass leistungsschwache Personen die Genauigkeit ihrer Selbsteinschätzung mithilfe von Feedback dann verbessern, wenn es kontinuierlich erfolgt und konkret und spezifisch ist. Dies deckt sich mit allgemeineren Befunden, die zeigen, dass Feedback dann wirksam ist, wenn es auf konkretes Verhalten bezogen ist und nicht auf Eigenschaften oder die Kompetenz der Person (Kluger & DeNisi, 1996; Wisniewski & Zierer, 2020). Folglich kann Feedback leistungsschwachen Studierenden, die sich überschätzen, nur dann bei der Kalibrierung ihrer Selbsteinschätzung helfen, wenn es über die Mitteilung einer Note hinausgeht. Hattie und Timperley (2007) unterscheiden vier Feedback-Ebenen, nämlich die des Selbst (Rückmeldung im Hinblick auf persönliche Stärken und Schwächen), die der Aufgabe (Rückmeldung im Hinblick auf das Ergebnis der Leistung), die des Prozesses (Rückmeldung im Hinblick darauf, wie die Leistung zustande kam) und die der Selbstregulation (Rückmeldung zu Steuerungsmechanismen, die über die erzielte und auch zukünftige Leistung entscheidet). Wird die mangelnde Fähigkeit, die eigene Leistungsfähigkeit einzuschätzen im Sinn von Kruger und Dunning (1999) als Problem der Metakognition aufgefasst, so wird deutlich, dass die Ebene der Selbstregulation von entscheidender Bedeutung ist. Die Wirkung von Feedback bzgl. seiner Wirkung auf die Selbsteinschätzung stellt ein wichtiges Thema für zukünftige Forschung und auch die Lehrerbildung dar. Literatur Bandura, A. (1977). Self-efficacy. Toward a unifying theory of behavioral change. Psychological Review, 84 (2), 191 - 215. Bandura, A. (1997). Self-efficacy: The exercise of control. New York, NY: Freeman. Battistelli, P., Cadamuro, A., Farneti, A. & Versari, A. (2009). Do university students know how they perform? International Electronic Journal of Elementary Education 2 (1), 180 - 198. Bell, P. & Volckmann, D. (2011). Knowledge surveys in general chemistry: Confidence, overconfidence, and performance. Journal of Chemical Education, 88 (11), 1469 - 1476. https: / / doi.org/ 10.1021/ ed100328c Bodensohn, R., Schneider, C. & Jäger, R. S. (2010). Der Run auf das Lehramt - Welche Klientel entscheidet sich für ein Lehramtsstudium. Mögliche Entscheidungshilfen für eine künftige Auswahl von Lehramtsstudierenden. Landau: Universität Koblenz-Landau. Brandt, M. J., Izerman, H., Dijksterhuis, A., Farach, F. J., Geller, J., Giner-Sorolla, R. & Van’t Veer, A. (2014). The replication recipe: What makes for a convincing replication? Journal of Experimental Social Psychology, 50, 217 - 224. Brett, J. F. & Atwater, L. E. (2001). 360° feedback: Accuracy, reactions, and perceptions of usefulness. Journal of Applied Psychology, 86 (5), 930 - 942. https: / / doi.org/ 10.1037/ 0021-9010.86.5.930 Tendenzen der Selbsteinschätzung am Beispiel von Lehramtsstudierenden 91 Brown, J. D. (1991). Accuracy and bias in self-knowledge. In C. R. Snyder und D. R. Forsyth (Hrsg.): Handbook of social and clinical psycholog y (S. 158 - 178). New York, NY: Pergamon. Burson, K. A., Larrick, R. P. & Klayman, J. (2006). Skilled or unskilled, but still unaware of it: how perceptions of difficulty drive miscalibration in relative comparisons. Journal of Personality and Social Psycholog y, 90 (1), 60 - 77. https: / / doi.org/ 10.1037/ 0022-3514. 90.1.60 Cochran-Smith, M., Cannady, M., Mceachern, K. P., Piazza, P., Power, C. & Ryan, A. M. Y. (2011). Teachers’ education, teaching practice, and retention: A cross-genre review of recent research. Journal of Education, 191 (2), 19 - 31. Cohen, M. (2012). The importance of self-regulation for college student learning. College Student Journal, 46 (4), 892 - 902. Cramer, C. (2010). Kompetenzerwartungen Lehramtsstudierender: Grenzen und Perspektiven selbsteingeschätzter Kompetenzen in der Lehrerbildungsforschung. In A. Gehrmann, U. Hericks & M. Lüders. (Hrsg.), Bildungsstandards und Kompetenzmodelle. Beiträge zu einer aktuellen Diskussion über Schule, Lehrerbildung und Unterricht (S. 85 - 97). Bad Heilbrunn: Klinkhardt. Deutscher Bildungsrat (1974). Aspekte für die Planung der Bildungsforschung: Empfehlungen der Bildungskommission. Berlin: Klett. Dunlosky, J. & Rawson, K. A. (2012). Overconfidence produces underachievement: Inaccurate self evaluations undermine students’ learning and retention. Learning and Instruction, 22 (4), 271 - 280. Dunning, D. & Helzer, E. G. (2014). Beyond the correlation coefficient in studies of self-assessment accuracy: Commentary on Zell & Krizan (2014). Perspectives on Psychological Science, 9 (2), 126 - 130. https: / / doi.org/ 10.1177/ 1745691614521244 Dunning, D., Johnson, K., Ehrlinger, J. & Kruger, J. (2003). Why people fail to recognize their own incompetence. Current Directions in Psychological Science, 12, 83 - 87. Ehrlinger, J. & Dunning, D. (2003). How chronic selfviews influence (and potentially mislead) estimates of performance. Journal of Personality and Social Psychology, 84 (1), 5 - 18. Ehrlinger, J., Johnson, K., Banner, M., Dunning, D. & Kruger, J. (2008). Why the unskilled are unaware. Further explorations of (absent) self-insight among the incompetent. Organizational Behavior and Human Decision Processes, 105 (1), 98 - 121. Feld, J., Sauermann, J. & de Grip, A. (2017). Estimating the relationship between skill and overconfidence. IZA discussion paper. 10611. Filipp, S.-H. & Mayer, A.-K. (2005). Selbst und Selbstkonzept. In H. Weber & T. Rammsayer (Hrsg.), Handbuch der Persönlichkeitspsychologie und differentiellen Psychologie (S. 266 - 276). Göttingen: Hogrefe. Fox, E., Ridgewell, A. & Ashwin, C. (2009). Looking on the bright side. Biased attention and the human serotonin transporter gene. Proceedings. Biological sciences, 276 (1663), 1747 - 1751. https: / / doi.org/ 10.1098/ rspb.2008.1788 Gehrmann, A. (2007). Kompetenzentwicklung im Lehramtsstudium. In M. Lüders & J. Wissinger (Hrsg.), Forschung zur Lehrerbildung. Kompetenzentwicklung und Programmevaluation (S. 85 - 102). Münster: Waxmann. Hacker, D. J., Bol, L., Horgan, D. D. & Rakow, E. A. (2000). Test prediction and performance in a classroom context. Journal of Educational Psychology, 92, 160 - 170. https: / / doi.org/ 10.1037/ / 0022-0663.92.1.160 Harrington, B., Peng, S., Jin, X. & Khan, M. (2018). Gender, confidence, and mark prediction in CS examinations. Proceedings of the 23rd Annual ACM Conference on Innovation and Technology in Computer Science Education, 230 - 235. https: / / doi.org/ 10.1145/ 3197091. 3197116 Hartmann, M. & Weiser, B. (2007). Unbewusste Inkompetenz? Selbstüberschätzung bei StudienanfängerInnen. In Kraler, C. & Schratz, M. (Hrsg.), Ausbildungsqualität und Kompetenz im Lehrerberuf (S. 37 - 55). Wien: Lit. Hattie, J. (2008). Visible learning. London: Routledge. Hattie, J. & Timperley, H. (2007). The power of feedback. Review of Educational Research, 77 (1), 81 - 112. https: / / doi.org/ 10.3102/ 003465430298487 Ingenkamp, K. (1995). Die Fragwürdigkeit der Zensurengebung. Texte und Untersuchungsberichte. Weinheim: Beltz. Karatjas, A. & Webb, J. (2017). The role of student major in grade perception in chemistry courses. International Journal for the Scholarship of Teaching and Learning, 11 (2), 1 - 7. https: / / doi.org/ 10.20429/ ijsotl.2017.11 0214 Kluger, A. N. & DeNisi, A. (1996). The effects of feedback interventions on performance: A historical review, a meta-analysis, and a preliminary feedback intervention theory. Psychological Bulletin, 119 (2), 254 - 284. https: / / doi.org/ 10.1037/ 0033-2909.119.2.254 König, J., Kaiser, G. & Felbrich, A. (2012). Spiegelt sich pädagogisches Wissen in den Kompetenzselbsteinschätzungen angehender Lehrkräfte? Zum Zusammenhang von Wissen und Überzeugungen am Ende der Lehrerausbildung. Zeitschrift für Pädagogik, 58 (4), 476 - 491. Krajcˇ, M. & Ortmann, A. (2008). Are the unskilled really that unaware? An alternative explanation. Journal of Economic Psychology, 29 (5), 724 - 738. Krapp, A. & Ryan, R. M. (2010). Selbstwirksamkeit und Lernmotivation. Eine kritische Betrachtung der Theorie von Bandura aus der Sicht der Selbstbestimmungstheorie und der pädagogisch-psychologischen Interessentheorie. In M. Jerusalem & D. Hopf. (Hrsg.), Selbstwirksamkeit und Motivationsprozesse in Bildungsinstitutionen (S. 54 - 82). Weinheim: Beltz (Zeitschrift für Pädagogik Beiheft, 44). Krueger, J. & Mueller, R. A. (2002). Unskilled, unaware, or both? The better-than-average heuristic and statistical regression predict errors in estimates of own performance. Journal of Personality and Social Psychology, 82 (2), 180 - 188. https: / / doi.org/ 10.1037/ 0022-3514.82.2. 180 Kruger, J. & Dunning, D. (1999). Unskilled and Unaware of It: How Difficulties in Recognizing One’s Own Incompetence Lead to Inflated Self-Assessments. Journal of Personality and Social Psychology, 77 (6), 1121 - 1134. https: / / doi.org/ 10.1037/ / 0022-3514.77.6.1121 Kuncel, N. R., Credé, M. & Thomas, L. L. (2005). The validity of self-reported grade point averages, class ranks, and test scores: A meta-analysis and review of the literature. Review of Educational Research, 75 (1), 63 - 82. https: / / doi.org/ 10.3102/ 00346543075001063 Lindeman, M., Sundvik, L. & Rouhiainen, P. (1995). Underor overestimation of self? Person variables and self-assessment accuracy in work settings. Journal of Social Behavior and Personality, 10 (1), 123 - 134. 92 Benedikt Wisniewski, Jonas Tögel, Klaus Zierer Lindsey, B. A. & Nagel, M. L. (2015). Do students know what they know? Exploring the accuracy of students’ self-assessments. Physical Review Special Topics - Physics Education Research, 11 (2). https: / / doi.org/ 10.1103/ PhysRevSTPER.11.020103 Lundeberg, M. A., Fox, P. W., Brown, A. C. & Elbedour, S. (2000). Cultural influences on confidence: Country and gender. Journal of Educational Psychology, 92 (1), 152 - 159. https: / / doi.org/ 10.1037/ 0022-0663.92.1.152 Mahmood, K. (2017). Do people overestimate their information literacy skills? A systematic review of empirical evidence on the Dunning-Kruger effect. Communications in Information Literacy, 10 (2), 199 - 213. https: / / doi.org/ 10.15760/ comminfolit.2016.10.2.24 Maxwell, S. E., Lau, M. Y. & Howard, G. S. (2015). Is psychology suffering from a replication crisis? What does “failure to replicate” really mean? American Psychologist, 70 (6), 487 - 498. https: / / doi.org/ 10.1037/ a0039400. McGregor, H. A. & Elliot, A. J. (2002). Achievement goals as predictors of achievement-relevant processes prior to task engagement. Journal of Educational Psychology, 94, 381 - 395. https: / / doi.org/ 10.1037/ 0022-0663. 94.2.381 McMillan, J. H. & Hearn, J. (2008). Student self-assessment: The key to stronger student motivation and higher achievement. Educational Horizons, 48 (1), 40 - 49. Miller, T. M. & Geraci, L. (2011). Unskilled but aware: reinterpreting overconfidence in low-performing students. Journal of Experimental Psychology, 37 (2), 502 - 506. https: / / doi.org/ 10.1007/ s11409-011-9083-7 Moser, K. (1999). Selbstbeurteilung beruflicher Leistung: Überblick und offene Fragen. Psychologische Rundschau, 50 (1), 14 - 25. Mosing, M. A., Zietsch, B. P., Shekar, S. N., Wright, M. J. & Martin, N. G. (2009). Genetic and environmental influences on optimism and its relationship to mental and self-rated health. A study of aging twins. Behavior Genetics, 39 (6), 597 - 604. https: / / doi.org/ 10.1007/ s10519-009-9287-7 Müller-Benedict, V. & Grözinger, G. (2017). Noten an Deutschlands Hochschulen. Wiesbaden: Springer VS. https: / / doi.org/ 10.1007/ 978-3-658-15801-9 Oser, F. & Oelkers, J. (2001). Die Wirksamkeit der Lehrerbildungssysteme: Von der Allrounderbildung zur Ausbildung professioneller Standards. Zürich: Rüegger. Oser, F., Curcio, G. P. & Düggeli, A. (2007). Kompetenzmessung in der Lehrerbildung als Notwendigkeit - Fragen und Zugänge. Beiträge zur Lehrerinnen- und Lehrerbildung, 25 (1), 14 - 26. R Core Team (2019). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. Retrieved from: https: / / www. R-project.org/ Rauin, U. & Meier, U. (2007). Subjektive Einschätzungen des Kompetenzerwerbs in der Lehramtsausbildung. In M. Lüders & J. Wissinger (Hrsg.), Forschung zur Lehrerbildung. Kompetenzentwicklung und Programmevaluation (S. 102 - 131). Münster: Waxmann. Retelsdorf, J., Bauer, J., Gebauer, S. K., Kauper, T. & Möller, J. (2014). Erfassung berufsbezogener Selbstkonzepte von angehenden Lehrkräften (ERBSE-L). Diagnostica, 60 (2), 98 - 110. https: / / doi.org/ 10.1026/ 0012-1924/ a000108 Röder, B. (2009). Selbstwirksamkeitsförderung durch Motivierung von Schülern. Berlin: Freie Universität Berlin. Scheier, M. E. & Carver, C. S. (1987). Dispositional optimism and physical well-being: The influence of generalized outcome expectancies on health. Journal of Personality, 55, 169 - 210. https: / / doi.org/ 10.1111/ j.1467-6494.1987.tb00434.x Schlösser, T., Dunning, D., Johnson, K. J. & Kruger, J. (2013). How unaware are the unskilled? Empirical tests of the “signal extraction” counterexplanation for the Dunning-Kruger effect in self-evaluation of performance. Journal of Economic Psychology, 39, 85 - 100. Schwarzer, R. & Jerusalem, M. (2010). Das Konzept der Selbstwirksamkeit. In M. Jerusalem & D. Hopf (Hrsg.), Selbstwirksamkeit und Motivationsprozesse in Bildungsinstitutionen (S. 28 - 53). Weinheim: Beltz. Simons, D. J. (2013). Unskilled and optimistic: Overconfident predictions despite calibrated knowledge of relative skill. Psychonomic Bulletin & Review, 20 (3), 601 - 607. https: / / doi.org/ 10.3758/ s13423-013-0379-2 Thiel, F., Ophardt, D. & Piwowar, V. (2013). Abschlussbericht des Projekts „Kompetenzen des Klassenmanagements (KODEK). Entwicklung und Evaluation eines Fortbildungsprogramms für Lehrkräfte zum Klassenmanagement“. Berlin: Freie Universität Berlin. Wilcoxon, F. (1945). Individual comparisons of grouped data by ranking methods. Journal of Economic Entomology, 39 (2), 269 - 270. Wisniewski, B. & Zierer, K. (2020). Functions and success conditions of student feedback in the development of teaching and teachers. In W. Rollett, S. Röhl, & H. Bijlsma (Hrsg.), Student feedback in schools. Amsterdam: Springer. Yates, J. F., Lee, J. W. & Bush, J. G. (1997). General knowledge overconfidence: cross-national variations, response style, and „reality“. Organizational behavior and human decision processes, 70 (2), 87 - 94. Dr. Benedikt Wisniewski Staatliche Schulberatungsstelle für die Oberpfalz Weinweg 2 93049 Regensburg E-Mail: wisniewski@sbopf.de Dr. Jonas Tögel Universität Regensburg Lehrstuhl für Pädagogische Psychologie VI Universitätsstr. 31 93053 Regensburg E-Mail: jonas.toegel@psychologie. uni-regensburg.de Univ.-Prof. Dr. Klaus Zierer Universität Augsburg Lehrstuhl für Schulpädagogik Universitätsstr. 10 86159 Augsburg E-Mail: klaus.zierer@phil.uni-augsburg.de
