eJournals Psychologie in Erziehung und Unterricht 55/1

Psychologie in Erziehung und Unterricht
3
0342-183X
Ernst Reinhardt Verlag, GmbH & Co. KG München
11
2008
551

Akkuratesse selbstberichteter Zensuren

11
2008
Jörg R. Sparfeldt
Susanne R. Buch
Detlef H. Rost
Grit Lehmann
Das verbreitete Vorgehen, selbstberichtete Zensuren als Indikatoren der erhaltenen zu verwenden, wird häufig als fehlerbehaftet kritisiert. Bei N = 540 Gymnasiasten der 10. Klasse wurden in elf Fächern die schülerberichteten mit den erhaltenen Zeugnisnoten verglichen. Die berichteten Zensuren korrelierten generell sehr hoch mit den erhaltenen (r = .90); numerisch niedrigere Zusammenhänge in wenigen Fächern ließen sich im Wesentlichen auf geringere Notenvarianzen zurückführen. Die mittlere Überschätzung betrug maximal 0.15 Notenstufen (d = 0.18). Leistungs-schlechtere Schüler überschätzten ihre Zensuren stärker als leistungsbessere (h2 = .09). Das Ausmaß der Überschätzung korrelierte nicht substanziell und konsistent mit „Gewissenhaftigkeit“, „Wichtigkeit guter Noten“, „Selbstkonzept“ und „Mogelverhalten“. Die Korrelationen der selbstberichteten bzw. der erhaltenen Zensuren mit diesen Variablen differierten in 3 von 36 Fällen geringfügig. Dies bestätigt insgesamt die forschungsökonomische Praxis, Zensuren im Selbstbericht zu erheben.
3_055_2008_1_0007
Häufig werden Zensuren erhoben, indem Schüler 1 ihre Noten berichten. Unser Beitrag stellt die Akkuratesse selbstberichteter Zensuren in den Vordergrund - einen für die Forschung wichtigen Aspekt. Gegen diese Praxis wird z.B. auf Fachtagungen und in Gutachten zu Manuskripten häufig der Einwand erhoben, Schüler gäben ihre Zensuren nicht (hinreichend) akkurat an. Zur Klärung der Frage nach der Akkuratesse selbstberichteter Zensuren lassen sich vier - nicht voneinander unabhängige - Gesichtspunkte, die Reliabilität bzw. Validität selbstberichteter Zensuren beeinflussen können, heranziehen (z.B. Kuncel, Credé & Thomas, 2005): (1) Korrelationen selbstberichteter mit tatsächlich erhaltenen Zensuren sowie die Suche nach Moderatoren (z.B. Geschlecht), (2) Anteil korrekt angegebener Zensuren, (3) mittlere Differenz zwischen selbstberichteten und erhaltenen Zensuren, (4) differenzielle Zusammenhänge selbstberichteter bzw. erhaltener Zensuren mit Außenvariablen. n Forum Akkuratesse selbstberichteter Zensuren Jörn R. Sparfeldt, Susanne R. Buch, Detlef H. Rost, Grit Lehmann Philipps-Universität Marburg The Accuracy of Self-Reported Grades in School Summary: In educational research, self-reported grades are often used as indicators of actual grades, although this practice is frequently criticized. Therefore, we compared self-reported grades in eleven school-subjects with those from the last report card in a sample of N = 540 students (class level: 10). The correlations of self-reported and actual grades were very high (r ≥ .90), slightly lower correlation coefficients in few subjects were mainly due to smaller variances. Mean differences indicated a small overestimation of self-reported grades (d ≤ 0.18). Students with lower achievements overestimated their grades more than students with higher achievements (h 2 ≤ .09). This overestimation did not correlate substantially and consistently with conscientiousness, the importance of good grades, academic self-concept, and academic cheating. In terms of validity, the correlations of self-reported grades with these variables did not differ substantially from correlations of actual grades with these variables. These results support the practice of using self-reported grades for research purposes. Keywords: Grades, self-report, accuracy, high-school students Zusammenfassung: Das verbreitete Vorgehen, selbstberichtete Zensuren als Indikatoren der erhaltenen zu verwenden, wird häufig als fehlerbehaftet kritisiert. Bei N = 540 Gymnasiasten der 10. Klasse wurden in elf Fächern die schülerberichteten mit den erhaltenen Zeugnisnoten verglichen. Die berichteten Zensuren korrelierten generell sehr hoch mit den erhaltenen (r ≥ .90); numerisch niedrigere Zusammenhänge in wenigen Fächern ließen sich im Wesentlichen auf geringere Notenvarianzen zurückführen. Die mittlere Überschätzung betrug maximal 0.15 Notenstufen (d ≤ 0.18). Leistungsschlechtere Schüler überschätzten ihre Zensuren stärker als leistungsbessere (h 2 ≤ .09). Das Ausmaß der Überschätzung korrelierte nicht substanziell und konsistent mit „Gewissenhaftigkeit“, „Wichtigkeit guter Noten“, „Selbstkonzept“ und „Mogelverhalten“. Die Korrelationen der selbstberichteten bzw. der erhaltenen Zensuren mit diesen Variablen differierten in 3 von 36 Fällen geringfügig. Dies bestätigt insgesamt die forschungsökonomische Praxis, Zensuren im Selbstbericht zu erheben. Schlüsselbegriffe: Zensuren, Selbstbericht, Genauigkeit, Schüler Psychologie in Erziehung und Unterricht, 2008, 55, 68 - 75 © Ernst Reinhardt Verlag München Basel Theoretisch lassen sich selbstberichtete Zensuren als Funktion der erhaltenen Zensur, eines Messfehlers (Zufall) sowie eines systematischen Fehlers auffassen (vgl. z. B. Kuncel et al., 2005). Interessant sind - neben der forschungspraktisch bedeutsamen Frage der Akkuratesse selbstberichteter Zensuren - die Quellen systematischer Fehleranteile, für die uns in diesem Falle jedoch keine einschlägige psychologische Theorie bekannt ist. Empirisch fanden sich gelegentlich Korrelate der systematischen Abweichung (s. u.) selbstberichteter von erhaltenen Zensuren. Insgesamt gesehen mangelt es an einschlägigen, replikationsstabilen und konsistenten Befunden als Grundlage einer Theorie. Metaanalytisch fanden Kuncel et al. (2005) eine mittlere Korrelation selbstberichteter/ erhaltener Durchschnittsnoten bei Schülern von r = .82 - Geschlecht war keine Moderatorvariable. Die Zusammenhänge differierten aber zwischen Fächern von r = .67 (art/ music) bis r = .85 (social science). Im Mittel berichteten 82.4 % ihre Durchschnittsnote korrekt (12.3 % Überschätzer, 3.5 % Unterschätzer). 2 Die mittlere Abweichung betrug d = 0.32. Die Autoren thematisierten, in mehreren Studien sei die Beziehung zwischen selbstberichteten und tatsächlichen Zensuren bei besseren Schülern enger als bei schlechteren, selbstberichtete Zensuren hingen mit Außenvariablen vergleichbar eng zusammen wie erhaltene, und es fehlten Studien zum Zusammenhang des Grads der Akkuratesse mit anderen Variablen (z.B. Gewissenhaftigkeit). Es bleibt zu untersuchen, ob und inwieweit die zumeist angloamerikanischen Befunde auf unsere Verhältnisse übertragbar sind. Im deutschen Sprachraum liegen u. W. wenige einschlägige Studien zur Akkuratesse selbstberichteter Zensuren vor: Helmke (1992) ermittelte als Nebenbefund bei Hauptschülern der 5./ 6. Klasse klassenweise berechnete Korrelationen zwischen berichteten/ erhaltenen Zeugniszensuren in den Hauptfächern „Mathematik“, „Deutsch“ und „Englisch“ von r = .75 bis r = .97 (mittlere Überschätzung: 0.10 ≤ d ≤ 0.30). Bei Möller, Streblow, Pohlmann und Köller (2006) korrelierten schülerberichtete und erhaltene Mathematikzensuren zu r = .93 (83 Schüler der Sekundarstufe I; 81 % korrekt; 12 % Überschätzer; 7 % Unterschätzer). Die Zensurendifferenz hing nicht bedeutsam mit dem mathematischen Selbstkonzept zusammen (r = .08). Dickhäuser und Plenter (2005) erfassten bei 866 Schülern der 7./ 8. Klasse die Zensuren der letzten Mathematikarbeit bzw. die Mathematikzeugniszensur. Die Korrelationen selbstberichteter/ erhaltener Zensuren lagen bei r = .90 (Klassenarbeit) bzw. r = .88 (Zeugnis). Die Schüler überschätzten sich im Mittel um 0.10 bzw. 0.09 Notenstufen; 81 % bzw. 83 % der Schüler berichteten die korrekte Note, 13 % bzw. 12 % eine bessere und 6 % bzw. 5 % eine schlechtere Zensur. Die Zensurendifferenz der Klassenarbeit ließ sich aus den Prädiktoren „Geschlecht“, „Leistungshöhe“, „Selbstkonzept“, „Schulform“ und deren Interaktion nicht vorhersagen. Die eigene Zeugniszensur wurde bei höherer Selbstkonzeptausprägung stärker überschätzt - häufiger bei Jungen als bei Mädchen (doch: R 2 = .02). Die Beziehungen der selbst- und fremdberichteten Zensuren zur Mathematiktestleistung differierten nicht. Diese wenigen deutschsprachigen Arbeiten sind ergänzungsbedürftig: Die Befunde der amerikanischen Metaanalyse weisen auf die Notwendigkeit hin, verschiedene Fächer zu analysieren. In Deutschland wurde - mit Ausnahme von Helmke (1992), der fachspezifische Korrelationen erhaltener/ berichteter Zensuren nicht aufführt - nur das Hauptfach „Mathematik“ betrachtet. Informationen fehlen, ob analoge Befunde auch für psychologisch weniger saliente und damit eventuell schlechter erinnerte Nebenfachzensuren, die weniger versetzungsrelevant sind, resultieren. Der Frage nach plausiblen Korrelaten des Ausmaßes der Akkuratesse wurde nur in Ausschnitten nachgegangen; es fehlen Replikationen, u. a. zur Klärung von Widersprüchen: Möller et al. (2006) fanden keinen signifikanten Zusammenhang der Zensurendifferenz zum mathematischen Selbstkonzept, wohl aber Dickhäuser und Plenter (2005). Weitere intuitiv einsichtige Moderatorvariablen lassen sich denken (Geben z. B. Ge- Akkuratesse selbstberichteter Zensuren 69 wissenhafte ihre Zensuren akkurater wieder? Mogeln Schüler, die in der Schule mogeln, auch bei der Notenangabe? ). Daher gehen wir mit der hier berichteten Untersuchung folgenden Teilfragen nach: (1) Wie hoch korrelieren die von den Schülern selbstberichteten mit den von den Lehrkräften vergebenen Zensuren in elf Schulfächern? (2) Inwieweit weichen die schülerberichteten von den erhaltenen Zensuren ab? Untersucht werden (a) Mittelwertsdifferenzen, (b) Überbzw. Unterschätzung der selbstberichteten Zensuren - auch in Abhängigkeit von der Leistungsgüte - sowie (c), ob Niveauverschiebungen durch Außenvariablen (Geschlecht, Selbstkonzept, Gewissenhaftigkeit, Mogeln, Wichtigkeit guter Zensuren) moderiert werden. (3) Ergeben sich Unterschiede in der Validität zwischen selbstberichteten und erhaltenen Zensuren? Da gelegentlich Hinweise auf differenzielle Befunde für Schülerinnen und Schüler thematisiert wurden (vgl. Dickhäuser & Plenter, 2005; Kuncel et al., 2005), soll ergänzend die Relevanz des Faktors „Geschlecht“ betrachtet werden. Methode Stichprobe und Durchführung Die Ausgangsstichprobe bestand aus 633 Schülern (24 Klassen, 10. Jahrgang) thüringischer und hessischer Gymnasien. Wegen Krankheit o. ä. untersuchungsunspezifischen Gründen fehlten 51 Probanden, 2 durften nicht teilnehmen. Für 37 Schüler fehlten entweder Lehrerund/ oder Schülerangaben (z. B. Schulwechsel, fehlerhafter Code), 3 Schüler antworteten instruktionswidrig („Strickmuster“). Die nachfolgenden Auswertungen beziehen sich somit auf N = 540 (männlich: n = 256). Die Erhebung erfolgte ca. 10 Wochen nach der Ausgabe der Abschlusszeugnisse der 9. Klasse während der regulären Unterrichtszeit. Variablen Zensuren. Erfragt wurden die letzten Zeugniszensuren in elf Fächern (Mathematik, Deutsch, Physik, Chemie, Geschichte, Biologie, Englisch, Religion/ Ethik, Kunst, Musik, Sport). Den Schülerakten wurden die erhaltenen Zensuren entnommen. Somit waren Haupt- und Nebenfächer aus unterschiedlichen Bereichen vertreten (wie sprachlich, mathematisch-naturwissenschaftlich, musisch-künstlerisch). Da nicht jedes Fach in jeder Klasse im Schuljahr vor der Erhebung unterrichtet wurde, teilen wir die entsprechenden Fallzahlen im Ergebnisteil mit. Wichtigkeit guter Noten. Je ein Item erfasste die Wichtigkeit guter Noten in den elf Fächern. (Eine gute Note in …[Fach]… „ist mir überhaupt nicht wichtig“ [1] bis „ist mir sehr wichtig“ [6].) Selbstkonzept. Mit dem Differentiellen Schulischen Selbstkonzept-Gitter (DISK-Gitter; Rost, Sparfeldt & Schilling, 2007) wurden die Selbstkonzepte in ausgewählten Fächern erhoben. Die acht Itemstämme sind für die Fächer identisch, das Antwortformat ist sechsstufig („trifft gar nicht zu“ [1] bis „trifft genau zu“ [6]; Itembeispiel: „Ich weiß in …[Fach]… die Antwort auf eine Frage schneller als die anderen“). Die Homogenitäten waren gut: Mathematik (a = .96) 3 , Deutsch (a = .92), Geschichte (a = .93), Physik (a = .96), Englisch (a = .95), Biologie (a = .94). Für Musik und Kunst waren zwei DISK- Items inhaltlich unpassend, so dass wir diese ersetzten (jeweils a = .95). Gewissenhaftigkeit. Wir administrierten die 12 Gewissenhaftigkeits-Items des NEO-FFI (Borkenau & Ostendorf, 1993; Antwortformat wie beim DISK- Gitter; a = .82). Mogeln. Die Schüler gaben Auskunft über ihr Mogelverhalten in Mathematik (a = .92), Physik (a = .91), Biologie (a = .91), Deutsch (a = .92), Englisch (a = .91) und Geschichte (a = .91); die insgesamt 23 Itemstämme waren identisch (Itembeispiel: „Bei einer Klassenarbeit oder einem Test in … [Fach]… organisiere ich mir unerlaubte Hilfen“; 6-stufiges Antwortformat: „trifft fast nie zu“ [1] bis „trifft fast immer zu“ [6]). Auswertung Neben Korrelationen (Forschungsfrage 1) wurden 2 × 2 ANOVAs (zweistufiger Faktor „Datenquelle“: Schülerangabe, Zeugnis; zweistufiger Faktor „Geschlecht“; Forschungsfrage 2 a) berechnet. Der Haupteffekt „Geschlecht“ ist für unsere Forschungsfrage nicht von Interesse, wir gehen deshalb auf diese Befunde nicht näher ein. Für Haupteffekte setzten wir a wegen der Stichprobengröße auf .01 fest. Bei Wechselwirkungen wurde a liberaler gewählt (.05). 70 Jörn R. Sparfeldt et al. Um ggf. auch kleine Unterschiede statistisch abzusichern, verzichteten wir auf eine a-Adjustierung. Mittelwertsunterschiede quantifizierten wir mittels h 2 *100 (h 2 %; prozentualer Anteil der durch den jeweiligen Faktor in einer Varianzanalyse aufgeklärten Varianz der abhängigen Variable) bzw. d (an der gepoolten Streuung standardisierte Mittelwertsdifferenz) bzw. in Notenstufeneinheiten. Als Richtwerte für die Interpretation gab Cohen (1988) folgende Werte an: kleiner/ mittlerer/ großer Effekt: h 2 % = 1.0%/ 5.9%/ 13.8% bzw. d=.20/ .50/ .80. Die Anteile vollständiger Übereinstimmung (% korrekt), Unterschätzung und Überschätzung beantworten Fragestellung 2b. Da eine Überschätzung der Schüler bei „sehr gut“ sowie eine Unterschätzung bei „ungenügend“ (bzw. „mangelhaft“) nicht möglich (bzw. sehr selten) ist und diese Zensuren selten vorkommen, bezogen sich diese Analysen nur auf Schüler mit den erhaltenen Zensuren „2“, „3“ oder „4“. Für diese Schüler verglichen wir außerdem das Ausmaß der Überbzw. Unterschätzung in Abhängigkeit von den erhaltenen Zensuren (nach Trichotomisierung: Unterschätzung [kodiert als „-1“], korrekt [„0“], Überschätzung [„+1“]). Teilfragestellung (2 c) klärten die Korrelationen der Notendifferenz zwischen Lehrer- und Schülerangabe mit den Außenvariablen „Selbstkonzept“, „Gewissenhaftigkeit“, „Mogeln“ und „Wichtigkeit guter Noten“ (zur Leistungsgüte vgl. Frage 2 b). Die Frage (3) beantworteten Vergleiche der Korrelationen zu unterschiedlichen Außenvariablen (Selbstkonzept, Gewissenhaftigkeit, Mogeln, Wichtigkeit guter Noten; als Effektgröße zur Quantifizierung von Korrelationsdifferenzen wird q, die Differenz der Fishers-z-transformierten Korrelationskoeffizienten, verwendet; kleiner/ mittlerer/ großer Effekt: q = .10/ .30/ .50, vgl. Cohen, 1988). Im Gegensatz zur hier nicht interessierenden Frage nach Zensurendifferenzen zwischen Jungen und Mädchen wurden die übrigen Analysen (Fragestellung 1, 2 b, 2 c, 3) geschlechtsübergreifend und geschlechtsgetrennt durchgeführt. Auf geschlechtsgetrennte Befunde gehen wir jedoch nur im Falle bedeutsamer Differenzen ein. Ergebnisse Korrelationen selbst-/ fremdberichteter Zensuren. Die schülerberichteten Zensuren korrelierten mit den erhaltenen in Mathematik zu r = .94. Auch für die anderen Fächer lagen die Zusammenhänge bei r ≥ .90, lediglich in Biologie, Religion, Kunst und Musik waren sie numerisch niedriger (vgl. Tab. 1). Diese geringeren Beziehungen könnten an den reduzierten Streuungen der berichteten und der erhaltenen Noten liegen. Entsprächen die Varianzen schülerberichteter und erhaltener Zensuren in diesen Fächern denen der erhaltenen Zensuren der anderen Fächer (hier exemplarisch für Mathematik berechnet; zur Formel vgl. z. B. Jensen, 1980, S. 459), lägen die aufgewerteten Korrelationen bei r’ = .92 (Biologie), r’ = .93 (Religion, Kunst) und r’ = .90 (Musik), also in gleicher Größenordnung wie für die übrigen Fächer. Die Zusammenhänge fielen bei Schülerinnen jeweils enger aus als bei Schülern. Diese geschlechtsbezogenen Korrelationsdifferenzen waren für Mathematik, Deutsch, Physik, Biologie, Religion und Sport auch statistisch bedeutsam (p < .01). Der niedrigste Koeffizient (Musik bei Schülern) erreichte r = .75 (r’ = .83). Niveaudifferenzen selbstberichteter/ erhaltener Zensuren. Die Mittelwerte der berichteten Zensuren fielen mit Ausnahme von Chemie stets signifikant besser aus als die der erhaltenen (maximale Notendifferenz 0.15, d = 0.18 - Jungen in Physik). In Deutsch, Physik, Religion und Sport überschätzten sich Schüler statistisch signifikant mehr als Schülerinnen (Tab. 2, max. h 2 % = 1.7). r (m, w) r (m) r (w) q Mathematik .94 .92 .96 .36 Deutsch .91 .85 .94 .48 Physik .90 .87 .92 .26 Chemie .90 .89 .92 .17 Geschichte .90 .88 .91 .15 Biologie .88 .82 .93 .50 Englisch .90 .87 .91 .19 Religion .87 .81 .90 .35 Kunst .86 .79 .86 .22 Musik .79 .75 .79 .10 Sport .91 .89 .93 .24 Tabelle 1: Korrelationen zwischen selbstberichteten und erhaltenen Zensuren für die Gesamtstichprobe sowie für Schülerinnen (w) und Schüler (m), ergänzt um den Geschlechtsunterschied (Effektgröße q) Akkuratesse selbstberichteter Zensuren 71 72 Jörn R. Sparfeldt et al. Zeugnis Schülerangabe Datenquelle WW M S M S N Diff F df p h 2 % d F df p h 2 % Mathematik 2.78 .97 2.71 .96 540 .07 25.3 1/ 538 < .01 4.5 .07 2.7 1/ 538 .10 0.5 Deutsch m 2.88 .79 2.77 .77 256 .11 .14 Deutsch w 2.35 .79 2.31 .77 284 .04 .05 Physik m 2.74 .87 2.59 .81 166 .15 .18 Physik w 2.78 .98 2.74 .96 212 .04 .04 Chemie 2.73 .94 2.69 .95 540 .04 6.3 1/ 538 .01 1.2 .04 0.3 1/ 538 .59 0.1 Geschichte 2.56 .94 2.46 .93 539 .10 28.8 1/ 537 < .01 5.1 .11 0.2 1/ 537 .70 0.0 Biologie 2.56 .87 2.46 .86 528 .10 33.9 1/ 526 < .01 6.1 .12 1.6 1/ 526 .20 0.3 Englisch 2.68 .85 2.57 .82 536 .11 44.5 1/ 534 < .01 7.7 .13 3.7 1/ 534 .06 0.7 Religion m 2.43 .76 2.30 .79 233 .13 .17 Religion w 1.94 .75 1.89 .76 277 .05 .07 Kunst 2.14 .77 2.03 .78 532 .11 34.1 1/ 530 < .01 6.0 .14 0.9 1/ 530 .35 0.2 Musik 2.06 .78 1.95 .76 358 .11 15.3 1/ 356 < .01 4.1 .14 0.5 1/ 356 .50 0.1 Sport m 2.41 .91 2.29 .92 251 .12 .13 Sport w 2.42 .81 2.38 .82 277 .04 .05 Diff: Differenz der erhaltenen (Zeugnis) minus der selbstberichteten (Schülerangabe) Zensuren in Notenstufeneinheiten Tabelle 2: Mittelwerte (M), Standardabweichungen (S), Fallzahlen (N) und Ergebnisse der Gruppenvergleiche (p, F, df; Effektstärken: h 2 %, d) des Haupteffekts „Datenquelle“ (Zeugnis vs. Schülerangabe) sowie der Wechselwirkung (WW) mit „Geschlecht“ (Schülerinnen: w, Schüler: m) 26.1 1/ 538 < .01 4.6 5.4 1/ 538 .02 1.0 21.1 1/ 376 < .01 5.3 6.6 1/ 376 .01 1.7 23.5 1/ 508 < .01 4.4 5.1 1/ 508 .02 1.0 28.3 1/ 526 < .01 5.1 6.9 1/ 526 < .01 1.3 Anteiligkeiten. Die Möglichkeit, die eigene Zensur korrekt anzugeben bzw. zu über- oder unterschätzen, variierte, wie erwähnt, systematisch mit der erhaltenen Zensur. Die folgenden Analysen basieren daher nur auf den erhaltenen Zensuren „2“, „3“ oder „4“. Überbzw. Unterschätzungen um mehr als eine Notenstufe kamen kaum vor (über alle Fächer: 0.83 % Überschätzung und 0.17 % Unterschätzung; Tab. 3). Die Anteiligkeiten korrekt berichteter Zensuren schwankten zwischen 78 % (Musik) und 91 % (Mathematik). Die Auswertungen in diesem Abschnitt beruhen auf drei Korrektheits-Gruppen: „korrekte Angabe“, „Überschätzer“ (≥ eine Notenstufe) und „Unterschätzer“ (≥ eine Notenstufe). In 3 × 2 ANOVAs (Leistung: „2“, „3“, „4“; „Geschlecht“) gab es keine signifikante Interaktion (p ≥ .08; h 2 %≤1.5), so dass auf eine geschlechtsgetrennte Darstellung verzichtet wird. Mit Ausnahme von Sport (h 2 % = 1.8) unterschied sich die mittlere Überschätzung zwischen Schülern der drei Leistungsgruppen bedeutsam (Tab. 4; 2.7 ≤ h 2 % ≤ 9.0) - Überschätzungen kamen praktisch nur bei schlechteren Zensuren vor. Die Korrelationen der dreistufigen Variablen „Korrektheits-Gruppe“ mit „Gewissenhaftigkeit“ (.00 ≤ r ≤ .14) und den fachbezogenen Variablen „Wichtigkeit guter Noten“ (-.02 ≤ r ≤ .12), „Mogeln“ (-.02 ≤ r ≤ .06) und „Selbstkonzept“ (.05 ≤ r ≤ .18) waren klein. Korrelationen selbstberichteter bzw. erhaltener Zensuren mit Außenvariablen. Insgesamt korrelierten selbstberichtete und erhaltene Zensuren vergleichbar mit den Außenvariablen, die meisten Korrelationsdifferenzen waren praktisch bedeutungslos (q < .10). Bei 3 von 36 Vergleichen zeigten sich engere Zusammenhänge bei den schülerberichteten als den erhaltenen Zensuren (Musik/ Wichtigkeit Musik: r = -.41 vs. r = -.32, q = .10; Biologie/ Selbstkonzept Biologie: r = -.51 vs. r = -.42, q = .12; Musik/ Selbstkonzept Musik: r = -.50 vs. r = -.29, q = .25). 4 Diskussion Ausgangspunkt unserer Studie war die bislang im deutschen Sprachraum häufiger thematisierte, aber empirisch kaum geklärte Frage der Akkuratesse selbstberichteter Zensuren in verschiedenen Haupt- und Nebenfächern. Hierfür verglichen wir anhand einer großen Gymnasialstichprobe die Zeugniszensuren in elf Fächern mit den von den Schülern berichteten. Es zeigte sich: (1) Selbstberichtete Zensuren korrelierten Unterschätzung in korrekt Überschätzung in Summe Notenstufeneinheiten Notenstufeneinheiten ≥ 3 2 1 0 1 2 ≥ 3 Mathematik 1 4 432 35 2 1 475 Deutsch 9 443 43 2 1 498 Physik 10 291 37 3 341 Chemie 3 18 418 41 2 1 483 Geschichte 1 11 392 61 4 469 Biologie 1 1 10 393 64 2 476 Englisch 8 425 55 3 491 Religion 1 13 338 53 4 409 Kunst 10 348 60 4 422 Musik 15 214 36 10 275 Sport 12 392 53 1 458 SUMME 2 6 120 4086 538 36 4 4797 % 0,04 0,13 2,50 85,18 11,22 0,75 0,08 100,00 Tabelle 3: Häufigkeiten der überschätzten, unterschätzten (jeweils in Notenstufeneinheiten) und korrekt wiedergegebenen Zensuren in den elf Fächern Akkuratesse selbstberichteter Zensuren 73 hoch mit erhaltenen. (2) Die Mittelwerte der selbstberichteten Zensuren fielen geringfügig besser aus als die der erhaltenen. (3) Fast alle Zensurenangaben waren korrekt. (4) Leistungsschlechtere Schüler überschätzten ihre Zensuren etwas, bessere nicht. Das Ausmaß der Überschätzung stand in keinem konsistenten Zusammenhang zu „Gewissenhaftigkeit“, „Wichtigkeit guter Noten“, „Selbstkonzept“ und „Mogelverhalten“. (5) Die Korrelationen selbstberichteter bzw. erhaltener Zensuren mit den Außenvariablen differierten kaum. Unsere Befunde replizieren die in der Literatur beschriebenen Korrelationen zwischen selbstberichteter und erhaltener Zensur in Mathematik (r ≈ .90). Schulfächer waren keine Moderatoren. Abweichende Befunde von Kuncel et al. (2005) sind vermutlich auf die Nichtbeachtung von Notenvarianzdifferenzen in verschiedenen Fächern zurückzuführen. Unsere Befunde replizieren auch, dass kaum inkorrekte Zensuren berichtet werden. Eine Generalisierbarkeit auf andere Schulformen und Klassenstufen bleibt zu prüfen. Außerdem könnte man in zukünftigen Studien Personen nach ihrer Abiturdurchschnittsnote fragen, was einen besseren Vergleich mit dem „grade point average“ amerikanischer Studien ermöglichen würde. Abgesehen von kleinen Geschlechts- und Leistungseffekten klärten die untersuchten Moderatorvariablen kaum Varianz auf. Wie bei Dickhäuser und Plenter (2005) deutet sich eine niedrigere Akkuratesse bei Schülern mit besserem Selbstkonzept an. Auch beim Vergleich der Beziehungen zwischen selbstberichteten vs. erhaltenen Zensuren mit Außenvariablen lassen sich keine praktisch bedeutsamen und konsistenten Validitätsmängel selbstberichteter Zensuren feststellen. Zusammenfassend ist also - bei anonymer Erhebung - von einer hohen Akkuratesse selbstberichteter Zensuren auszugehen. Es gibt also keinen Anlass, die gängige Forschungspraxis in Frage zu stellen. Entsprechende Warnungen (wie bei Kuncel et al., 2005) sind offenbar nicht angebracht - zumindest bei Gymnasiasten der 10. Klassen. 2 3 4 M S N M S N M S N F df p* h 2 %* Mathematik -.01 .17 170 .10 .33 199 .13 .34 106 9.2 2 < .01 3.8 Deutsch .00 .20 216 .08 .34 209 .29 .46 73 17.5 2 < .01 6.7 Physik -.04 .27 120 .12 .37 141 .23 .45 80 16.5 2 < .01 9.0 Chemie -.02 .36 182 .06 .36 198 .15 .35 103 7.3 2 < .01 3.0 Geschichte .03 .32 209 .14 .41 180 .25 .46 80 9.8 2 < .01 4.1 Biologie .00 .29 204 .17 .42 199 .29 .46 68 18.0 2 < .01 7.2 Englisch .00 .21 191 .12 .38 227 .30 .46 73 19.5 2 < .01 7.5 Religion .04 .30 247 .20 .50 139 .26 .54 23 8.0 2 < .01 3.8 Kunst .09 .36 255 .18 .45 152 .33 .49 15 5.8 2 < .01 2.7 Musik .04 .40 191 .20 .50 69 .67 .49 15 9.0 2 < .01 6.3 Sport .06 .30 230 .09 .39 174 .22 .50 54 4.2 2 .02 1.8 Tabelle 4: Mittelwerte (M) und Standardabweichungen (S) des Ausmaßes der Überschätzung (trichotomisiert: von „Unterschätzung“ [-1] über „korrekte Angabe“ [0] bis „Überschätzung“ [+1]) sowie Fallzahlen (N) in Abhängigkeit von den erhaltenen Zensuren „2“, „3“, „4“ * p und h 2 % beziehen sich auf den Haupteffekt „erhaltene Zensuren“ der zweifaktoriellen Varianzanalysen; die Wechselwirkungen mit dem Faktor „Geschlecht“ waren nicht statistisch signifikant 74 Jörn R. Sparfeldt et al. Anmerkungen 1 Im allgemeinen Fall verwenden wir die männliche Form. 2 In der Arbeit wird auf die Abweichungen von 100 % nicht eingegangen. 3 Alle a-Werte basieren hier und hinfort auf den Daten unserer Stichprobe. 4 Ein ähnliches Muster resultierte bei geschlechtsgetrennter Analyse. Tabellen mit geschlechtsübergreifenden und geschlechtsgetrennten Korrelationen können angefordert werden. Literatur Borkenau, P. & Ostendorf, F. (1993). Neo-Fünf-Faktoren- Inventar (NEO-FFI). Göttingen: Hogrefe. Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Hillsdale, NJ: Erlbaum. Dickhäuser, O. & Plenter, I. (2005). „Letztes Halbjahr stand ich zwei“: Zur Akkuratheit selbst berichteter Noten. Zeitschrift für Pädagogische Psychologie, 19, 219 - 224. Helmke, A. (1992). Selbstvertrauen und schulische Leistungen. Göttingen: Hogrefe. Jensen, A. M. (1980). Bias in mental testing. New York: Free Press. Kuncel, N. R., Credé, M. & Thomas, L. L. (2006). The validity of self-reported grade point averages, class ranks, and test scores: A meta-analysis and review of the literature. Review of Educational Research, 75, 63 - 82. Möller, J., Streblow, L., Pohlmann, B. & Köller, O. (in press). An extension to the Internal/ External Frame of Reference Model to two verbal and numerical domains. European Journal of Psychology of Education, 21, 467 - 487. Rost, D. H., Sparfeldt, J. R. & Schilling, S. R. (2007). Disk- Gitter mit SKSLF-8. Differentielles Schulisches Selbstkonzept-Gitter mit Skala zur Erfassung des Selbstkonzepts schulischer Leistungen und Fähigkeiten. Göttingen: Hogrefe. Dr. Jörn R. Sparfeldt Dr. Susanne R. Buch Prof. Dr. Detlef H. Rost Dipl.-Psych. Grit Lehmann Philipps-Universität Marburg Fachbereich Psychologie Gutenbergstr. 18 D-35032 Marburg Tel.: (0 64 21) 2 82 36 53 Fax: (0 64 21) 2 82 39 10 E-Mail: Sparfeldt@staff.uni-marburg.de Akkuratesse selbstberichteter Zensuren 75