Psychologie in Erziehung und Unterricht
3
0342-183X
Ernst Reinhardt Verlag, GmbH & Co. KG München
10.2378/peu2015.art19d
101
2015
624
Selbstberichtete Zeugnisdaten: Weitere Evidenz für ihre (partielle) Brauchbarkeit
101
2015
Xiaoli Feng
Detlef Rost
Selbstberichtete Schulnoten werden häufig als Maß für die im Zeugnis erhalte-nen Leistungsbewertungen verwendet. Ziel dieser Studie ist die (erneute) Klärung und Replikation der Akkuratesse selbstberichteter Zeugnis-Leistungspunkte in sechs Schulfächern (Chinesisch [Mut-tersprache], Englisch, Mathematik, Physik, Geschichte, Politik). Die Stichprobe umfasst N = 1014 Schülerinnen und Schüler im Alter von M = 14.31 Jahren (SD = 0.82). Die Ergebnisse belegen eine hohe Validität der Selbstangaben. Die über alle sechs Fächer gemittelten Korrelationen von selbstberichteten Leistungspunkten mit Zeugnispunkten sind extrem hoch (r = .87). Überschätzungen kommen nicht oft vor (16,0 % aller auf den selbstberichteten Leistungspunkten basierenden Zensuren), Unterschätzungen belaufen sich auf nur 4,7 %. Unterdurchschnittlich Leistende sind weniger akkurat als Leistungsstärkere und beschönigen häufiger als diese ihre Leistungen. Für korrelationsbasierte Forschungszwecke können selbstberichtete Schulleistungsdaten benutzt werden. Die Ergebnisse replizieren im Großen und Ganzen die korrelativen Befunde früherer Studien. Auf die große wissenschaftliche Relevanz von Replikationsstudien wird hingewiesen.
3_062_2015_4_0002
n Empirische Arbeit Psychologie in Erziehung und Unterricht, 2015, 62, 253 -264 DOI 10.2378/ peu2015.art19d © Ernst Reinhardt Verlag München Basel Selbstberichtete Zeugnisdaten: Weitere Evidenz für ihre (partielle) Brauchbarkeit Xiaoli Feng 1 , Detlef H. Rost 1, 2 1 Southwest University Chongqing, China 2 Universität Marburg Zusammenfassung: Selbstberichtete Schulnoten werden häufig als Maß für die im Zeugnis erhaltenen Leistungsbewertungen verwendet. Ziel dieser Studie ist die (erneute) Klärung und Replikation der Akkuratesse selbstberichteter Zeugnis-Leistungspunkte in sechs Schulfächern (Chinesisch [Muttersprache], Englisch, Mathematik, Physik, Geschichte, Politik). Die Stichprobe umfasst N = 1014 Schülerinnen und Schüler im Alter von M = 14.31 Jahren (SD = 0.82). Die Ergebnisse belegen eine hohe Validität der Selbstangaben. Die über alle sechs Fächer gemittelten Korrelationen von selbstberichteten Leistungspunkten mit Zeugnispunkten sind extrem hoch (r = .87). Überschätzungen kommen nicht oft vor (16,0 % aller auf den selbstberichteten Leistungspunkten basierenden Zensuren), Unterschätzungen belaufen sich auf nur 4,7 %. Unterdurchschnittlich Leistende sind weniger akkurat als Leistungsstärkere und beschönigen häufiger als diese ihre Leistungen. Für korrelationsbasierte Forschungszwecke können selbstberichtete Schulleistungsdaten benutzt werden. Die Ergebnisse replizieren im Großen und Ganzen die korrelativen Befunde früherer Studien. Auf die große wissenschaftliche Relevanz von Replikationsstudien wird hingewiesen. Schlüsselbegriffe: Selbstbericht, Schulleistung, Zensuren, Genauigkeit, Jugendliche Self Reported Academic Records: Further Evidence for Their (Partial) Usability Summary: Self-reported academic records are heavily used to assess students’ academic performances. This study sheds some (additional) light on the accuracy of self-reported academic performance data in six school subjects (Chinese [mother language], English, mathematics, physics, history, politics). The sample comprises N = 1.014 Chinese students (M = 14.31 years, SD = 0.82). Selfreported academic record points correlate with the obtained record points as high as r = .87. Over all, 16,0 % of all self reported grades are overestimations, whereas only 4,7 % are underestimations. Lower achieving students are less accurate than higher achieving students and are prone for an overestimation bias. By and large, this study replicates prior research findings. It is concluded that self reported performance data may be used for research purposes as long as correlational data analyses will be performed. The great scientific relevance of replication studies is stressed. Keywords: Self-report, grades, academic performance, accuracy, students Zeugnisnoten sind - trotz aller Kritik (vgl. schon Ingenkamp, 1971) - curricular und vor allem gesellschaftlich hoch relevante Leistungskriterien in Schule und Hochschule (vgl. Schuler, 2010; Tent & Birkel, 2010) und „nötig und besser als ihr Ruf“ (Köller, 2002, S. 7). In vielen pädagogisch-psychologischen Forschungsprojekten interessiert man sich deshalb für akademische Leistungen, wie sie sich in Zeugnissen widerspiegeln. Aus diversen organisatorischen oder datenschutzrechtlichen Gründen ist es aber oft nicht oder nur nach zeitraubender Überwindung bürokratischer Hürden möglich, diese Informationen aus den Schulakten zu entnehmen. Dann muss man, will man nicht auf diese relevanten Leistungsindikatoren verzichten, Schülerinnen und Schüler bzw. Studentinnen und Studenten bitten, ihre erhaltenen Noten selbst aufzuschreiben. 254 Xiaoli Feng, Detlef H. Rost Selbstberichtsdaten von Schülerinnen und Schülern bzw. Studentinnen und Studenten sind nicht unumstritten (vgl. Bowman & Hill, 2011; Fan et al., 2006; Gonyea, 2005; Herzog & Bowman, 2011). Beispielsweise führen Zeitschriftengutachter in Stellungnahmen zu eingereichten Arbeiten nicht selten an, selbstberichtete Zensuren seien wahrscheinlich durch schlichte Erinnerungsfehler stärker messfehlerbehaftet und somit in ihrer Brauchbarkeit deutlich eingeschränkt, insbesondere wenn die Zeitspanne zwischen Zeugnis und Befragung mehrere Monate umfassen würde. Oder sie wenden ein, die Validität selbstberichteter Zensuren sei nicht nur nicht belegt, sondern vermutlich auch fraglich: Man könne annehmen, dass ein gewisser Anteil der Befragten nicht ehrlich geantwortet hätte, und mangels Kenntnis der wahren Zensur wisse man nicht, wie viele Personen das beträfe; vermutlich seien es nicht wenige. Wie sieht die Forschungslage zur Brauchbarkeit selbstberichteter Leistungsdaten aus? Aus den USA liegen diverse einschlägige Artikel vor, hauptsächlich zu den Ergebnissen von Studieneingangstests (SAT, CAT, ACT) und zum Zensurendurchschnitt (Grade Point Average, GPA). Kuncel, Credé und Thomas (2005) fassten Befunde aus den Jahren 1952 bis 2003 meta-analytisch zusammen. Beim SAT ergab sich eine hohe Beziehung vom selbstangegebenen zum tatsächlichen Testresultat (r = .82). Aktuellere Studien konnten diesen Befund punktgenau replizieren (Mayer et al., 2007: r = .82) oder für den SAT noch höhere Koeffizienten objektivieren (Cole & Gonyea, 2010: r = .95). In ähnlicher Größenordnung lag in der erwähnten Meta- Analyse von Kuncel et al. (2005) die Übereinstimmung zwischen selbstangegebenem und tatsächlich erhaltenem GPA (r = .84, Studentinnen und Studenten: r = .90; Schülerinnen und Schüler: r = .82). Bei Studentinnen und Studenten scheint die Akkuratesse des selbstberichteten GPA mit der Höhe des tatsächlich erhaltenen GPA zu kovariieren: Je besser der Zensurendurchschnitt, desto akkurater die selbstberichteten Angaben. Mit der Verschlechterung des GPA fällt in der Regel - unabhängig vom zeitlichen Abstand zwischen angegebenem und erhaltenem GPA - der Anteil zutreffender Angaben (Bahrick, Hall & Berger, 1996: beste Zensur A: 89 % korrekt; B: 64 %; C: 51 %; schlechteste Zensur D: 39 %). Cole, Rocconi und Gonyea berichteten 2012 - ebenfalls bei Studentinnen und Studenten - in der Tendenz gut vergleichbare Befunde: Die Leistungsbesten (Note A) machten zu 91 % korrekte Angaben, die durchschnittlich Leistenden (Note B) zu 70 % und die leistungsmäßig Schwächeren (Note C) nur zu 43 %. Vice versa lag der Anteil derjenigen Studentinnen und Studenten, die sich eine bessere Note zuschrieben, bei 26 % (B) bzw. 57 % (C). In vielen Ländern - nicht nur in Deutschland - werden auf den Zeugnissen keine Zensurendurchschnitte mitgeteilt, sondern nur die Leistungen in Einzelfächern benotet. Die Befunde zum besonders wichtigen und daher einprägsamen Leistungsindikator GPA (oder gar die erwähnten Ergebnisse zu den high stakes Studieneingangstests) sind deshalb ohne empirische Überprüfung nicht auf fachspezifische Zeugnisleistungsindikatoren (Leistungspunkte bzw. Zensuren in schulischen Haupt- und Nebenfächern) übertragbar. Kuncel et al. (2005) errechneten für Fachleistungen Übereinstimmungen von selbstberichteten mit erhaltenen Zensuren zwischen r = .85 (sozialwissenschaftliche Fächer) und r = .67 (Kunst/ Musik). Im deutschen Sprachraum liegen u. W. lediglich vier Studien zur Akkuratesse selbstangegebener Zensuren vor; nur zwei davon wurden eigens zur Klärung des Zusammenhangs selbstberichteter mit erhaltenen Zensuren angelegt: - Als Nebenresultat einer Studie zum Selbstvertrauen berichtete Helmke (1992) Korrelationen von selbstangegebenen Zensuren mit Lehrkraftbewertungen in verschiedenen Fächern, die von r = .75 bis r = .97 reichten. - Möller, Streblow, Pohlmann und Köller (2006) befragten im Rahmen einer Studie zum internalen/ externalen Selbstkonzeptbezugsrahmenmodell (Marsh, 1986) eine recht kleine Stichprobe Jugendlicher nach Selbstberichtete Zeugnisdaten 255 ihrer Zensur im Schulfach Mathematik. Die Übereinstimmung mit den von Lehrerinnen und Lehrern vergebenen Mathematiknoten war hervorragend (r = .93). Nur zehn (= 12 %) der erfassten 83 Schülerinnen und Schüler berichteten eine bessere Note und lediglich sechs (= 7 %) eine schlechtere. - Dickhäuser und Plenter (2005) fanden bei einer größeren Stichprobe von N = 855 Jugendlichen der siebten und achten Jahrgangsstufe (Gymnasien, Realschulen, Hauptschulen) im Fach Mathematik einen Zusammenhang zwischen Selbstbericht und Lehrkraftbewertung von r = .90 (Klassenarbeit, Zeitabstand drei Wochen) bzw. r = .88 (Zeugnis, Zeitabstand 4.5 Monate). Weitere Fächer wurden nicht erfasst. - Sparfeldt, Buch, Rost und Lehmann (2008) hatten N = 540 Gymnasiastinnen und Gymnasiasten der zehnten Jahrgangsstufe nach ihren Zeugniszensuren in immerhin elf Fächern befragt. Die Korrelationen mit den tatsächlich erhaltenen Zeugniszensuren lagen bei r ≥ .79 (schwächster Zusammenhang bei Musik mit r = .79, stärkster bei Mathematik mit r = .94). Nach Korrektur bezüglich Varianzeinschränkungen bei einigen milden Fächern erreichten alle Koeffizienten mindestens r = .90. Den bisherigen amerikanischen und deutschen Untersuchungen zufolge neigen insbesondere unterdurchschnittlich Leistende häufiger zu Aufwertungen (Angabe besserer Zensuren, zumeist um eine Notenstufe) als zu Abwertungen (Angabe schlechterer Zensuren). Fehlangaben um mehr als eine Notenstufe waren in den bisherigen Studien ziemlich selten. Das Ausmaß der Notenüberschätzung wurde bei Dickhäuser und Plenter (2005) nicht von der Geschlechtsvariablen beeinflusst. Auch bei Sparfeldt et al. (2008) klärte der Faktor Geschlecht nur unerhebliche Varianzanteile der Abweichungen der selbstberichteten von tatsächlich erhaltenen Noten auf. Angesichts der sehr geringen Anzahl vorliegender Arbeiten zu fachbezogenen Zensuren und immer wieder geäußerten Bedenken bezüglich der Verwendung selbstberichteter Schulleistungen besteht weiterer Klärungsbedarf, um die Belastbarkeit der bisher berichteten (guten) Akkuratesse selbstangegebener Zensuren zu klären. Eine operationale Replikation (Lykken, 1968) der oben vorgestellten (hohen) Übereinstimmungen zwischen selbstberichteten und tatsächlich erhaltenen fachbezogenen Schulleistungen könnte die bisherige weitverbreitete Forschungspraxis, Schülerinnen und Schüler bzw. Studentinnen und Studenten nach ihren Zensuren zu befragen, stützen und rechtfertigen, vor allem wenn sie auf Stichproben aus möglichst divergierenden Settings (d. h. unterschiedlichen Schulsystemen, Nationen, Sprachfamilien, Kulturen) beruhen. Nur so lässt sich die Frage beantworten, ob ein generell-ubiquitäres - d. h. in allen Ländern vorkommendes - Phänomen vorliegt oder ob die Befunde spezifisch für den westlichen Kulturkreis sind. Eine Klärung wäre nicht nur von theoretischem, sondern auch von praktischem Interesse, Letzteres insbesondere für die seit 2000 zunehmend populär werdenden internationalen Bildungsstudien mit Stichproben aus vielen Ländern und unterschiedlichen Kontinenten. Anders als in den harten Naturwissenschaften (z. B. Physik, Chemie) und anders als in der Medizin sind in der Psychologie Replikationen von Befunden ausgesprochen selten, werden häufig (zu Unrecht) als wissenschaftlich wenig relevant angesehen und schon deshalb vielfach nicht zur Publikation angenommen. In den letzten Jahren scheint sich in der Psychologie diesbezüglich jedoch ein Wandel anzubahnen, die große wissenschaftliche Bedeutung von Replikationsstudien wird stärker betont (z. B. Makel, Plucker & Hegarty, 2012; Plucker, 2014). Die einflussreiche und größte Vereinigung psychologischer Forscherinnen und Forscher, die Association for Psychological Science (APS), führte deshalb 2013 in ihrem Flagschiffjournal Perspectives of Psychological Science den neuen Artikeltyp Registered Replication Reports (Anstoßfinanzierung für große multizentrische Replikationsprojekte: US $ 250.000) mit folgender 256 Xiaoli Feng, Detlef H. Rost Begründung ein: „Replikation ist der Eckpfeiler der Wissenschaft […] Der neue Artikeltyp […] festigt die Grundlagen der psychologischen Wissenschaft durch die Publikation von Replikationen“ (Übers. d. A., http: / / www.psychological science.org/ index.php/ replication). Hier setzt die vorliegend berichtete Untersuchung an, mit der wir - wie erwähnt - überprüften, ob sich die spärlichen deutschen und internationalen Befunde zur guten Brauchbarkeit selbstberichteter (Einzelfächer-)Zeugnisdaten in einer völlig anderen - fernöstlichen - Kultur replizieren lassen. Einschlägige Studien aus dem asiatischen Raum sind uns nicht bekannt. Methode Stichprobe und Durchführung Die ad hoc gezogene Ausgangsstichprobe bestand aus 1053 Jugendlichen aus 18 Klassen (Klassenstärke: M = 61.94, SD = 9.82) der Unterstufe (erster und zweiter Jahrgang) von vier allgemeinen Mittelschulen aus dem Großraum der südchinesischen Stadt Nanchong (> 7 Millionen Einwohner, Provinz Sichuan). Solche nicht zufälligen Gelegenheitsstichproben sind „in der pädagogisch-psychologischen Forschung eher die Regel als die Ausnahme“ (Rost, 2013, S. 107). In China besuchen nach der sechsjährigen Grundschule alle Schülerinnen und Schüler die allgemeine Mittelschule. Erst nach der dreijährigen Mittelschulunterstufe erfolgt in China eine Ausdifferenzierung: Ein kleiner Teil der Schülerinnen und Schüler verlässt dann die Mittelschule und beginnt zu arbeiten. Der größere Teil besucht - in Abhängigkeit von der Schulleistung - entweder die dreijährige Mittelschuloberstufe oder eine ebenfalls dreijährige Berufsoberschule. Es hatte also zum Zeitpunkt der Erhebungen noch keinerlei Auslese stattgefunden. Das Ausfüllen des Fragebogens dauerte ca. acht Minuten. Bei 39 Befragten (= 3,7 %) fehlte mindestens ein selbstberichteter Zeugnispunkt (s. u.). Diese Personen wurden nicht berücksichtigt. Die Analysen basieren also auf N = 1014 Schülerinnen und Schülern (n J = 530 Jungen, n M = 484 Mädchen) im durchschnittlichen Alter von M = 14.31 Jahren (SD = 0.82). Nach den Erhebungen informierten wir die Schülerinnen und Schüler über den Erhebungszweck. Es wurde erläutert, dass eine vollständige Anonymisierung der erhobenen Daten garantiert sei und dass Rückschlüsse auf einzelne Schülerinnen und Schüler somit nicht möglich seien. Die Daten wurden anonymisiert, indem jeder Person eine Nummer zugewiesen wurde. Nach der Dateneingabe vernichteten wir, wie mit den Schulen vereinbart, die Zuordnungsliste (Namen ➝ Nummern). Variablen Selbstberichtete Zeugnispunkte Die Jugendlichen wurden gebeten, die vier Monate vor der Befragung erhaltenen Zeugnisleistungspunkte in der Muttersprache Chinesisch und der Fremdsprache Englisch (sprachliche Domäne), in Mathematik und Physik (mathematisch-naturwissenschaftliche Domäne) sowie in Geschichte und Politik (sozialwissenschaftliche Domäne) aufzuschreiben. Diese Angaben der Schülerinnen und Schüler bezeichnen wir künftig als S-Punkte. Tatsächliche Zeugnispunkte Für die gleichen sechs Fächer versorgten uns die Schulen mit Computerfiles der vier Monate vorher erteilten Zeugnisleistungspunkte, hinfort Z-Punkte genannt. Die maximal erreichbare Punktzahl variierte unsystematisch zwischen den einbezogenen Schulen, zwischen den Fächern und zwischen den beiden Jahrgangsstufen. In Chinesisch, Englisch und Mathematik lag die maximal mögliche Sbzw. Z- Punktezahl mal bei 120, mal bei 100, in Geschichte mal bei 100, mal bei 70, in Politik bei 70 und in Physik bei 50. Selbstwirksamkeitserwartungen Zur Erfassung von Selbstwirksamkeitserwartungen setzten wir eine auf die drei Schulfächer Chinesisch, Englisch und Mathematik bezogene chinesische Adaptation (Feng, 2013) des schulfachübergreifenden Fragebogens Wirkschul von Jerusalem und Satow (1999) ein. Selbstwirksamkeit war jedoch nicht Fokus dieser Studie. Die auf die genannten drei Fächer bezogenen Selbstwirksamkeitsskalen (mit jeweils sechs Items) dienten lediglich zur Ablenkung der Befragten, um die eigentliche Zielsetzung unserer Studie (Kontrolle der Stimmigkeit der angegebenen S-Punkte) nicht salient werden zu lassen. In unserer Stichprobe lagen die internen Konsistenzen der Selbstwirksamkeitsskalen bei α = .88 (Chinesisch), α = .93 (Englisch) und α = .92 (Mathematik). Selbstberichtete Zeugnisdaten 257 Auswertung Wegen der zwischen den Schulen, Fächern und Jahrgangsstufen variierenden Leistungspunktmaxima nahmen wir für die S- und Z-Punkte eine schulklasseninterne z-Standardisierung vor. Dadurch wurden die unterschiedlichen Punktesysteme in eine für alle Fächer und Klassen gleiche Metrik mit M = 0.00 und SD = 1.00 transformiert. Zugleich führten diese Level-1 clusterzentrierten z-Standardisierungen zur Eliminierung eventuell vorhandener Interklassenkorrelationen - in unserer Studie interessierten lediglich die Individualeffekte (Ebene-1 Assoziationen; s. dazu Enders & Tofighi, 2007). Klasseninterne Standardisierungen wurden deshalb in diversen Studien vorgenommen (z. B. Dickhäuser & Plenter, 2005; Niepel, Brunner & Preckel, 2014 a, 2014 b; Schilling, Sparfeldt, Rost & Nickels, 2005; Sparfeldt, Buch, Schwarz, Jachmann & Rost, 2009; Sparfeldt, Rost & Schilling, 2004; Trautwein, Lüdtke, Köller & Baumert, 2006; Watkins et al., 1998). Um unsere Befunde besser in die bisherigen Forschungsergebnisse zu Zeugniszensuren einordnen zu können, transformierten wir die S- und Z- Punkte ergänzend in Noten (hinfort bei Schülerinnen- und Schülerangaben als S-Noten bezeichnet, bei Zeugnisangaben als Z-Noten). Die Punkte wurden nach folgenden Kriterien in eine dem chinesischen Zensurensystem (beste Note = 5, schlechteste Note = 1) entsprechende Notenskala transformiert und anschließend umgepolt. Damit stellten wir eine Vergleichbarkeit mit dem deutschen - theoretisch sechsstufigen, faktisch aber fünfstufigen - Notensystem her (in Deutschland kommt die Zensur 6 auf dem Zeugnis so gut wie nie vor): 5, schlechteste Note: d. h. weniger als 60 % Punkte erreicht; 4: 60 % bis 69 %; 3: 70 % bis 79 %; 2: 80 % bis 89 %; 1, beste Note: 90 % und mehr Punkte. Zusammenhänge quantifizierten wir mittels des Korrelationskoeffizienten r. Für Noten wurden ergänzend die prädiktiven asymmetrischen Assoziationsindices D von Somers (1962) berechnet. Korrelationsdifferenzen prüften wir ggf. auf statistische Signifikanz (über Fishers z; bei abhängigen Korrelationen nach Steiger, 1980). Da bei den Stichprobengrößen dieser Studie auch recht kleine, inhaltlich kaum interpretierwürdige Korrelationen bzw. Korrelationsdifferenzen statistisch signifikant ( α = .01) werden, wurde für Korrelationsunterschiede die Effektgröße q (Cohen, 1988) ermittelt. Ergebnisse Zusammenhänge Kleinere Abweichungen der S-Punkte von den Z-Punkten schlagen sich in Noten, die jeweils mehrere aufeinanderfolgende Punkte zu einer Kategorie bündeln, kaum nieder (sieht man von Abweichungen, die kurz vor oder nach den Intervallgrenzen für eine Leistungskategorie liegen, ab), weshalb die Beziehungen der Szu Z-Noten numerisch leicht höher waren als die Korrelationen der Smit Z-Punkten. Die S- Punkte korrelierten mit den Z-Punkten, über die sechs Fächer hinweg (nach Fishers z-Transformation) gemittelt, zu r = .87, die S-Noten mit den Z-Noten zu r = .89. Die höchsten Beziehungen von selbstberichteten zu erhaltenen Bewertungen gab es in Mathematik und Englisch (je r = .92 für Leistungspunkte, je r = .94 für Noten), die zwei niedrigsten in Politik (r = .79, r = .72) und Geschichte (r = .78, r = .85; s. Tab. 1). Bei den Noten waren Somers’ (1962) prädiktive Assoziationswerte praktisch gleich hoch (D S.Z = .86, D Z.S = .87). Notensummen bzw. Durchschnittsnoten wurden in den Zeugnissen nicht ausgewiesen, aber von uns zum Vergleich mit den im Einleitungsteil erwähnten Befunden zur Akkuratesse selbstberichteter Zensurendurchschnitte (GPAs) berechnet. Es ergaben sich für die (reliableren) Punktbzw. Notensummen etwas höhere Zusammenhänge: bei den Jungen r = .94 bzw. r = .96, bei den Mädchen r = .95 bzw. r = .96. Mit Ausnahme der Beziehung von Szu Z- Noten in Englisch (identische Werte bei Schülerinnen und Schülern: r = .94) lagen die Korrelationen bei den Mädchen numerisch etwas höher als bei den Jungen. Überwiegend erwiesen sich die Moderatoreffekte der Geschlechtsvariablen aber als statistisch unbedeutend und von irrelevanter bis wenig relevanter Größe. Nur bei Mathematik (S- und Z-Punkte: q = 0.27; S- und Z-Note: q = 0.17), Geschichte (S- und Z-Punkte: q = 0.18) und Chinesisch (S- und Z-Note: q = 0.17) waren sie zwar statistisch signifikant, aber klein. 258 Xiaoli Feng, Detlef H. Rost Über- und Unterschätzungen Höhere Beziehungen zwischen S- und Z-Noten können auch resultieren, wenn bei einer nennenswerten Anzahl von Jugendlichen die S-Note zwar nicht der tatsächlich erhaltenen Z-Note entspricht, aber wenn bei der Mehrheit von ihnen eine gleichgerichtete und vergleichbar große (d. h. systematische, nicht differenzielle) Abweichung nach oben oder unten vorliegt. Zur Klärung der Akkuratesse von S-Noten analysierten wir deshalb auch Anzahl und Ausmaß der Aufwertungen (Überschätzungen: die Schülerinnen und Schüler geben bessere als im Zeugnis erhaltene Noten an) bzw. Abwertungen (Unterschätzungen: die Jugendlichen schreiben sich schlechtere Noten zu). Fach (A) S-Punkte / Z-Punkte (B) S-Noten / Z-Noten r + r r q r + r r q Chinesisch Englisch Mathematik Physik Geschichte Politik .86 .92 .92 .87 .78 .79 .84 .91 .90 .86 .75 .75 .86 .92 .94 .88 .82 .81 .07 .06 .27 .08 .18 .15 .88 .94 .94 .91 .85 .72 .85 .94 .93 .90 .84 .69 .89 .94 .95 .91 .87 .75 .17 .00 .17 .06 .11 .13 Tab. 1: Korrelationen zwischen (A) selbstberichteten Zeugnispunkten (S-Punkten) und erhaltenen Zeugnispunkten (Z-Punkten) bzw. (B) selbstberichteten Noten (S-Noten) und erhaltenen Zeugnisnoten (Z-Noten) in sechs Schulfächern bei N = 1014 chinesischen Mittelschuljugendlichen (n J = 530 Jungen, n M = 484 Mädchen) im Alter von M = 14.31 (SD = 0.82) Jahren sowie Effektgrößen (q) der geschlechtsbezogenen Korrelationsdifferenzen Anmerkung: q > .16: statistisch signifikanter Korrelationsunterschied zwischen Jungen und Mädchen. Angaben von Schülerinnen und Schülern (jeweils in %) Anzahl Angaben bzw. Zensuren gesamt (∑) S-Notenstufen Überschätzungen bzw. Unterschätzungen 1 2 3 4 5 Zeugnisnote 1 93,99 4,73 0,89 0,26 0,13 Unterschätzungen 6,01 % 1564 2 10,42 83,79 4,35 1,03 0,41 Unterschätzungen 5,79 % Überschätzungen 10,42 % 1449 3 2,45 17,31 73,76 5,61 0,87 Unterschätzungen 6,48 % Überschätzungen 19,76 % 1265 4 0,64 7,59 26,25 62,31 3,21 Unterschätzungen 3,21 % Überschätzungen 34,48 % 777 5 0,58 3,21 7,29 18,76 70,16 Überschätzungen 29,84 % 1029 Tab. 2: Kovariationen zwischen 6084 auf der Basis von selbstberichteten Leistungspunkten ermittelten Noten (S-Noten) und Zeugnisnoten (Z-Noten), zusammengefasst über die sechs Fächer Chinesisch, Englisch, Mathematik, Physik, Geschichte und Politik bei N = 1014 chinesischen Mittelschülerinnen und -schülern im Alter von M = 14.31 (SD = 0.82) Jahren; Notenskala von 1 (beste Note) bis 5 (schlechteste Note) reichend; Prozentuierungsbasis: jeweils Zeilensummen ( ∑ ); Prozentzahlen auf die zweite Nachkommastelle gerundet Anmerkungen: Bei den Zensuren 5 bzw. 1 sind keine Unterschätzungen bzw. Überschätzungen möglich. 4,68 % Unterschätzungen und 16,04 % Überschätzungen bei 6084 Angaben. Hauptdiagonale: richtige Angaben (kursiv). Linke untere Dreiecksmatrix: Überschätzungen. Rechte obere Dreiecksmatrix: Unterschätzungen. Ablesebeispiel für die Zensurzeile 2: Eine 2 (Z-Note) stand 1449 mal in den Zeugnissen (Spalte Angaben bzw. Zensuren gesamt). Zu 83,79 % wurde richtigerweise eine der Z-Note 2 entsprechende Punktezahl angegeben. Bei den Angaben der Schülerinnen und Schüler wurden der Z-Note 1 entsprechende Leistungspunkte zu 10,42 % genannt (= Überschätzung um eine Notenstufe). Bei der Z-Note 3 war das zu 4,35 % der Fall (= Unterschätzung um eine Notenstufe), bei der 4 dann zu 1,03 % (= Unterschätzung um zwei Notenstufen) und bei der 5 nur zu 0,41 % (= Unterschätzung um drei Notenstufen). Es gab also bei den S-Noten, auf die Z-Note 2 bezogen, insgesamt 5,79 % Unterschätzungen und 10,42 % Überschätzungen. Selbstberichtete Zeugnisdaten 259 Tabelle 2 informiert - über alle Fächer hinweg zusammengefasst und nach den Notenstufen spezifiziert - über die Konkordanz von S-Noten zu Z-Noten. Ein hoher Prozentsatz der Jugendlichen gab die Z-Noten zutreffend an (alle Notenstufen: 79,27 %). Weiterhin fällt auf, dass insgesamt der Prozentsatz von Überschätzungen (16,04 %) merklich höher war als der von Unterschätzungen (4,68 %). Aufschlussreich ist die Betrachtung der Abbzw. Aufwertungen in Abhängigkeit von den sich im Zeugnis spiegelnden Bewertungsstufen. Bei Jugendlichen mit der Z-Note 1 kann es sich, wenn Fehlangaben bei der S-Note vorkommen, trivialerweise nur um Unterschätzungen handeln, bei Fehlangaben von Jugendlichen mit der Z-Note 5 nur um Überschätzungen. Aufwertungen von zwei oder mehr Stufen können nur bei den Z-Notenstufen 3 bis 5, Abwertungen in dieser Größenordnung nur bei den Z-Notenstufen 1 bis 3 vorkommen. Über alle Fächer aufsummiert schwanken die Anteile der Unterschätzungen im Z-Notenbereich 1 bis 4 in Abhängigkeit von der erhaltenen Note zwischen 6,01 % (Z-Note 1), 5,79 % (2), 6,48 % (3) bzw. 3,21 % (4) - bewegten sich also stets im sehr niedrigen Bereich. Die Prozentsätze an Beschönigungen lagen dagegen höher. Bei den Z-Noten 2 und 3 waren es alles in allem 10,42 % und 19,76 %, bei 4 und 5 immerhin 34,48 % und 29,84 %. Tabelle 3 informiert - für jedes Fach getrennt - über die Häufigkeiten der (auf der Basis selbstberichteter Leistungspunkte ermittelten) überschätzten, richtig angegebenen und unterschätzten S-Noten. Die richtigen Angaben schwanken zwischen 71,7 % (Geschichte) und 85,2 % (Mathematik), die Unterschätzungen zwischen 2,9 % (Chinesisch) und 9,5 % (Politik), die Überschätzungen zwischen 10,8 % (Mathematik) und 23,4 % (Geschichte). 1 Beziehungen zu Selbstwirksamkeitserwartungen Obwohl die Fragestellung der Studie nicht auf das Konstrukt Selbstwirksamkeitserwartungen zielte, berichten wir kurz die Beziehungen der Leistungsdaten zu den drei auf die Schulfächer Chinesisch, Englisch und Mathematik bezogenen Selbstwirksamkeitsskalen. Die Korrelationen der S-Punkte bzw. Z-Punkte zu den Skalen waren höher, wenn das gleiche Fach fokussiert wurde, als wenn es sich um Korrelationen handelte, welche sich auf verschiedene Fächer bezogen. Die Korrelationen der S-Punkte mit den Selbstwirksamkeitsskalen lagen zudem in ihrer Größe immer sehr nahe bei den Beziehungen der Z-Punkte zu den Skalen. Trotz der großen Stichprobe waren die Unterschiede zwischen 1 Im Vergleich zur fachübergreifenden Analyse basieren die Angaben zu Einzelfächer-Abweichungen auf deutlich weniger Nennungen. Deshalb teilen wir die Prozentsätze nur mit einer (gerundeten) Nachkommastelle mit. Fach S-Noten: Überschätzungen (in Notenstufeneinheiten) S-Noten: richtige Angabe S-Noten: Unterschätzungen (in Notenstufeneinheiten) 4 + 3 2 1 1 2 3 + 4 Chinesisch Englisch Mathematik Physik Geschichte Politik 0,1 % 0,1 % 0,3 % 0,7 % 2,3 % 0,9 % 1,7 % 2,1 % 1,9 % 3,8 % 4,5 % 2,3 % 16,4 % 12,0 % 8,6 % 11,8 % 16,6 % 10,1 % 78,9 % 82,7 % 85,2 % 79,9 % 71,7 % 77,2 % 2,7 % 2,7 % 3,3 % 3,1 % 3,9 % 7,3 % 0,2 % 0,4 % 0,4 % 0,4 % 0,8 % 1,8 % - - 0,3 % 0,3 % 0,2 % 0,4 % Tab. 3: Abweichungen der auf der Basis selbstberichteter Leistungspunkte ermittelten Noten (S-Noten) von den tatsächlich erhaltenen Zeugnisnoten (Z-Noten) in den Schulfächern Chinesisch, Englisch, Mathematik, Physik, Geschichte und Politik bei N = 1014 chinesischen Mittelschülerinnen und -schülern im Alter von M = 14.31 (SD = 0.82) Jahren; Notenskala von 1 (beste Note) bis 5 (schlechteste Note) reichend; Prozentangaben auf die erste Nachkommastelle gerundet, Prozentuierungsbasis pro Fach: 1014 Noten 260 Xiaoli Feng, Detlef H. Rost den einander fachweise entsprechenden Koeffizienten (S-Punktevs. Z-Punkte-Beziehungen zu den Selbstwirksamkeitsskalen) mit wenigen Ausnahmen nicht statistisch signifikant, und, wichtiger, sie waren durchgängig irrelevant (mittlere Effektgröße: q = 0.03, höchste: q = 0.06). Das war wegen der hohen Korrelation von Smit Z-Punkten erwartungsgetreu (s. Tab. 4). Die S-Noten waren also bezüglich der Selbstwirksamkeitsskalen sehr ähnlich divergent-konvergent valide wie die Z-Noten. Die Beziehungen des Ausmaßes der schulfachbezogenen Fehlangaben (Differenzwerte: Z-Punkte minus S-Punkte) zu den fachspezifischen Selbstwirksamkeitsskalen waren in ihrer Höhe und Relevanz zu vernachlässigen (auch deshalb, weil Differenzwerte von höher korrelierenden Variablen wenig reliabel sind): Die Korrelationen lagen bei r = .04 (maximales r = .09). Diskussion Ausgangspunkt unserer Studie war die Frage, ob es bei den nicht zahlreichen in den USA und in Deutschland gewonnenen Befunden zur Brauchbarkeit selbstberichteter schulfachbezogener Zeugnisdaten um ein auf die westlichen Länder beschränktes Faktum handelt oder ob hier ein sprach- und kulturübergreifendes Phänomen vorliegt. Dazu wurde die Replizierbarkeit an einer Stichprobe aus dem asiatischen Raum - hier China - geprüft. US-Studien zum Notendurchschnitt (GPA) bzw. zu für die Studienzulassung relevanten Testleistungen konnten bei Schülerinnen und Schülern sowie Studentinnen und Studenten für selbstberichtete Angaben eine hohe Konkordanz mit tatsächlich erhaltenen Leistungsbewertungen belegen. In vielen Ländern, so auch in Deutschland und China, werden aber in Zeugnissen nur die Leistungsbewertungen in den Einzelfächern aufgeführt und nicht der besonders prägnante und somit leichter zu erinnernde GPA. Zu schulfachspezifischen Leistungskriterien liegen national wie international nur wenige Studien vor. Die Befragung einer umfangreichen Stichprobe chinesischer Jugendlicher zu erhaltenen Zeugnisbewertungen in sechs Schulfächern führte bei der (zuverlässigeren) Punktsumme bzw. beim ermittelten (reliableren) Notendurchschnitt zu nahezu perfekten Korrelationen (r = .95 bzw. r = .96). Damit werden die in einschlägigen amerikanischen Studien berichteten entsprechenden Zusammenhänge beim Grade Point Average hervorragend repliziert (Kuncel et al., 2005). In den einzelnen Fächern objektivierten wir ebenfalls ausgesprochen hohe bis sehr hohe korrelative Übereinstimmungen der selbstberichteten Leistungspunkte mit den 16 Wochen vorher in den Zeugnissen aufgeführten. Die Koeffizienten reichten von r = .78 bis r = .92 (transformiert in Notenstufen: r = .72 bis r = .94) und bestätigen damit die Größenordnung der Kor- Fachleistungen Schulfachbezogene Selbstwirksamkeitsskalen Chinesisch Englisch Mathematik Chinesisch: S-Punkte/ Z-Punkte Englisch: S-Punkte/ Z-Punkte Mathematik: S-Punkte/ Z-Punkte Physik: S-Punkte/ Z-Punkte Geschichte: S-Punkte/ Z-Punkte Politik: S-Punkte/ Z-Punkte .37/ .37 (q = 0.00) .20/ .20 (q = 0.00) .10/ .10 (q = 0.00) .17/ .15 (q = 0.02) .23/ .19 (q = 0.04) .22/ .20 (q = 0.02) .29/ .28 (q = 0.01) .59/ .55 (q = 0.06) .29/ .27 (q = 0.02) .29/ .25 (q = 0.04) .31/ .29 (q = 0.02) .33/ .30 (q = 0.03) .18/ .23 (q = 0.05) .27/ .30 (q = 0.03) .51/ .48 (q = 0.04) .45./ 45 (q = 0.00) .26/ .29 (q = 0.03) .20/ .24 (q = 0.04) Tab. 4: Korrelationen der von N = 1014 chinesischen Mittelschülerinnen und -schülern im Alter von M = 14.31 Jahren (SD = 0.82) selbstberichteten Leistungspunkte (S-Punkte) bzw. Zeugnisleistungspunkte (Z-Punkte) mit den auf die Schulfächer Chinesisch, Englisch und Mathematik bezogenen Selbstwirksamkeitsskalen Anmerkung: Statistisch signifikante ( α = .01) Differenzen zwischen fachinternen Korrelationen von S-Punkten bzw. Z- Punkten mit den auf die Fächer Chinesisch, Englisch und Mathematik bezogenen Selbstwirksamkeitsskalen in kursiv. Selbstberichtete Zeugnisdaten 261 relationen, die von Dickhäuser und Plenter (2005) und Sparfeldt et al. (2008) bei deutschen Jugendlichen berichtet wurden. Bezogen auf die 6084 Zeugnisbewertungen gab es bei den auf der Basis der erhaltenen Leistungspunkte ermittelten Noten insgesamt 12,61 % Aufwertungen um eine Notenstufe und nur 3,43 % um mehr als eine, bei den Abwertungen waren das lediglich 3,83 % und 0,85 %. Beschönigende Angaben kamen also häufiger vor als verschlechternde, vor allem wenn es sich um eine 4 oder 5 handelte: Dann beobachteten wir rund 30 % Aufwertungen. Dieser Prozentsatz relativiert sich allerdings in seiner Bedeutsamkeit, berücksichtigt man, dass es sich hier um eine Aggregation über sechs Schulfächer handelt. In den Einzelfächern waren das deutlich weniger Beschönigungen. Diese Fehler sind nicht hauptsächlich dem nach mehreren Monaten unvermeidlich nachlassenden Gedächtnis geschuldet, da sie in Abhängigkeit von der tatsächlichen Leistungsbewertung durch die Lehrkräfte variieren. Unsere Resultate liefern also weitere Evidenz bezüglich der in der Literatur dokumentierten hohen Korrelation selbstberichteter mit tatsächlich erhaltenen Fachnoten - hier anhand einer Stichprobe von 14-jährigen chinesischen Mittelschülerinnen und -schülern ermittelt: Die Ergebnisse stimmen mit den bisherigen Befunden sehr gut überein. Offensichtlich verhalten sich Jugendliche diesbezüglich unabhängig von ihrer Nationalität, ihrer Sprache und ihrem schulisch-kulturellen Hintergrund ähnlich. Hat man in nationalen und/ oder multinationalen Studien Zugriff zu den Zeugnisnoten, sollte man diese auch verwenden. Ist das nicht möglich, bestehen wenige Bedenken, Jugendliche dann nach ihren erhaltenen Fachleistungspunkten im Zeugnis bzw. nach den Fachleistungszeugnisnoten zu fragen, wenn, wie gesagt, korrelationsbasierte Auswertungen anstehen, insbesondere wenn man einen Notendurchschnitt bildet. Bei den sozialwissenschaftlichen Fächern Geschichte und Politik waren in unserer Stichprobe die Übereinstimmungen etwas geringer, aber immer noch hoch. Auch in diesen Fächern erreichten die Übereinstimmungen von selbstberichteten und tatsächlichen Leistungspunkten bzw. Zensuren noch Werte, welche bei psychologischen Persönlichkeitstests üblicherweise als zufriedenstellende Paralleltestreliabilität akzeptiert werden. Eine besondere Skepsis, wie sie bei Kuncel et al. (2005) anklingt, scheint für Fachnoten demnach nicht angebracht zu sein. Sind die Leistungsbewertungen in sozialwissenschaftlichen Fächern weniger stabil und damit in der Erinnerung der Schülerinnen und Schüler fehleranfälliger? Sind sozialwissenschaftliche Fächer vielleicht besonders anfällig für kulturelle Unterschiede? Mangels belastbarer Vergleichsdaten können wir diese Fragen nicht beantworten. Klärungen könnten vielleicht zukünftige Studien unter Einbeziehung von Interviews mit prototypischen Schülerinnen und Schülern aus verschiedenen Kulturkreisen liefern. Über alle Fächer zusammengefasst, reduziert sich der Vorhersagefehler bei den Prognosen S-Noten zu Z-Noten bzw. Z-Noten zu S- Noten um beachtliche 86 % bis 87 %. Dennoch sollten nach unseren Ergebnissen und in Übereinstimmung mit den in der Einleitung berichteten Befunden selbstberichtete Leistungsdaten dann nicht verwendet werden, wenn intendiert ist, die Zeugnisangaben leistungsbezogener Extremgruppen miteinander zu vergleichen (z. B. Jugendliche mit unterdurchschnittlichen Schulleistungen - Fachnoten 4 und 5 - vs. Jugendliche mit überdurchschnittlichen Schulleistungen - Fachnoten 1 und 2) oder wenn hauptsächlich leistungsschwächere Schülerinnen und Schüler interessieren. Bei den meisten der von schwächeren Schülerinnen und Schülern vorgenommenen Beschönigungen handelt es sich wahrscheinlich um motivierte Fehler (soziale Erwünschtheit und selbstwertdienliche Selbsterhöhung). Eine differenzierte Abklärung der Motive und der zugrundeliegenden psychologischen Prozesse könnte z. B. Persönlichkeitsvariablen, von denen eine gewisse Relevanz für diese Fragestellung vermutet wird (wie Prüfungsangst, erreichte Moralentwicklungsstufen; 262 Xiaoli Feng, Detlef H. Rost elterlicher Leistungsdruck) einbeziehen. Allerdings ist bislang die Suche nach belastbaren Variablen zur Klärung des Ausmaßes der Überschätzungen bislang ziemlich erfolglos geblieben (Dickhäuser & Plenter, 2005: Geschlecht, testmäßig erfasste Schulleistung, Fähigkeitsselbstkonzept im analysierten Schulfach Mathematik, persönliche Wichtigkeit der Mathematikzensur; Sparfeldt et al., 2008: Geschlecht, Gewissenhaftigkeit, acht schulfachbezogene Selbstkonzepte, Mogelverhalten, von den Schülerinnen und Schülern angegebene Wichtigkeit von Schulnoten in den untersuchten Fächern). Es empfiehlt sich für weiterführende Untersuchungen daher eine Ergänzung um inhaltsanalytische Auswertungen intensiver Gespräche mit den Überschätzerinnen und Überschätzern. Über die Altersbzw. Jahrgangsstufenabhängigkeit der Akkuratesse selbstberichteter Noten ist bislang leider so gut wie nichts bekannt. Diesbezügliche Veröffentlichungen liegen u. W. national wie international nicht vor. Zukünftige Studien sollten deshalb hinreichend umfangreiche Stichproben mit einer breiten Alters- und Jahrgangsstreuung ziehen. Dann könnte man feststellen, unterhalb welcher Altersbzw. Jahrgangsstufe es sich verbietet, auf selbstberichtete Schulleistungsdaten zurückzugreifen. Da es sich bei unserer Studie um eine operationale Replikation (Lykken, 1968) von in anderen Kulturen gewonnenen pädagogischpsychologischen Befunden handelt, sei abschließend nochmals die wissenschaftliche Relevanz von Replikationen in der psychologischen Forschung hervorgehoben. Was in den Naturwissenschaften und der Medizin schon lange eine Selbstverständlichkeit ist und zur Entlarvung von Zufallsbefunden und Betrügereien in der Forschung geführt hat, wird in der Psychologie ziemlich gering geschätzt und ist deshalb leider immer noch eine seltene Ausnahme. In 100 psychologischen Fachzeitschriften fanden sich nur magere 1,07 % Replikationen (Makel et al., 2012). Inzwischen bahnt sich aber ein Umdenkungsprozess an: „Replikation ist in der Psychologie wie in anderen Wissenschaften der goldene Standard. Theoretisch geht neues Wissen so lange nicht in den Wissenskanon ein, wie die Studien […] nicht von mehreren unabhängigen Forschern verifiziert worden sind. Aber in der Praxis […] wird dieses Ideal nicht eingehalten. […] Die Lösung ist, in der Psychologie ‚Replikationen neu zu bewerten‘, sagt Gary VandenBos, PhD, der Executive Director des APA-Publikations- und Datenbasisbüros. ‚Wir brauchen eine Strategie, damit Fachbereiche, Zeitschriften und Organisationen, die Forschungsgelder vergeben, Replikationen wertschätzen‘“ (Wineman, 2013, S. 38). Makel und Plucker haben das in der Überschrift ihres jüngst erschienenen Artikels (2014, S. 304) auf den Punkt gebracht: „Fakten sind wichtiger als Neuheit“. Anmerkung Diese Untersuchung wurde durch The Fundamental Research Funds for the Central Universities der Volksrepublik China (SWU1509172) gefördert. Schwerpunktmäßig war X. Feng für die Datenerhebung und -verarbeitung zuständig, D. H. Rost für die Abfassung. Beide zeichnen gleichermaßen für den Artikel verantwortlich. Literatur Bahrick, H. P., Hall, L. K. & Berger, S. A. (1996). Accuracy and distortion in memory for high school grades. Psychological Science, 7, 265 - 271. http: / / dx.doi.org/ 10.1111/ j.1467-9280.1996.tb00372.x Bowman, A. A. & Hill, P. L. (2011). Measuring how college affects students: Social desirability and other potential biases in college student self-reported gains. New Directions for Institutional Research, 150, 73 - 85. http: / / dx.doi.org/ 10.1002/ ir.390 Cohen, J. (1988). Statistical power analysis for the behavioral science (2nd ed.). Hillsdale, NJ: Erlbaum. Cole, J. S. & Gonyea, R. M. (2010). Accuracy of self-reported SAT and ACT test scores: Implications for research. Research in Higher Education, 51, 305 - 319. http: / / dx.doi.org/ 10.1007/ s11162-009-9160-9 Cole, J. S., Rocconi, L. & Gonyea, R. M. (2012, Juni). Accuracy of self-reported grades: Implications for research. Paper präsentiert auf dem jährlichen Treffen der Association for Institutional Research, New Orleans, USA. Zugriff am 6. 5.2015 unter http: / / cpr.iub.edu/ uploads/ AIR%202012%20Cole%20Rocconi%20 Gonyea.pdf Selbstberichtete Zeugnisdaten 263 Dickhäuser, O. & Plenter, I. (2005). „Letztes Halbjahr stand ich zwei“: Zur Akkuratheit selbst berichteter Noten. Zeitschrift für Pädagogische Psychologie, 19, 219 - 224. http: / / dx.doi.org/ 10.1024/ 1010-0652. 19.4.219 Enders, C. K. & Tofighi, D. (2007). Centering predictor variables in cross-sectional multilevel models: A new look at an old issue. Psychological Methods, 12, 121 - 138. http: / / dx.doi.org/ 10.1037/ 1082-989X.12.2.121 Fan, X., Miller, B. C., Park, K. E., Winward, B. W., Christensen, M., Grotevant, H. D. & Tai, R. H. (2006). An explorative study about inaccuracy and invalidity in adolescent self-report surveys. Field Methods, 18, 223 - 224. http: / / dx.doi.org/ 10.1177/ 152822X06289161 Feng, X. (2013). A study of the relationship between academic achievements of China’s German majors and their verbal intelligence, academic self-concept, and academic self-efficacy (auf Chinesisch). Unveröffentlichte Dissertation, Southwest University Chongqing. Gonyea, R. M. (2005). Self-reported data in institutional research: Review and recommendations. New Directions for Institutional Research, 127, 73 - 89. http: / / dx.doi.org/ 10.1002/ ir.156 Helmke, A. (1992). Selbstvertrauen und schulische Leistungen. Göttingen: Hogrefe. Herzog, S. & Bowman, N. A. (2011). Validity and limitations of college student self-report data. New York, NY: Wiley. Ingenkamp, K. (Hrsg.). (1971). Die Fragwürdigkeit der Zensurengebung. Texte und Untersuchungsberichte. Weinheim: Beltz. Jerusalem, M. & Satow, L. (1999). Schulbezogene Selbstwirksamkeitserwartung. In R. Schwarzer & M. Jerusalem (Hrsg.), Skalen zur Erfassung von Lehrer- und Schülermerkmalen (S. 15 - 16). Berlin: Freie Universität. Köller, O. (2002). Des Schülers Leid, des Lehrers Freud. Schulnoten sind nötig und besser als ihr Ruf. Klett ThemenDienst Schule,Wissen, Bildung, Nr. 16. Zugriff am 6. 5. 2015 unter http: / / www2.klett.de/ sixcms/ media.php/ 273/ 07_10.286464.pdf Kuncel, N. R., Credé, M. & Thomas, L. L. (2005). The validity of self-reported grade point average, class ranks, and test scores: A meta-analysis and review of the literature. Review of Educational Research, 75, 63 - 82. http: / / dx.doi.org/ 10.3102/ 00346543075001063 Lykken, D.T. (1968). Statistical significance in psychological research. Psychological Bulletin, 70, 151 - 159. http: / / dx.doi.org/ 10.1037/ h0026141 Makel, M. C. & Plucker, J. A. (2014). Facts are more important than novelty. Educational Researcher, 43, 304 - 316. http: / / dx.doi.org/ 10.3102/ 0013189X14 545513 Makel, M. C., Plucker, J. & Hegarty, C. B. (2012). Replications in psychology research: How often do they really occur? Perspectives on Psychological Science, 7, 537 - 542. http: / / dx.doi.org/ 10.1177/ 17456916124 60688 Marsh, H. W. (1986). Verbal and math self-concepts: An internal/ external frame of reference model. American Educational Research Journal, 23, 129 - 149. http: / / dx.doi.org/ 10.3102/ 00028312023001129 Mayer, R. E., Stull, A.T., Campbell, J., Almeroth, K., Bimber, B., Chun, D. & Knight, A. (2007). Overestimation bias in self-reported SAT scores. Educational Psychology Review, 19, 443 - 454. http: / / dx.doi.org/ 10.10 07/ s10648-006-9034-z Möller, J., Streblow, L., Pohlmann, B. & Köller, O. (2006). An extension to the internal/ external frame of reference model to two verbal and numerical domains. European Journal of Psychology of Education, 21, 467 - 487. http: / / dx.doi.org/ 10.1007/ BF03173515 Niepel, C., Brunner, M. & Preckel, F. (2014 a). Achievement goals, acdemic self-concept, and school grades in mathematics: Longitudinal reciprocal relations in above average ability secondary school students. Contemporary Educational Psychology, 30, 301 - 313. http: / / dx.doi. org/ 10.1016/ j.cedpsych.2014.07.002 Niepel, C., Brunner, M. & Preckel, F. (2014b). The longitudinal interplay of students’ academic self-concept and achievement within and across domains: Replicating and extending the reciprocal internal/ external reference model. Journal of Educational Psychology, 106, 1170 - 1191. http: / / dx.doi.org/ 10.1037/ a0036307 Plucker, J. A. (Ed). (2014). Replications in psychology (Special Section). Psychology of Aesthetics, Creativity, and the Arts, 8, 2-29. http: / / dx.doi.org/ 10.1177/ 174569161 2460688 Rost, D. H. (2013). Interpretation und Bewertung pädagogisch-psychologischer Studien (3. Aufl.). Bad Heilbrunn: Klinkhardt. Schilling, S. R., Sparfeldt, J. R., Rost, D. H. & Nickels, G. (2005). Schulische Selbstkonzepte - Zur Validität einer erweiterten Version des Differentiellen Selbstkonzept Gitters (DISK-Gitter). Diagnostica, 51, 21 - 28. http: / / dx.doi.org/ 10.1026/ 0012-1924.51.1.21 Schuler, H. (2010). Noten als Prädiktoren von Studien- und Berufserfolg. In D. H. Rost (Hrsg.), Handwörterbuch Pädagogische Psychologie (S. 599 - 606). Weinheim: Beltz. Somers, R. H. (1962). A new asymmetric measure of association for ordinal variables. American Sociological Review, 27, 799 - 811. Sparfeldt, J. R., Buch, S. R., Rost, D. H. & Lehmann, G. (2008). Akkuratesse selbstberichteter Zensuren. Psychologie in Erziehung und Unterricht, 55, 68 - 75. Sparfeldt, J. R., Buch, S. R., Schwarz, F., Jachmann, J. & Rost, D.H. (2009). „Rechnen ist langweilig“ - Langeweile in Mathematik bei Grundschülern. Psychologie in Erziehung und Unterricht, 56, 16 - 26. Sparfeldt, J. R., Rost, D. H. & Schilling, S. R. (2004). Schulfachspezifische Interessen - ökonomisch gemessen. Psychologie in Erziehung und Unterricht, 51, 213 - 220. Steiger, J. H. (1980). Test for comparing elements of a correlation matrix. Psychological Bulletin, 87, 245 - 251. http: / / dx.doi.org/ 10.1037/ 0033-2909.87.2.245 Tent, L. & Birkel, P. (2010). Zensuren. In D. H. Rost (Hrsg.), Handwörterbuch Pädagogische Psychologie (S. 949 - 958). Weinheim: Beltz. Trautwein, U., Lüdtke, O., Köller, O. & Baumert, J. (2006). Self-esteem, academic self-concept, and achievement. How the learning environment moderates the dynamics of self-concept. Journal of Personality and Social Psychology, 90, 334 - 349. http: / / dx.doi.org/ 10.1037/ 0022-3514.90.2.334 Watkins, D., Akande, A., Fleming, J., Ismail, M., Lefner, K., Regmi, M.,…Wondimu, H. (1998). Cultural dimensions, gender, and the nature of self-concept. A fourteen-country study. International Journal of Psychology, 33, 17 - 31. Wineman, L. (2013). Interesting results: Can they be replicated? Monitor on Psychology, 44 (2), 38. 264 Xiaoli Feng, Detlef H. Rost Dr. Xiaoli Feng Southwest University Chongqing College of International Studies Research Center for Modern Linguistics and Foreign Language Education Chongqing Key Research Institute of Humanities and Social Science 2, Tiansheng Road BeiBei, Chongqing P. R. China 400715 E-Mail: fengxiaoli168@126.com Prof. Dr. Detlef H. Rost Southwest University Chongqing Faculty of Psychology BeiBei, Chongqing, P. R. China & Philipps-Universität Marburg Fachbereich Psychologie Gutenbergstr. 18 D-35032 Marburg E-Mail: rost@uni-marburg.de
