Psychologie in Erziehung und Unterricht
3
0342-183X
Ernst Reinhardt Verlag, GmbH & Co. KG München
11
2016
631
Zur (Un-)Genauigkeit selbstberichteter Zensuren bei Grundschulkindern
11
2016
Rebecca Schneider
Jörn R. Sparfeldt
In der Forschung wird häufig auf die von Schülerinnen und Schülern berichteten Zensuren als Indikatoren der erhaltenen Zensuren und damit der Schulleistungen zurückgegriffen. Unklar ist, ob dieses in höheren Klassenstufen bewährte und ökonomische Vorgehen auch auf Grundschulkinder übertragen werden kann. Daher wurden bei N = 424 Grundschulkindern der Klassenstufen 2, 3 und 4 die schülerberichteten und die circa viereinhalb Monate früher erhaltenen (d. h. lehrkraftberichteten) Zeugnisnoten in Mathematik, Deutsch und Sport erhoben. In den drei Fächern stiegen die mittleren Korrelationen über die Klassenstufen hinweg an (2. / 3. / 4. -Klassenstufe: r -= .61/.79/.87). Die Mittelwerte der selbstberichteten Zensuren fielen stets niedriger aus als die der erhaltenen (im Sinne von Überschätzungen); die Notendifferenzen zwischen den Datenquellen (Lehrkraft; Schülerinnen und Schüler) wurden mit höherer Klassenstufe kleiner, damit einhergehend nahm der Prozentsatz korrekter Angaben zu. Die Angemessenheit der Verwendung selbstberichteter Zensuren als Schulleistungsindikatoren bei Grundschulkindern wird vor dem Hintergrund einer differenziellen Eignung in den verschiedenen Klassenstufen diskutiert.
3_063_2016_001_0048
n Empirische Arbeit Psychologie in Erziehung und Unterricht, 2016, 63, 48 -59 DOI 10.2378/ peu2016.art05d © Ernst Reinhardt Verlag München Basel Schulnoten weisen verschiedene bedeutsame, unter anderem gesellschaftliche und pädagogische Funktionen auf; im deutschen Schulsystem wird individueller Schulerfolg zumeist über Zensuren definiert - trotz vielfältiger Kritik an Zensuren und deren Verwendung als „Indikatorvariable für das Konstrukt ‚Schulleistung‘“ (Tent & Birkel, 2010, S. 951; vgl. auch Ingenkamp, 1971). In der pädagogisch-psychologischen Forschung und der empirischen Bildungsforschung wird häufig auf die von Schülerinnen und Schülern selbstberichteten Zensuren zurückgegriffen, statt die tatsächlich erhaltenen bzw. lehrkraftberichteten Zensuren zu verwenden. Die (forschungsökonomische) Verwendung schülerberichteter Zensuren kann, Zur (Un-)Genauigkeit selbstberichteter Zensuren bei Grundschulkindern Rebecca Schneider, Jörn R. Sparfeldt Universität des Saarlandes Zusammenfassung: In der Forschung wird häufig auf die von Schülerinnen und Schülern berichteten Zensuren als Indikatoren der erhaltenen Zensuren und damit der Schulleistungen zurückgegriffen. Unklar ist, ob dieses in höheren Klassenstufen bewährte und ökonomische Vorgehen auch auf Grundschulkinder übertragen werden kann. Daher wurden bei N = 424 Grundschulkindern der Klassenstufen 2, 3 und 4 die schülerberichteten und die circa viereinhalb Monate früher erhaltenen (d. h. lehrkraftberichteten) Zeugnisnoten in Mathematik, Deutsch und Sport erhoben. In den drei Fächern stiegen die mittleren Korrelationen über die Klassenstufen hinweg an (2./ 3./ 4. Klassenstufe: r- = .61/ .79/ .87). Die Mittelwerte der selbstberichteten Zensuren fielen stets niedriger aus als die der erhaltenen (im Sinne von Überschätzungen); die Notendifferenzen zwischen den Datenquellen (Lehrkraft; Schülerinnen und Schüler) wurden mit höherer Klassenstufe kleiner, damit einhergehend nahm der Prozentsatz korrekter Angaben zu. Die Angemessenheit der Verwendung selbstberichteter Zensuren als Schulleistungsindikatoren bei Grundschulkindern wird vor dem Hintergrund einer differenziellen Eignung in den verschiedenen Klassenstufen diskutiert. Schlüsselbegriffe: Zensuren, Selbstbericht, Genauigkeit, Grundschulkinder The Accuracy of Self-Reported Grades in Elementary School Summary: In educational and psychological research, self-reported grades are often used as indicators of given grades (as presented on report cards) and scholastic achievement. It is unclear whether this economic and reasonable practice (at least, with older students) is also appropriate for elementary school students. Therefore, we compared self-reported grades of N = 424 second, third, and fourth graders with teacher-reported grades in mathematics, German, and sports. In all three school subjects, the correlations of self-reported and actual grades increased with higher class levels (2 nd / 3 rd / 4 th class level: r-= .61/ .79/ .87). The means of self-reported grades were higher than the means of the actual grades reflecting overestimations; mean differences between data sources (teachers, students) decreased with higher class levels. Correspondingly, the percentage of correct answers increased. The appropriateness of using self-reported grades as indicators of scholastic achievement in elementary school is discussed with regard to its differential usefulness in different class levels. Keywords: Grades, self-report, accuracy, elementary school students Akkuratesse selbstberichteter Grundschulzensuren 49 insgesamt gesehen, für höhere Klassenstufen und für verschiedene Schulfächer als sehr akkurat und damit angemessen beurteilt werden (z. B. Kuncel, Credé & Thomas, 2006; vgl. auch Dickhäuser & Plenter, 2005; Sparfeldt, Buch, Rost & Lehmann, 2008). Ob dieses positive Fazit auch auf Grundschulkinder mit unter anderem geringerem kognitiven Entwicklungsstand generalisiert werden kann, steht im Zentrum der vorliegenden Arbeit. Forschungspraktisch ist die Verwendung schülerberichteter Zensuren nämlich auch bei Grundschulkindern verbreitet (z. B. Fritzsche, Kröner, Dresel, Kopp & Martschinke, 2012; Sparfeldt, Buch, Schwarz, Jachmann & Rost, 2009). In der Literatur werden von Schülerinnen und Schülern „selbstberichtete Zensuren als Funktion der erhaltenen Zensuren, eines Messfehlers (Zufall) sowie eines systematischen Fehlers“ verstanden (Sparfeldt et al., 2008, S. 69; vgl. auch Kuncel et al., 2006), wobei (unsystematische, zufällige) Messfehler mit Reliabilitäts- und systematische Verzerrungen mit Validitätseinschränkungen assoziiert werden. Als Kennwerte der Akkuratesse 1 schülerberichteter Zensuren wurden vier, nicht voneinander unabhängige Aspekte unterschieden (z. B. Kuncel et al., 2006): (a) Korrelationen schülerberichteter mit tatsächlich erhaltenen Zensuren, (b) Anzahl bzw. Anteil korrekt angegebener Zensuren, Unter- und Überschätzungen, (c) mittlere Differenz zwischen schülerberichteten und erhaltenen Zensuren sowie (d) ggf. differenzielle Zusammenhänge von schülerberichteten bzw. erhaltenen Zensuren mit Außenvariablen. In ihrer Metaanalyse von Studien mit älteren Schülerinnen und Schülern (high school ) sowie College-Studierenden berichteten Kuncel et al. (2006) eine mittlere Korrelation schülerberichteter mit erhaltenen Zensuren von r = .82; die Zusammenhänge differierten zwischen den Fächern (z. B. r = .84 in Mathematik, r = .67 in Kunst/ Musik; Sparfeldt et al., 2008, führten dies insbesondere auf Varianzdifferenzen zurück). Im Mittel gaben 82 % der Schülerinnen und Schüler ihre Note korrekt an (Überschätzungen: 12 %); die mittlere Überschätzung von schülerim Vergleich zu lehrkraftberichteten Zensuren betrug d = 0.32. Diese angloamerikanischen Befunde werden durch wenige Studien mit Sekundarstufenschülerinnen und -schülern im deutschsprachigen Raum ergänzt: Helmke (1992) ermittelte bei Schülerinnen und Schülern der fünften und sechsten Klassenstufe an Hauptschulen Korrelationen schülerberichteter mit erhaltenen Zensuren zwischen r = .75 und r = .97 in Mathematik, Deutsch und Englisch (mittlere Überschätzung: 0.10 ≤ d ≤ 0.30). Für Mathematik berichteten Möller, Streblow, Pohlmann und Köller (2006) eine Korrelation von selbstmit lehrkraftberichteten Zensuren von r = .93 (Sekundarstufe I; 81 % korrekte Angaben, 12 % Überschätzungen). Dickhäuser und Plenter (2005) fanden für Zeugniszensuren in Mathematik eine Korrelation von r = .88 (siebte/ achte Klasse; 83 % korrekte Angaben, 12 % Überschätzungen; mittlere Überschätzung um 0.09 Notenstufen; d = 0.09). Sparfeldt et al. (2008) ermittelten bei Zehntklässlerinnen und Zehntklässlern in elf Fächern Korrelationen von schülermit lehrkraftberichteten Zensuren von r ≈ .90 (vernachlässigbare Schulfachdifferenzen, z. B. r = .94 in Mathematik, r = .91 in Deutsch, r = .91 in Sport). Die maximale mittlere Überschätzung lag bei 0.15 Notenstufen (d ≤ 0.18), im Mittel wurden 85 % der Zensuren korrekt angegeben (Überschätzungen: 12 %). Differenzielle Zusammenhänge von schülerberichteten bzw. erhaltenen Zensuren mit Außenvariablen könnten (neben Hinweisen auf Zuverlässigkeitsdifferenzen der Notenangabe beider Datenquellen) insbesondere auch Hinweise auf systematische Verzerrungen und damit Gültigkeitseinschränkungen schülerberichteter Zensuren liefern; denkbar wäre beispielsweise, dass Schülerinnen und Schüler die Noten in die Richtung der jeweiligen Selbst- 1 Eine anonyme Gutachterin bzw. ein anonymer Gutachter wies zu Recht auf Bezüge zur diagnostischen Kompetenz (vgl. z. B. Schrader & Helmke, 1987; Spinath, 2005) hin: Die Rangkomponente diagnostischer Kompetenz wird wie der erste Kennwert der Akkuratesse schülerberichteter Zensuren bestimmt, die Niveaukomponente wie der dritte Kennwert. 50 Rebecca Schneider, Jörn R. Sparfeldt konzeptausprägung verzerrt berichten, dass allgemein häufiger mogelnde Schülerinnen und Schüler auch bei der Notenangabe vermehrt mogeln sowie dass gewissenhaftere Schülerinnen und Schüler die Note eher korrekt angeben. In der genannten Arbeit (Sparfeldt et al., 2008) lagen die Korrelationen einerseits schülerberichteter und andererseits lehrkraftberichteter Schulnoten mit schulfachspezifischen Selbstkonzepten, dem schulfachspezifischen Mogeln in ausgewählten Fächern, der Wichtigkeit guter Noten in verschiedenen Fächern sowie der Gewissenhaftigkeit jedoch im Wesentlichen in vergleichbarer Höhe (nahezu durchgängig q < .10, s. u. zu ausgewählten Ausnahmen). Das Ergebnismuster für Sekundarstufenschülerinnen und -schüler kann somit knapp zusammengefasst werden: (sehr) hohe Korrelationen von schülermit lehrkraftberichteten Zensuren, (sehr) hohe Anteile korrekt angegebener Zensuren, geringe Überschätzungen und keine/ kaum differenzielle Beziehungen zu Drittvariablen. Grundschulkinder weisen jedoch im Gegensatz zu Sekundarstufenschülerinnen und -schülern weniger Schul- und Notenerfahrung sowie ein geringeres kognitives Entwicklungsniveau auf. Auch neigen Grundschulkinder zu einer deutlich (über)optimistischen Selbsteinschätzung (z. B. Helmke, 1998); so nominierten sich beispielsweise 35 % der von Wild (1991) befragten Kinder der dritten Klassenstufe als zu den drei Klassenbesten gehörend. Außerdem unterscheiden sich Grundschulen von weiterführenden Schulen in potenziell relevanten Variablen (z. B. Aspekte der Leistungsbewertung wie die seltene Vergabe von sehr schlechten Zensuren, gemeinsamer Unterricht statt externe Leistungsdifferenzierung, ggf. differenzielle Lernmilieus). Bislang ist weitgehend ungeklärt, ob der erwähnte positive Gesamteindruck zur Akkuratesse selbstberichteter Zensuren auf Grundschulkinder generalisiert werden kann. Lediglich Ostrop, Schmude und Valtin (2002, S. 54 - 55) berichteten knapp eigene empirische Befunde: Von den nach den Sommerferien befragten Viertklässlerinnen und Viertklässlern gaben 92 % ihre Schuljahres- Endnote des letzten Zeugnisses in Mathematik korrekt an (Lesen, Sport, Kunst: 85 %), bei Kindern der dritten Klassenstufe waren die selbstberichteten Zensuren etwas ungenauer. Außerdem nahm der Anteil an Überschätzungen an den Falschangaben von der dritten (70 %) zur vierten Klassenstufe (56 %) ab. Zudem wurden bessere Zensuren etwas genauer erinnert als schlechtere Zensuren. Leider berichteten die Autorinnen keine weiteren Ergebnisse zu beispielsweise Korrelationen von selbstmit fremdberichteten Zensuren oder Außenbeziehungen. Somit stellen eine Replikation und Erweiterung auf weitere Akkuratesse-Kennwerte bei Grundschulkindern Forschungsdesiderate dar. Gelegentlich wurde die angedeutete Frage ggf. differenzieller Zusammenhänge schülerberichteter beziehungsweise erhaltener Zensuren mit Außenvariablen thematisiert (im Sinne differenzieller kriteriumsbezogener Validitätshinweise; vgl. z. B. Sparfeldt et al., 2008). Differenzielle Zusammenhänge sind beispielsweise mit der Intelligenz und schulischen Selbstkonzepten denkbar; empirische Befunde zum Grundschulalter sind uns jedoch nicht bekannt. Mit der Intelligenz hängen Schulleistungen üblicherweise mittelhoch zusammen (z. B. Rost, 2013, S. 311 - 328). So korrelierte bei Bullock und Ziegler (1997, S. 32) die Intelligenz mit der lehrkraftberichteten Zeugnisnote in Mathematik in der dritten/ vierten Klasse zu r = .46/ .49, in Deutsch zu r = .36/ .41. Aufgrund unsystematischer und systematischer (Verzerrungs-) Fehler bei schülerberichteten Zensuren könnte vermutet werden, dass tatsächlich erhaltene, lehrkraftberichtete Zensuren vergleichbar oder etwas enger mit derIntelligenz zusammenhängen als schülerberichtete Zensuren. Mit dem schulischen Selbstkonzept korreliert die Mathematiknote bei Grundschulkindern üblicherweise mittelhoch. So ermittelte beispielsweise Helmke (1997, S. 66) zwischen der lehrkraftberichteten Mathematiknote und dem mathematischen Selbstkonzept in den Klassenstufen 2/ 3/ 4 Kor- Akkuratesse selbstberichteter Grundschulzensuren 51 relationen von r = .35/ .40/ .52 (Deutschnote und Deutschselbstkonzept: r = .37/ .41/ .50). Dies deutet auf einen zunehmend engeren Zusammenhang beider Variablen im Lauf der Grundschulzeit hin (vgl. Zeinz, 2006). Für die bereits erwähnten, hochgradig vergleichbaren Korrelationen von schulfachspezifischen Selbstkonzepten mit selbstberichteten beziehungsweise erhaltenen Zensuren bei Zehntklässlerinnen und Zehntklässlern (Sparfeldt et al., 2008) deuteten sich in den wenigen Fällen abweichender Korrelationen etwas engere Koeffizienten mit den schülerberichteten als den erhaltenen Zensuren an (z. B. Biologie q = .12, Physik q = .25), was mit Verzerrungen selbstberichteter Zensuren in die Richtung der jeweiligen Selbstkonzeptausprägung erklärt werden könnte (s. o.). Empirische Befunde zu differenziellen Zusammenhängen schülerberichteter und lehrkraftberichteter Zensuren mit einerseits der Intelligenz und andererseits schulischen Selbstkonzepten bei Grundschulkindern könnten Hinweise auf - neben Reliabilitätseinschränkungen - auch Validitätsbeeinträchtigungen der von Schülerinnen und Schülern selbstberichteten Zensuren liefern. Vor dem Hintergrund des Mangels an systematischen und einschlägigen Arbeiten zur Akkuratesse selbstberichteter Zensuren bei Grundschulkindern gehen wir in der nachfolgend berichteten Studie folgenden Teilfragen nach: 1. Wie hoch korrelieren die von den Schülerinnen und Schülern selbstberichteten mit den von den Lehrkräften vergebenen Zensuren in den beispielhaft ausgewählten Fächern Mathematik, Deutsch und Sport in den Grundschulklassenstufen mit Ziffernzensuren (Klassenstufe 2, 3 und 4)? 2. Inwieweit weichen die schülerberichteten von den erhaltenen Zensuren in den jeweiligen Klassenstufen ab? Betrachtet werden (a) die mittleren Abweichungen im Sinne von Überschätzungen, die ggf. mit höherer Klassenstufe abnehmen, und (b) Überbzw. Unterschätzungen der erhaltenen Zensuren (zusätzlich auch getrennt für die häufiger vergebenen Notenstufen 2, 3 und 4). 3. Zeigen sich differenzielle Zusammenhänge zwischen den selbstberichteten und erhaltenen Zensuren mit (a) der Intelligenz und (b) den schulfachspezifischen Selbstkonzepten? Mangels einschlägiger Untersuchungen bei Grundschulkindern sind diese Fragestellungen explorativer Natur; vor dem Hintergrund einer hohen Akkuratesse bei Sekundarstufenschülerinnen und -schülern sowie einer unter anderem alterskorrelierten kognitiven Entwicklung vermuteten wir eine höhere Akkuratesse mit zunehmender Klassenstufe. Bezogen auf die dritte Fragestellung könnte eventuell ergänzend ein differenzielles Zusammenhangsmuster vermutet werden: Sollten sich differenzielle Beziehungen schüler- und lehrkraftberichteter Zensuren zeigen, wären für die Intelligenz aufgrund von Reliabilitäts- und Validitätseinschränkungen selbstberichteter Zensuren eher engere Intelligenzbeziehungen mit lehrkraftals schülerberichteten Zensuren zu vermuten; bezogen auf die Selbstkonzeptrelationen könnten - unter anderem aufgrund eventueller Verzerrungen in die Richtung der Selbstkonzeptausprägung im Zensurenselbstbericht der Schülerinnen und Schüler - ggf. engere Korrelationen der schulischen Selbstkonzepte mit den schülerberichteten als erhaltenen Zensuren vermutet werden. Methode Stichprobe und Durchführung Die Ausgangsstichprobe bestand aus Schülerinnen und Schülern aus 38 Klassen aus 10 Grundschulen der Klassenstufen 2 (10 Klassen), 3 (14 Klassen) und 4 (14 Klassen) der Bundesländer Sachsen-Anhalt und Niedersachsen (für weitere 5 Klassen lagen keine Lehrkraftangaben vor). Wegen Krankheit o. ä. nicht mit der Untersuchung zusammenhängender Gründe fehlten aus der Ausgangsstichprobe am Untersuchungstag n = 62 Kinder (9,3 %), n = 90 (13,5 %) durften nicht teilnehmen; für n = 34 (5,1 %) fehlten Angaben von Schülerinnen oder Schülern. Weiterhin wurde n = 1 Kind als Ausreißer (mit Abweichung der schülerberichteten von der erhaltenen Zensur um mehr als zwei Notenstufen) identifiziert und von den Analysen ausgeschlossen. Die Analysestichprobe bestand demnach aus N = 424 Schüle- 52 Rebecca Schneider, Jörn R. Sparfeldt rinnen und Schülern (n = 221 weiblich, n = 203 männlich; Klasse 2: n = 86, Klasse 3: n = 181, Klasse 4: n = 157). Die Erhebung erfolgte viereinhalb Monate nach Ausgabe der Halbjahreszeugnisse während der regulären Unterrichtszeit in Kleingruppen (acht bis zwölf Schülerinnen und Schüler) durch geschulte Testleiterinnen und Testleiter und dauerte zwei Schulstunden. Im Anschluss an die Intelligenztestung erfolgte die Erfassung der schulischen Selbstkonzepte und der Zensuren (s. u.). Die Items zur Erfassung der schülerberichteten Zensuren und der schulischen Selbstkonzepte wurden in allen Klassenstufen jeweils einzeln laut vorgelesen; in der Folge kreuzten die Schülerinnen und Schüler die jeweilige Antwort im Fragebogen an. In Übereinstimmung mit der gängigen Forschungspraxis erfolgte die Erhebung anonym; die Zuordnung von schüler- und lehrkraftberichteten Zensuren erfolgte über individuelle Codes. Variablen Zensuren Die Schülerinnen und Schüler kreuzten auf einer jeweils den sechs Notenstufen entsprechenden Skala an, welche Halbjahreszeugniszensuren sie in den exemplarisch ausgewählten Hauptfächern Mathematik und Deutsch sowie dem Nebenfach Sport erhalten hatten. Weiterhin notierten die Klassenlehrkräfte die Zensuren des letzten Halbjahreszeugnisses für sämtliche Schülerinnen und Schüler ihrer Klasse in den drei Fächern. Schulische Selbstkonzepte Mit dem Self-Description Questionnaire I (SDQ I; Marsh, 1990; deutsche Items aus Arens, Trautwein & Hasselhorn, 2011) wurden die Selbstkonzepte in Mathematik, Lesen und Sport mit jeweils acht Items erhoben, z. B. In Mathe bin ich gut. Zur Beantwortung einer anderen Forschungsfrage wurden die SDQ I- Items sowie weitere Selbstkonzeptitems in Kleingruppen mit unterschiedlichen Antwortformaten bearbeitet (entweder 3-, 4- oder 5-stufig; randomisiert innerhalb der Schulklassen). Für die folgenden Auswertungen wurden die Summenwerte pro Antwortformatbedingung z-standardisiert. Die internen Konsistenzen waren in der zweiten/ dritten/ vierten Klassenstufe mindestens gut: Mathematik a = .96/ .96/ .96, Lesen a = .95/ .96/ .96 und Sport a = .92/ .91/ .93. Intelligenz Die nonverbale Intelligenz erfassten wir mit dem zweiten Testteil (Untertests: Reihenfortsetzen, Klassifikationen, Matrizen) des Grundintelligenztest Skala 1 - Revision (CFT 1 - R, Kurzform; Weiß & Osterland, 2013). Auswertung Im Anschluss an eine Inspektion entsprechender Kreuztabellen mit den Häufigkeiten schülerberichteter und erhaltener Zensuren wurden zur Beantwortung der ersten Forschungsfrage, getrennt für die drei Fächer, klassenweise Korrelationen zwischen schülerberichteten und lehrkraftprotokollierten Zensuren berechnet und (nach Fishers z-Transformation 2 ) gemittelt. Die resultierenden drei mittleren Korrelationskoeffizienten pro Fach (ein Koeffizient pro Klassenstufe) wurden mit dem c 2 -Test (Prüfgröße Cramer-V; vgl. Bortz, 2005) auf Unterschiedlichkeit geprüft; ergänzend berechneten wir geplante Kontraste (Klasse 2 und 3, Klasse 3 und 4) und ermittelten die Effektgröße q zur Beschreibung des Unterschieds zwischen den entsprechenden Korrelationskoeffizienten benachbarter Klassenstufen (Differenz der Fishers-z-transformierten Korrelationskoeffizienten; kleiner/ mittlerer/ großer Effekt: q = 0.10/ 0.30/ 0.50; vgl. Cohen, 1988, S. 115). Zusätzlich wurden pro Klassenstufe und Fach Intraklassenkorrelationen als Maß der Übereinstimmung berechnet (two-way random, unjustiert; vgl. Wirtz & Casper, 2002). Aufgrund power-analytischer Überlegungen wurde für sämtliche statistische Tests p < .05 gewählt (zweiseitige Testung) und auf eine a -Adjustierung bei nachgelagerten Kontrastanalysen verzichtet, um ggf. auch kleinere Effekte statistisch abzusichern. Zur Beantwortung von Forschungsfrage 2 a wurden im Falle einer sehr geringen Intraklassenkorrelation zur Quantifizierung des auf Schulklasseneffekte zurückführbaren Varianzanteils - getrennt pro Fach - 3 × 2 Varianzanalysen (ANOVA) mit dem dreigestuften Faktor Klassenstufe und dem zweigestuften Messwiederholungsfaktor (schülerbzw. lehrkraftberichtete Noten) sowie der abhängigen 2 In Ausnahmefällen traten Korrelationen von r = 1 auf. Um ein Übergewicht der resultierenden z-Werte zu vermeiden, wurden diese Korrelationen auf r = .99 gesetzt. Akkuratesse selbstberichteter Grundschulzensuren 53 Schülerin bzw. Schüler Klasse 2 Klasse 3 Klasse 4 Note 1 2 3 4 5 6 Gesamt 1 2 3 4 5 6 Gesamt 1 2 3 4 5 6 Gesamt L e h r k r a f t M a t h e m a t i k 1 2 3 4 5 6 25 15 3 0 0 0 5 18 5 0 0 0 1 3 4 0 0 0 0 1 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 31 37 16 0 0 0 32 15 3 0 0 0 0 61 10 3 0 0 0 10 30 5 0 0 0 0 3 5 0 0 0 0 0 1 0 0 0 0 0 0 1 0 32 86 46 14 1 0 14 10 0 0 0 0 1 65 15 1 0 0 0 3 33 2 0 0 0 0 0 9 1 0 0 0 0 0 0 0 0 0 0 0 0 0 15 78 48 12 1 0 Gesamt 43 28 8 5 0 0 84 50 74 45 8 1 1 179 24 82 38 10 0 0 154 D e u t s c h 1 2 3 4 5 6 18 11 4 0 0 0 2 26 7 0 0 0 0 6 8 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 20 43 20 0 0 0 30 6 1 0 0 3 71 18 1 0 0 0 7 30 5 0 0 0 0 2 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 33 84 51 10 0 0 14 10 1 0 0 0 2 68 7 0 0 0 0 5 35 2 0 0 0 1 0 9 0 0 0 0 0 0 0 0 0 0 0 0 0 0 16 84 43 11 0 0 Gesamt 33 35 14 1 0 0 83 37 93 42 6 0 0 178 25 77 42 10 0 0 154 S p o r t 1 2 3 4 5 6 20 25 4 0 0 0 3 22 4 0 0 0 0 1 2 2 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 23 49 10 2 0 0 31 25 2 0 0 0 10 62 10 0 0 0 0 8 21 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 41 96 33 1 0 0 22 24 0 0 0 0 1 78 8 0 0 0 0 2 15 1 0 0 0 0 0 2 0 0 0 0 0 1 0 0 0 0 0 0 0 0 23 104 23 4 0 0 Gesamt 49 29 5 1 0 0 84 58 82 29 1 1 0 171 46 87 18 2 1 0 154 Tab. 1: Absolute Häufigkeiten der Kombinationen schüler- und lehrkraftberichteter Zensuren, ergänzt um die Randhäufigkeiten 54 Rebecca Schneider, Jörn R. Sparfeldt Variable angegebene Zensur berechnet. Für die vorliegende Fragestellung interessierten der Haupteffekt im Messwiederholungsfaktor sowie die Interaktion, nicht jedoch der Haupteffekt Klassenstufe. Zur Beschreibung der Mittelwertunterschiede zwischen schülerberichteten und erhaltenen Zensuren berechneten wir die Effektgröße d (erhaltene minus schülerberichtete Zensuren, gepoolte Streuung; Cohen, 1988) sowie die mittlere absolute Abweichung der schülervon den lehrkraftberichteten Zensuren. Die Anteile vollständiger Übereinstimmung (%-korrekt), Unterschätzungen und Überschätzungen der Angaben der Schülerinnen und Schüler beantworteten Fragestellung 2 b. Da eine Überschätzung der Schülerinnen und Schüler bei der Notenstufe 1 nicht möglich ist und die Noten 5 und 6 in unserer Stichprobe praktisch nicht vergeben wurden, bezogen sich diese Analysen nur auf Schülerinnen und Schüler mit den erhaltenen Zensuren 2, 3 und 4. Außerdem wurden drei Korrektheitsgruppen gebildet: korrekte Angabe, Überschätzer ( ≥ eine Notenstufe) und Unterschätzer ( ≥ eine Notenstufe). Mittels c 2 -Tests für Häufigkeiten wurden die Korrektheitsanteile der einzelnen Klassenstufen verglichen (geplante Kontrastierung, vgl. Frage 1). Zur Klärung der Frage, ob dieser Akkuratesse-Aspekt in Abhängigkeit von der tatsächlichen Leistung variiert, wurden diese ergänzend für die drei häufiger vergebenen Notenstufen (2, 3, 4) separat inspiziert und deskriptiv verglichen. Teilfragestellung 3 beantworteten deskriptive Vergleiche der korrespondierenden, klassenweise berechneten und gemittelten Korrelationen schüler- und lehrkraftberichteter Zensuren mit (a) der Intelligenz und (b) dem Selbstkonzept im entsprechenden Fach, ergänzend wurde q berechnet (vgl. Frage 1). Ergebnisse Die absoluten Häufigkeiten der verschiedenen Kombinationen schüler- und lehrkraftberichteter Zensuren werden in Tabelle 1 dargestellt. Eine Inspektion dieser Häufigkeiten zeigt insbesondere, dass erstens viele eher bessere Noten (an)gegeben wurden und dass zweitens die jeweiligen Diagonalen substanzielle Häufigkeiten aufweisen, was auf einen bedeutsamen Anteil übereinstimmender Angaben verweist. Korrelationen schüler-/ lehrkraftberichteter Zensuren Erwartungsgemäß korrelierten schülerberichtete und erhaltene Zensuren jeweils positiv (Tab. 2). In allen drei Fächern zeigte ein deskriptiver Vergleich benachbarter Klassenstufen einen engeren Zusammenhang in der jeweils höheren Klassenstufe. Damit korrespondierend fielen die entsprechenden Signifikanztests für die drei Schulfächer jeweils statistisch bedeutsam aus. Paarweise Kontraste zeigten jeweils statistisch signifikant engere Zusammenhänge (kleiner bis mittlerer Größenordnung) in der dritten als der zweiten und der vierten als der dritten Klasse - abgesehen vom Vergleich der Dritt- und Viertklässler in Deutsch. Gleichgerichtet fiel das Muster der Intraklassenkorrelationen aus, das in den drei Fächern ein höheres Maß absoluter Übereinstimmung von schülermit lehrkraftberichteten Zensuren in der jeweils höheren Klassenstufe zeigt. Klasse 2 q Klasse 3 q Klasse 4 V df r Mathematik Deutsch Sport .68 .64 .49 -.27 -.46 -.39 .80 .84 .73 -.37 -.07 -.29 .90 .86 .84 26.831* 17.798* 27.438* 2 2 2 ICC Mathematik Deutsch Sport .53 .53 .39 .76 .78 .63 .82 .82 .75 Tab. 2: Korrelationen (r) zwischen schülerberichteten und erhaltenen Zensuren, ergänzt um V-Werte, Freiheitsgrade und die Effektstärke q (Korrelationsvergleich benachbarter Klassenstufen) sowie die Intraklassenkorrelationen (ICC) der schüler- und lehrkraftberichteten Zensuren Anmerkungen: Sämtliche Korrelationskoeffizienten differieren statistisch bedeutsam von null (p < .05). * p < .05. Akkuratesse selbstberichteter Grundschulzensuren 55 Abweichungen schüler-/ lehrkraftberichteter Zensuren Die ANOVA 3 in Mathematik ergab neben dem hier nicht interessierenden Effekt Klassenstufe, F(1, 415) = 23.46; p < .05; η ² = .054, weder einen statistisch signifikanten Haupteffekt Datenquelle, F(1, 415) = 0.34; p = .56; η ² = .001, noch einen Wechselwirkungseffekt, F(1, 415) = 0.37; p = .55; η ² = .001. Bezogen auf Deutsch resultierte ein statistisch bedeutsamer Effekt Datenquelle - Schülerinnen und Schüler gaben bessere Noten an als ihre Lehrkräfte, F(1, 413) = 7.14; p < .05; η ² = .017, - und keine statistisch bedeutsame Wechselwirkung, F(1, 413) = 2.83; p = .09; η ² = .007; Haupteffekt Klassenstufe: F(1, 413) = 14.23; p < .05; η ² = .033. In Sport zeigte sich neben statistisch bedeutsamen Haupteffekten Datenquelle, F(1, 407) = 12.12; p < .05; η ² = .029, und Klassenstufe, F(1, 407) = 8.14; p < .05; η ² = .020, eine diese qualifizierende Wechselwirkung, F(1, 407) = 4.00; p < .05; η ² = .010. Getrennte 2 × 2 ANOVAs für die jeweils benachbarten Klassenstufen dokumentierten, dass Zweit- und Drittklässlerinnen und -klässler bessere Sportnoten als ihre Lehrkräfte angaben, F(1, 253) = 17.11; p < .05; η ² = .063, insbesondere in der zweiten Klassenstufe, Wechselwirkung: F(1, 253) = 11.11; p < .05; η ² = .042; Haupteffekt Klassenstufe: F(1, 253) = 6.69; p < .05; η ² = .026. Hingegen resultierten bei Dritt- und Viertklässlerinnen und -klässlern keine systematischen Effekte, Haupteffekt Datenquelle: 3 Ergänzend berechnete random intercept Mehrebenenanalysen (vgl. Field, 2009) mit der abhängigen Variable Differenz lehrkraftminus schülerberichteter Zensur in Mathematik (bzw. Differenz Deutsch, Differenz Sport) zeigten, dass nur 1,9 % (bzw. 1,4 %, 3,3 %) der Varianz der abhängigen Variable auf Schulklasseneffekte zurückgingen, weshalb die berichteten ANOVAs ohne Berücksichtigung der genesteten Datenstruktur durchgeführt wurden. Klasse 2 Klasse 3 Klasse 4 Mathematik Lehrkraft SuS M (SD) M (SD) dDiff abs 1.83 (.72) 1.70 (.88) 0.16 0.50 2.25 (.86) 2.12 (.94) 0.15 0.32 2.40 (.80) 2.23 (.80) 0.21 0.22 N% Über % korr % Unter 53 43 42 15 146 24 66 10 138 20 782 Deutsch Lehrkraft SuS M (SD) M (SD) dDiff abs 2.00 (.70) 1.80 (.76) 0.27 0.42 2.22 (.81) 2.10 (.76) 0.15 0.25 2.32 (.75) 2.24 (.80) 0.10 0.19 N% Über % korr % Unter 63 35 54 11 145 21 736 138 15 814 Sport Lehrkraft SuS M (SD) M (SD) dDiff abs 1.91 (.70) 1.50 (.67) 0.60 0.54 1.97 (.68) 1.84 (.75) 0.18 0.35 2.05 (.64) 1.87 (.72) 0.27 0.24 N% Über % korr % Unter 61 58 393 130 28 648 131 25 732 Tab. 3: Mittelwerte (M ), Standardabweichungen (SD), Effektstärken der Mittelwertdifferenzen (d ), mittlere absolute Abweichung (Diff abs ) und Anteile überschätzter (% Über), korrekt angegebener (% korr) und unterschätzter (% Unter) Zensuren Anmerkungen: SuS = Schülerinnen und Schüler. 56 Rebecca Schneider, Jörn R. Sparfeldt F(1, 323) = 0.46; p = .50; η ² = .001; Haupteffekt Klassenstufe: F(1, 323) = 0.41; p = .52; η ² = .001; Wechselwirkung: F(1, 323) = 1.89; p = .17; η ² = .006. Die ergänzend berechneten mittleren absoluten Abweichungen (Diff abs ) verwiesen in Mathematik, Deutsch und Sport auf numerisch geringere Abweichungen der schülervon den lehrkraftberichteten Zensuren in höheren Klassenstufen (vgl. Tab. 3). Die Anteile korrekter Angaben nahmen in den drei Fächern über die Klassenstufen hinweg numerisch zu (vgl. Tab. 3). Entsprechend unterschieden sich die Anteilsdifferenzen bei paarweisen Vergleichen benachbarter Klassenstufen statistisch signifikant für Mathematik zwischen der zweiten und dritten ( c ² (2) = 9.53, p < .05) sowie der dritten und vierten Klassenstufe ( c ² (2) = 8.50, p < .05), für Deutsch (zweite/ dritte Klasse: c ² (2) = 6.77, p < .05; dritte/ vierte Klasse: c ² (2) = 3.03, p = .22) und Sport (zweite/ dritte Klasse: c ² (2) = 14.95, p < .05; dritte/ vierte Klasse: c ² (2) = 4.80, p = .09) zwischen der zweiten und dritten Klassenstufe. Eine deskriptive Betrachtung dieser Anteile getrennt für die drei häufigeren Notenstufen (2, 3, 4; vgl. Tab. 4) zeigte über die bereits berichteten Befunde hinaus: (a) Die Anteile korrekter Zensurenangaben lagen in der Regel für die Notenstufe 2 über denen der Notenstufe 3, und diese wiederum über denen der Notenstufe 4. (b) Im Allgemeinen fiel der Anteil sich überschätzender Schülerinnen und Schüler größer aus als der Anteil an Unterschätzern. Korrelationen schüler- und lehrkraftberichteter Zensuren mit Außenvariablen Bezogen auf die Zusammenhänge mit der Intelligenz zeigten intelligentere Schülerinnen und Schüler erwartungsgemäß numerisch bessere Schulleistungen - allerdings differenziell in Abhängigkeit von der Datenquelle (vgl. Tab. 5): Fast ausnahmslos korrelierten die lehrkraftberichteten Zensuren vergleichbar hoch bis numerisch höher (auf Grund der Polung: negativ 4 ) mit der Intelligenz als die schülerberichteten (.06 ≤ q ≤ .22), abgesehen von einem etwas engeren Zusammenhang der Intelligenz mit den schülerals den lehrkraftberichteten Zensuren in Sport bei Kindern der vierten Klassenstufe (q = -.12). 4 Im deutschen Schulsystem korrespondieren niedrigere numerische Zensurenwerte mit besseren Schulleistungen; negative Korrelationskoeffizienten spiegeln also hier und im Folgenden wider, dass bessere Schulleistungen mit höheren Intelligenzwerten bzw. höheren Selbstkonzepten einhergehen. Mathematik Deutsch Sport Klasse 2 3 4 2 3 4 2 3 4 Notenstufe 2 % Über 40 17 13 26 7 12 51 26 23 % korr 49 71 83 60 85 81 45 65 75 % Unter 11 12 4 14 8 7 4 9 2 N 37 86 78 43 84 84 49 96 104 Notenstufe 3 % Über 50 28 31 55 37 19 80 36 35 % korr 25 65 69 40 59 81 20 64 65 % Unter 25 7 0 5 4 0 0 0 0 N 16 46 48 20 51 43 10 33 23 Notenstufe 4 % Über 0 57 25 0 60 18 100 0 25 % korr 0 36 75 0 40 82 0 0 50 % Unter 0 7 0 0 0 0 0 100 25 N 0 14 12 0 10 11 2 1 4 Tab. 4: Anteile überschätzter (% Über), korrekt angegebener (% korr) und unterschätzter (% Unter) Zensuren in Mathematik, Deutsch und Sport getrennt für die Notenstufen 2, 3 und 4 - ergänzt um die Häufigkeiten (N ) Akkuratesse selbstberichteter Grundschulzensuren 57 Die auf das gleiche Fach bezogenen schulischen Selbstkonzepte und Zensuren korrelierten negativ; Schülerinnen und Schüler mit besseren Schulleistungen (sowohl schülerberichteter Zensuren als auch erhaltener Zensuren) wiesen also im Mittel höhere Selbstkonzepte auf. In den drei Klassenstufen und Fächern fand sich jeweils ein vergleichbarer oder deskriptiv etwas engerer negativer Zusammenhang der schulfachspezifischen Selbstkonzepte mit den schülerals den lehrkraftberichteten Zensuren (-.24 ≤ q ≤ .07). Diskussion Ausgangspunkt unserer Studie war die forschungspraktisch bedeutsame Frage nach der Akkuratesse schülerberichteter Zensuren bei Grundschulkindern. Hierfür verglichen wir bei Schülerinnen und Schülern der zweiten, dritten und vierten Klassenstufe die (erhaltenen) Zeugniszensuren in Mathematik, Deutsch und Sport mit den schülerberichteten. Dabei zeigte sich Folgendes: 1. Die schülerberichteten Noten korrelierten mit den lehrkraftberichteten in der jeweils höheren Klassenstufe höher miteinander (zweite/ dritte/ vierte Klasse: r- = .61/ .79/ .87). 2. (a) Die Mittelwerte der schülerberichteten Zensuren fielen in allen Klassenstufen - zumindest deskriptiv - niedriger (im Sinne besserer Zensuren) aus als die der erhaltenen, die Abweichungen waren in der jeweils höheren Klassenstufe kleiner, (b) die Anteile korrekt angegebener Zensuren nahmen über die Klassenstufen hinweg zu. 3. (a) Die lehrkraftberichteten Zensuren korrelierten nahezu durchgängig numerisch höher (negativ) mit der Intelligenz als die schülerberichteten; (b) die Zusammenhänge mit den jeweils korrespondierenden schulischen Selbstkonzepten waren vergleichbar oder für schülerberichtete Zensuren numerisch etwas enger als für lehrkraftberichtete. Unsere Befunde replizieren und erweitern das von Ostrop et al. (2002) beschriebene Ergebnismuster zur Akkuratesse schülerberichteter Grundschulzensuren. Für Kinder der zweiten Klassenstufe lassen die Korrelationen um .5 ≤ r ≤ .7 zwischen schülerberichteten und erhaltenen Zensuren sowie die deutlicheren Überschätzungen Zweifel an der sinnvollen Verwendung schülerberichteter Zensuren aufkommen. Auch für Kinder der dritten Klassenstufe können die ermittelten Akkuratheitskennwerte, die insgesamt gesehen zwar günstiger als für die zweite Klassenstufe ausfallen, aus unserer Sicht als nicht ausreichend präzise erachtet werden. Für Kinder der vierten Klassenstufe lag die Akkuratesse in einer Größenordnung, wie sie in der Literatur für Sekundarstufenschülerinnen und -schüler berichtet wurde (vgl. Dickhäuser & Plenter, 2005; Helmke, 1992; Kuncel et al., 2006; Möller et al., 2006; Sparfeldt et al., 2008) 5 , mithin scheint die Verwendung der schülerberichteten Zensuren hier vertretbar zu sein. Klasse 2 Klasse 3 Klasse 4 SuS Lehrkraft q SuS Lehrkraft q SuS Lehrkraft q Intelligenz Mathematik Deutsch Sport -.13 -.30* -.17 -.34* -.35* -.32* .22 .06 .16 -.42* -.34* -.14 -.53* -.44* -.24* .14 .12 .10 -.51* -.41* -.25* -.57* -.48* -.13 .08 .09 -.12 Selbstkonzept Mathematik Deutsch Sport -.65* -.39* -.54* -.50* -.19 -.35* -.23 -.22 -.24 -.47* -.34* -.51* -.44* -.38* -.56* -.04 .05 .07 -.69* -.56* -.57* -.60* -.49* -.51* -.15 -.10 -.09 Tab. 5: Korrelationen schülerberichteter und erhaltener Zensuren mit der Intelligenz und schulischen Selbstkonzepten, ergänzt um die Effektgröße q Anmerkungen: SuS = Schülerinnen und Schüler. * p < .05. 5 Nach Annahme des vorliegenden Beitrags erschien ein Manuskript von Feng und Rost (2015), in dem für chinesische Jugendliche vergleichbare Ergebnisse berichtet werden. 58 Rebecca Schneider, Jörn R. Sparfeldt Ein Vergleich der Akkuratesse in den drei Schulfächern lässt als Erklärung zunächst bedeutsame Fachdifferenzen vermuten (z. B. Hauptversus Nebenfach, unterschiedliche subjektive Wichtigkeit, weniger Erfahrung mit der Vergabe schlechter Noten in Sport). Methodisch könnten die geringeren Korrelationen in Sport aber auch auf geringere Streuungen der schülerberichteten und erhaltenen Sportzensuren zurückzuführen sein. Entsprächen die Varianzen schüler- und lehrkraftberichteter Zensuren in Sport denen der erhaltenen Zensuren in Mathematik (zur Formel vgl. z. B. Jensen, 1980, S. 459), lägen die aufgewerteten Sport-Korrelationen deutlich höher (Klasse 2: r = .58, Klasse 3: r = .92, Klasse 4: r = .95) und - abgesehen von der zweiten Klassenstufe - in den drei Fächern in vergleichbarer Größenordnung. In der vorliegenden Studie wurden schüler- und lehrkraftberichtete Zensuren circa viereinhalb Monate nach der Zeugnisausgabe erfragt. Naheliegend erscheint, dass die Akkuratesse schülerberichteter Zensuren mit zunehmendem zeitlichen Abstand zwischen Notenvergabe und Befragung (bis zu einem Halbjahr) abnimmt. Diese Vermutung wäre in weiterführenden Studien zu prüfen. Bei Schülerinnen und Schülern der siebten und achten Klassenstufe konnten Dickhäuser und Plenter (2005) allerdings keinen wesentlichen Unterschied in der Akkuratesse schülerberichteter Noten für etwa drei Wochen zurückliegende Klassenarbeiten bzw. ebenfalls etwa viereinhalb Monate zurückliegende Zeugnisnoten dokumentieren, wobei Dickhäuser und Plenter darauf hinwiesen, dass der differente zeitliche Abstand und beispielsweise die unterschiedliche Wichtigkeit (Klassenarbeit versus Zeugnis) bei der Interpretation zu beachten sind. In unserer Arbeit unberührt ist die Frage, ob und inwieweit Zensuren das Konstrukt Schulleistung angemessen repräsentieren. Die bekannten und vielfältigen Kritikpunkte an und Verzerrungen von Zensuren sollen an dieser Stelle nicht wiederholt werden (vgl. Ingenkamp, 1971; Tent & Birkel, 2010). Hält man - in Übereinstimmung mit unter anderem der gängigen Forschungspraxis - Zensuren für relevant (z. B. als Schulleistungsindikator), stellt sich die Frage der optimalen Erfassung. Zweifelsohne sind die tatsächlich erhaltenen Noten perfekt akkurat (abgesehen von eventuellen Übertragungsfehlern), schülerberichtete Zensuren sind bestenfalls vergleichbar genau. Unsere differenziellen Ergebnisse verweisen auf eine hohe Akkuratesse schülerberichteter Zeugniszensuren bei Viertklässlern, nicht jedoch bei jüngeren Grundschulkindern. Greift man also in Forschungsarbeiten mit jüngeren Grundschulkindern auf schülerberichtete Zensuren zurück, ist mit einem höheren (unsystematischen und systematischen) Fehleranteil und entsprechenden Interpretationsbegrenzungen zu rechnen. Die von uns ermittelten Abweichungen der von den Schülerinnen und Schülern berichteten von den erhaltenen Zensuren beziehen sich also sowohl auf die Reliabilität als auch auf die Validität (s. o.). Im Falle systematischer Verzerrungen aufgrund konstrukt-irrelevanter Varianzanteile könnten differenzielle Zusammenhänge schülerversus lehrkraftberichteter Zensuren Hinweise auf die Quelle der Verzerrung liefern. Dies illustrieren die nahezu durchgängig höheren Beziehungen der Selbstkonzepte mit schülerals lehrkraftberichteten Zensuren, die (wie angedeutet) mit entsprechenden Verzerrungen schülerberichteter Zensuren in Richtung der jeweiligen Fachselbstkonzeptausprägung in Verbindung gebracht werden könnten. Dies würde heißen, dass konstrukt-irrelevante Varianz bei den schülerberichteten Zensuren eine artifizielle Erhöhung der kriteriumsbezogenen Validitätskoeffizienten bedingt hat. Die numerisch niedrigeren Korrelationen schülerals lehrkraftberichteter Zensuren mit der Intelligenz könnten entsprechend zum einen mit einer niedrigeren Reliabilität der schülerberichteten Zensuren erklärt werden; zum anderen hätten die genannten konstrukt-irrelevanten Varianzanteile in schülerberichteten Zensuren vermutlich ebenfalls entsprechend korrelationsmindernde Konsequenzen. Da Dickhäuser und Plenter (2005) bei Schülerinnen und Schülern der siebten und achten Klassenstufe allerdings keine differenziellen Zusammenhänge fanden (z. B. einfach Akkuratesse selbstberichteter Grundschulzensuren 59 minderungskorrigierte Korrelation zwischen Mathematikkompetenztestleistungen und schülerberichteter/ lehrkraftberichteter Zensur: r = -.40/ -.41 ; ebd., S. 222), wäre ebenfalls in künftigen Studien zu klären, ob dieses differente Befundmuster systematisch und replikationsstabil mit der unterschiedlichen Klassenstufe zusammenhängt. Zusammenfassend weisen unsere Befunde darauf hin, dass schülerberichtete Zensuren von Viertklässlerinnen und Viertklässlern sehr genau angegeben werden - unter den Bedingungen üblicher Forschungspraxis wie zugesicherte Anonymität - und eine forschungsökonomische Alternative zu Lehrkraftangaben oder Dokumentenanalysen (Schulakte) darstellen. In niedrigeren Klassenstufen kann kein derart positives Fazit gezogen werden. Literatur Arens, A. K., Trautwein, U. & Hasselhorn, M. (2011). Erfassung des Selbstkonzepts im mittleren Kindesalter: Validierung einer deutschen Version des SDQ I. Zeitschrift für Pädagogische Psychologie, 25, 131 - 144. http: / / dx.doi.org/ 10.1024/ 1010-0652/ a000030 Bortz, J. (2005). Statistik für Human- und Sozialwissenschaftler (6. Aufl.). Heidelberg: Springer. Bullock, M. & Ziegler, A. (1997). Entwicklung der Intelligenz und des Denkens: Ergebnisse aus dem SCHOLAS- TIK-Projekt. In F. E. Weinert & A. Helmke (Hrsg.), Entwicklung im Grundschulalter (S. 27-35). Weinheim: Beltz. Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Hillsdale, NJ: Erlbaum. Dickhäuser, O. & Plenter, I. (2005). „Letztes Halbjahr stand ich zwei.“ Zur Akkuratheit selbstberichteter Zensuren. Zeitschrift für Pädagogische Psychologie, 19, 219 - 224. http: / / dx.doi.org/ 10.1024/ 1010-0652.19.4.219 Feng, X. & Rost, D. H. (2015). Selbstberichtete Zeugnisdaten: Weitere Evidenz für ihre (partielle) Brauchbarkeit. Psychologie in Erziehung und Unterricht, 62, 253 - 264. http: / / dx.doi.org/ 10.2378/ peu2015.art19d Field, A. (2009). Discovering statistics using SPSS (3rd ed.). London: Sage. Fritzsche, E. S., Kröner, S., Dresel, M., Kopp, B. & Martschinke, S. (2012). Confidence scores as measures of metacognitive monitoring in primary students? (Limited) Validity in predicting academic achievement and the mediating role of self-concept. Journal for Educational Research Online, 4, 120 - 142. Helmke, A. (1992). Selbstvertrauen und schulische Leistungen. Göttingen: Hogrefe. Helmke, A. (1997). Entwicklung lern- und leistungsbezogener Motive und Einstellungen: Ergebnisse aus dem SCHOLASTIK-Projekt. In F. E. Weinert & A. Helmke (Hrsg.), Entwicklung im Grundschulalter (S. 59 - 76). Weinheim: Beltz. Helmke, A. (1998). Vom Optimisten zum Realisten? Zur Entwicklung des Fähigkeitskonzeptes vom Kindergarten bis zur 6. Klassenstufe. In F. E. Weinert (Hrsg.), Entwicklung im Kindesalter (S. 115 - 132). Weinheim: Beltz. Ingenkamp, K. (1971). Die Fragwürdigkeit der Zensurengebung. Weinheim: Beltz. Jensen, A. M. (1980). Bias in mental testing. New York, NY: Free Press. Kuncel, N. R., Credé, M. & Thomas, L. L. (2006). The validity of self-reported grade point averages, class ranks, and test scores: A meta-analysis and review of the literature. Review of Educational Research, 75, 63 - 82. http: / / dx.doi.org/ 10.3102/ 00346543075001063 Marsh, H. W. (1990). Self description questionnaire - I (SDQ I). Manual. Macarthur, Australia: University of Western Sydney. Möller, J., Streblow, L., Pohlmann, B. & Köller, O. (2006). An extension to the internal/ external frame of reference model to two verbal and numerical domains. European Journal of Psychology of Education, 21, 467 - 487. http: / / dx.doi.org/ 10.1007/ BF03173515 Ostrop, G., Schmude, C. & Valtin, R. (2002). Was denken Kinder über ihre Zeugnisse? In R. Valtin (Hrsg.), Was ist ein gutes Zeugnis? Noten und verbale Beurteilungen auf dem Prüfstand (S. 49 - 59). Weinheim: Juventa. Rost, D. H. (2013). Handbuch Intelligenz. Weinheim: Beltz. Schrader, F. W. & Helmke, A. (1987). Diagnostische Kompetenz von Lehrern: Komponenten und Wirkungen. Empirische Pädagogik, 1, 27 - 52. Sparfeldt, J. R., Buch, S. R., Rost, D. H. & Lehmann, G. (2008). Akkuratesse selbstberichteter Zensuren. Psychologie in Erziehung und Unterricht, 55, 68 - 75. Sparfeldt, J. R., Buch, S. R., Schwarz, F., Jachmann, J. & Rost, D. H. (2009). „Rechnen ist langweilig“ - Mathematikbezogene Langeweile bei Grundschülern. Psychologie in Erziehung und Unterricht, 56, 16 - 26. Spinath, B. (2005). Akkuratheit der Einschätzung von Schülermerkmalen durch Lehrer und das Konstrukt der diagnostischen Kompetenz. Zeitschrift für Pädagogische Psychologie, 19, 85 - 95. http: / / dx.doi.org/ 10.10 24/ 1010-0652.19.12.85 Tent, L. & Birkel, P. (2010). Zensuren. In D. H. Rost (Hrsg.), Handwörterbuch Pädagogische Psychologie (4. Aufl., S. 949 - 958). Weinheim: Beltz. Weiß, R. H. & Osterland, J. (2013). CFT 1-R. Grundintelligenzskala 1 - Revision. Göttingen: Hogrefe. Wild, K.-P. (1991). Identifikation hochbegabter Schüler: Lehrer und Schüler als Datenquellen. Heidelberg: Asanger. Wirtz, M. & Casper, F. (2002). Beurteilerübereinstimmung und Beurteilerreliabilität. Göttingen: Hogrefe. Zeinz, H. (2006). Schulische Selbstkonzepte und soziale Vergleiche in der Grundschule: Welche Rolle spielt die Einführung von Schulnoten. Unveröffentlichte Dissertation, Universität Erlangen-Nürnberg. Rebecca Schneider Prof. Dr. Jörn R. Sparfeldt Universität des Saarlandes FR 5.1 Bildungswissenschaften (Diagnostik, Beratung und Intervention) Campus, Gebäude A 5 4 D-66123 Saarbrücken E-Mail: rebecca.schneider@uni-saarland.de
