eJournals Psychologie in Erziehung und Unterricht 60/2

Psychologie in Erziehung und Unterricht
3
0342-183X
Ernst Reinhardt Verlag, GmbH & Co. KG München
10.2378/peu2013.art11d
41
2013
602

"Schwere Aufgaben nach hinten?"

41
2013
Jörg Sparfeldt
Aufgaben in Klassenarbeiten sollten sinnvoll angeordnet sein. Die psychodiagnostische Literatur empfiehlt eine schwierigkeitsgestaffelte Reihung, in der pädagogisch-diagnostischen Literatur wurde eine umgekehrt U-förmige Schwierigkeitsanordnung empfohlen. In zwei aufeinander aufbauenden interindividuellen Feldexperimenten bearbeiteten Schülerinnen und Schüler der 8. Gymnasialklassenstufe (N1 = 181, N2 = 212) entsprechende pseudoparallele Rechen-tests: (a) ansteigende Aufgabenschwierigkeit, (b) ansteigende und dann abfallende Aufgabenschwierigkeit, (c) erwürfelte Aufgabenanordnung (nur in Experiment 2). Es zeigten sich keine statistisch bedeutsamen (und praktisch maximal kleine bis mittelgroße und inkonsistente) Effekte der Aufgabenanordnung auf die Gesamtleistung, die Leistung in einzelnen Aufgaben sowie die korrelativen Zusammenhänge der Rechenleistung mit der Mathematikzensur und dem Mathematikselbstkonzept. Die Relevanz für schulische Leistungsüberprüfungen wird diskutiert.
3_060_2013_2_0005
n Empirische Arbeit Psychologie in Erziehung und Unterricht, 2013, 60, 133 -142 DOI 10.2378/ peu2013.art11d © Ernst Reinhardt Verlag München Basel “Easy Items First? ” - Item Order and Mathematical Performance Summary: While constructing written examinations a decision must be made concerning the best order of the items. Experts of psychological assessment usually recommend arranging the items in the order of difficulty (starting with the easiest item); some experts of educational assessment recommend an alternative item order (easiest to most difficult to intermediate item). Corresponding item order effects were investigated in two experiments with 8 th graders (N 1 = 181, N 2 = 212) working on a mathematics test with rearranged items: (a) easy to hard, (b) easy to hard to intermediate, (c) random item order (realized only in experiment 2). The scale means, the item means, and the correlations of the performance scores with grades and mathematics self-concepts of the two (experiment 1) or three groups (experiment 2) did not differ statistically significant (with, at most, small to medium and inconsistent effect-sizes). The relevance of the results regarding teacher-made examinations is discussed. Keywords: Educational assessment, item arrangement, academic achievement, written examinations Zusammenfassung: Aufgaben in Klassenarbeiten sollten sinnvoll angeordnet sein. Die psychodiagnostische Literatur empfiehlt eine schwierigkeitsgestaffelte Reihung, in der pädagogisch-diagnostischen Literatur wurde eine umgekehrt U-förmige Schwierigkeitsanordnung empfohlen. In zwei aufeinander aufbauenden interindividuellen Feldexperimenten bearbeiteten Schülerinnen und Schüler der 8. Gymnasialklassenstufe (N 1 = 181, N 2 = 212) entsprechende pseudoparallele Rechentests: (a) ansteigende Aufgabenschwierigkeit, (b) ansteigende und dann abfallende Aufgabenschwierigkeit, (c) erwürfelte Aufgabenanordnung (nur in Experiment 2). Es zeigten sich keine statistisch bedeutsamen (und praktisch maximal kleine bis mittelgroße und inkonsistente) Effekte der Aufgabenanordnung auf die Gesamtleistung, die Leistung in einzelnen Aufgaben sowie die korrelativen Zusammenhänge der Rechenleistung mit der Mathematikzensur und dem Mathematikselbstkonzept. Die Relevanz für schulische Leistungsüberprüfungen wird diskutiert. Schlüsselbegriffe: Pädagogische Diagnostik, Aufgabenreihenfolge, Schulleistung, Klassenarbeiten Die Beurteilung von Schülerleistungen gehört zum Kerngeschäft von Lehrkräften - inklusive der Planung, Konzeption und Gestaltung entsprechender Leistungsbeurteilungssituationen sowie der Bewertung und Rückmeldung der Ergebnisse (vgl. Kompetenzbereich „Beurteilen“ der Standards der Lehrerbildung der Kultusministerkonferenz, 2004). Einen Aspekt bei der Konzeption von Klassenarbeiten als allgegenwärtige Prüfungsform stellt die Aufgabenanordnung dar. Hinsichtlich der möglichst optimalen Aufgabenreihung widersprechen sich die Empfehlungen teilweise. Im Folgenden werden die Argumentationslinien vorgestellt und entsprechende Aufgabenreihungen experimentell verglichen. „Schwere Aufgaben nach hinten? “ Aufgabenreihenfolge und Mathematikleistung in schriftlichen Prüfungen Jörn R. Sparfeldt Universität des Saarlandes 134 Jörn R. Sparfeldt In der deutschsprachigen pädagogisch-diagnostischen Literatur finden sich kaum und, wenn überhaupt, knappe und sehr allgemeine Hinweise zur Aufgabenreihung in Klassenarbeiten; so schrieb Wengert (2008) im in der zweiten Ausbildungsphase verbreiteten Leitfaden Schulpraxis (S. 338) lediglich: „Die Aufgaben sollten ,schwierigkeitsgestaffelt‘ angeordnet sein: Den Anfang bilden einfache Aufgaben („Eisbrecher“), die auch schwächeren Schülern Mut machen.“ Sacher (2009) behandelte auf rund einer Seite Die Reihenfolge der Aufgaben (S. 72 - 73). Auch wenn die Aufgaben einer Klassenarbeit häufig in selbstgewählter Reihenfolge bearbeitet werden könnten, läsen Schülerinnen und Schüler die Aufgaben - so Sacher (2009) - in der Regel in der von der Lehrkraft vorgegebenen Reihenfolge; bei komplexeren Aufgaben werde die Reihenfolge bei der Bearbeitung zudem kaum verändert (u. a. da Teilaufgaben aufeinander aufbauten). Tatsächlich bearbeiteten - so Lederer (2008, S. 107) - rund 80 % der Schülerinnen und Schüler in Mathematik die Aufgaben in Klassenarbeiten und Tests in der vorgegebenen Reihenfolge. Folglich empfahl Sacher (2009, S. 72): „Die Reihenfolge, in der wir Aufgaben bei schriftlichen Prüfungen stellen, muss also jedenfalls eine psychologisch und pädagogisch sinnvolle sein, welche die Schüler beibehalten können, ohne Nachteile dadurch zu erleiden.“ Doch was genau ist mit einer „psychologisch und pädagogisch sinnvollen“ Aufgabenreihenfolge gemeint? Die Empfehlung, mit einer leichten Eisbrecheraufgabe zu beginnen und dann sukzessive schwerere Aufgaben zu platzieren, deckt sich mit der psychodiagnostischen Literatur für sog. speeded-power-Tests (vgl. Lienert & Raatz, 1998, S. 54): Während bei reinen speedsowie reinen power-Tests die Aufgabenreihenfolge weniger relevant sein dürfte, verdient die Reihenfolge bei schwierigkeitsunterschiedlichen und in begrenzter Zeit zu bearbeitenden speeded-power-Tests besondere Aufmerksamkeit; schulische Klassenarbeiten lassen sich am ehesten diesem Typus (speeded-power-Tests) zuordnen. Geht man der Einfachheit halber davon aus, dass eine Person erstens alle Aufgaben mit einer Schwierigkeit unterhalb ihrer Kompetenz lösen kann und dass diese Person zweitens keine Aufgabe mit einer Schwierigkeit über ihrer Kompetenz lösen kann, lässt sich die mögliche Relevanz der Aufgabenreihenfolge leicht veranschaulichen. Wären nämlich die Aufgaben in einem Test oder einer Klassenarbeit perfekt schwierigkeitsgestaffelt angeordnet, würde diese Person alle für sie lösbaren Aufgaben lösen. Wären hingegen die Aufgaben nicht schwierigkeitsgestaffelt angeordnet, könnte diese Person (zu) viel Zeit für die Bearbeitung einer schwierigeren und ggf. unlösbaren Aufgabe aufbringen. Und so könnte die Person dann nicht mehr zur Bearbeitung und ggf. Lösung von auf dem Aufgabenblatt später stehenden leichteren und damit lösbaren Aufgaben kommen und somit aufgrund einer ungünstigen Aufgabenanordnung nicht ihr maximales Leistungsvermögen demonstrieren. Hinzu kommen ggf. noch motivationale Einbußen - beispielsweise würden aufgrund erhöhter Leistungsängstlichkeit im Anschluss an Misserfolgserlebnisse spätere Aufgaben nicht oder nicht mehr mit ausreichender Anstrengung angegangen werden (vgl. z. B. Leary, & Dorans, 1985). Eine (weitere) Folge einer solchen unregelmäßigen Schwierigkeitsabfolge könnte außerdem eine unregelmäßige Rohwertverteilungsform sein (vgl. Lienert & Raatz, 1998, S. 157). Im Gegensatz zu solch einer streng schwierigkeitsgestaffelten Anordnung sollte man, so Sacher (2009, S. 72), die schwersten Aufgaben „eher im Mittelbereich der Prüfung ansiedeln“. Auch gegen Ende der Klassenarbeit sollten die Anforderungen wieder abnehmen, weil dann schon eine Ermüdung einsetze und die Konzentration nachlasse. Bei aus vielen Aufgaben bestehenden Prüfungen empfiehlt Sacher (2009, S. 73), „auch zwischendurch immer wieder einmal leichtere Aufgaben vorzusehen - gewissermaßen als Erholungsphasen“. Damit sollten die schwersten Aufgaben bei Einhaltung der vorgegebenen Aufgabenreihenfolge dann bearbeitet werden, wenn sich einerseits aufgrund der (erfolgreichen) Lösung der Eisbrecheraufgabe(n) eine gewisse Vertrautheit mit der Klassenarbeits- Schwere Aufgaben nach hinten? 135 situation eingestellt hätte und andererseits noch keine Ermüdungseffekte und kein Konzentrationsabfall eingetreten sein sollte. Leider verweist Sacher nicht auf seine These stützende Befunde. Zur angedeuteten Gefahr eines eventuellen Scheiterns an (zu) schwierigen und relativ am Anfang abgedruckten Aufgaben (mit der eventuellen Folge, später abgedruckte leichtere Aufgaben nicht mehr in Angriff zu nehmen) kommt vor dem Hintergrund der Befunde zur diagnostischen Kompetenz die Frage, ob Lehrkräfte bei der Konzeption einer Klassenarbeit in der Lage sind, erstens die Schwierigkeit von Aufgaben für die Schülerinnen und Schüler ihrer Klasse (vgl. Südkamp, Kaiser, & Möller, 2012) und zweitens weitere Schülereigenschaften (z. B. Spinath, 2005; vgl. Schrader, 2010) - wie die Konzentrationsspanne - hinreichend korrekt einzuschätzen und diese dann drittens miteinander abzugleichen. Zu beachten ist außerdem, dass sich das Aufgabencharakteristikum der Schwierigkeit nur a posteriori bestimmen lässt; bei der Konzeption einer Klassenarbeit können Lehrkräfte häufig nicht auf Daten aus Vorerhebungen zurückgreifen, müssen also die Aufgabenschwierigkeiten abschätzen. Neben diesen lediglich auf das Itemcharakteristikum der Schwierigkeit fokussierenden Aspekten sollten ggf. die Reihenfolge der Behandlung der Themen im Unterricht und/ oder stärker inhaltliche Argumente bei der Anordnung der Aufgaben berücksichtigt werden, wie die Bündelung von Aufgaben zu einem Themenbereich, die Nutzung bestimmter Materialien und Hilfsmittel oder aber die Abwechslung spezifischer Aufgabenformate und Anforderungen (wobei die Aufgaben pro Bereich schwierigkeitsgestaffelt dargeboten werden könnten). Erstaunlicherweise wird in der u. a. bisher erwähnten deutschsprachigen pädagogischdiagnostischen Literatur die (insbesondere) anglo-amerikanische Literatur kaum rezipiert. Dort empfehlen beispielsweise Nitko und Brookhart (2011, p. 296) eine schwierigkeitsgestaffelte Anordnung (eventuell pro Bereich, wenn die Bereiche - wie inhaltliche Themen, Aufgabenformate - abgegrenzt werden; ergänzt um den Hinweis an die Schülerinnen und Schüler, ggf. individuell zu schwierige Aufgaben zunächst zu überspringen). McMillan (2007, p. 186) verweist auf in der Regel vernachlässigbare Effekte der Aufgabenanordnung und empfiehlt, die Aufgaben nach Formaten zu ordnen (wobei die am zügigsten zu bearbeitenden Aufgabenformate [wie Mehrfachwahlaufgaben] vor längere Bearbeitungszeit beanspruchenden Aufgabenformaten zu platzieren wären). Gronlund und Waugh (2009, p. 83) nennen drei (ggf. zu kombinierende) Empfehlungen: Gruppiert dargeboten werden sollten (1) gleich zu instruierende und (2) Aufgaben gleichen Formats; (3) man sollte die Aufgaben schwierigkeitsgestaffelt anordnen. Differenzierter fassten Leary und Dorans (1985) die Befunde zusammen, wobei häufig zwei oder drei der folgenden Aufgabenreihungs-Bedingungen realisiert wurden: (1) schwierigkeitsgestaffelt (leicht ➝ schwierig), (2) umgekehrt schwierigkeitsgestaffelt (schwierig ➝ leicht), (3) zufällige Aufgabenreihung (für [2] und [3] lassen sich kaum pädagogisch und/ oder psychologisch sinnvolle Erklärungen anführen). Die Befundlage beim Vergleich dieser Bedingungen hinsichtlich der erzielten Leistung ist inkonsistent; wurden die Aufgaben unter gespeedeten Bedingungen präsentiert, scheinen unter der schwierigkeitsgestaffelten Bedingung eher mehr Aufgaben gelöst zu werden. Hinsichtlich einer möglichen Wechselwirkung zwischen Aufgabenreihenfolge und Leistungsängstlichkeit waren die Befunde ebenfalls inkonsistent (bei häufigen Null-Effekten), sodass die Autorin und der Autor nachdrücklich auf weiteren Forschungsbedarf verweisen. In large-scale-Studien mit großen Stichproben zeigten sich im Rahmen von IRT-Skalierungen gelegentlich Effekte der Aufgabenanordnung, -position und des Kontextes auf die Parameterschätzungen (z. B. Harris, 1991; Zwick, 1991; vgl. Leary, & Dorans, 1985). Auf die Mittelwerte bezogen berichtete beispielsweise Harris (1991, p. 251; vgl. ähnlich: Dorans, & Lawrence, 1990; Moses, Yang, & Wilson, 2007) hinsichtlich der praktischen Bedeutsamkeit sehr geringe Differenzen zwischen drei Versionen mit 136 Jörn R. Sparfeldt variierender Anordnung der 40 Mathematik- Items des in den USA verbreiteten American College Testing Assessment (ACT): M = 19.85 / 19.81 / 20.06 (SD ≈ 8.3; |d| ≤ 0.03; Englisch- Test mit 75 Items: |d| ≤ 0.02; social-studies-Test mit 52 Items: |d| ≤ 0.10; natural-science-Test mit 52 Items: |d| ≤ 0.02). Psychologisch könnten - wenn einigermaßen konsistent auftretend - eventuelle Effekte der Aufgabenanordnung insbesondere mit Ermüdungs- oder Lerneffekten (vgl. z. B. Hohensinn et al., 2008) erklärt werden (vgl. auch zu Effekten proaktiver Interferenz auf das Arbeitsgedächtnis - Lustig, May, & Hasher, 2001; sowie differentieller Aufgabenbearbeitungszeiten - Danthir, Wilhelm, & Schacht, 2005). Bearbeiten - wie häufig in large-scale- Bildungsstudien - nicht alle Schülerinnen und Schüler alle Aufgaben (sondern nur eine Aufgabenauswahl), ergaben sich häufiger Ermüdungseffekte (vgl. zusammenfassend: Robitzsch, 2010, sowie zu Strategien zur Testgestaltung: Frey, Hartig, & Rupp, 2009). Kein bedeut-samer und konsistenter Ermüdungseffekt zeigte sich bei österreichischen Viertklässlern in einem Mathematikkompetenztest im Rahmen sophistizierter linearlogistischer Testmodelle (Hohensinn, Kubinger, Reif, Schleicher, & Khorramdel, 2011). Ungeklärt ist bislang die Relevanz letztgenannter Befunde für schulalltägliche Klassenarbeiten. Vor dem Hintergrund des Mangels einschlägiger Untersuchungen (insbesondere im deutschen Sprachraum) soll mit zwei Feldexperimenten folgende allgemeine, exemplarisch für Mathematik betrachtete Frage beantwortet werden: Spielt die Reihenfolge der Aufgaben in einem klassenarbeitsähnlichen Rechentest für die Rechenleistung eine Rolle? Dafür wurden in Experiment 1 die Rechenleistungen in einem aus identischen Rechenaufgaben mit bekannter Schwierigkeit zusammengestellten Rechentest verglichen, in dem die Aufgaben entweder (a) mit ansteigender Schwierigkeit oder (b) mit ansteigender und dann wieder abfallender Schwierigkeit angeordnet waren. In einem zweiten Experiment wurde eine dritte Bedingung (c) mit erwürfelter Aufgabenreihenfolge realisiert. Ergänzend sollten explorativ die Zusammenhänge der Testleistung mit der Mathematikzensur und dem mathematischen Selbstkonzept der Bedingungen verglichen werden. Experiment I: Anordnung mit ansteigender Aufgabenschwierigkeit vs. Anordnung mit ansteigender und dann abfallender Aufgabenschwierigkeit Gemäß den Empfehlungen der psychodiagnostischen Literatur sollte eine Reihung der Aufgaben mit ansteigender Schwierigkeit optimal sein, gemäß Sacher (2009) hingegen eine umgekehrt U-förmige Schwierigkeitsanordnung. Neben einem Vergleich der Gesamtleistung ermöglichen Vergleiche einzelner, an unterschiedlicher Position stehender Aufgaben ggf. einen tieferen Einblick in eventuelle Effekte der Aufgabenreihenfolge. Ergänzend sollten die Zusammenhänge mit der Mathematikzensur und dem mathematischen Selbstkonzept in beiden Bedingungen vergleichend exploriert werden. Methode Stichprobe An Experiment 1 nahmen 181 Schülerinnen und Schüler (davon 78 männlich) aus acht 8. Klassen dreier Gymnasien in Rheinland-Pfalz während der regulären Unterrichtszeit teil (von den insgesamt 198 Schülerinnen und Schülern dieser Klassen waren 16 am Erhebungstag krank, ein Schüler musste eine Klassenarbeit nachschreiben; Teilnahmequote: 91 %). Variablen Rechentest. Der Rechentest bestand aus 10 Aufgaben unterschiedlicher Schwierigkeit, die für den Schulleistungstest VERA (8. Klasse Mathematik; 2011) in Übereinstimmung mit (u. a.) dem rheinland-pfälzischen Lehrplan entwickelt und uns dankenswerterweise vom Institut für die Qualitätsentwicklung im Bildungswesen (IQB) zur Verfügung gestellt wurden (inklusive Auswertungsrichtlinien und Aufgabenschwierigkeitsparametern). In Bedingung (a) mit ansteigender Aufgabenschwierigkeit wurden die Aufgaben entsprechend der in VERA ermittelten Schwierigkeitsparameter angeordnet. In Bedingung Schwere Aufgaben nach hinten? 137 (b) hingegen stieg die Aufgabenschwierigkeit nach der vierten Aufgabe deutlich stärker an, die letzten beiden Aufgaben waren leichter als die Aufgaben 5, 6, 7 und 8 (vgl. Tabelle 1). Die Aufgaben lassen sich den Leitideen Zahl (Schultasche, Zahlenschloss, Quersumme), Messen (Dreisatz, Pizza), Raum und Form (Winkel an Geraden), Funktionaler Zusammenhang (Spiegeleien) und Daten und Zufall (Durchschnittslinie 1, Durchschnittslinie 2, Schokoriegel) zuordnen. Piloterhebungen zeigten eine maximale Bearbeitungszeit von 35 Minuten. Selbstkonzept Mathematik. Aus dem Differentiellen Schulischen Selbstkonzept Gitter (Rost, Sparfeldt & Schilling, 2007) wurden fünf mathematikspezifische Selbstkonzeptitems ausgewählt; die an der vorliegenden Stichprobe ermittelte Homogenität war gut ( a = .94). Zensur Mathematik. Ergänzend kreuzten die Schüler ihre letzte Mathematik-Zeugnisnote an. Durchführung Das Feldexperiment nahm pro Schulklasse eine Schulstunde in Anspruch und wurde von geschulten Lehramtsstudierenden durchgeführt. 1 Im Anschluss an eine allgemeine Instruktion beantworteten alle Schülerinnen und Schüler die Selbstkonzeptitems und gaben ihre Noten an. Nebeneinandersitzende bearbeiteten dann verschiedene Versionen des Rechentests (Zufallszuweisung innerhalb jeder Klasse). Da die Instruktion, die Selbstkonzeptitems sowie die ersten Aufgaben des Rechentests in beiden Bedingungen identisch waren, war die experimentelle Gruppenzuweisung nicht offenkundig ersichtlich. Die Schülerinnen und Schüler wurden im Anschluss an das Experiment aufgeklärt. Auswertung Versionsunterschiede wurden mit einer einfaktoriellen Varianzanalyse für unabhängige Stichproben auf statistische Signifikanz ( a = .05) geprüft. Die Effektgröße d veranschaulicht die praktische Bedeutsamkeit eventueller Gruppendifferenzen (Standardisierung an der gepoolten Streuung), wobei - Cohen (1992, p. 157) folgend - Effekte ab d = .20 / .50 / .80 als klein / mittel / groß interpretiert wurden. Die Teststärke zur inferenzstatistischen Absicherung von Effekten dieser praktischen Bedeutsamkeitsgrenzen - ermittelt mit G*Power (Buchner, Erdfelder, Faul & Lang, 1992 - 2010) - betrug bei zweiseitiger 1 Den Trierer Lehramtsstudierenden (Fabian Dalstein, Michaela Follmann, Karl-Levin Korrell, Julia Luxenburger, Linda Mathei, Kristina Wagner), die die Daten beider Experimente im Rahmen ihrer vom Autor angeleiteten Bachelor-Arbeiten erhoben haben, sei für ihre große Sorgfalt und für ihr hohes Engagement herzlich gedankt. Aufgabenrangplatz Aufgabe Schwierigkeitsparameter (VERA) (a) (b) (c) Schultasche 420 1 1 4 Durchschnittslinie 1 510 2 2 9 Durchschnittslinie 2 530 3 3 10 Dreisatz 530 4 4 6 Winkel an Geraden 620 5 10 2 Schokoriegel 630 6 9 3 Zahlenschloss 680 7 5 1 Spiegeleien 710 8 6 7 Quersumme 800 9 7 8 Pizza 890 10 8 5 Tab. 1: Aufgabenkurzname, ergänzt um VERA-Schwierigkeitsparameter und Aufgabenrangplatz in den drei experimentellen Bedingungen: (a) ansteigende Aufgabenschwierigkeit, (b) ansteigende und abfallende Aufgabenschwierigkeit, (c) erwürfelte Aufgabenreihenfolge 138 Jörn R. Sparfeldt Testung und der hier vorliegenden Stichprobengröße (1 - b ) = .27 / .92 / .99. Zur genaueren Abklärung eventueller Bedingungsdifferenzen wurden ergänzend aufgabenweise die mittleren Lösungshäufigkeiten beider Bedingungen verglichen - wohlwissend, dass hier die Information des Summenwerts nochmals differenzierter analysiert wird. Abschließend wurden die Korrelationen der Rechentestleistung mit dem mathematischen Selbstkonzept sowie der Mathematikzensur in beiden Bedingungen inferenzstatistisch sowie hinsichtlich der praktischen Relevanz verglichen (Effektgröße q; q ≥ .10 / .30 / .50 entsprechen kleinen / mittleren / großen Effekten, vgl. Cohen, 1992, p. 157; Teststärke dieser Effektgrößengrenzen bei zweiseitiger Testung und a = .05: 1 - b = .10 / .51 / .91). Um eventuelle teststärkebedingte Fehlinterpretationen zu vermeiden, erfolgte die Interpretation auch effektstärkenbasiert. Ergebnisse Mittelwertvergleiche In der Bedingung mit ansteigender Aufgabenschwierigkeit (a: n = 90) wurden im Mittel M = 4.52 Aufgaben (SD = 1.85) richtig gelöst, in der Bedingung mit an- und absteigender Aufgabenschwierigkeit (b: n = 91) M = 4.78 Aufgaben (SD = 2.12). Beide Bedingungen unterscheiden sich nicht statistisch bedeutsam (F[1] = .76; p = .38), die Differenz ist von vernachlässigbarer praktischer Relevanz (d = -0.13). Aufgabenweise Vergleiche ergaben jeweils statistisch (F[1] ≤ 1.62, p > .20) und praktisch ( | d | < 0.20) unbedeutsame Differenzen. Korrelationen Der (Gesamt-)Rechentest korrelierte mit dem mathematischen Selbstkonzept in Bedingung (a) mit ansteigender Aufgabenschwierigkeit (r = .58) und (b) mit an- und absteigender Aufgabenschwierigkeit (r = .49) jeweils bedeutsam positiv. Hinsichtlich der praktischen Bedeutsamkeit zeigte sich in Bedingung (a) ein engerer Zusammenhang (q = .13; kleiner Effekt) als in Bedingung (b). Statistisch differierten beide Korrelationskoeffizienten nicht bedeutsam (p = .41). Gleichermaßen differierten die Korrelationskoeffizienten mit den Mathematiknoten nicht statistisch bedeutsam (r = -.47 bzw. r = -.27, p = .12), wobei der Zusammenhang in der Bedingung mit ansteigender Aufgabenschwierigkeit - wiederum mit kleiner Effektgröße - deskriptiv etwas enger ausfiel (q = -.23). Diskussion Experiment I Schülerinnen und Schüler der achten Jahrgangsstufe bearbeiteten einen klassenarbeitsähnlichen Rechentest, wobei zwei pseudoparallele Bedingungen mit unterschiedlicher Aufgabenreihung realisiert wurden. Weder bei einem Vergleich der Summenwerte noch bei aufgabenweisen Vergleichen differierten die Leistungen beider Bedingungen statistisch oder praktisch bedeutsam. Bei der Gegenüberstellung der Korrelationskoeffizienten mit der Mathematikzensur und dem mathematischen Selbstkonzept zeigte sich ein - bezogen auf die Interpretation - uneinheitliches Muster: Die Zusammenhänge unterscheiden sich inferenzstatistisch nicht, hinsichtlich der praktischen Bedeutsamkeit sind die Zusammenhänge in der Bedingung mit aufsteigender Aufgabenschwierigkeit jeweils etwas enger. Hinweise auf erhebliche Motivationsmängel oder instruktionswidrige Bearbeitungen der von uns untersuchten Schülerinnen und Schüler zeigten sich nicht; in diese Richtung weisen auch die substanziellen Korrelationen der hier ermittelten Aufgabenschwierigkeiten mit den VERA-Aufgabenschwierigkeitsparametern (r = -.95 bzw. r = -.96; Korrelation der Schwierigkeiten beider Experimentalbedingungen: r = .98). Diese VERA-Aufgaben hätten so oder ähnlich auch in einer Mathematik-Klassenarbeit vorkommen können. Vor dem Hintergrund der hohen praktischen Relevanz der Frage der Aufgabenanordnung in Klassenarbeiten soll an einer unabhängigen Stichprobe geprüft werden, ob diese Befunde replikationsstabil sind. Ergänzend soll eine dritte Experimentalbedingung realisiert werden, in der der Aufgabenanordnung keine rationale Begründung zugrunde liegt - eine erwürfelte Aufgabenanordnung. Schwere Aufgaben nach hinten? 139 Experiment II: Anordnung mit ansteigender Aufgabenschwierigkeit vs. Anordnung mit ansteigender und dann abfallender Aufgabenschwierigkeit vs. erwürfelte Aufgabenanordnung Analog zu Experiment 1 soll in Experiment 2 die Auswirkung der Aufgabenreihenfolge auf die Rechenleistung (Gesamtleistung sowie einzelne Aufgaben) geklärt werden, ergänzt um eine Gegenüberstellung der Zusammenhänge mit der Mathematikzensur und dem Mathematikselbstkonzept. Methode Stichprobe An Experiment 2 nahmen 212 Schülerinnen und Schüler (davon 98 männlich) aus acht 8. Klassen zweier Gymnasien in Rheinland-Pfalz während der regulären Unterrichtszeit teil (von den 228 Schülerinnen und Schülern dieser Klassen waren 14 am Erhebungstag nicht anwesend, 2 durften nicht teilnehmen; Teilnahmequote: 93 %). Variablen Es wurden die identischen zehn Rechenaufgaben wie in Experiment 1 vorgegeben. Die beiden mit Experiment 1 identischen Bedingungen (a: ansteigende Aufgabenschwierigkeit; b: ansteigende und abfallende Aufgabenschwierigkeit) wurden um eine dritte Bedingung (c) mit zufälliger (d. h. erwürfelter) Aufgabenreihenfolge ergänzt (vgl. Tab. 1). Wie in Experiment 1 wurden außerdem das mathematische Selbstkonzept ( a = .93) und die Mathematikzensur erhoben. Untersuchungsdurchführung Planung und Durchführung des zweiten Experiments verliefen analog zum ersten Experiment; die Schülerinnen und Schüler wurden innerhalb der Klassen zufällig den drei Bedingungen zugewiesen. Auswertung Die Auswertung erfolgte analog zu Experiment 1; die praktische Bedeutsamkeit der Mittelwertdifferenzen veranschaulicht „ η ²“ (vgl. Cohen, 1988; η ² ≥ .0099 / .0588 / .1379 entspricht einem kleinen / mittleren / großen Effekt). Die Teststärke dieser Bedeutsamkeitsgrenzen betrug bei der hier vorliegenden Stichprobengröße (1 - b ) = .23 / .91 / .99. Die Teststärke paarweiser zweiseitiger Vergleiche der Korrelationskoeffizienten der praktischen Bedeutsamkeitsgrenzen lag mindestens bei (1 - b ) = .09 / .41 / .82 (Vergleich der beiden „kleinsten“ Gruppen - der Bedingungen b und c; s. u.). Ergebnisse Mittelwertvergleiche In der Bedingung mit ansteigender Aufgabenschwierigkeit (a: n = 73) wurden im Mittel M = 5.64 Aufgaben (SD = 2.19) richtig gelöst, in der Bedingung mit an- und absteigender Aufgabenschwierigkeit (b: n = 69) M = 5.45 Aufgaben (SD = 2.03) und in der Bedingung mit „erwürfelter“ Aufgabenreihenfolge (c: n = 70) M = 5.41 Aufgaben (SD = 2.07). Der Effekt der „Aufgabenreihenfolge“ war nicht statistisch signifikant (F[2] = 0.25; p = .78) und von vernachlässigbarer praktischer Bedeutsamkeit ( η ² = .002). In ergänzenden aufgabenweisen Vergleichen resultierten ebenfalls jeweils statistisch insignifikante Differenzen (maximaler Effekt bei der Aufgabe Schokoriegel: F[2] = 2.91, p = .06; übrige Aufgaben: F[2] ≤ 1.32, p > .27) sowie hinsichtlich der praktischen Relevanz bei sieben Aufgaben praktisch vernachlässigbare und bei drei Aufgaben kleine Effekte (Schokoriegel / Zahlenschloss / Pizza: η ² = .027 / .012 / .012). Ergänzende paarweise Vergleiche bei diesen drei Aufgaben ergaben folgende, hinsichtlich der praktischen Bedeutsamkeit (mindestens) kleine Effekte: Die Aufgabe Schokoriegel wurde in Bedingung (a) - Aufgabenrangplatz 6 - und (c) - Rangplatz 3 - häufiger gelöst als in Bedingung (b) - Rangplatz 9 (d = 0.40 bzw. d = 0.27). Zahlenschloss wurde in Bedingung (c) - Rangplatz 1 - häufiger gelöst als in Bedingung (b) - Rangplatz 5 (d = 0.26). Und Pizza wurde in Bedingung (a) - Rangplatz 10 - häufiger gelöst als in Bedingung (c) - Rangplatz 5 (d = 0.27). 140 Jörn R. Sparfeldt Korrelationen Der (Gesamt-)Rechentest korrelierte in den drei Bedingungen - bei paarweisen Vergleichen - nicht statistisch bedeutsam verschieden mit dem mathematischen Selbstkonzept (a / b / c: r = .33 / .37 / .57; p > .08), wobei hinsichtlich der praktischen Bedeutsamkeit engere Zusammenhänge (kleiner bzw. mittlerer Effekt) in der Bedingung mit erwürfelter Aufgabendarbietungsreihenfolge resultierten (q ab = -.05, q ac = -.30, q bc = -.26). Die Korrelationskoeffizienten des Rechentests mit den Mathematiknoten differierten ebenfalls nicht statistisch bedeutsam (a / b / c: r = -.55 / -.42 / -.53; p > .32), hinsichtlich der praktischen Bedeutsamkeit resultierten geringere Zusammenhänge kleiner Effektgröße in der Bedingung mit ansteigender und dann abfallender Aufgabenschwierigkeit (q ab = -.17, q ac = -.03, q bc = .14). Diskussion Experiment 2 Die Befunde von Experiment 1 replizierend zeigte sich an einer unabhängigen Stichprobe ebenfalls kein statistisch bedeutsamer Effekt der Aufgabenreihenfolge für die Bedingungen mit (a) ansteigender und (b) an- und absteigender Aufgabenschwierigkeit im Rechentestsummenwert. Dieses Befundmuster konnte um eine weitere (Extrem-)Bedingung mit zufällig erwürfelter Aufgabenreihenfolge (c) erweitert werden. Bei aufgabenweiser Betrachtung (in multiplen Vergleichen) ergaben sich vereinzelt praktisch maximal kleine und unsystematische Effekte (zwei Aufgaben wurden an früherer Aufgabenposition häufiger gelöst, eine an späterer Position). Die Richtung der Zusammenhänge des Rechentestsummenwerts mit der Mathematikzensur und dem mathematischen Selbstkonzept fiel in den drei realisierten Experimentalbedingungen gleichförmig und vor dem Hintergrund der Literatur erwartungsgemäß aus. Inferenzstatistisch differieren die Korrelationen der drei Bedingungen jeweils nicht bedeutsam - bei praktisch kleinen und einem gerade mittelgroßen Effekt. Gegen eine inhaltliche Interpretation differenzieller Zusammenhänge spricht zum jetzigen Zeitpunkt, dass (1) diese Korrelationsdifferenzen mit der Mathematikzensur und dem Mathematikselbstkonzept nicht gleichförmig ausfallen, und (2) der Zusammenhang mit dem Selbstkonzept in der Bedingung mit erwürfelter Aufgabenreihenfolge numerisch der engste war - mithin der psychologisch und pädagogisch wenig plausiblen Bedingung. Die (mittleren) Aufgabenschwierigkeiten korrelierten in den drei Bedingungen wiederum substanziell mit den VERA-Aufgabenschwierigkeitsparametern (a / b / c: r = -.83 / -.88 / -.91; r ab = .94; r ac = .96; r bc = .95). Gesamtdiskussion Vor dem Hintergrund des Mangels entsprechender deutschsprachiger pädagogisch-diagnostischer Untersuchungen wurde der allgemeinen Frage nach Effekten der Aufgabenreihenfolge in klassenarbeitsähnlichen Aufgabenreihen nachgegangen. In zwei Feldexperimenten wurden zwei aus der Literatur abgeleitete Aufgabenreihenfolgen realisiert: (a) ansteigende Aufgabenschwierigkeit, (b) ansteigende und abfallende Aufgabenschwierigkeit - im zweiten Experiment ergänzt um eine dritte Bedingung (c) mit „erwürfelter“ Aufgabenreihenfolge. Vor dem Hintergrund unserer Stichproben und Operationalisierungen ergaben sich keine statistisch bedeutsamen Effekte der Aufgabenreihenfolge - und zwar sowohl bezogen auf die Gesamtrechentestleistung, die Leistung in den Einzelaufgaben als auch auf die Korrelation der Gesamtrechenleistung mit den Mathematikzensuren und den Mathematikselbstkonzepten. Hinsichtlich der praktischen Bedeutsamkeit resultierten maximal kleine (Ausnahme eines mittelgroßen Korrelationsunterschieds) und - über beide Experimente hinweg - unsystematische Effekte. Dies deckt sich mit Teilen der Literatur (vgl. Leary, & Dorans, 1985). Forschungsmethodisch spricht das experimentelle Design für eine hohe interne Validität. In den in beiden Experimenten realisierten Bedingungen (a) und (b) standen die - eventuell Schwere Aufgaben nach hinten? 141 besonders zentralen - Aufgaben 1 bis 4 an identischer Position; einen „Extremvergleich“ ermöglicht hier lediglich die Bedingung (c) des zweiten Experiments. Doch auch im Vergleich mit Bedingung (c) sind die Effekte entweder vernachlässigbar oder - falls von praktischer Bedeutsamkeit - unsystematisch. Hinsichtlich der externen Validität erfolgte eine Zusammenstellung schwierigkeitsverschiedener Aufgaben, wie sie häufig in den „letzten“ Klassenarbeiten, die sich auf die unterschiedlichen Inhalte eines ganzen Schul(-halb-)jahres beziehen, denkbar ist (im Gegensatz zu Klassenarbeiten, die „lediglich“ auf eine thematisch engere Unterrichtssequenz bezogen sind, also eine geringere Stoffbreite abdecken). Eventuell wären bei - für schulische Klassenarbeiten eher untypisch - wesentlich höherer Aufgabenzahl deutlichere und systematischere Effekte der Aufgabenreihung hervorgetreten. Man könnte auch mutmaßen, die Bearbeitungszeit sei möglicherweise zu kurz gewesen, sodass eventuelle Ermüdungseffekte daher nicht hätten auftreten können. Doch war die Aufgabenreihe hinsichtlich der Bearbeitungszeit durchaus mit Klassenarbeiten - als speeded-power-Test - vergleichbar; den meisten Schülerinnen und Schülern gelang eine vollständige Bearbeitung der Aufgaben innerhalb der vorgesehenen Zeit. Zudem schreiben Schülerinnen und Schüler in der hier untersuchten achten Klassenstufe üblicherweise einstündige Klassenarbeiten (was der Gesamterhebungszeit entspricht); auch differenzierte Sacher (2009) nicht hinsichtlich möglicherweise relevanter Variablen (wie Klassenstufe, Fach oder Diagnostizierbarkeit der Richtigkeit eigener Lösungen). Gegen massive interpretationsbeeinträchtigende Einflüsse eventueller Stichprobenspezifika sprechen zudem die Korrelationen erstens der Aufgabenschwierigkeiten der drei Bedingungen und zweitens der Schwierigkeiten der drei Bedingungen mit den VERA- Aufgabenschwierigkeitsparametern. Selbstredend beziehen sich die beiden Feldexperimente auf eine exemplarisch ausgewählte Operationalisierung (Aufgabensammlung spezifischer Aufgaben in einem bestimmten Fach - Mathematik - bei Gymnasiasten der 8. Klasse). Inwieweit diese Befunde auf andere Aufgaben- und Personenstichproben generalisierbar sind, bleibt in Folgeuntersuchungen zu klären. Bezieht man die Befunde auf die pädagogische Praxis, spricht eher nichts dagegen, bei der Konzeption von Klassenarbeiten aus pragmatischen Gründen eine spezifische Aufgabenreihung zu realisieren. Auf praktisch insgesamt vernachlässigbare Effekte verwiesen - neben z. B. der eingangs erwähnten Arbeit von Hohensinn et al. (2011) mit Grundschülern - beispielsweise auch Gohmann und Spector (1989), die keine bedeutsamen Differenzen in einer Gesamtleistung bei Studierenden fanden, die die Klausurfragen entweder (a) in der Reihenfolge der Präsentation der Inhalte in der entsprechenden Lehrveranstaltung oder (b) einer Zufallsreihenfolge bearbeiteten. Ergänzend wird regelmäßig empfohlen, dass Lehrkräfte ihre Schülerinnen und Schüler darauf hinweisen sollten, dass sie die Aufgaben in selbstgewählter Reihenfolge bearbeiten könnten (z. B. Nitko, & Brookhart, 2011, p. 296) - also individuell (zu) schwierige Aufgaben zunächst zu überspringen und dann später ggf. zu diesen zurückzukehren. Allerdings geht diese Empfehlung von der (eventuell nur auf den ersten Blick plausiblen) Annahme aus, dass Schülerinnen und Schüler die individuelle Schwierigkeit und Lösungswahrscheinlichkeit von Aufgaben hinreichend genau a priori einschätzen können; vermutlich dürfte dies aber auch von Rahmenbedingungen (wie Fach, Aufgabentyp etc.) abhängen. Eine Transparenzmaximierung im Umfeld von Klassenarbeiten (u. a. bzgl. Bepunktung und Bestehensgrenze) dürfte die Unsicherheit und damit Leistungsängstlichkeit und leistungsängstlichkeitsbedingte Leistungsbeeinträchtigungen zu reduzieren helfen (vgl. u. a. Strittmatter, 1997). Ob sich bei einzelnen Schülerinnen und Schülern aufgrund von Misserfolgserlebnissen bei einzelnen Aufgaben massive Beeinträchtigungen für die Lösung folgender Aufgaben ergeben, kann mit dem hier realisierten Untersuchungsansatz nicht nachgezeichnet werden; hier wären andere Designs nötig. 142 Jörn R. Sparfeldt Insbesondere vor dem Hintergrund der Verbreitung schulischer Leistungsbeurteilungen - und dem eher unsystematischen Eindruck eines weitverbreiteten Praxiswissens, das jedoch nur in Ausnahmen in kontrollierten Untersuchungen geprüft wurde - soll abschließend ein nachdrückliches Plädoyer für quantitativ-empirische Untersuchungen im Feld der Pädagogischen Diagnostik erfolgen - insbesondere als „Plädoyer für die Verwendung experimenteller Methoden in der pädagogischen Forschung“ (Klauer, 2005, S. 9). Literatur Buchner, A., Erdfelder, E., Faul, F. & Lang, A.-G. (1992 - 2010). G*POWER [Computer Programm; Version 3.1.3]. Düsseldorf: Heinrich-Heine-Universität, Institut für Experimentelle Psychologie. Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). New York: Psychology Press, Taylor & Francis. Cohen, J. (1992). A power primer. Psychological Bulletin, 112, 155 - 159. Danthir, V., Wilhelm, O., & Schacht, A. (2005). Decision speed in intelligence tasks: Correctly an ability? Psychology Science, 47, 200 - 229. Dorans, N. J., & Lawrence, I. M. (1990). Checking the statistical equivalence of nearly identical test editions. Applied Measurement in Education, 3, 245 - 254. Frey, A., Hartig, J., & Rupp, A. A. (2009). An NCME instructional module on booklet designs in large-scale assessments of student achievement: Theory and practice. Educational Measurement: Issues and Practice, 28, 39 - 53. Gohmann, S. F., & Spector, L. C. (1989). Test scrambling and student performance. Journal of Economic Education, 20, 235 - 238. Gronlund, N. E., & Waugh, C. K. (2009). Assessment of student achievement (9 th ed.). Upper Saddle River, NJ: Pearson. Harris, D. J. (1991). Effects of passage and item scrambling on equating relationships. Applied Psychological Measurement, 15, 247 - 256. Hohensinn, C., Kubinger, K. D., Reif, M., Holocher-Ertel, S., Khorramdel, L., & Frebort, M. (2008). Examining item-position effects in large-scale assessment using the linear logistic test model. Psycholgy Science Quarterly, 50, 391 - 402. Hohensinn, C., Kubinger, K. D., Reif, M., Schleicher, E., & Khorramdel, L. (2011). Analysing item position effects due to test booklet designs within large-scale assessment. Educational Research and Evaluation, 17, 497 - 509. Institut zur Qualitätsentwicklung im Bildungswesen (IQB). VERA/ Lernstandserhebungen. Zugriff am 2. 2. 2011 http: / / www.iqb.hu-berlin.de/ vera Klauer, K. J. (2005). Das Experiment in der pädagogischpsychologischen Forschung. Münster: Waxmann. Kultusministerkonferenz (KMK). (2004). Standards für die Lehrerbildung: Bildungswissenschaften. Beschluss der Kultusministerkonferenz vom 16. 12. 2004. Zugriff am 23. 3. 2012 http: / / www.kmk.org/ fileadmin/ veroeffent lichungen_beschluesse/ 2004/ 2004_12_16-Standards- Lehrerbildung.pdf Leary, L. F., & Dorans, N. J. (1985). Implications for altering the context in which test items appear: A historical perspective on an immediate concern. Review of Educational Research, 55, 387 - 413. Lederer, A. (2008). Prüfungen kritisch überprüft. Bad Heilbrunn: Klinkhardt. Lienert, G. A. & Raatz, U. (1998). Testaufbau und Testanalyse (6. Aufl.). Weinheim: Beltz-PVU. Lustig, C., May, C. P., & Hasher, L. (2001). Working memory span and the role of proactive interference. Journal of Experimental Psychology: General, 130, 199 - 207. McMillan, J. H. (2007). Classroom Assessment (4 th ed.). Boston: Pearson. Moses, T., Yang, W.-L., & Wilson, C. (2007). Using Kernel equating to assess item order effects on test scores. Journal of Educational Measurement, 44, 157 - 178. Nitko, A. J., & Brookhart, S. M. (2011). Educational Assessment of students (6 th ed.). Boston: Pearson. Robitzsch, A. (2010). Methodische Herausforderungen bei der Kalibrierung von Leistungstests. Zugriff am 11. 7. 2012 http: / / sites..googke.com/ site/ alexanderrobitzsch / publikationen Rost, D. H., Sparfeldt, J. R. & Schilling, S. R. (2007). Differentielles Schulisches Selbstkonzept Gitter mit Skala zur Erfassung des Selbstkonzepts schulischer Leistungen und Fähigkeiten (DISK-Gitter mit SKSLF-8). Göttingen: Hogrefe. Sacher, W. (2009). Leistungen entwickeln, überprüfen und beurteilen (5. Aufl.). Bad Heilbrunn: Klinkhardt. Schrader, F.-W. (2010). Diagnostische Kompetenz von Eltern und Lehrern. In D. H. Rost (Hrsg.), Handwörterbuch Pädagogische Psychologie (4. Aufl., S. 102 - 108). Weinheim: Beltz. Spinath, B. (2005). Akkuratheit der Einschätzung von Schülermerkmalen durch Lehrer und das Konstrukt der diagnostischen Kompetenz. Zeitschrift für Pädagogische Psychologie, 19, 85 - 95. Strittmatter, P. (1997). Schulangstreduktion (2. Aufl.). Neuwied: Luchterhand. Südkamp, A., Kaiser, J., & Möller, J. (2012). Accuracy of teachers’ judgments of students’ academic achievement: A meta-analysis. Journal of Educational Psychology, 104, 743 - 762. Wengert, H. G. (2008). Leistungsbeurteilung in der Schule. In G. Bovet & V. Huwendiek (Hrsg.), Leitfaden Schulpraxis. Pädagogik und Psychologie für den Lehrerberuf (5. Aufl., S. 324 - 349). Berlin: Cornelsen Scriptor. Zwick, R. (1991). Effects of item order and context on estimation of NAEP reading proficiency. Educational Measurement: Issues and Practice, 10 (3), 10 - 16. Prof. Dr. Jörn R. Sparfeldt Universität des Saarlandes Bildungswissenschaften (Diagnostik, Beratung, Intervention) Campus A5 4 66123 Saarbrücken E-Mail: j.sparfeldt@mx.uni-saarland.de