eJournals Psychologie in Erziehung und Unterricht 60/3

Psychologie in Erziehung und Unterricht
3
0342-183X
Ernst Reinhardt Verlag, GmbH & Co. KG München
71
2013
603

Starke Klasse, hohe Leistungen?

71
2013
Olaf Köller
Kerstin Schütte
Friederike Zimmermann
Jan Retelsdorf
Michael Leucht
In der vorliegenden Untersuchung analysierten wir Leistungsveränderungen von Schülerinnen und Schülern der Sekundarstufe I in Mathematik und im Lesen. In zwei Stichproben (Kohorte 1: N = 1082 Jugendliche aus 54 Klassen; Kohorte 2: N = 888 Jugendliche aus 47 Klassen) aus unterschiedlichen Schulformen (Gymnasium vs. andere) wurden die Mathematik- und Leseleis¬tungen zu Beginn der 7. und zu Beginn der 9. Jahrgangsstufe erhoben. In Zweigruppen-Mehrebenenanalysen wurden die Effekte des Vorwissens, der Intelligenz, der Schulform, des auf Klassenebene aggregierten Vorwissens und der auf Klassenebene aggregierten Intelligenz auf spätere Leistungen analysiert. Die Befunde zeigen für beide Stichproben, dass die Klassenkomposition (aggregiertes Vorwissen) jenseits aller übrigen Effekte einen signifikanten Effekt auf die späteren Mathematik¬leistungen hat. Der geringere Effekt auf die Leseleistungen war nur signifikant, wenn Intelligenz nicht als Prädiktor im Modell enthalten war. Zusätzlich zeigen sich signifikante Effekte der Schulform auf die Mathematik¬leistungen, die im Lesen ausbleiben. Die Ergebnisse werden im Hinblick auf die Fachspezifität von Kompositionseffekten diskutiert.
3_060_2013_003_0184
n Empirische Arbeit Psychologie in Erziehung und Unterricht, 2013, 60, 184 -197 DOI 10.2378/ peu2013.art15d © Ernst Reinhardt Verlag München Basel Starke Klasse, hohe Leistungen? Die Rolle der Leistungsstärke der Klasse für die individuellen Mathematik- und Leseleistungen in der Sekundarstufe I Olaf Köller, Kerstin Schütte, Friederike Zimmermann, Jan Retelsdorf, Michael Leucht Leibniz-Institut für die Pädagogik der Naturwissenschaften und Mathematik (IPN) an der Universität Kiel Bright Classmates, High Achievement? Effects of Class Composition on Individual Mathematics and Reading Achievement Summary: The present study was carried out to analyze change in students’ mathematics, and reading achievement in lower secondary school. Two samples (cohort 1: N = 1082 students from 54 classes; cohort 2: N = 888 students from 47 classes) from different school types (academic track vs. non-academic track) worked on standardized mathematics and reading tests at the beginning of grade 7 and the beginning of grade 9. Multi-group multi-level analyses were conducted to test the effects of prior achievement, intelligence, school type, class-average prior achievement, and class-average intelligence on subsequent achievement. Results for both samples provide evidence that class composition predicts later achievement in mathematics above and beyond effects of the other predictors. The corresponding effect of class composition on reading achievement was markedly smaller and not signifcant, when intelligence was considered simultaneously. Besides, school type was only predictive for mathematics achievement. Our results are discussed with respect to the domain-specificity of composition effects. Keywords: Mathematics achievement, reading achievement, multi-level analysis, composition effects, ability grouping Zusammenfassung: In der vorliegenden Untersuchung analysierten wir Leistungsveränderungen von Schülerinnen und Schülern der Sekundarstufe I in Mathematik und im Lesen. In zwei Stichproben (Kohorte 1: N = 1082 Jugendliche aus 54 Klassen; Kohorte 2: N = 888 Jugendliche aus 47 Klassen) aus unterschiedlichen Schulformen (Gymnasium vs. andere) wurden die Mathematik- und Leseleistungen zu Beginn der 7. und zu Beginn der 9. Jahrgangsstufe erhoben. In Zweigruppen-Mehrebenenanalysen wurden die Effekte des Vorwissens, der Intelligenz, der Schulform, des auf Klassenebene aggregierten Vorwissens und der auf Klassenebene aggregierten Intelligenz auf spätere Leistungen analysiert. Die Befunde zeigen für beide Stichproben, dass die Klassenkomposition (aggregiertes Vorwissen) jenseits aller übrigen Effekte einen signifikanten Effekt auf die späteren Mathematikleistungen hat. Der geringere Effekt auf die Leseleistungen war nur signifikant, wenn Intelligenz nicht als Prädiktor im Modell enthalten war. Zusätzlich zeigen sich signifikante Effekte der Schulform auf die Mathematikleistungen, die im Lesen ausbleiben. Die Ergebnisse werden im Hinblick auf die Fachspezifität von Kompositionseffekten diskutiert. Schlüsselbegriffe: Mathematikleistung, Leseleistung, Mehrebenenanalyse, Kompositionseffekte, Leistungsgruppierung Trotz aller Strukturreformen des Bildungssystems in den letzten 15 bis 20 Jahren ist es nach wie vor Kennzeichen des deutschen Bildungssystems, dass Schülerinnen und Schüler am Ende der 4. bzw. 6. Jahrgangsstufe auf unter- Anmerkung: Die vorliegende Arbeit wurde durch die Bremer Senatorin für Bildung und Wissenschaft sowie aus dem Europäischen Fonds für regionale Entwicklung (EFRE) gefördert. Den Zuwendungsgebern sei an dieser Stelle dafür gedankt. Starke Klasse, hohe Leistungen? 185 schiedliche Schulformen der Sekundarstufe I verteilt werden. Dies geschieht primär aufgrund der unterschiedlichen Leistungsstände am Ende der Grundschule (Maaz, Baumert, Gresch & McElvany, 2010) und mündet im Übergang auf einen gymnasialen oder einen nichtgymnasialen Bildungsgang. Dieses Zwei-Säulen-Modell des allgemeinbildenden Schulsystems hat sich in den 16 Ländern mit wenigen Ausnahmen etabliert. Die Fusionierung von Haupt- und Realschulen zu (je nach Land) Sekundarschulen, Gemeinschaftsschulen, Mittelschulen, Oberschulen etc. trägt zum einen der demografischen Entwicklung mit sinkenden Schülerzahlen Rechnung, zum anderen soll es verhindern, dass Schülerinnen und Schüler in sehr ungünstig zusammengesetzten Klassen suboptimal gefördert werden (vgl. hierzu Hanushek & Wößmann, 2006; Stanat, 2006). Bei aller Modernisierung des Systems bleibt es aber weiterhin von der Idee getragen, dass eine Aufteilung nach der Primarstufe zu günstigeren Effekten in der Leistungsentwicklung führt als ein längeres oder gar dauerhaftes gemeinsames Lernen. Dem liegt die Annahme zugrunde, dass eine passgenaue Förderung von Schülerinnen und Schülern am ehesten in (leistungs-)homogenen Gruppen erfolgen kann. Diese Idee beherrscht im Übrigen die meisten Industrienationen, die früher oder später in ihrem allgemeinbildenden Schulsystem differenzieren (Kulik & Kulik, 1992; LeTendre, Hofer, & Shimizu, 2003; Oakes, 1987; Pallas, Entwisle, Alexander, & Stluka, 1994). Dabei ist die empirische Lage hinsichtlich der negativen und positiven Effekte der Leistungshomogenisierung auf die Leistungsentwicklung international (z. B. Hattie, 2009) und national (Becker, 2009; Köller & Baumert, 2012; Retelsdorf, Becker, Köller, & Möller, 2012) alles andere als eindeutig. Mit dem vorliegenden Beitrag ergänzen wir die empirische Befundlage zu Effekten der Differenzierung auf die Leistungsentwicklung und berücksichtigen dabei die Mathematik- und Leseleistungen zweier Kohorten, die jeweils in der 7. und 9. Jahrgangsstufe getestet wurden. Bei der Analyse der gewonnenen Daten wird versucht, Effekte der Klassenzusammensetzung (Leistungsstärke und Intelligenz der Klasse) und der Schulform (Gymnasium vs. Nichtgymnasium) zu trennen. Wir beginnen mit einem Überblick über theoretische und empirische Arbeiten zu Effekten der Leistungsdifferenzierung. Effekte der Differenzierung auf die Leistungsentwicklung Die Kernannahme aller Differenzierungsmaßnahmen im Schulwesen ist, dass individuelle Lernerfolge in leistungshomogenen Gruppen höher sind als in leistungsheterogenen Gruppen (vgl. Köller & Baumert, 2001, 2012). Autoren wie Caroll (1973) oder Bloom (1976) argumentieren in diesem Zusammenhang in ihren Modellen schulischen Lernens, dass Lern- und Leistungsunterschiede zwischen Schülerinnen und Schülern häufig daher rühren, dass sie unterschiedliche Zeiten benötigen, um den Unterrichtsstoff zu verstehen und abzuspeichern. Homogene Lerngruppen benötigen im Sinne dieser Modelle ähnliche Lernzeiten, entsprechend können Unterrichtstempo und kognitives Anspruchsniveau angepasst werden. Kongruent zu diesen Modellen konnte gezeigt werden, dass die Vorkenntnisse der Schülerinnen und Schüler positive Effekte auf die Variablen Klarheit des Unterrichts und Zeitnutzung hatten, Lehrkräfte also ihren Unterricht an das Leistungsniveau ihrer Klasse anpassten (vgl. Weinert & Helmke, 1997). Dieser Adaptationsprozess führte zu positiven Effekten der Unterrichtsvariablen auf die Leistungsentwicklung der Klasse. Wichtig für das bessere Verständnis der Bedeutung der Differenzierung für die Leistungsentwicklung ist die Unterscheidung von Effekten der Komposition und Effekten der Institution. Ein Effekt der Komposition liegt vor, wenn die Zusammensetzung der Schülerschaft in einer Klasse (z. B. gemitteltes Vorwissen) einen Einfluss jenseits der Individualmerkmale (z. B. individuellesVorwissen) aufdieLeistungsentwicklung hat (vgl. hierzu auch die Beiträge von Dumont, Neumann, Nagy et al. und Dumont, Neumann, 186 Olaf Köller et al. Maaz & Trautwein, in diesem Heft). Schülerinnen und Schüler in einer leistungsstarken Klasse können im Sinne des Kompositionseffekts von den Klassenkameraden profitieren, mit denen sie beispielsweise gemeinsam an der Lösung mathematischer Probleme arbeiten. Soziale Aufwärtsvergleiche können darüber hinaus Informationen zur Verbesserung eigener Leistungen liefern (vgl. Köller, 2004). Ein leistungsfördernder Effekt der Institution liegt vor, wenn die curricularen und/ oder unterrichtlichen Charakteristika einer Schulform jenseits der Schülerzusammensetzung einer Klasse und jenseits der individuellen Leistungsstände über das Ausmaß der Leistungsentwicklung entscheiden. Befunde aus Lehrkräftebefragungen in PISA 2003 (vgl. Baumert & Kunter, 2006; Baumert et al., 2004) zeigen, dass die kognitiven Anforderungen im gymnasialen Mathematikunterricht generell deutlich höher sind als im nichtgymnasialen Unterricht. Dies schlägt sich auch in höheren curricularen Anforderungen nieder. Auch zeigten sich in der COACTIV-Studie (z. B. Baumert, Kunter et al., 2010), dass das professionelle Wissen (fachliches und fachdidaktisches) aufseiten der Gymnasiallehrkräfte deutlich höher ist und das Ausmaß des Professionswissens positiv mit der Unterrichtsqualität zusammenhängt. Baumert, Trautwein und Artelt (2003) schreiben in diesem Zusammenhang von Schulformen als differenziellen Entwicklungsmilieus. Obwohl also bereits Mechanismen identifiziert wurden, wie Komposition und Institution die Leistungsentwicklung beeinflussen, ist die bisherige Forschungslage zu tatsächlichen Effekten international und national wenig einheitlich (vgl. auch Dumont, Neumann, Maaz & Trautwein, in diesem Heft). Internationale Befunde Hattie (2009) kommt in seiner Synopse von 14 Meta-Analysen, die 500 empirische Arbeiten zur Leistungsgruppierung zusammenfassen, zum Resümee, dass deren Effekte auf die Lese- und Mathematikleistungen nahe Null sind bei gleichzeitiger Manifestierung sozialer Ungleichheiten und Kosten im unteren Leistungsbereich (s. auch Lucas, 1999). Hierzu passen die Analysen von Hanushek und Wößmann (2006), die auf der Basis internationaler Datensätze zeigen können, dass es in Ländern mit früher Differenzierung in der Folge zu erheblichen Leistungseinbußen bei schwachen Schülerinnen und Schülern kommt. Maughan und Rutter (1987) zeigen beim Vergleich von Gymnasien (Grammar Schools) und Nichtgymnasien, dass die Leseleistungen bei Kontrolle der Ausgangsleistungen im Laufe des Gymnasialbesuchs stärker ansteigen als beim Besuch einer anderen Schulform. De Fraine, van Damme, van Landeghem, Opdenakker und Onghena (2003) untersuchten Schülerinnen und Schüler zu Beginn der Sekundarstufe I und konnten zeigen, dass die auf Klassenebene aggregierte kognitive Grundfähigkeit (Intelligenz) der Schülerinnen und Schüler nach Kontrolle diverser Prädiktoren auf Individual-, Klassen- und Schulebene einen starken Effekt auf die sprachlichen Leistungen hatte. Kein Effekt ergab sich für den gemittelten sozioökonomischen Status. Eine methodisch anspruchsvolle internationale Untersuchung wurde von Marsh, Kong und Hau (2000) für das Schulsystem in Hongkong publiziert. Besonders renommierte Schulen der Sekundarstufe (high schools) rekrutieren dort nur Schülerinnen und Schüler mit exzellenten Leistungen in den Tests, die zum Ende der Primarstufe bearbeitet wurden, wohingegen prestigeärmere Schulen solche aufnehmen, die am Ende der Klassenstufe 6 schwächer abgeschnitten haben. Bei Marsh et al. (2000) wurden rund 8000 Schülerinnen und Schüler aus 44 Schulen berücksichtigt. Die Schülerinnen und Schüler bearbeiteten zu mehreren Messzeitpunkten entweder einen Test zur Muttersprache (Chinesisch), einen Mathematiktest oder einen Englischtest. Als Prädiktoren für die Vorhersage der Schulleistungen, die in der 7., 8. und 9. Jahrgangsstufe erhoben wurden, dienten die individuelle Ausgangsleistung zu Beginn der 7. Jahrgangsstufe und die auf Schulebene aggregierten Schülerleistungen. Dieses aggregierte Maß bildet die Klassenkomposition ab, je höher der Starke Klasse, hohe Leistungen? 187 aggregierte Wert, desto höher das Leistungsniveau der Mitschülerinnen und Mitschüler. Die Ergebnisse bei Marsh et al. (2000) weisen auf eine unbedeutende Rolle der Fähigkeitsgruppierung hin. Bei Kontrolle der individuellen Ausgangsleistung ergab sich für die Fächer ein nicht signifikantes Regressionsgewicht von der auf Schulebene aggregierten Ausgangsleistung auf die individuelle Leistung in der 9. Jahrgangsstufe. Ein deutlicher Effekt ergab sich dagegen von der individuellen Ausgangsleistung auf die Leistung in der 9. Jahrgangsstufe. Eine ähnlich angelegte Studie wie die von Marsh et al. (2000) haben Yang, Goldstein, Rath und Hill (1999) publiziert. In die Analysen gingen die Leistungen, die in Mathematik, Lesen, Schreiben und Naturwissenschaften längsschnittlich untersucht wurden, von rund 6400 Schülerinnen und Schülern aus 161 Schulen ein. Für die auf Schulebene aggregierten Ausgangsleistungen in Mathematik und Naturwissenschaften ergaben sich bei Kontrolle der individuellen Ausgangsleistungen sogar durchgängig negative Effekte auf die späteren Leistungen, d. h. je höher die mittleren Leistungen in beiden Fächern in einer Schule lagen, desto ungünstiger war bei Kontrolle der individuellen Ausgangsleistungen die Leistungsentwicklung. Grenzen der bis hier beschriebenen Untersuchungen liegen darin, dass nicht institutionelle von kompositionellen Effekten der Leistungsgruppierung getrennt werden konnten. Dieses leistet eine Studie, die von Neumann und Kollegen (2007) in der Schweiz durchgeführt wurde. Die Autoren realisierten ein Messwiederholungsdesign (Beginn und Ende der 8. Jahrgangsstufe) und analysierten für das Fach Französisch Kompositions- (Klassenmittelwerte Französisch zu T1 bei Kontrolle der individuellen Französischleistung) und Institutionseffekte (Realschule vs. Sekundarschule vs. Progymnasium). Die Befunde aus Mehrebenenanalysen zeigen, dass die Schulform einen signifikanten Effekt auf die Leistungsveränderung hat (günstigste Entwicklung an Progymnasien), nicht aber die auf Klassenebene aggregierte Französischleistung zu T1. Nationale Studien Wir beschränken uns im Folgenden auf nationale Studien mit wenigstens zwei Messzeitpunkten. Eine frühe Studie zu Effekten der Leistungsgruppierung im deutschen Schulsystem stammt von Köller und Baumert (2001). Basierend auf einer Stichprobe von N = 2730 Schülerinnen und Schülern aus 107 Schulen wurden die Leistungsverläufe in Mathematik von der 7. bis zur 10. Jahrgangsstufe untersucht und auf die individuelle Ausgangsleistung, die auf Schulebene aggregierte Ausgangsleistung und die Schulform zurückgeführt. Die Analysen zeigten das folgende Ergebnismuster, das weitgehend dem von Neumann und Kollegen (2007) entspricht. Bei Kontrolle der übrigen Prädiktoren hatte die individuelle Ausgangsleistung in Klasse 7 einen deutlich positiven Effekt auf die Leistung in Klasse 10. Bei Kontrolle von individueller Ausgangsleistung und Schulform zeigte sich kein signifikanter Effekt der auf Schulebene aggregierten Ausgangsleistung in der 7. Jahrgangsstufe, d. h. innerhalb einer Schulform gab es nur unbedeutende Unterschiede in der Leistungsentwicklung zwischen leistungsstärkeren und -schwächeren Schulen. Bei Kontrolle von individueller und aggregierter Ausgangsleistung zeigte sich ein starker Effekt der Schulform. Schülerinnen und Schüler des Gymnasiums wiesen nach Kontrolle der individuellen und aggregierten Leistungen in der 7. Jahrgangsstufe deutlich höhere Leistungsstände am Ende der 10. Jahrgangsstufe auf als jene von anderen Schulformen. Köller und Baumert (2001) interpretieren ihre Ergebnisse dahingehend, dass es offenbar stärker die besondere Instruktionskultur am Gymnasium und weniger die Zusammensetzung der Schülerschaft sei, die sich leistungsfördernd auswirken könnte. Die Analysen von Becker, Lüdtke, Trautwein und Baumert (2006) auf der Grundlage von Messwiederholungsdaten weisen ebenfalls auf erhebliche Effekte der Schulform (zugunsten des Gymnasiums) auf die Veränderung der Mathematikleistung hin. 188 Olaf Köller et al. Im Gegensatz zur Mathematik und zum Fremdsprachenlernen scheint die Rolle der Institution für den Kompetenzerwerb im verkehrssprachlichen Leseverstehen geringer zu sein. Hierfür sprechen die Befunde von Retelsdorf und Möller (2008; vgl. auch Retelsdorf et al., 2012). Die Autoren fanden in längsschnittlichen Analysen zur Entwicklung der Lesekompetenz im Fach Deutsch, dass sich die Kompetenzzuwächse über die Zeit an den unterschiedlichen Schulformen nicht signifikant voneinander unterschieden (s. vergleichbare Befunde bei Baumert, Becker, Neumann & Nikolova, 2010; Lehmann, Peek, Gänsfuß & Husfeldt, 2001). Dagegen fanden Pfost, Karing, Lorenz und Artelt (2010) im Rahmen der Bamberger BIKS-Studie signifikante Effekte der Institution auf die Veränderung der Leseleistung (von der 5. auf die 6. Jahrgangsstufe). Keine institutionellen Effekte zeigten sich für die Entwicklung des Wortschatzes. Fasst man die Befunde zusammen, so scheinen Effekte der externen Differenzierung in erster Linie auf Merkmale der Institution und weniger auf die Schülerzusammensetzung zurückzugehen. Die Befunde legen wenigstens für Mathematik und den Fremdsprachenunterricht nahe, dass der kognitiv anregende Unterricht an Gymnasien positive Effekte auf die Leistungsentwicklung hat. Nur sehr abgeschwächt scheint dies für die Leseleistungen zu gelten. Die vorliegende Untersuchung In dem differenzierten deutschen Sekundarschulsystem bietet es sich an, institutionelle und kompositionelle Effekte auf die Leistungsentwicklung von Schülerinnen und Schülern systematisch zu analysieren. Die wenigen vorliegenden empirischen Arbeiten weisen darauf hin, dass sich im Bereich der Leseentwicklung kaum Effekte der Differenzierung nachweisen lassen (Retelsdorf et al., 2012), wohl aber im Bereich der Mathematik (Köller & Baumert, 2001) und in den Fremdsprachen (Neumann et al., 2007). Mit der vorliegenden Studie wollen wir das Wissen zu Effekten der Institution und Komposition erweitern und analysieren Daten zweier Stichproben, die in der 7. und 9. Jahrgangsstufe u. a. Leistungstests im Lesen und in der Mathematik sowie einen Grundintelligenztest und Fragebögen bearbeiteten. Die gewonnenen Daten erlauben neben Kontrolle des individuellen Vorwissens die simultane Modellierung von Schulform (institutioneller Effekt) und auf Klassenebene aggregierter Lese- und Mathematikleistung (Komposition) als Prädiktoren späterer Leistungen. Als weiteres Individual- und Kompositionsmerkmal wird die Intelligenz in den Analysen berücksichtigt. Während die leistungsförderliche Wirkung der Intelligenz auf Individualebene unbestritten ist (vgl. den aktuellen Aufsatz von Nisbett et al., 2012), gibt es bislang wenige Arbeiten zum Kompositionseffekt der Intelligenz. Allerdings belegen die Analysen von De Fraine et al. (2003), dass die auf Klassenebene aggregierte Intelligenz erhebliche Effekte auf die Schulleistungen haben kann. Inwieweit solche Effekte nach Kontrolle des aggregierten Vorwissens stabil sind, ist eine weitgehend offene Frage. Die in der vorliegenden Arbeit analysierten Daten sind in besonderer Weise geeignet, Kompositionseffekte zu untersuchen, erfüllen sie doch viele der von Thrupp, Lauder und Robinson (2002, S. 488) publizierten Voraussetzungen, um zu validen Befunden zu kommen. Es liegen längsschnittliche Daten vor, in denen die soziale und kognitive Zusammensetzung der Schülerinnen und Schüler breit streut; Maße des Vorwissens und der Intelligenz sowie unterschiedliche Schulformen werden berücksichtigt und die Auswertung erfolgt mehrebenenanalytisch. Basierend auf den Befunden aus der Literatur erwarten wir - signifikante positive Effekte des fachspezifischen individuellen Vorwissens auf nachfolgende Schulleistungen, - jenseits des Vorwissens noch kleine, aber ebenfalls signifikante positive Effekte der Intelligenz auf die Mathematik- und Leseleistungen, Starke Klasse, hohe Leistungen? 189 - signifikante Effekte der Schulform auf nachfolgende Mathematikleistungen nach Kontrolle des individuellen mathematischen Vorwissens und der Intelligenz, und zwar zugunsten der Schülerinnen und Schüler an Gymnasien, - ausbleibende oder nur kleine Effekte der Schulform auf die Leseleistungen nach Kontrolle des individuellen fachspezifischen Vorwissens und der Intelligenz. Resümiert man bisherige Studien, in denen simultan Kompositions- und Institutionseffekte analysiert wurden, so ist davon auszugehen, dass nach Kontrolle des individuellen Vorwissens und der Schulform bestenfalls schwache Kompositionseffekte auftreten sollten. Methode Für die vorliegende Arbeit wurden Daten aus dem Projekt Entwicklung und Implementierung eines neuen Konzeptes zur Eingliederung Jugendlicher in die Berufs- und Arbeitswelt in Schulen mit erhöhtem Förderbedarf (EIKA) verwendet. Es handelt sich dabei um eine Initiative der Stadt Bremen, in der seit 2004 versucht wird, Schulen in schwierigen sozialen Lagen mit Maßnahmen der Schul- und Unterrichtsentwicklung zu unterstützen. Ziel ist die erfolgreiche Einfädelung benachteiligter Jugendlicher in die berufliche Erstausbildung. Das Projekt wurde in einem Mehrkohorten-Längsschnittdesign von 2004 bis 2008 wissenschaftlich begleitet (Leitung: Prof. Dr. Olaf Köller). Eine genaue Beschreibung des Untersuchungsplans findet sich bei Eßel-Ullmann (2008) und Köller (2009). Zur Beantwortung unserer Fragestellung wurden zwei Kohorten aus dem EIKA-Projekt berücksichtigt. Bei der Kohorte 1 handelt es sich um N = 1082 Schülerinnen (48,3 %) und Schüler (51,7 %) aus 54 Klassen der 7. Jahrgangsstufe (T1), die zu Beginn des Schuljahres 2004/ 2005 untersucht wurden. 31,6 Prozent besuchten eine Hauptschule, 41,8 Prozent eine Realschule, 26,6 Prozent ein Gymnasium. Eine zweite Erhebung (T2) fand in dieser Stichprobe zu Beginn der 9. Jahrgangsstufe im Schuljahr 2006/ 2007 statt. Die zweite Kohorte besteht aus N = 888 Schülerinnen (50,3 %) und Schülern (49,7 %) aus 47 Klassen der 7. Jahrgangsstufe, die parallel zur Kohorte 1 zu Beginn des Schuljahres 2006/ 2007 (T1) getestet wurden. Bei dieser Kohorte handelt es sich um die erste nach der Schulstrukturreform in Bremen, in der Haupt- und Realschulen zu Sekundarschulen zusammengeführt wurden. Entsprechend diesen Strukturen besuchten 25,6 Prozent der Schülerinnen und Schüler ein Gymnasium, die übrigen eine Sekundarschule. Die zweite Datenerhebung (T2) in dieser Stichprobe fand zu Beginn der 9. Jahrgangsstufe im Schuljahr 2008/ 2009 statt. Für die zweite Kohorte lagen auch aus dem Schuljahr 2004/ 2005 Daten der 5. Jahrgangsstufe vor. Wir verzichten in der vorliegenden Untersuchung auf diesen weiteren Messzeitpunkt, um die Analysen in beiden Kohorten parallel zu halten. Die Klassen beider Kohorten stammten aus denselben Schulen (insgesamt 11). In beiden Kohorten war der Anteil der Schülerinnen und Schüler mit Migrationshintergrund vergleichsweise hoch, so gaben in der Kohorte 1 40,8 Prozent an, zu Hause üblicherweise nicht Deutsch zu sprechen, in Kohorte 2 waren dies 42,6 Prozent. In beiden Kohorten wurden zu beiden Messzeitpunkten standardisierte Mathematik-, Lese- und Intelligenztests sowie Schüler- und Elternfragebögen eingesetzt. Die Testung erfolgte durch vorher geschulte Lehrkräfte an jeweils zwei Tagen. Instrumente Die eingesetzten Instrumente waren in beiden Kohorten identisch. Zur Erfassung der sprachfreien Intelligenz wurde der halbe Grundintelligenztest CFT 20 (Weiß, 1998) eingesetzt, der aus vier figuralen Untertests besteht. In beiden Kohorten lag die Reliabilität (Kuder-Richardson-Formel 20, KR 20) in der 7. Jahrgangsstufe bei .80. Die Testwerte der Schülerinnen und Schüler wurden am Mittelwert und der Standardabweichung der ersten Kohorte standardisiert (M = 0, SD = 1). Um Effekte der Klassenzusammensetzung modellieren zu können, wurden Mittelwerte pro Klasse gebildet. Die aggregierten Klassenmittelwerte wurden nicht erneut standardisiert. Zur Erfassung der Lese- und Mathematikleistungen kamen in beiden Kohorten breit validierte Instrumente aus der Hamburger Lernausgangslagenuntersuchung LAU (vgl. Lehmann & Peek, 1997; Lehmann et al., 2001) zum Einsatz. Die Tests zum Leseverstehen beanspruchten eine Bearbeitungszeit von einer Schulstunde (45 Minuten) und enthielten Sachtexte ebenso wie literarische Texte. Pro Text wurden vier bis sieben Fragen im Multiple-Choice-Antwortformat gestellt. Die Tests erreichten in beiden Kohorten zu beiden Messzeitpunkten Reliabilitä- 190 Olaf Köller et al. ten (KR-20) über .80. Eine Teilmenge der Aufgaben (sogenannte Ankeritems) wurde in der 7. und der 9. Jahrgangsstufe eingesetzt. In der 9. Jahrgangsstufe gab es zudem noch schulformspezifische Testhefte, die zum Teil gemeinsame Items enthielten. Aufgrund dieses Ankeritem-Designs (zwischen den Messzeitpunkten und innerhalb von T2; vgl. Hambleton & Swaminathan, 1989) war es möglich, mit Hilfe von probabilistischen Testmodellen die Leistungen auf einer gemeinsamen Metrik abzutragen. Die Personenparameter (Weighted Maximum Likelihood Estimates) wurden wie auch beim CFT 20 an der ersten Kohorte zu T1 standardisiert (M = 0, SD = 1). Auch diese Werte wurden auf Klassenebene aggregiert und nicht erneut standardisiert, um Kontexteffekte analysieren zu können. In Mathematik kam ebenfalls ein Ankeritem- Design zum Einsatz, um die Testleistungen von unterschiedlichen Zeitpunkten und schulformspezifischen Versionen auf einem gemeinsamen Maßstab abbilden zu können. Die Tests, bestehend aus Multiple-Choice-Aufgaben, erforderten wiederum zu beiden Erhebungszeitpunkten eine Bearbeitungszeit von 45 Minuten. Die Tests erreichten durchgängig Reliabilitäten (KR-20) über .75. Das Vorgehen bei der Skalierung war analog zum Lesen, die Standardisierung (M = 0, SD = 1) erfolgte wiederum an der Kohorte 1 zu T1. Statistische Analysen Die zentralen Fragestellungen der vorliegenden Arbeit betreffen Effekte von Prädiktoren, die auf der individuellen und auf der Klassenebene (Kompositionseffekt) liegen. Hinzu kommt, dass die erhobenen Daten aus geschachtelten Stichproben (Schülerinnen und Schüler innerhalb von Klassen) stammen. Aufgrund dieses hierarchischen Charakters der Daten wurden für die verwendeten Leistungstests zu T2 zunächst Intraklassenkorrelationen bestimmt (Varianzen zwischen Klassen im Verhältnis zu den entsprechenden Gesamtvarianzen, bei denen die Ebenen Klasse, Schule und Schulform konfundiert sind). Diese lagen im Lesen bei .36 (Kohorte1) und .26 (Kohorte 2), in Mathematik bei .64 (Kohorte 1) und .51 (Kohorte 2). Da bei hohen Intraklassenkorrelationen Standardfehler unterschätzt werden, wenn die hierarchische Struktur der Daten nicht angemessen berücksichtigt wird, und ohnehin Prädiktoren auf unterschiedlichen Ebenen vorlagen, wurden in Mplus (Version 6.12, Muthén & Muthén, 2010) Mehrebenenanalysen durchgeführt. Um die Kompositionseffekte (des aggregierten Vorwissens und der aggregierten Intelligenz) unverzerrt schätzen zu können, wurde das von Marsh und Kollegen (2009) vorgeschlagene Vorgehen übernommen. Da bei allen Variablen fehlende Werte auftraten (bis zu 17 % innerhalb einer Erhebungswelle), wurden in Mplus mittels multipler Imputation 50 vollständige Datensätze generiert (zur Behandlung von fehlenden Werten vgl. Lüdtke, Robitzsch, Trautwein & Köller, 2007). Die entsprechenden Analysen wurden dann für jeden der 50 Datensätze durchgeführt und die Ergebnisse entsprechend dem Vorgehen bei Rubin (1987) automatisch in Mplus kombiniert. Ergebnisse Deskriptive Befunde Tabelle 1 zeigt deskriptive Ergebnisse für die berücksichtigten Variablen aufgebrochen nach Kohorte, Schulform und Messzeitpunkt (Befunde gemittelt über 50 imputierte Datensätze). Wir berichten die Befunde beider Kohorten getrennt, da sie in gewisser Weise aus unterschiedlichen Schulsystemen (Hauptschule/ Realschule/ Gymnasium vs. Sekundarschule/ Gymnasium) stammen. Da der CFT 20 nur zu T1 berücksichtigt wurde, sind auch nur einmalig in jeder Kohorte die Statistiken aufgeführt. Bei den Schulleistungsmaßen sind in beiden Kohorten erhebliche Zugewinne (ds > 0.7) über zwei Schuljahre zu erkennen, wobei die Zuwächse im Lesen in gymnasialen und nichtgymnasialen Bildungsgängen vergleichbar ausfallen. Hinsichtlich der Mathematikleistungen gewinnen Schülerinnen und Schüler an Gymnasien deutlich mehr hinzu (zur inferenzstatistischen Absicherung s. u.). Innerhalb eines Jahrgangs fällt auf, dass der Leistungsvorsprung der Gymnasiastinnen und Gymnasiasten gegenüber den Schülerinnen und Schülern anderer Schulformen in etwa dem Zuwachs von der 7. bis zur 9. Jahrgangsstufe entspricht. Dementsprechend liegen die Schülerinnen und Schüler des Gymnasiums zu Beginn der 7. Klasse auf einem Leistungsniveau, das dem der Schülerinnen und Schüler anderer Bildungsgänge zu Beginn der 9. Klasse entspricht. Starke Klasse, hohe Leistungen? 191 Beim Kohortenvergleich zeigt sich, dass die zweite Kohorte hinsichtlich aller Merkmale in Klasse 7 deskriptiv günstigere Werte aufweist, bei den Mathematik- und Leseleistungen sind diese Vorteile aber bis zum Beginn der 9. Jahrgangsstufe weitgehend verschwunden. Korrelationen Um Zusammenhänge zwischen den Leistungs- und Intelligenzmaßen zu analysieren, wurden Interkorrelationen getrennt für beide Kohorten berechnet. Die Koeffizienten wurden für alle 50 imputierten Datensätzen berechnet und anschließend kombiniert. Die Tabelle 2 zeigt die entsprechenden Befunde. Cum grano salis ergeben sich in beiden Kohorten vergleichbare Muster. Am höchsten fallen die Stabilitäten aus. Sehr hohe Übereinstimmungen zeigen sich auch zwischen den Leistungsmaßen innerhalb der Messungen. Mehrebenenanalysen Zur Überprüfung der zentralen Hypothesen der vorliegenden Arbeit wurden in Mplus 6.12 Zweigruppen-Mehrebenenanalysen durchgeführt. Mit diesen Zweigruppen-Modellen konnte auch explorativ der Frage nachgegangen werden, inwieweit die unterschiedlichen SchulstruktureninbeidenKohortenzuunterschiedlichen Effekten führen. Wie schon oben erwähnt, wur- Kohorte 1 2004 (7. Jahrgang) 2006 (9. Jahrgang) Andere Gymnasium Andere Gymnasium M SD M SD M SD M SD Lesen -0.30 0.88 0.81 0.83 0.77 0.88 1.82 0.85 Mathematik -0.33 0.81 0.87 0.91 0.63 0.86 2.31 0.68 CFT 20 -0.22 0.97 0.59 0.83 Kohorte 2 2006 (7. Jahrgang) 2008 (9. Jahrgang) Andere Gymnasium Andere Gymnasium M SD M SD M SD M SD Lesen -0.17 0.94 1.15 1.14 0.83 0.94 1.89 0.94 Mathematik -0.21 0.76 0.96 0.95 0.84 0.75 2.48 0.74 CFT 20 -0.02 0.90 0.91 0.73 Tab. 1: Mittelwerte (M) und Standardabweichungen (SD) in den Schulleistungstests und im CFT 20 nach Kohorte, Schulform und Messzeitpunkt (1) (2) (3) (4) (5) CFT 20 T1 (1) 1.00 .47 .58 .43 .55 Lesen T1 (2) .51 1.00 .62 .73 .62 Mathematik T1 (3) .51 .56 1.00 .60 .76 Lesen T2 (4) .44 .71 .49 1.00 .64 Mathematik T2 (5) .54 .58 .69 .59 1.00 Tab. 2: Korrelationen (Schätzungen aus Mplus 6.12) zwischen den Leistungs- und Intelligenzmaßen in beiden Kohorten (Kohorte 1 oberhalb der Diagonalen, Kohorte 2 unterhalb) Anmerkungen: T1: erster Messzeitpunkt (7. Klasse). T2: zweiter Messzeitpunkt (9. Klasse). Alle Koeffizienten sind signifikant (p < .01). Gemittelte Koeffizienten aus Analysen der 50 imputierten Datensätze. 192 Olaf Köller et al. den die Modelle in Mplus entsprechend dem Vorgehen bei Marsh und Kollegen (2009) spezifiziert, um unverzerrte Kompositionseffekte schätzen zu können. 1 In separaten Modellen für Mathematik und Lesen waren die abhängigen Variablen die Mathematik- und Leseleistungen zu T2, die Prädiktoren die entsprechenden Leistungen zu T1 sowie die Grundintelligenz (CFT 20), die Schulform (Gymnasium vs. andere) und die auf Klassenebene aggregierten Lesebzw. Mathematik- und Intelligenzleistungen. Da keine Hypothesen hinsichtlich der Varianzen der Regressionskoeffizienten auf Ebene 1 vorlagen, wurden die entsprechenden Varianzparameter fixiert. Es wurden sowohl kohortenspezifische als auch kohorteninvariante Modelle in Zweigruppenanalysen spezifiziert. Dabei zeigte sich, dass keines der Regressionsgewichte, die unten berichtet werden, signifikant zwischen den beiden Kohorten variierte (t-Tests für unabhängige Stichproben). Wir präsentieren daher im Folgenden nur die kohorteninvarianten Ergebnisse. Die Tabelle 3 zeigt die Befunde aus entsprechenden Analysen zur Vorhersage der Mathematik- (jeweils erste Spalte) und Leseleistungen (jeweils zweite Spalte) zu Beginn der 9. Jahrgangsstufe. Im ersten Modell (M1) wird die Leistung zu T2 durch das Vorwissen zu T1 und die Leistungsstärke der Klasse zu T1 (Komposition) vorhergesagt. Für beide Prädiktoren ergeben sich in beiden Leistungsbereichen signifikante Regressionsgewichte. Leistungsstarke Schülerinnen und Schüler zu T1 erreichen in beiden Domänen auch höhere Leistungen zu T2. Zudem schneiden Schülerinnen und Schüler aus leistungsstarken Klassen besser ab als solche aus leistungsschwächeren Klassen (Kompositionseffekt). Die entsprechenden aufgeklärten Varianzen (R 2 ) finden sich ebenfalls in Tabelle 3. Dass der deutlich kleinere Kompositionseffekt im Lesen zu einem vergleichbaren R 2 auf Ebene 2 führt, liegt allein daran, dass die Ebene-2-Varianz für das Lesen insgesamt deutlich kleiner ist als für die Mathematik. Gemessen an der Gesamtvarianz ist der Erklärungsanteil der mittleren Leistung im Lesen deutlich geringer als in der Mathematik. 1 Eine Beispielsyntax für dieses Vorgehen (Modell 3 für Mathematik) findet sich im Anhang 1. M1 M2 M3 B Ma (SE) B De (SE) B Ma (SE) B De (SE) B Ma (SE) B De (SE) Individuum Leistung T1 .47** (.02) .59** (.03) .47** (.02) .59** (.03) .41** (.02) .58** (.03) Intelligenz T1 .13** (.02) .07** (.02) Klasse Leistung T1 .76** (.04) .26** (.04) .46** (.07) .18** (.06) .36** (.08) .07 (.07) Schulform .52** (.09) .15 (.09) .47** (.08) .13 (.08) Intelligenz zu T1 .14 (.08) .14* (.07) R 2 indiv. .28/ .24 .32/ .38 .28/ .24 .32/ .38 .30/ .26 .33/ .38 R 2 Klasse .91/ .95 .94/ .89 .91/ .98 .95/ .90 .93/ .98 .96/ .90 Tab. 3: Befunde aus Zweigruppen-Mehrebenenanalysen zur Vorhersage der Mathematik- und Leseleistungen in der 9. Jahrgangsstufe (gruppeninvariante Regressionsgewichte aus Mplus 6.12, in Klammern Standardfehler der Gewichte) Anmerkungen: B Ma : Regressionsgewicht für die abhängige Variable Mathematikleistung zu T2. B De : Regressionsgewicht für die abhängige Variable Leseleistung zu T2. Schulform ist 1 (Gymnasium) vs. 0 (andere) kodiert. R 2 indiv.: Aufgeklärte Varianz auf Individualebene, vor dem Schrägstrich in Kohorte 1, nach dem Schrägstrich in Kohorte 2. R 2 Klasse: Aufgeklärte Varianz auf Klassenebene, vor dem Schrägstrich in Kohorte 1, nach dem Schrägstrich in Kohorte 2. * p < .05. ** p < .01. Starke Klasse, hohe Leistungen? 193 Die Schwäche von M1 besteht darin, dass Schulform und Klassenmittelwert konfundiert sind, sodass der Effekt des Klassenmittelwerts möglicherweise eher ein Schulformeffekt ist. Beide Effekte werden in M2 getrennt. Dabei zeigt sich für Mathematik, dass nach Kontrolle des Vorwissens auf Individualebene beide Prädiktoren auf Ebene 2 signifikante Regressionsgewichte haben. Schülerinnen und Schüler an Gymnasien weisen bei gleicher Ausgangsleistung zu T1 höhere Leistungen zu T2 auf als jene in nichtgymnasialen Bildungsgängen. Jenseits der Schulform hat wiederum die Leistungsstärke der eigenen Klasse einen Effekt auf den Leistungszuwachs (Kompositionseffekt). Im Lesen zeigt sich kein Schulformeffekt, der Kompositionseffekt (Klassenmittelwert) bleibt dagegen signifikant. In M3 wird schließlich die Intelligenz auf der Individual- und Klassenebene aufgenommen. Erwartungskonform ergeben sich auf der Individualebene nach Kontrolle der Vorleistungen noch zusätzliche signifikante Effekte der Intelligenz, die (vor allem im Lesen) vergleichsweise klein sind. In Mathematik verfehlt der Effekt der aggregierten Intelligenz knapp das Signifikanzniveau von .05, beim Lesen wird der Effekt gerade signifikant, gleichzeitig verschwindet dort der Effekt der auf Klassenebene aggregierten Leseleistung zu T1. Fasst man die Befunde der Tabelle 3 zusammen, so ergibt sich folgendes Bild: - Vorwissen zu T1 auf Individualebene erweist sich als starker und robuster Prädiktor für spätere Leistungen (T2). - Für die Intelligenz auf Ebene 1 zeigen sich auch nach Kontrolle aller anderen Merkmale signifikante, wenn auch vergleichsweise kleine Effekte. - Ein robuster Kompositionseffekt der auf Klassenebene aggregierten Leistung zeigt sich für die Mathematik. - Im Lesen findet man den entsprechenden Effekt nur, solange Intelligenz als Kompositionsmerkmal von den Analysen ausgeschlossen wird. - Nach Kontrolle aller übrigen Prädiktoren weist die Schulform allein im Fach Mathematik einen konsistenten Effekt dahingehend auf, dass der Leistungszuwachs am Gymnasium größer ist. - Die auf Klassenebene aggregierte Intelligenz zeigt sehr schwache Effekte, die nur im Falle des Lesens signifikant werden. Diskussion Die vorliegende Untersuchung wurde durchgeführt, um die Bedeutung des schulischen Kontextes für die individuelle Leistungsentwicklung im Lesen und in der Mathematik zu analysieren. Hinsichtlich der Kontexteffekte wurde versucht, Kompositions- und Institutionsanteile zu trennen, und es konnte gezeigt werden, dass die Leistungsentwicklung in Mathematik in erheblichem Maße von der leistungsmäßigen Zusammensetzung der Klasse und der Schulform abhängt. Vergleichbare Effekte fanden sich nicht im Lesen. Kaum zusätzliche Effekte hatte die Intelligenz, und zwar weder auf der individuellen noch auf der Klassenebene. Wir wollen die Befunde im Folgenden vor dem Hintergrund bisheriger Forschungsbefunde diskutieren, anschließend auf Grenzen unserer Untersuchung eingehen und abschließend die Ergebnisse in Bezug auf praktische Implikationen beleuchten. Einordnung der Befunde In Übereinstimmung mit anderen Arbeiten (Becker et al., 2006; Köller & Baumert, 2001; Neumann et al., 2007) zeigten sich deutliche Effekte der Institution auf die Leistungsveränderung im Fach Mathematik. Schülerinnen und Schüler an Gymnasien zeigen bei gleicher Ausgangsleistung in der 7. Jahrgangsstufe einen Zuwachs über zwei Schuljahre, der rund eine halbe Standardabweichung (.47 in Tabelle 3) über jenem in nichtgymnasialen Bildungsgängen liegt. Dieser Effekt wird möglicherweise sogar noch unterschätzt, da unsere Untersuchung erst zwei Jahre nach dem Übertritt in die Sekundarstufe I einsetzt und bereits in den Ausgangsleistungen zu T1 Effekte der Institution enthalten sein könnten, die dann in den weiteren Analysen herauspartialisiert wurden. 194 Olaf Köller et al. Mögliche Ursachen für den substanziellen Vorteil am Gymnasium wurden im Theorieteil ausführlicher diskutiert. Überraschend sind die großen Effekte der mittleren Klassenleistung (Kompositionseffekt) im Fach Mathematik, die unseres Wissens bislang in keiner deutschen Untersuchung gefunden wurden. Beim Vergleich der Modelle 1 und 2 in Tabelle 3 erkennt man sogar, dass ein Modell, in dem allein der Klassenmittelwert modelliert wird, zu einem vergleichbaren R 2 führt wie dies unter zusätzlicher Berücksichtigung der Schulform der Fall ist. Naheliegend ist hier die Erklärung, dass der Anteil der Varianz zwischen Klassen (innerhalb von Schulen und Schulformen) in unserer Untersuchung größer ist, als er es in früheren Studien war. Zerlegt man die Varianz der Mathematikleistungen zu T2, so ergeben sich in beiden Kohorten Varianzanteile zwischen Klassen, die bei 17 Prozent liegen. Dies liegt in der Tat deutlich über den Zahlen, die beispielsweise Neumann et al. (2007) für ihre Studie berichten (zwischen 6 und 12 Prozent). Hier wäre es wünschenswert, existierende Studien dahingehend zu reanalysieren, ob die Stärke von Kompositionseffekten durch die Varianzanteile zwischen Klassen moderiert wird. Bemerkenswert, aber durchaus im Einklang mit der Literatur, ist die Domänenspezifität der Befunde. Den prominenten Effekten der Komposition und Institution in Mathematik stehen weitgehend ausbleibende Effekte im Lesen gegenüber. Schon in der Vergangenheit (u. a. Retelsdorf et al., 2012) wurde darauf hingewiesen, dass die Leistungsentwicklung im Lesen sehr viel weniger von schulischen Lerngelegenheiten in der Sekundarstufe I beeinflusst wird, wohingegen die Mathematik weitgehend innerschulisch gelernt wird (Köller & Baumert, 2001). Systematische Instruktion im Leseverstehen ist in der Tat auch stärker Gegenstand der Primarstufe und erfolgt in der Sekundarstufe eher inzidentell. Mit Blick auf die Reform des Sekundarschulwesens in Bremen (Kohorte 1 im dreigliedrigen, Kohorte 2 im zweigliedrigen System) konnten keine differenziellen Effekte nachgewiesen werden, vielmehr zeigten kohorteninvariante Modelle eine sehr gute Passung. Die Studie ist nicht geeignet, Gründen für das Ausbleiben differenzieller Effekte nachzugehen, zeigt aber, dass Strukturreformen grundlegende Effekte auf die Leistungsentwicklung nicht notwendigerweise moderieren. Schließlich ergaben sich nur geringe Effekte der Intelligenz auf beiden Analyseebenen. Es ist wiederholt darauf hingewiesen worden, dass die Intelligenz ihre große prädiktive Kraft für Schulleistungen verliert, wenn in Studien das Vorwissen kontrolliert wird (z. B. Renkl & Stern, 1994). Hierfür finden wir hier Bestätigung, möchten aber gleichzeitig darauf hinweisen, dass Vorwissen und Intelligenz natürlich stark konfundiert sind (Intelligenz fördert den Aufbau von Vorwissen) und wir in unserer Studie von einer Unterschätzung des Effekts der Intelligenz ausgehen können. Dies gilt im Übrigen auch für den Kompositionseffekt der Intelligenz, immerhin ergaben sich auf Klassenebene Korrelationen zwischen der Intelligenz und der Leistung von r = .85 (Intelligenz und Lesen) bzw. r = .89 (Intelligenz und Mathematikleistung). Limitationen Bei allen methodischen Stärken der Studie, die viele der von Thrupp et al. (2002) aufgestellten Kriterien für entsprechende Untersuchungen erfüllt, bleiben auch Schwächen. So konnten wir zwar für das Fach Mathematik zeigen, welche erheblichen Fördereffekte das gymnasiale Setting jenseits der Klassenzusammensetzung hat. Letztendlich bleiben aber die Prozesse, die hinter diesem Effekt stehen, unbekannt. Es existiert zwar mittlerweile eine Vielzahl von Arbeiten, die Unterschiede zwischen Schulformen im Professionswissen der Lehrkräfte und in der Unterrichtsqualität aufdecken können (z. B., Baumert, Kunter et al., 2010; Baumert et al., 2003), uns sind aber keine Untersuchungen bekannt, in denen gezeigt werden konnte, dass der institutionelle Effekt nach Einführung von Unterrichtsvariablen im Sinne eines Mediatoreffektes verschwindet. Hierzu kann auch unsere Arbeit keinen Beitrag leisten. Starke Klasse, hohe Leistungen? 195 Grenzen hat die Studie sicher auch darin, dass die Stichprobe aus Schulen stammt, die weder für die Stadt Bremen noch für die Bundesrepublik Deutschland repräsentativ sind. Weiterhin wurden bei den Kompositionsmerkmalen mit dem Vorwissen und der Intelligenz lediglich kognitive Maße berücksichtigt. Fragen der Geschlechterzusammensetzung der Klassen, des Anteils von Schülerinnen und Schülern mit Migrationshintergrund und der aggregierten sozialen Herkunft blieben unberücksichtigt. Zumindest für Effekte der sozialen Herkunft auf Individual- und Klassenebene lässt sich allerdings empirisch zeigen, dass diese sehr klein werden, wenn kognitive Variablen auf beiden Ebenen kontrolliert werden (Baumert, Stanat & Watermann, 2006; Ditton & Krüsken, 2006). Dies gilt weitgehend analog für den Migrantenanteil von Klassen, der oftmals nach Kontrolle der sozialen Zusammensetzung ganz verschwindet (vgl. Dumont, Neumann, Maaz & Trautwein, in diesem Heft). Walter und Stanat (2008) zeigen allerdings, dass auch nach Kontrolle der Schulform Klassen mit einem sehr hohen Migrantenanteil (> 40 %) geringere Leseleistungen zeigen als Klassen, in denen der entsprechende Anteil geringer ist. Für die Geschlechterzusammensetzung zeigen im Übrigen De Fraine et al. (2002), dass Klassen mit hohem Mädchenanteil auch nach Kontrolle der Intelligenz höhere sprachliche Leistungen erreichen als jene mit geringerem Mädchenanteil. Für den Geschlechter- und Migrantenanteil gibt es allerdings keine Evidenz, dass bei ihrer Kontrolle Kompositionseffekte des Vorwissens oder der Intelligenz verschwinden oder moderiert würden. Im Übrigen zeigen auch von uns ergänzend durchgeführte Analysen, dass bei der Berücksichtigung der Geschlechtsvariable das oben berichtete Ergebnismuster stabil bleibt. Dennoch führt die fehlende Berücksichtigung weiterer Kompositionsmerkmale dazu, dass die von uns gefundenen Effekte hier nur sehr vorsichtig im Sinne kausaler Effekte interpretiert werden können. Schließlich stehen unsere geringen Kompositionseffekte und Institutionseffekte beim Lesen im Gegensatz zu den großen Effekten bei De Fraine et al. (2003). Dies mag daher rühren, dass in der Studie von De Fraine und Kollegen ein sehr viel breiteres Maß für die sprachlichen Leistungen berücksichtigt wurde (Lesen, linguistische Kompetenzen, Rechtschreibung, grammatische Kompetenzen). Hier bleibt zukünftigen Arbeiten überlassen, möglicherweise validere, umfassendere Indikatoren verbaler Leistungen bei der Untersuchung von Kompositionseffekten einzusetzen. Praktische Implikationen Die vorliegende Untersuchung macht wenigstens im Bereich der Mathematik deutlich, dass erfolgreiches Lernen in erheblichem Ausmaß an die schulische Umgebung gekoppelt ist; Schülerinnen und Schüler profitieren am Gymnasium erheblich. Der Institutionseffekt zugunsten des Gymnasiums wird vielfach auf das Professionswissen der Lehrkräfte, die Unterrichtsgüte und das curriculare Anspruchsniveau zurückgeführt. Nimmt man dies ernst, so impliziert dies vor allem Änderungen im Professionswissen der Lehrerinnen und Lehrer im nichtgymnasialen Bereich. Die aktuelle Diskussion um die Lehrerbildung trägt diesen Befunden Rechnung. Die Expertenkommission Lehrerbildung (2012) hat für das Land Berlin vorgeschlagen, die erste Phase der Lehramtsausbildung dahingehend zu vereinheitlichen, dass alle Lehramtsstudierenden für die Sekundarstufen fachlich und fachdidaktisch auf gymnasialem Niveau ausgebildet werden. Setzt sich dieser Gedanke durch, idealerweise in der ersten und der zweiten Phase der Lehramtsausbildung, so sollte sich der Institutionseffekt perspektivisch reduzieren. Hinsichtlich des Kompositionseffekts ist wiederholt darauf hingewiesen worden (Baumert et al., 2006), besonders leistungsschwache Klassen aufzulösen und eine stärkere Durchmischung herzustellen. Unsere Befunde in Mathematik wie auch die Analysen internationaler Datensätze von Hanushek und Wößmann (2006) stützen solche Maßnahmen. Eine Homogenisierung auf niedrigem Niveau scheint eher kontraindiziert zu sein. 196 Olaf Köller et al. Literatur Baumert, J., Becker, M., Neumann, M. & Nikolova, R. (2010). Besondere Förderung von Kernkompetenzen an Spezialgymnasien? Der Frühübergang in grundständige Gymnasien in Berlin. Zeitschrift für Pädagogische Psychologie, 24, 5 - 22. Baumert, J. & Kunter, M. (2006). Stichwort: Professionelle Kompetenz von Lehrkräften. Zeitschrift für Erziehungswissenschaft, 9, 469 - 520. Baumert, J., Kunter, M., Brunner, M., Krauss, S., Blum, W. & Neubrand, M. (2004). Mathematikunterricht aus Sicht der PISA-Schülerinnen und -Schüler und ihrer Lehrkräfte. In PISA-Konsortium Deutschland (Hrsg.), PISA 2003: Der Bildungsstand der Jugendlichen in Deutschland - Ergebnisse des zweiten internationalen Vergleichs (S. 314 - 354). Münster: Waxmann. Baumert, J., Kunter, M., Blum, W., Brunner, M., Voss, T., Jordan, A., … Tsai, Y.-M. (2010). Teachers’ mathematical knowledge, cognitive activation in the classroom, and student progress. American Educational Research Journal, 47, 133 - 180. Baumert, J., Stanat, P. & Watermann, R. (2006). Schulstruktur und die Entstehung differenzieller Lern- und Entwicklungsmilieus. In J. Baumert, P. Stanat & R. Watermann (Hrsg.), Herkunftsbedingte Disparitäten im Bildungswesen: Differenzielle Bildungsprozesse und Probleme der Verteilungsgerechtigkeit (S. 95 - 188). Wiesbaden: VS Verlag für Sozialwissenschaften. Baumert, J., Trautwein, U. & Artelt, C. (2003). Schulumwelten - institutionelle Bedingungen des Lehrens und Lernens. In J. Baumert, C. Artelt, E. Klieme, M. Neubrand, M. Prenzel, U. Schiefele, … M. Weiß (Hrsg.), PISA 2000. Ein differenzierter Blick auf die Länder der Bundesrepublik Deutschland (S. 261 - 331). Opladen: Leske + Budrich. Becker, M. (2009). Kognitive Leistungsentwicklung in differenziellen Lernumwelten: Effekte des gegliederten Sekundarschulsystems in Deutschland (Dissertation). Berlin: Max-Planck-Institut für Bildungsforschung. Becker, M., Lüdtke, O., Trautwein, U. & Baumert, J. (2006). Leistungszuwachs in Mathematik. Evidenz für einen Schereneffekt im mehrgliedrigen Schulsystem? Zeitschrift für Pädagogische Psychologie, 20, 233 - 242. Bloom, B. S. (1976). Human characteristics and school learning. New York: McGraw-Hill. Carroll, J. B. (1973). Ein Modell schulischen Lernens. In W. Edelstein & D. Hopf (Hrsg.), Bedingungen des Bildungsprozesses (S. 234 - 250). Stuttgart: Klett. De Fraine, B., van Damme, J., van Landeghem, G., Opdenakker, M.-C., & Onghena, P. (2003). The effect of schools and classes on language achievement. British Educational Research Journal, 29, 841 - 859. Ditton, H. & Krüsken, J. (2006). Sozialer Kontext und schulische Leistungen - zur Bildungsrelevanz segregierter Armut. Zeitschrift für Soziologie der Erziehung und Sozialisation, 26, 135 - 157. Dumont, H., Neumann, M., Maaz, K. & Trautwein, U. (2013). Die Zusammensetzung der Schülerschaft als Einflussfaktor für Schulleistungen: Internationale und nationale Befunde. Psychologie in Erziehung und Unterricht, 60, 163 - 183. Dumont, H., Neumann, M., Nagy, G., Becker, M., Rose, N. & Trautwein, U. (2013). Einfluss der Klassenkomposition auf die Leistungsentwicklung in Haupt- und Realschulen in Baden-Württemberg Psychologie in Erziehung und Unterricht, 60, 198 - 213. Eßel-Ullmann, G. (2008). Effekte eines Konzepts zur Entwicklung von Schule und Unterricht an Schulen in benachteiligter Lage. Eine Evaluationsstudie des Programms EIKA zur Eingliederung Jugendlicher in die Berufs- und Arbeitswelt (Dissertation). Universität Erlangen-Nürnberg. Expertenkommission Lehrerbildung (2012). Ausbildung von Lehrkräften in Berlin. Berlin: Senatsverwaltung für Bildung, Jugend und Wissenschaft. Hambleton, R. K., & Swaminathan, H. (1989). Item response theory. Principles and applications. Boston: Kluwer. Hanushek, E. A., & Wößmann, L. (2006). Does educational tracking affect performance and inequality? Differencesin-differences evidence across countries. The Economic Journal, 116, C63 - 76. Hattie, J. A. C. (2009). Visible learning. A synthesis of over 800 meta-analyses relating to achievement. Oxon: Routledge. Köller, O. (2004). Konsequenzen von Leistungsgruppierungen. Münster: Waxmann. Köller, O. (2009). Evaluation pädagogisch-psychologischer Maßnahmen. In E. Wild & J. Möller (Hrsg.), Pädagogische Psychologie (S. 333 - 351). Berlin: Springer. Köller, O. & Baumert, J. (2001). Leistungsgruppierungen in der Sekundarstufe I und ihre Konsequenzen für die Mathematikleistung und das mathematische Selbstkonzept der Begabung. Zeitschrift für Pädagogische Psychologie, 15, 99 - 110. Köller, O. & Baumert, J. (2012). Schulische Leistungen und ihre Messung. In W. Schneider & U. Lindenberger (Hrsg.), Entwicklungspsychologie (7. Aufl., S. 645 - 661). Weinheim: Beltz/ PVU. Köller, O., Schnabel K. & Baumert, J. (2000). Der Einfluß der Leistungsstärke von Schulen auf das fachspezifische Selbstkonzept der Begabung und das Interesse. Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 32, 70 - 80. Kulik, J. A., & Kulik, C.-L. C. (1992). Meta-analytic findings on grouping programs. Gifted Child Quarterly, 36, 73 - 77. Lehmann, R. H. & Peek, R. (1997). Aspekte der Lernausgangslage von Schülerinnen und Schülern der fünften Klassen an Hamburger Schulen. Hamburg: Hamburger Schulbehörde. Lehmann, R. H., Peek, R., Gänsfuß, R. & Husfeldt, V. (2001). LAU 9: Aspekte der Lernausgangslage und der Lernentwicklung - Klassenstufe 9 - Ergebnisse einer längsschnittlichen Untersuchung in Hamburg. Hamburger Schulbehörde. LeTendre, G. K., Hofer, B. K., & Shimizu, H. (2003). What is tracking? Cultural expectations in the United States, Germany, and Japan. American Educational Research Journal, 40, 43 - 89. Lucas, S. R. (1999). Tracking inequality. Stratification and mobility in American high schools. New York: Teachers College Press. Lüdtke, O., Robitzsch, A., Trautwein, U. & Köller, O. (2007). Umgang mit fehlenden Werten in der psychologischen Forschung: Probleme und Lösungen. Psychologische Rundschau, 58, 103 - 117. Maaz, K., Baumert, J., Gresch, C. & McElvany, N. (Hrsg.). (2010). Der Übergang von der Grundschule in die weiterführende Schule. Leistungsgerechtigkeit und regionale, soziale und ethnisch-kulturelle Disparitäten (Bildungsforschung, Band 34). Berlin: Bundesministerium für Bildung und Forschung. Marsh, H. W., Kong, C.-K., & Hau, K.-T. (2000). Longitudinal multilevel models of the big-fish-little-pond effect Starke Klasse, hohe Leistungen? 197 on academic self-concept: Counterbalancing contrast and reflected-glory effects in Hong Kong schools. Journal of Personality and Social Psychology, 78, 337 - 349. Marsh, H. W., Lüdtke, O., Robitzsch, A., Trautwein, U., Asparouhov, T., Muthén, B., & Nagengast, B. (2009). Doubly-latent models of school contextual effects: Integrating multilevel and structural equation approaches to control measurement and sampling error. Multivariate Behavioral Research, 44, 764 - 802. Maughan, B., & Rutter, M. (1987). Pupils’ progress in selective and nonselective schools. School Leadership & Management, 7, 50 - 68. Muthén, L. K., & Muthén, B. O. (2010). Mplus. Statistical analysis with latent variables. User’s guide (6th ed.). Los Angeles, CA: Muthén & Muthén. Neumann, M., Schnyder, I., Trautwein, U., Niggli, A., Lüdtke, O. & Cathomas, R. (2007). Schulformen als differenzielle Lernmilieus: Institutionelle und kompositionelle Effekte auf die Leistungsentwicklung im Fach Französisch. Zeitschrift für Erziehungswissenschaft, 10, 399 - 420. Nisbett, R. E., Aronson, J., Blair, C., Flynn, J., Halpern, D. F., & Turkheimer, E. (2012). Intelligence. New findings and theroetical development. American Psychologist, 67, 130 - 159. Oakes, J. (1987). Tracking in secondary schools: A contextual perspective. Educational Psychologist, 22, 129 - 153. Pallas, A. M., Entwisle, D. R., Alexander, K. L., & Stluka, M. F. (1994). Ability-group effects: Instructional, social, or institutional? Sociology of Education, 67, 27 - 46. Pfost, M., Karing, C., Lorenz, C. & Artelt, C. (2010). Schereneffekte im ein- und mehrgliedrigen Schulsystem: Differenzielle Entwicklung sprachlicher Kompetenzen am Übergang von der Grundin die weiterführende Schule? Zeitschrift für Pädagogische Psychologie, 24, 259 - 272. Renkl, A. & Stern, E. (1994). Die Bedeutung von kognitiven Eingangsvoraussetzungen und Lernaufgaben für das Lösen von einfachen und komplexen Textaufgaben. Zeitschrift für Pädagogische Psychologie, 8, 27 - 39. Retelsdorf, J., Becker, M., Köller, O., & Möller, J. (2012). Reading development in a tracked school system: A longitudinal study over 3 years using propensity score matching. British Journal of Educational Psychology, 82, 647 - 671. Retelsdorf, J. & Möller, J. (2008). Entwicklungen von Lesekompetenz und Lesemotivation: Schereneffekte in der Sekundarstufe? Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 40, 179 - 188. Rubin, D. B. (1987). Multiple imputation for nonresponse in surveys. New York: Wiley. Stanat, P. (2006). Schulleistungen von Jugendlichen mit Migrationshintergrund: Die Rolle der Zusammensetzung der Schülerschaft. In J. Baumert, P. Stanat & R. Watermann (Hrsg.), Herkunftsbedingte Disparitäten im Bildungswesen: Differenzielle Bildungsprozesse und Probleme der Verteilungsgerechtigkeit (S. 189 - 219). Wiesbaden: VS Verlag für Sozialwissenschaften. Thrupp, M., Lauder, H., & Robinson, T. (2002). School composition and peer effects. International Journal of Educational Research, 37, 483 - 504. Walter, O. & Stanat, P. (2008). Der Zusammenhang des Migrantenanteils in Schulen mit der Lesekompetenz: Differenzierte Analysen der erweiterten Migrantenstichprobe von PISA 2003. Zeitschrift für Erziehungswissenschaft, 11, 84 - 105. Weinert, F. E. & Helmke, A. (Hrsg.). (1997). Entwicklung im Grundschulalter. Weinheim: Beltz/ PVU. Weiß, R. H. (1998). Grundintelligenztest CFT 20. Göttingen: Hogrefe. Yang, M., Goldstein, H., Rath, T., & Hill, N. (1999). The use of assessment data for school improvement purposes. Oxford Review of Education, 25, 469 - 483. Prof. Dr. Olaf Köller Dr. Kerstin Schütte Dr. Friederike Zimmermann Prof. Dr. Jan Retelsdorf Dr. Michael Leucht Leibniz-Institut für die Pädagogik der Naturwissenschaften und Mathematik (IPN) 24098 Kiel Tel.: (04 31) 880 31 11 Fax: (04 31) 880 51 21 E-Mail: koeller@ipn.uni-kiel.de E-Mail: schuette@ipn.uni-kiel.de E-Mail: zimmermann@ipn.uni-kiel.de E-Mail: jretelsdorf@ipn.uni-kiel.de E-Mail: leucht@ipn.uni-kiel.de Anhang 1: Mplus-Syntax für das Modell 3 (Mathematik) in Tabelle 3 TITLE: Kompositionseffekte DATA: FILE = kompolist.dat; TYPE = IMPUTATION; VARIABLE: NAMES ARE sample t1klasse t2gym zt1mathe zt1lesen zt1_iq zt2mathe zt2lesen zt1skb_d zt1skb_m zt1ma_av zt1le_av zt1iq_av; USEVARIABLES ARE sample t1klasse zt1mathe zt1ma_av zt2mathe t2gym zt1_iq zt1iq_av; CLUSTER = t1klasse; GROUPING IS sample (0=g1 1=g2); WITHIN=zt1mathe zt1_iq; BETWEEN=zt1ma_av t2gym zt1iq_av; CENTERING=GROUPMEAN (zt1mathe zt1_iq); ANALYSIS: TYPE = Twolevel; MODEL: %WITHIN% zt2mathe on zt1mathe (indiv); zt2mathe on zt1_iq (indi2); %BETWEEN% zt2mathe on zt1ma_av (gr); zt2mathe on t2gym (1); zt2mathe on zt1iq_av (gr2); MODEL CONSTRAINT: new(kompo); kompo = gr indiv; new (kompo2); kompo2= gr2 indi2; OUTPUT: stand;