Psychologie in Erziehung und Unterricht
3
0342-183X
Ernst Reinhardt Verlag, GmbH & Co. KG München
10.2378/peu2014.art18d
3_061_2014_3/3_061_2014_3.pdf71
2014
613
Entwicklung und Validierung eines Multiple-Choice-Tests zur Erfassung von Wissen über das menschliche Gehirn und Nervensystem
71
2014
Gun-Brit Thoma
Inger Marie Dalehefte
Olaf Köller
Zusammenfassung: Im vorliegenden Artikel wird ein Test zum Thema Gehirn und Nervensystem vorgestellt, dessen Einsatz im Bereich der Hochschule eine Möglichkeit bereitstellt, Basiswissen von Studierenden der Fächer Psychologie und Medizin zu erheben. Zur Feststellung der psychometrischen Eigenschaften des Verfahrens wurden insgesamt N = 377 Studierende getestet. Die statistischen Analysen ergaben zufriedenstellende Reliabilitäten und Validitäten. Der Test konnte sehr trennscharf die Unterschiede in den Wissensständen von Studienanfängern und Fortgeschrittenen aufdecken. Weiterhin zeigten sich erwartungskonform signifikante Zusammenhänge mit anderen Maßen (Abiturnote, Biologienote und Intelligenzmaße).
3_061_2014_3_0007
n Empirische Arbeit Psychologie in Erziehung und Unterricht, 2014, 61, 231 -236 DOI 10.2378/ peu2014.art18d © Ernst Reinhardt Verlag München Basel Entwicklung und Validierung eines Multiple-Choice-Tests zur Erfassung von Wissen über das menschliche Gehirn und Nervensystem Gun-Brit Thoma, Inger Marie Dalehefte, Olaf Köller Leibniz-Institut für die Pädagogik der Naturwissenschaften und Mathematik an der Universität Kiel Zusammenfassung: Im vorliegenden Artikel wird ein Test zum Thema Gehirn und Nervensystem vorgestellt, dessen Einsatz im Bereich der Hochschule eine Möglichkeit bereitstellt, Basiswissen von Studierenden der Fächer Psychologie und Medizin zu erheben. Zur Feststellung der psychometrischen Eigenschaften des Verfahrens wurden insgesamt N = 377 Studierende getestet. Die statistischen Analysen ergaben zufriedenstellende Reliabilitäten und Validitäten. Der Test konnte sehr trennscharf die Unterschiede in den Wissensständen von Studienanfängern und Fortgeschrittenen aufdecken. Weiterhin zeigten sich erwartungskonform signifikante Zusammenhänge mit anderen Maßen (Abiturnote, Biologienote und Intelligenzmaße). Schlüsselbegriffe: Multiple-Choice-Test, Gehirn und Nervensystem, Leistungsmessung im Studium Development and Validation of a Multiple-Choice Test on Knowledge about the Human Brain and Nervous System Summary: In this paper, we present a test about the topic the brain and nervous system. It could be used to assess basic knowledge of psychology and medical students. To determine the psychometric properties of the test a total of N = 377 students took part in the test. Analyses showed satisfactory quality of the data in regard to reliability and validity. Furthermore, the test allows for a clear differentiation between student knowledge at the beginning of their education and at an advanced stage. Consistent with expectations, the findings indicate significant correlations with other variables (achieved grade in the Abitur, Biology grade and intelligence). Keywords: Multiple-choice test, brain and nervous system, achievement measures in universities Hintergrund und Fragestellungen Im Zuge der Umstellung auf Bachelor- und Master-Studiengänge (Bologna-Reform; Confederation of EU Rectors’ Conferences and the Association of European Universities, 1999) wurde die inhaltliche Ausrichtung vieler Studienfächer neu definiert. Dies erfolgte mithilfe von Modulhandbüchern, in denen beschrieben wird, über welche Kompetenzen, welches Wissen und welche Methoden Studierende am Ende ihrer Lehrveranstaltung verfügen und in welcher Art von Lehrveranstaltung diese gelehrt werden sollten. Die Leistungen der Studierenden werden nach Absolvierung aller zu einem Modul gehörenden Veranstaltungen in mehr oder weniger standardisierten Abschlussprüfungen - überwiegend als Klausur - erhoben. Nicht zuletzt aufgrund der zunehmenden Studierendenzahlen werden solche Modulabschlussklausuren gern in Form informeller Tests dargeboten. Antwortformate wie Multiple-Choice (MC)-Aufgaben sollen dabei eine hohe Ökonomie und Objektivität bei der Auswertung sicherstellen. Standardisierte Instrumente, mit denen die geforderten Studienleistungen in Lehrveranstaltungen evaluiert werden können, liegen je- 232 Gun-Brit Thoma et al. doch selten vor. Ein Grund hierfür könnten die bereits genannten Unterschiede einzelner Studienfächer zwischen Universitäten sein, die auf den ersten Blick nicht miteinander vergleichbar sind. Werden jedoch die Modulhandbücher wie z. B. die der Studienfächer Medizin und Psychologie näher betrachtet, so zeigt sich, dass es grundlegende Themen gibt, die in der Mehrzahl der Universitäten bzw. Bundesländer in verschiedenen Lehrveranstaltungen gelehrt werden und als Basiskenntnisse gelten. Diese sind im Falle der Fächer Medizin und Psychologie sogar studienfachübergreifend. Es kann somit davon ausgegangen werden, dass es möglich ist, reliable, valide und ökonomische Tests zu konstruieren, mit denen die Leistungen von Studierenden bzw. deren Basiskenntnisse über mehrere Universitäten bzw. Fachrichtungen hinweg erhoben werden können. Entwicklung eines Tests zum Wissen über das Thema Gehirn und Nervensystem In der vorliegenden Arbeit wurden die oben genannten Erwägungen aufgegriffen und ein MC-Test entwickelt, mit dem das Wissen von Studierenden der Fächer Medizin und Psychologie zum Basisthema Gehirn und Nervensystem reliabel und valide erfasst werden kann. Weiterhin ist es möglich, daraus einen eventuellen Bedarf für zusätzliche Lehrangebote abzuleiten. Zur Testentwicklung wurden zunächst Modulhandbücher von 16 Universitäten (pro Bundesland eine) der Fächer Medizin und Psychologie hinsichtlich fächerübergreifender Basiskenntnisse und Lernziele gesichtet. Diese ergaben sich besonders in den Bereichen Allgemeine Psychologie, Biopsychologie und Psychologie/ Neurologie zum Thema Gehirn und Nervensystem. Anhand dieser sowie in Anlehnung an die in den Modulhandbüchern vorgeschlagenen Lehrbücher wurden 25 Items entwickelt. Gleichzeitig fanden bei der Itementwicklung Aspekte Berücksichtigung, die wiederholt in der Literatur im Zusammenhang mit der Entwicklung von MC-Items genannt werden (u. a. Bailey, Karcher & Clevenger, 1998; Frey, Petersen, Edwards, Teramoto Pedrotti & Peyton, 2005; Haladyna, Downing & Rodriguez, 2002), wie a) Unabhängigkeit der Items, b) Variation der Positionierung der richtigen Antwort, c) ähnliche Testlänge der Antwortoptionen, d) Plausibilität und Korrektheit der Distraktoren und e) Vermeidung, dass die Studierenden aufgrund von test-wiseness (vgl. Gibb, 1964; Millman, Bishop & Ebel, 1965; Rogers & Yang, 1996) die Items lösen können. Die entwickelten Items weisen alle ein identisches Format auf und bestehen jeweils aus einem relativ kurzen Itemstamm (die Frage), der richtigen Antwort und drei Distraktoren (Beispielitems im Anhang) 1 . Alle Items wurden in einer Expertenvalidierung hinsichtlich ihrer Korrektheit, Verständlichkeit und Abhängigkeit zu anderen Items überprüft. Darüber hinaus wurde die Schwierigkeit jeder Aufgabe eingeschätzt. Die Expertengruppe setzte sich aus drei Wissenschaftlern des Fachs Biologie, zwei des Fachs Psychologie und einem Mediziner des Fachbereichs Neurologie zusammen. Die Experten verfügten sowohl über das nötige Fachwissen als auch über Erfahrung in der Konstruktion von MC-Items. Basierend auf den Expertenratings wurden drei Aufgaben ausgeschlossen. Der Itemstamm zweier Items wurde leicht umformuliert, während bei 10 Aufgaben ein bis drei Distraktoren verändert wurden. Es verblieben 22 Items. Folgende Fragestellungen zur Güte und Validität des entwickelten Tests ergeben sich für die vorliegende Arbeit: (1) Zeigt der MC-Test zufriedenstellende psychometrische Kennwerte (Reliabilität und faktorielle bzw. dimensionale Validität)? (2) Welche Zusammenhänge ergeben sich zwischen der Testleistung und weiteren Variablen (kognitive Fähigkeit, Abiturnote und letzte Zeugnisnote im Fach Biologie)? (3) Welche Unterschiede in den Testleistungen ergeben sich in Abhängigkeit des Studienfachs? 1 Der gesamte Test kann bei der Erstautorin angefordert werden. Test zur Erfassung von Wissen über das menschliche Gehirn 233 Methode Stichprobe und Durchführung der Untersuchung Die Stichprobe umfasst 377 Studierende (73 % weiblich); 67 Psychologiestudierende im ersten Semester, 86 Studierende der Medizin im achten Semester und 226 Studierende aus Fachbereichen, in denen das Thema des Tests peripher ist (z. B. Pädagogik und Skandinavistik; Gruppe Sonstiges). Die Testung erfolgte standardisiert in regulären Lehrveranstaltungen. Berücksichtigt wurden eine Universität in Bayern und zwei Universitäten in Schleswig-Holstein. Die Studierenden bearbeiteten den Untertest N2 Figuranalogien des Kognitiven Fähigkeitstests KFT 4 - 12 R+ (Heller & Perleth, 2000) mit 25 sprachfreien MC-Items, die in acht Minuten zu lösen sind. In der vorliegenden Untersuchung wurde eine Reliabilität (Kuder-Richardson Formula 20 [KR-20]) von .77 erreicht. Im Anschluss an den KFT folgten die 22 Items des MC-Tests zum Thema Gehirn und Nervensystem. Außerdem beantworteten die Studierenden Fragen zu ihrer Person (Geschlecht, Semesterzahl, Abiturnote, letzte Zeugnisnote in Biologie). Für die Beantwortung der MC- Aufgaben und der persönlichen Angaben gab es keine Zeitvorgabe. Die Bearbeitung dauerte im Mittel 20 Minuten. Die Anweisungen zu den MC-Aufgaben gaben vor, alle Aufgaben zu beantworten; wenn die Antwort nicht gewusst wurde, sollte die Antwort angekreuzt werden, die am ehesten als richtig empfunden wurde. Statistisches Vorgehen Um die Güte des Tests zu untersuchen, wurden Item- und Skalenanalysen auf der Basis der klassischen Testtheorie sowie Validitätsanalysen berechnet. Hierzu wurde das Softwarepaket SPSS (Statistical Package for the Social Sciences), Version 19.0, verwendet. Hinzu kommen Itemanalysen basierend auf dem Raschmodell (vgl. Rost, 2004), die mit den Programmen ConQuest (Adams, Wilson & Wu, 2006) und Mplus (Muthén & Muthén, 2010) durchgeführt werden. In ConQuest wurden zudem ein Einparameter-Modell geschätzt und Itemfit-Statistiken bestimmt. Zudem wurden mit SPSS Varianzanalysen berechnet, um Gruppenunterschiede aufzudecken, während durch Korrelationen die Zusammenhänge des Testergebnisses mit zusätzlichen Variablen untersucht wurden. Ergebnisse Item-, Skalen- und Dimensionalitätsanalysen Die interne Konsistenz (KR-20) für den 22 Items umfassenden Test beträgt für die Gesamtstichprobe .88 und ist damit sehr zufriedenstellend (Bortz & Döring, 2006; Field, 2009). Zusätzlich wurden Schwierigkeiten und Trennschärfen der einzelnen Items ermittelt. Tabelle 1 gibt einen Überblick über die Itemkennwerte aller 22 MC-Aufgaben. Die Itemschwierigkeiten schwanken zwischen .17 und .86 bei einer mittleren Schwierigkeit von .53. Lediglich eine Trennschärfe (Item 5) ist unzureichend. Die konfirmatorische Faktorenanalyse (ohne das trennschwache Item 5) für dichotome Indikatoren in Mplus (WLSMV-Schätzer) ergab Evidenz für die Gültigkeit eines Einfaktorenmodells ( c 2 = 351.57; df = 189; RMSEA = .048; CFI = .969; TLI = .966). Alle Faktorladungen waren signifikant (p < .001) und variierten zwischen .272 (Item 14) und .903 (Item 12). Mit ConQuest wurde geprüft, ob sich die Items eindimensional im Sinne des Raschmodells (Einparameter-Modell) skalieren lassen. Die Modellkonformität der Items wurde dabei über den in ConQuest verfügbaren Weighted Fit Index festgestellt. Als akzeptabler Fit galten Werte < 1.15 (vgl. Organisation for Economic Co-operation and Development, 2009). Die Ergebnisse zeigen lediglich bei Item 5 (1.25), 14 (1.29), 17 (1.17) und 22 (1.35) unzureichende Fit-Indizes. Zusammenhänge mit weiteren Variablen Um sicherzustellen, dass das Testergebnis nicht aufgrund anderer Maße als das thematische Wissen zustande kommt, wurden Korrelationen zwischen den Testleistungen und den Leistungen im KFT, der Abiturnote und der Biologienote im letzten Zeugnis berechnet. Die Berechnung des Zusammenhangs mit den Leistungen im KFT-Untertest wurde mit r = .13 zwar signifikant (p < .05), kann aber als schwach 234 Gun-Brit Thoma et al. eingeschätzt werden. Eine deutlich höhere Korrelation ergab sich mit der Abiturdurchschnittsnote (r = -.36, p < .001). Vergleichsweise niedrig fiel wiederum die Korrelation mit der Biologienote im letzten Zeugnis der gymnasialen Oberstufe aus (r = -.14, p < .05). Gruppenunterschiede Zur Überprüfung der internen Validität, ob der Test zwischen Personen unterschiedlicher Expertise differenziert, wurden Analysen zur Feststellung von Gruppenunterschieden durchgeführt. Es wurde mittels einer einfaktoriellen Varianzanalyse geprüft, ob sich Studierende im höheren Semester des Fachs Medizin von Psychologiestudierenden am Anfang ihres Studiums und von Studierenden anderer Fächer signifikant unterscheiden. Zusätzlich wurde analysiert, ob ein signifikanter Unterschied zwischen den drei Stichproben in Bezug auf die Leistung im KFT, die Abiturnote und die letzte Zeugnisnote im Schulfach Biologie bestand. Aufgrund der Zulassungsbeschränkung in den Fächern Psychologie und Medizin wurde gegenüber den Studierenden sonstiger Studienfächer von Unterschieden bezüglich der Noten ausgegangen, jedoch wurden keine Unterschiede im KFT erwartet. Aus Tabelle 2 wird deutlich, dass sich sehr große Gruppenunterschiede ergaben. Dadurch wurden 70 % der Leistungsvarianz erklärt. Die Post-Hoc-Testung (Scheffé) ergab folgende paarweise signifikante Unterschiede zwischen den Gruppen: Die Gruppe der Sonstigen zeigt schwächere Leistungen als Studierende der Fächer Psychologie ( D = -2.68; p < .01) und Medizin ( D = -10.83; p < .01). Zusätzlich liegen die Studienanfänger des Fachs Psychologie unter den fortgeschrittenen Me- MCA Item- Schwierigkeit (p) Logit r it WMNSQ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 .77 .66 .69 .64 .86 .59 .58 .38 .42 .53 .57 .36 .17 .63 .27 .85 .63 .34 .37 .49 .44 .45 -1.694 -0.985 -1.155 -0.848 -2.421 -0.581 -0.537 0.637 0.378 -0.273 -0.493 0.772 2.202 -0.789 1.340 -2.249 -0.833 0.841 0.670 -0.021 0.284 0.222 .47 .54 .56 .56 .12 .53 .63 .63 .75 .52 .48 .73 .45 .30 .62 .34 .40 .67 .58 .61 .67 .35 0.95 0.97 0.94 0.98 1.25 1.03 0.90 0.90 0.74 1.05 1.09 0.78 1.11 1.29 0.90 1.05 1.17 0.81 0.98 0.92 0.90 1.35 Mittelwert .53 -0.252 .53 Tab. 1: Itemkennwerte der entwickelten MC-Aufgaben (N = 377) Anmerkungen: MCA: Multiple-Choice-Aufgaben; WMNSQ: Weighted Infit Mean Square; Logit: Itemschwierigkeit aus ConQuest-Analysen; r it : Itemtrennschärfe. Test zur Erfassung von Wissen über das menschliche Gehirn 235 dizinstudierenden ( D = -8.15; p < .01). Diese Befundlage stützt die Hypothese, dass der Test in der Lage ist, Ergebnisse differenziellen Wissens zu erfassen. Die Varianzanalysen mit anschließenden Scheffé-Tests zeigten für die Biologie- und Abiturdurchschnittsnote, dass sich lediglich die sonstigen Studierenden signifikant von den Medizin- und Psychologiestudierenden unterschieden. Signifikante, aber sehr geringe Unterschiede ergaben sich in den Intelligenzleistungen. Zusammenfassung und Diskussion Wie aus den Analysen ersichtlich, lässt sich ein eindimensionales Model auf die Items anpassen und der Test erreicht eine ausreichende Reliabilität (Bortz & Döring, 2006; Field, 2009). Die Korrelation mit der kognitiven Fähigkeit und den Noten weisen weiterhin auf eine hinreichende diskriminante Validität hin. Darüber hinaus zeigen sich erwartungskonform große Leistungsunterschiede für die verschiedenen Teilstichproben. Die Aufgaben waren am einfachsten für die Medizinstudentinnen und -studenten, da sie sich am Ende ihres Studiums befanden und über ausgeprägteres Wissen verfügen. Erheblich schwerer waren die Aufgaben für Studierende der Psychologie, für die das Thema Gehirn und Nervensystem zwar relevant ist, die sich aber noch am Anfang ihres Studiums befanden. Deutlich am schwersten waren die Aufgaben für Studierende anderer Fachrichtungen als Psychologie und Medizin. Aus dem Vergleich wird ersichtlich, dass ohne entsprechendes Wissen die Mehrzahl der Aufgaben nicht richtig beantwortet werden kann. Erwartungskonform zeigt sich somit, dass der Test zwischen unterschiedlichen Wissensständen differenziert und somit geeignet ist, zwischen Personen mit unterschiedlichem Expertisegrad zu trennen. Es wurden darüber hinaus Zusammenhänge mit anderen kognitiven Maßen berechnet, die eher gering ausfielen. Insgesamt ist es gelungen, einen ökonomischen Test von ca. 20 Minuten Dauer zu konstruieren, der hinreichend reliabel ist und zwischen Personen mit unterschiedlichem thematischen Wissen differenzieren kann. Literatur Adams, R., Wilson, M. & Wu, M. (2006). Acer Conquest 2.0 [Software Programm]. Melbourne: ACER. Bailey, C. D., Karcher, J. N. & Clevenger, B. (1998). A comparison of the quality of multiple-choice questions from CPA exams and textbook test banks. The Accounting Educators’ Journal, 10 (2), 12 - 28. Bortz, J. & Döring, N. (2006). Forschungsmethoden und Evaluation für Human- und Sozialwissenschaftler (4. Aufl.). Berlin: Springer. Confederation of EU Rectors’ Conferences and the Association of European Universities (1999). The Bologna declaration on the European space for higher education: An explanation. Zugriff am 29. 3. 2014 unter http: / / www.nvao.net/ page/ downloads/ Bologna_Declara tion.pdf Field, A. (2009). Discovering Statistics Using SPSS. Thousand Oaks, CA: Sage. Frey, B. B., Petersen, S., Edwards, L. M., Teramoto Pedrotti, J. & Peyton, V. (2005). Item-writing rules: Collective wisdom. Teaching and Teacher Education, 21, 357 - 364. Gibb, B. G. (1964). Test-wiseness as secondary cue response (Doctoral dissertation, Stanford University). Ann Arbor, MI: University Microfilms, No. 64-7643. Medizin (N = 85) Psychologie (N = 64) Sonstige (N = 228) M SD M SD M SD F(2, 375) p η² Gehirn und Nervensystem KFT-N2 Abiturnote Note in Biologie 18.99 16.95 1.70 1.38 1.40 4.40 .63 .79 10.69 16.52 1.62 1.41 3.81 3.51 .43 .83 7.82 16.25 2.40 1.88 3.09 4.58 .55 1.16 32.81 3.18 10.63 5.99 <.001 .043 <.001 .003 .70 .00 .30 .05 Tab. 2: Ergebnisse einfaktorieller Varianzanalysen mit der unabhängigen Variable Studienfach Anmerkungen: N: Stichprobengröße; M: Mittelwert; SD: Standardabweichung; F: F-Bruch aus einer einfaktoriellen Varianzanalyse; p: Irrtumswahrscheinlichkeit; η 2 : Durch die Gruppenzugehörigkeit aufgeklärte Leistungsvarianz. 236 Gun-Brit Thoma et al. Haladyna, T. M., Downing, S. M. & Rodriguez, M. (2002). A review of multiple-choice item-writing guidelines for classroom assessment. Applied Measurement in Education, 15, 309 - 334. Heller, K. A. & Perleth, C. (2000). Kognitiver Fähigkeitstest für 4. bis 12. Klassen, Revision. Göttingen: Beltz Test. Millman, J., Bishop, C. H. & Ebel, R. (1965). An analysis of test-wiseness. Educational and Psychological Measurement, 25, 707 - 726. Muthén, L. K. & Muthén, B. (2010). Mplus. Statistical analysis with latent variables. User’s guide. Sixth Edition. Los Angeles, CA: Muthén & Muthén. Organisation for Economic Co-operation and Development (2009). PISA 2009 assessment framework. Key competencies in reading, mathematics and science. Paris: Organisation for Economic Co-operation and Development. Rogers, W.T. & Yang, P. (1996). Testwiseness: Its nature and application. European Journal of Psychology Assessment, 12, 247 - 259. Rost, J. (2004). Lehrbuch Testtheorie - Testkonstruktion. Bern: Huber. Dr. Gun-Brit Thoma Dr. Inger Marie Dalehefte Prof. Dr. Olaf Köller Leibniz-Institut für die Pädagogik der Naturwissenschaften und Mathematik Olshausenstraße 62 D-24118 Kiel E-Mail: thoma@ipn.uni-kiel.de Anhang: Beispielitems aus dem Test zum Gehirn und Nervensystem Welche Substanzen finden sich im Gehirn? ❐ Rote und graue Substanz ❐ Weiße und gelbe Substanz ❐ Rote und gelbe Substanz ❐ Weiße und graue Substanz Welche Hauptfunktion hat die Hirnanhangsdrüse (Hypophyse)? ❐ Bildung und Freisetzung von Hormonen ❐ Regulation von Emotionen ❐ Steuerung der Vitalfunktionen ❐ Steuerung der Muskulatur
