Frühförderung interdisziplinär
1
0721-9121
Ernst Reinhardt Verlag, GmbH & Co. KG München
10.2378/fi2015.art03d
1_034_2015_1/1_034_2015_1.pdf11
2015
341
Die Früherfassung des beginnenden Stotterns
11
2015
Jürgen Kohler
Der Redeflusskompass ist für die Früherfassung bei beginnendem Stottern konzipiert. Anhand der Validierung dieses Instrumentes wird die interdisziplinäre Entscheidung für weiterführende Maßnahmen bei Redeunflüssigkeit diskutiert. Es werden hauptsächlich die im Re-Test-Verfahren bestimmten Gütekriterien des Instrumentes und die Ergebnisse von Videofallanalysen erläutert. Daneben werden die durch Befragung von potenziellen Anwendern identifizierten Stolpersteine der Durchführung dargestellt. Im Ergebnis muss die Inter-Rater-Reliabilität als kritisch und die Spezifität als unbefriedigend betrachtet werden. Die Sensitivität und Validität sind aber durchaus befriedigend. Das Ergebnis der Befragung bestätigt die niedrige externe Validität einzelner Items. In der Diskussion wird die Notwendigkeit eines Instrumentariums begründet, welches für Nicht-Sprachtherapeuten auf Alltagsintuition und für Sprachtherapeuten auf ein Grundlagenwissen zum Phänomen Stottern aufbaut.
1_034_2015_1_0004
32 Frühförderung interdisziplinär, 34. Jg., S. 32 -45 (2015) DOI 10.2378/ fi2015.art03d © Ernst Reinhardt Verlag ORIGINALARBEIT Die Früherfassung des beginnenden Stotterns Jürgen Kohler Zusammenfassung: Der Redeflusskompass ist für die Früherfassung bei beginnendem Stottern konzipiert. Anhand der Validierung dieses Instrumentes wird die interdisziplinäre Entscheidung für weiterführende Maßnahmen bei Redeunflüssigkeit diskutiert. Es werden hauptsächlich die im Re-Test-Verfahren bestimmten Gütekriterien des Instrumentes und die Ergebnisse von Videofallanalysen erläutert. Daneben werden die durch Befragung von potenziellen Anwendern identifizierten Stolpersteine der Durchführung dargestellt. Im Ergebnis muss die Inter-Rater-Reliabilität als kritisch und die Spezifität als unbefriedigend betrachtet werden. Die Sensitivität und Validität sind aber durchaus befriedigend. Das Ergebnis der Befragung bestätigt die niedrige externe Validität einzelner Items. In der Diskussion wird die Notwendigkeit eines Instrumentariums begründet, welches für Nicht-Sprachtherapeuten auf Alltagsintuition und für Sprachtherapeuten auf ein Grundlagenwissen zum Phänomen Stottern aufbaut. Schlüsselwörter: Beginnendes Stottern, Prävention, Diagnostik The early detection of incipient stuttering Summary: The Redeflusskompass © (Speech Flow Compass ©) has been designed for stutter detection in the onset phase. This paper undertakes to validate the Redeflusskompass by testing its quality criteria. The interdisciplinary decision for further action in case of non-fluency-speech is discussed. The methods are re-test, analysis of film sequences of case studies and questionnaire on the problems arising in the application of the Redeflusskompass. Interrater reliability is established as critical and specificity as unsatisfactory. Sensitivity and validity prove to be satisfactory. These results point out the need for the Redeflusskompass to be developed further in order to be able to serve the needs of non-speech therapists who work on everyday intuition and for the needs of language therapists with basic knowledge on stuttering. Keywords: Early childhood stuttering, prevention, diagnosis 1 Einleitung 1.1 Ausgangslage A ngehörige sprachtherapeutischer Berufe und Pädiater nehmen bei der Prävention von Redeflussstörungen eine entscheidende Rolle ein, da Bezugspersonen von vermeintlich betroffenen Kindern diese Fachleute aufsuchen, um Informationen zum Stottern zu erhalten. Auch andere Berufsgruppen wie Erzieherinnen, Früherzieherinnen, Heilpädagogen u. a. spielen eine wichtige Rolle, weil sie oft intensiven Kontakt mit den Kindern haben und ihnen eine unflüssige Sprechweise auffällt. Insofern ist die Identifikation des beginnenden Stotterns eine interdisziplinäre Angelegenheit. Die frühe Beurteilung der Sprechf lüssigkeit birgt die Chance, die Indikation von weiteren pädagogisch-therapeutischen Schritten zu erkennen und bei Bedarf eine frühe Intervention möglich zu machen. Bisherige Untersuchungen im deutschsprachigen Raum (z. B. Johannsen 33 FI 1 / 2015 Jürgen Kohler 2001) legen nahe, dass die Remissionschancen umso größer sind, je früher geeignete Interventionen angegangen werden. Sandrieser & Schneider (2008, 18) stellen allerdings fest: „Derzeit werden stotternde Kinder in der Regel leider erst dann behandelt, wenn sich das Stottern schon über Jahre hinweg chronifiziert hat. Für die betroffenen Kinder erhöht sich so die Wahrscheinlichkeit, eine ausgeprägte Begleitsymptomatik und entsprechende Behandlungsresistenz zu entwickeln.“ Bisher gibt es im Bereich Früherfassung der Redef lussstörung Stottern keine empirisch abgesicherten Daten, welche kriteriengeleitet den Beratungsbzw. Therapiebedarf erfassen würden (Neumann/ Schneider 2011). Die vorliegende Untersuchung will daher einen Beitrag leisten, um solche Bedarfsentscheidungen zu optimieren. 1.2 Stottern in der frühen Kindheit Alle Menschen sprechen unflüssig. Es gibt keine 100 %ige Flüssigkeit in der menschlichen Sprechweise. Normale Unflüssigkeiten sind z. B. lockere Wiederholungen von ein- oder mehrsilbigen Wörtern und Teil-Wortwiederholungen oder Satzteilen, Satzabbrüche, ungefüllte oder gefüllte Pausen (z. B. „ähm“) und Einschübe. Bei jüngeren Kindern wird die Häufung dieser normalen Unf lüssigkeiten auch als „entwicklungsbedingte Redeunflüssigkeit“ bezeichnet, deren Ursache man auf die Unreife des gesamten Sprachsystems zurückführt. Stottersymptomatische Unflüssigkeiten hingegen unterscheiden sich quantitativ von den normalen Unflüssigkeiten durch eine allgemein größere Auftretenshäufigkeit, eine größere Anzahl von Wiederholungseinheiten und eine längere Dauer. Qualitativ sind die symptomatischen Unflüssigkeiten durch eine schnellere Repetition von kürzeren Einheiten (Silbe, Laut) sowie in manchen Fällen durch Dehnungen oder Blockierungen gekennzeichnet. Manchmal ist ein höherer Grad an allgemeiner Spannung im Mund- und Gesichtsbereich zu erkennen und es sind spannungsreiche ganzkörperliche Mitbewegungen zu beobachten (u. a. Natke 2005; Sandrieser/ Schneider 2008). Es scheint einen Zusammenhang zwischen dem Stotterbeginn und subjektiv empfundenen Belastungssituationen der betroffenen Kinder zu geben. Bei 80 % der Kinder hat man Belastungen emotionaler, physischer oder sprachlicher Natur gefunden. Solche Belastungen werden auch zur Erklärung von Aufrechterhaltung, Chronifizierung, Variabilität und Intensität der Symptomatik herangezogen (Starkweather/ Gottwald 1990). Allerdings sind die meisten der betroffenen Kinder sich ihres Stotterns zu Beginn nicht bewusst (Bloodstein 1960). Dies ändert sich jedoch für viele dieser Kinder mit der anhaltenden Dauer der Symptomatik. Bloodstein (1960) nennt Phasen der emotionalen Reaktionen auf Stottern, die auch schon in der frühen Kindheit einsetzen können: Von vereinzelten Reaktionen auf das Stottern ohne emotionale Anteile geht es über Reaktionen wie Ärger, Wut oder Frustration hin zu Angst oder gar Panik. Die Weltgesundheitsorganisation WHO ordnet daher in der ICD-10 GM (2011) das Stottern der Kategorie F90 - F98 „Verhaltens- und emotionale Störungen mit Beginn in der Kindheit und Jugend“ zu. Die Ursachen für das beginnende Stottern sind bis dato unbekannt. Man geht von einem komplizierten Bedingungsgefüge aus (Johannsen/ Schulze 1998) und spricht von auslösenden und aufrechterhaltenden Bedingungen. Eine genetische Disposition in Form eines neurophysiologisch angelegten Defizits gilt als sicher. Der Zusammenhang zu eingeschränkten artikulatorischen Fähigkeiten taucht häufig auf. Tiefenpsychologische Erklärungen, die unbewusste Bedürfnisse als Ursache annehmen, sind in der aktuellen Fachdiskussion in den Hintergrund getreten (Natke 2005). Yairi und Ambrose (2013) gehen davon aus, 34 FI 1 / 2015 Die Früherfassung des beginnenden Stotterns dass die Inzidenz bei 2bis 6-jährigen Kindern zwischen 7 % und 9 % liegt und die Prävalenz für Stottern wahrscheinlich niedriger als 1 % der Gesamtbevölkerung ist. Es sind mehr Jungen als Mädchen betroffen und zwar im Verhältnis von ca. 3 : 1 (Natke 2005, 11). Mädchen remitieren auch häufiger als Jungen. Klar scheint zu sein, dass solche Kinder, die eine anhaltende oder zunehmende Quantität und Intensität der Stottersymptomatik aufweisen, weniger remitieren als solche Kinder, deren Symptomatik nach dem ersten Auftreten innerhalb der ersten zwölf Monate kontinuierlich abnimmt. Im Allgemeinen ist bei lang anhaltender Dauer der Symptomatik (länger als zwei Jahre) eine Remission unwahrscheinlicher. Auch der späte Beginn (nach dem dritten Geburtstag) geht mit einem erhöhten Risiko der Chronifizierung einher. Zuletzt genanntes Grundlagenwissen zum Verlauf bzw. zur Remission des beginnenden Stotterns ist abhängig von der Analyse und Unterscheidung zwischen normalen Unflüssigkeiten vs. stottersymptomatischen Unflüssigkeiten und deren Schweregrad. Das vorliegende Forschungsprojekt hat daher die Durchführung und Auswertung eines existierenden Instrumentes (Braun et al. 2011) zur Einschätzung des beginnenden Stotterns untersucht und die involvierten Berufsgruppen in ihrer Rolle als potenzielle Anwender einbezogen. 1.3 Der Untersuchungsgegenstand Das untersuchte Instrument heißt Redeflusskompass (Braun et al. 2011). Neben Erklärungen zur Durchführung und zur Unterscheidung zwischen normalen Unflüssigkeiten und stottersymptomatischen Unflüssigkeiten enthält es Items, welche durch Befragung von Bezugspersonen oder durch Befragung der Bezugspersonen plus Beobachtung des Kindes dichotom hinsichtlich ihres Zutreffens oder Nicht-Zutreffens beurteilt werden (vgl. Abbildung 1). Die Auswertung erfolgt, indem die quantitativ gewichteten Items zu einer Gesamtpunktzahl aufsummiert werden. Daraus wird eine 3-stufige Empfehlung für das weitere Vorgehen abgeleitet, nämlich „keine Maßnahme notwendig (0 Punkte), „Entwicklungsbeobachtung“ (1 - 3 Punkte) und „Weiterweisung“ zu einer intensiven logopädischen Diagnostik und Beratung ab 4 Punkte. Die Items können folgendermaßen zusammengefasst werden: Unter übergreifende Faktoren werden die Einstellung der Eltern (Item 1) zur Redeunflüssigkeit ihres Kindes und die allgemeine Anspannung des Kindes beim Sprechen (Item 2) thematisiert. Unter beobachtbare Symptome wird die Primärsymptomatik des Stotterns (Items 3 bis 9 = Wiederholungen, Dehnungen, Blockierungen) und die sogenannte Begleitsymptomatik (Items 10 bis 12, z. B. Mitbewegungen des Körpers, Vermeideverhalten, Verspannungen im Gesicht) aufgeführt. Außerdem wird die Dauer (Item 13) und der Verlauf (Items 14 und 15) der Primär- und Sekundärsymptome seit Beginn des Auftretens erfragt, sowie die (emotionalen) Reaktionen des Kindes (Item 16) darauf. Weitere Faktoren, die eine Beratung oder Abklärung bekräftigen wie Geschlecht, Beginn der Redeunf lüssikgeit oder familiäres Vorkommen von Stottern werden ebenfalls erfragt, gehen aber nicht in die am Ende aufgeführte Gesamtpunktzahl ein. 2 Methoden Es wurden verschiedene methodische Zugänge gewählt, um durch Triangulation von quantitativ und qualitativ erhobenen Daten (Bortz/ Döring 2006) die praxisrelevante Güte des Instruments bestimmen zu können sowie eine vom Instrument unabhängige Diskussion über Entscheidungsprozesse bei der Identifikation von beginnendem Stottern zu erreichen (Koh- 35 FI 1 / 2015 Jürgen Kohler Abb. 1: Screeningbogen des Redeflusskompasses als Entscheidungshilfe für weitere Maßnahmen bei Redeunflüssigkeit (aus Braun et al. 2011). 36 FI 1 / 2015 Die Früherfassung des beginnenden Stotterns ler, in Druck). In der ersten Phase der Untersuchung wurden Pädiater und Logopädinnen (Gesamt-N = 83) zur Nützlichkeit, Ökonomie und augenscheinlichen Inhaltsvalidität befragt. In der zweiten Phase wurde durch ein Re-Test-Verfahren bei N = 82 Fällen die Inter- Rater-Reliabilität bestimmt. Die Durchführungen wurden mit potenziellen Anwendern in deren Praxisalltag organisiert, weil großer Wert auf die externe Validität der Datenauswertung gelegt wurde. Durch die Erhebung des tatsächlichen Diagnostik- und Beratungsbedarfs gelang die Bestimmung von Kriteriumsvalidität, Spezifität und Sensitivität bei N = 60 Fällen. Die Abhängigkeit der Inter- Rater-Reliabilität und Kriteriumsvalidität von der Vorerfahrung, dem Beobachtungssetting und den Durchführungsmodalitäten konnte ebenfalls mit den im Re-Test-Verfahren erhobenen Daten bestimmt werden. In der dritten Phase wurde ein quasi-experimentelles Setting konstruiert, bei dem N = 211 Fachpersonen drei Videos mit sprechunflüssigen Kindern vorgespielt wurden. Die potenziellen Anwender schätzten mithilfe des Instrumentes die beobachtbaren Sprechunflüssigkeiten hinsichtlich ihrer pathologischen Dimension ein und sollten den relativen Schweregrad der Videofälle bestimmen. Diese Einschätzungen wurden mit dem „wahren“ Stotterschweregrad der Videofälle konfrontiert. Die so gewonnenen Daten erlaubten die Hypothesenbildung hinsichtlich kognitiver Verarbeitungsmechanismen unterschiedlicher Anwendergruppen. Stolpersteine bei der Anwendung des Instrumentes wurden durch qualitativ angelegte Interviews mit den Anwendern erfasst. Spezifikationen der Methoden und Stichproben werden im Zuge der nun folgenden Ergebnisdarstellung angegeben. Unterschiedliche N rühren daher, dass nicht für alle Berechnungen die notwendigen Daten pro Fall erhoben werden konnten. 3 Ergebnisse und deren erste Interpretation 3.1 Augenscheinliche Inhaltsvalidität, Ökonomie und Nützlichkeit Die durch Fragebogen (Atteslander 2003) mit n = 66, zwei Gruppenbefragungen (Bohnsack 2003) mit n = 9 und 4 und Einzelinterviews (Hopf 2003) mit n = 4 befragten Pädiater und Logopädinnen mit Gesamt-N = 83 äußerten sich mehrheitlich positiv über das Instrument und betrachteten die Kriterien als inhaltlich angemessen (Kohler 2011). Sie empfanden den Redeflusskompass als nützlich und ökonomisch. Sie schätzten ihn als strukturgebend im Entscheidungsprozess für weiterführende Maßnahmen. Beide Berufsgruppen formulierten Optimierungsvorschläge, sodass die erste Version des Redeflusskompasses überarbeitet wurde und für die quantitative Bestimmung der Gütekriterien eine Version 2.0 zur Verfügung stand. 3.2 Inter-Rater-Reliabilität Der Redeflusskompass 2.0 wurde zeitnah zweimal von zwei verschiedenen Fachpersonen unabhängig voneinander durchgeführt. Die Zweittesterin war gegenüber den Ergebnissen des Ersttests blind. Der zeitliche Abstand zwischen Erst- und Zweittestung betrug maximal drei Wochen. Zwischen den Testungen fand keinerlei Intervention statt. Die Gesamtstichprobe (N = 79) bestand aus zwei annähernd gleich großen Untergruppen. Die Experimentalgruppe mit N = 41 waren Kinder zwischen zwei und sechs Jahren mit Verdacht auf Stottern. Sie ist daher die inhaltlich relevanteste Teilstichprobe, weil sie repräsentativ für die Population der Kinder ist, die mit dem Redeflusskompass untersucht werden. Die Vergleichsgruppe mit N = 38 bestand aus gleichaltrigen Kindern ohne Verdacht auf Stottern. Die beiden Gruppen waren hinsichtlich des 37 FI 1 / 2015 Jürgen Kohler Altersdurchschnittes, der Geschlechterverteilung und des Migrationshintergrunds parallelisiert. Die rechnerische Auswertung fand auf drei unterschiedlichen Ebenen statt: Auf der Ebene der dreigestuften Empfehlungen (Nominalskalen oder Ordinalskalenniveau), auf der Ebene der Gesamtpunktzahl (Ordinalskalenniveau) und auf der Ebene der Einzelitems, deren Zutreffen durch „ja“ oder „nein“ eingeschätzt werden kann (Nominalskalenniveau). Für das Nominalskalenniveau wurde die Inter-Rater-Reliabilität mit dem Cohens Kappa, für das Ordinalskalenniveau mit dem Spearmans Rho berechnet (Wirtz/ Caspar 2002). Die Interpretation der Zahlen richtet sich nach den von Bühner (2011, 81) und von Wirtz & Caspar (2002, 59) angegebenen Faustregeln. Die Inter-Rater-Reliabilität des Redeflusskompasses nimmt ab, je differenzierter die Analyseebene und je mehr der Verdacht auf Stottern tatsächlich existiert. Für die inhaltlich relevanteste Teilstichprobe der Experimentalgruppe sind die Werte auf der Ebene der Empfehlung zwar niedrig, aber ausreichend (Kappa = 0.231**), für die Ebene der Gesamtpunktzahl niedrig (Rho = 0.360**) und für die Einzelitems sehr niedrig und nicht mehr ausreichend (Kappa = 0.091*). Einzelne Items haben dabei so niedrige Übereinstimmungswerte, dass trotz deren plausibler Inhaltsvalidität ihre externe Validität angezweifelt werden muss (vgl. Tabelle 1). Fazit: Die Messung mit den Items des Redeflusskompasses geschieht wenig zuverlässig und objektiv, auf der Ebene der daraus abgeleiteten Empfehlungen ist die Zuverlässigkeit aber ausreichend. 3.3 Spezifität und Sensitivität Die Spezifität gibt hier den prozentualen Anteil der korrekt als negativ klassifizierten nicht stotternden Kinder an der Stichprobengesamtheit der in Wirklichkeit nicht Stotternden an (= richtig negative Empfehlungen). Item Gesamtstichprobe N = 79 Experimentalgruppe N = 41 Item Gesamtstichprobe N = 79 Experimentalgruppe N = 41 1 Sorge der Eltern 0.477*** 0.351** 9 Blockierungen 0.033 n.S. -0.071 n.S. 2 Allgemeine Anspannung 0.082 n.S. 0.038 n.S. 10 Mitbewegungen 0.100 n.S. 0.066 n.S. 3 Lautwiederholungen 0.686*** 0.514*** 11 Verspannungen 0.343** 0.263 n.S. 4 Silbenwiederholungen 0.724*** 0.616*** 12 Vermeidung von Wörtern 0.377*** 0.381* 5 Wiederholungen mit veränderter Betonung & Rhythmus 0.198 n.S. 0.074 n.S. 13 Dauer 0.667*** 0.455** 6 Vokaldehnungen 0.541*** 0.431** 14 Zunahme qualitativ 0.646*** 0.626*** 7 Dehnungen mit Tonhöhen- & Lautstärkeänderung 0.180 n.S. 0.138 n.S. 15 Zunahme quantitativ 0.413*** 0.417** 8 Pausen 0.022 n.S. -0.058 n.S. 16 Reaktion des Kindes 0.306** 0.220 n.S. Tab. 1: Kennwerte (Cohens Kappa) für Übereinstimmung der Einzelitems zwischen Erst- und Zweittestungen getrennt für Gesamtstichprobe und Experimentalgruppe 38 FI 1 / 2015 Die Früherfassung des beginnenden Stotterns Die Sensitivität gibt hier den prozentualen Anteil der korrekt als positiv klassifizierten stotternden Kinder an der Stichprobengesamtheit der stotternden Kinder an (= richtig positive Empfehlungen). Die Sensitivität ist mit durchschnittlich 96 % sehr gut, und was besonders wichtig ist: Dies gilt auch für die Experimentalgruppe! Es werden beinahe alle Kinder mit beginnendem Stottern durch den Redeflusskompass auch als solche identifiziert. Die Spezifität dagegen ist schon für die Gesamtstichprobe nicht so hoch (= 79 %) und sinkt für die Experimentalgruppe (= 43 %) deutlich ab (vgl. Tabelle 2). Verallgemeinernd und vereinfachend kann man sagen: Ungefähr die Hälfte aller Kinder, die mit dem Redesflusskompass als beratungs- und diagnostikbedürftig hinsichtlich des beginnenden Stotterns eingestuft werden, brauchen diese Beratungund/ oder Diagnostik nicht. 3.4 Kriteriumsvalidität Die Kriteriumsvalidität wurde über den Zusammenhang zwischen den RfK-Empfehlungen von Erstbzw. Zweittestung und den tatsächlich vollzogenen Maßnahmen getrennt für die Gesamtstichprobe und die Experimentalgruppe operationalisiert. Die tatsächlich vollzogenen Maßnahmen waren wie die Empfehlungen dreifach gestuft und zwar in „keine Maßnahme durchgeführt“, „Entwicklungsbeobachtung“ und „Weiterweisung vollzogen“. Da man hierbei wieder sowohl Argumente für das Nominalskalenniveau als auch für das Ordinalskalenniveau vorbringen kann, wurden zwei statistische Verfahren gerechnet: Cramers V für das Nominalskalenniveau und Spearmans Rho für das Ordinalskalenniveau, siehe Tabelle 3. Die Kritieriumsvalidität kann insgesamt für die Gesamtstichprobe als eher hoch und für die Experimentalgruppe als eher mittelmäßig bezeichnet werden. 3.5 Einfluss der Vorerfahrung auf die Inter-Rater-Reliabilität Die an der Untersuchung teilnehmenden Tester wurden hinsichtlich ihres unterschiedlichen Vorwissens erfasst (ohne, mittleres, elaboriertes und Experten-Vorwissen), sodass der Einfluss der Vorerfahrung als unabhängige Variable auf die Inter-Rater-Reliabilität durch eine logistische Regression (Eid et al. 2010) be- Gesamtstichprobe Experimentalgruppe 1. Test N = 60 2. Test N = 59 1. Test N = 28 2. Test N = 28 Spezifität Spez1 = 80 % Spez3 = 78 % Spez2 = 46 % Spez4 = 40 % Durchschnitt = 79 % Durchschnitt = 43 % Sensitivität Sens1 = 100 % Sens3 = 92 % Sens2 = 100 % Sens4 = 92 % Durchschnitt = 96 % Durchschnitt = 96 % Tab. 2: Zusammenfassung aller Werte der Spezifität und Sensitivität getrennt nach Gesamtstichprobe und Experimentalgruppe und Erst- und Zweittestung Gesamtstichprobe N = 60 Experimentalgruppe N = 28 Statistischer Test 1. Test 2. Test 1. Test 2. Test Cramers V Spearman Rho 0.650*** hoch 0.727*** hoch 0.520*** mittel 0.715*** hoch 0.442* mittel 0.376* niedrig 0.426* mittel 0.538** mittel Tab. 3: Überblick zu den Kriteriumsvaliditäten getrennt nach Gesamtstichprobe und Experimentalgruppe sowie Erst- und Zweittestung 39 FI 1 / 2015 Jürgen Kohler rechnet werden konnte. Der errechnete Koeffizient liegt bei 0.809*** (sd = 0,228, z-value = 3,55 und p = 0,0003), was für eine hohe Abhängigkeit spricht. Bei Fällen, wo die Inter-Rater- Reliabilität durch eine Experten-Dyade bestimmt wurde, war die Übereinstimmung bedeutend höher als bei anderen Konstellationen. Es war also für die Inter-Rater-Reliabilität sehr entscheidend, mit welcher Erfahrung die Anwender ausgerüstet waren. 3.6 Einfluss der Durchführungsbedingungen auf die Inter- Rater-Reliabilität und die Kriteriumsvalidität Im Re-Test-Verfahren gab es für die Tester unterschiedliche Durchführungsbedingungen (= face-to-face-Setting oder Telefonsetting) und verschiedene Beobachtungsmöglichkeiten der betroffenen Kinder (= keine, wenige Minuten, einige Wochen oder mehrere Monate Beobachtungsmöglichkeit), die ebenfalls als unabhängige Variable in ihrem Einfluss auf die Inter-Rater-Reliabiliät und die Kriteriumsvalidität durch eine logistische Regressionsrechnung bestimmt werden konnten. Für den Einfluss des Settings auf die Inter-Rater-Reliabilität der Empfehlungen wurde ein nicht signifikanter Wert von -0,0389 (sd = 0,201, z-value = -0,19, p = 0,846) berechnet und für den Einfluss des Settings auf die Kriteriumsvalidität wurde ein nicht signifikanter Wert von -0,533 (sd = 0, 870, z-value = -0,61, p = 0,540) berechnet. Es war also relativ unerheblich, ob im face-to-face Setting oder per Telefon getestet wurde. Der Einfluss der Beobachtungsmöglichkeiten auf die Kriteriumsvalidität wurde für die Ersttestungen durch die logistische Regression auf den nicht signifikanten Wert von 0,875 (sd = 0,749, z-value = 1,17, p = 0,243) berechnet. Der Zusammenhang für die Zweittestung wurde auf den ebenfalls nicht signifikanten Wert 0,446 (sd = 1,154, z-value = 0,39, p = 0,6989) berechnet. Die Kriteriumsvalidität kam also relativ unabhängig von der Beobachtungsmöglichkeit zustande. Allerdings kann man an den nicht-signifikanten Werten erkennen, dass es eine klare Tendenz zum Einfluss der Beobachtungsmöglichkeit gibt: Wo es mehr Testungen mit Beobachtungsmöglichkeit gab, nämlich in den Ersttestungen (74 von 82 gegenüber 21 von 82 bei den Zweittestungen), ist der statistische Kennwert deutlich höher als in den Zweittestungen (0.875 > 0.446) und die Irrtumswahrscheinlichkeit ebenfalls deutlich niedriger (0.243 < 0.6989). Fazit: Die Erfahrung der Anwender ist der ausschlaggebende Faktor für die Güte der Empfehlungen des Redeflusskompasses. Ganz klar gilt das für die Inter-Rater-Reliabilität. Auch wenn es für die Kriteriumsvalidität statistisch nicht nachgewiesen werden konnte, kann man vermuten, dass bei einem spezifischeren Instrument die Erfahrung auch hinsichtlich der Validität ein wichtiger Faktor für die Identifikation des beginnenden Stotterns ist. Dagegen ist das Setting nicht bedeutend für die Güte der Identifikation. Ebenfalls zweitrangig ist die Möglichkeit, die Kinder zu beobachten. Eine Tendenz zur Erhöhung der Güte durch die zur Verfügung stehende Beobachtungsmöglichkeit ist allerdings nicht zu übersehen. 3.7 Videofalldarbietung als quasiexperimentelles Setting zur Differenzierung der Gütekriterien Um die Vorerfahrung als unabhängige Variable differenzierter erfassen zu können, wurde im quasi-experimentellen Setting eine weitere Erfahrungsgruppe hinzugefügt. Einige Personen ohne Vorwissen wurden durch einen Fachfilm zum beginnenden Stottern (Sandrieser 1996) fortgebildet. Das geschah, bevor sie die drei Videos mit den sprechunf lüssigen Kindern im quasi-experimentellen Setting hinsichtlich der Primär- und Sekundärsymptomatik einschätzen mussten. Ziel war es, ei- 40 FI 1 / 2015 Die Früherfassung des beginnenden Stotterns nen cut-off-Wert der Vorerfahrung zu finden, um mehr Klarheit zum notwendigen Vorwissen bei der Einschätzung des beginnenden Stotterns zu bekommen. Weiter sollten Effekte der Berufsgruppenzugehörigkeit bestimmt werden. Schließlich sollten die Items in einem hochkontrollierten Setting mit hoher interner Validität hinsichtlich ihrer Inter-Rater-Reliabilität untersucht werden, um mehr Daten für eine mögliche Itemselektion zu erhalten. Die Übereinstimmung zwischen den Ratern wurde durch zwei statistische Verfahren berechnet. Einerseits wurden prozentuale Anteile der Übereinstimmung (= Inter-Rater-PA) berechnet, andererseits wurde mit dem Krippendorfs Alpha (Hayes/ Krippendorf 2007) als Maß der Übereinstimmung gerechnet. Mit dem ersten Maß konnte auch eine Übereinstimmung pro einzelnem Videofall dargestellt und diese mit dem „wahren“ Stotter-Schweregrad der Videofälle konfrontiert werden. Letzteres wurde mit den Normen des Stuttering Severity Instrument (SSI) aus der Aachener Analyse des unflüssigen Sprechens (Schneider/ Zückner 2005) bestimmt. Die Gesamt-Inter-Rater-Übereinstimmung über die drei Videofälle hinweg wurde für die Gesamtstichprobe von N = 211 Ratern durch den Krippendorfs Alpha mit 0, 271 berechnet, was man als „ausreichend“ bezeichnen kann (vgl. Tabelle 4). Für die einzelnen Videofälle konnte durch die prozentualen Anteile der Übereinstimmung eine Rangreihe für die Gesamtstichprobe gebildet werden. Insgesamt wird das Video 1 mit dem mittleren Stotterschweregrad (80,6 %) übereinstimmender als Video 3 mit dem leichten Stottern (76,6 %), Video 3 übereinstimmender als Video 2 mit dem schweren Stottern (69,9 %) eingeschätzt. Diese Rangreihe galt auch für die Berechnung nach Erfahrungs- und Berufsgruppen. Auffällig ist, dass der Fall mit dem höchsten Schweregrad (Video 2) auch am schwierigsten einzuschätzen war, denn er hat die niedrigste Inter-Rater-Übereinstimmung. Für die Erfahrungs- und Berufsgruppen wurden über die Videos hinweg sowohl die Prozentualen Anteile der Übereinstimmung (Inter-Rater-PA) als auch der Krippendorfs Alpha berechnet. Diese Werte wurden in eine Rangreihe gebracht (vgl. Tabellen 5 und 6). Höchste Übereinstimmung hatten die Experten (Inter-Rater-PA = 81,9% und Krippendorfs Alpha = 0,4064) vor den Personen mit mittlerem Vorwissen (79,5 % und 0,359) vor den Personen ohne Vorwissen (75,4 % und 0,283) vor den Personen ohne Vorwissen mit Kurzfortbildung (67,7 % und 0.161). Die Unterschiede waren insgesamt aber eher gering, insbesondere zwischen den ersten drei Gruppen. Verwunderlich ist, dass die Personen ohne Vorwissen aber mit Kurzfortbildung schlechter abschneiden als die Personen ohne Vorwissen und ohne Kurzfortbildung. Dies widerspricht der Annahme eines linearen Zusammenhangs zwischen Vorerfahrung und Inter-Rater-Reliabilität. Für die Berufsgruppen stellt sich die Rangreihe Schweregrad der Videofälle Prozentuale Anteile der Übereinstimmung zwischen den Ratern pro Videofall Gesamtübereinstimmung über alle drei Videofälle 1. Video 2 = schweres Stottern Video 1 = 80,6 % Krippendorfs Alpha = 0.271 2. Video 1 = mittelgradiges Stottern Video 3 = 76,6 % 3. Video 3 = leichtes Stottern Video 2 = 69,9 % Tab. 4: Vergleich der Videofall-Rangreihen des Schweregrades und der Inter-Rater-Prozentualen Übereinstimmung 41 FI 1 / 2015 Jürgen Kohler Rangreihe folgendermaßen dar: Höchste Übereinstimmung hatten die Logopädinnen (79,3 % und 0,3538) vor den Kinderärzten (75,1 % und 0,2966), vor den „anderen Berufsgruppen“ (74,1 % und 0,2372) und den Erzieherinnen (67,9 % und 0,1565). Die Unterschiede waren insgesamt aber eher gering, insbesondere zwischen den Kinderärzten und den „anderen Berufsgruppen“. 3.7.1 Intuitive Übereinstimmung der Rater zur Rangreihe des Schweregrades im quasiexperimentellen Setting Alle Erfahrungsgruppen sollten eine Rangreihe zur Bestimmung des relativen Schweregrades der Videofälle intuitiv bilden. Diese intuitiv gebildete Rangreihe wurde mit dem tatsächlichen Schweregrad der Videofälle verglichen. Die Prüfung der Intuition war wichtig, weil von einigen Autoren (Yairi/ Ambrose 2005, 314) beim Erkennen von Stottern den Eltern und anderen Laien ein recht zuverlässiges und gültiges Pauschalurteil über das Vorkommen oder die Abwesenheit von Stottersymptomatik zugeschrieben wird. Das Ergebnis dieser intuitiven Einschätzung brachte einige Überraschungen (vgl. Tabelle 7): Interessant ist, dass die Intuition der Personen ohne Vorwissen durch die Kurzfortbildung „geschärft“ wurde, da deren intuitive Einschätzung mit dem wahren Schweregrad (82,4 % und Krippendorf Alpha = 0,7140) besser war als die Werte der anderen Erfahrungsgruppen. Die Experten-Intuition (73,4 % und 0.6807) kommt im Vergleich dazu nicht so zum Zuge, und die Personen mit mittlerem Vorwissen (61,4 % und 0,3466) und ohne Vorwissen (56,7 % und 0,1905) scheinen ihre Intuition beinahe etwas verloren zu haben. Noch überraschender war die Auswertung der Trefferquote nach Berufsgruppen (vgl Tabelle 8): Die Logopädinnen (62,9 % und 0,4076) hatten eine schlechtere Intuition als die Erzieherinnen (81,1 % und Ohne Vorwissen Ohne Vorwissen mit Kurzfortbildung Mittleres Vorwissen Experten Inter-Rater-PA pro Erfahrungsgruppe 75,4 % 67,7 % 79,5 % 81,9 % Inter-Rater-Reliabilität pro Erfahrungsgruppe mit dem Krippendorfs Alpha 0.2838 0.1613 0.3598 0.4064 Rangplatz 3 4 2 1 Tab. 5: Überblick zu den Inter-Rater-Prozentualen Anteilen der Übereinstimmung und Inter-Rater-Reliabilitäten der Erfahrungsgruppen Logopädin Erzieherin Kinderärzte Andere Berufe Inter-Rater-PA pro Berufsgruppe 79.3 67,9 75,1 74,1 Inter-Rater-Reliabilität pro Berufsgruppe durch den Krippendorfs Alpha 0.3538 0.1565 0.2966 0.2372 Rangreihe 1 4 2 3 Tab. 6: Überblick zu den Inter-Rater-Prozentualen Anteilen der Übereinstimmung und Inter-Rater-Reliabilitäten der Berufsgruppen 42 FI 1 / 2015 Die Früherfassung des beginnenden Stotterns 0,6605). Auch die Kinderärzte (65,9 % und 0,5944) lagen noch vor den Logopädinnen. Für die „anderen Berufsgruppen“ lag die Trefferquote im Zufallsbereich (36 % und 0,0528). Die Ergebnisse widersprechen der Annahme eines linearen Zusammenhangs zwischen Intuition und Vorerfahrung bzw. zwischen Intuition und beruflicher Professionalität bei der Einschätzung des beginnenden Stotterns. Die Erklärung für dieses zunächst überraschende Ergebnis ergibt sich aus einer Differenzierung der Intuition in eine alltägliche Intuition der Nicht-Stotterfachleute und in eine professionelle Intuition der Stotterfachleute wie sie durch Konzepte des Problemlösens (Jungermann et al. 2010) und des Clinical Reasoning (Beushausen 2009) nahegelegt werden. Stotterfachleute (Logopädinnen) brauchen eine gewisse Informationsmenge und -dichte, um ihre professionellen Urteile zu fällen. Fehlt ihnen diese Grundlage für den Entscheidungsprozess (wie bei der Analyse von Videomaterial ohne Kontextinformationen), können sie aber nicht auf eine Alltagsintuition zurückgreifen, da diese als kognitive Repräsentation durch die professionelle Intuition gelöscht wurde oder zumindest stark gehemmt ist. Erzieherinnen oder Kinderärzte als Berufsgruppen ohne Vorwissen können insbesondere dann, wenn sie gezielt mit anschaulichen Filmsequenzen sensibilisiert wurden, bei der Videofallanalyse die ihnen zur Verfügung stehende Alltagsintuition voll ausnützen und erreichen dadurch bessere Trefferquoten bei der Schweregradbestimmung als Logopädinnen. Dieser Umstand wird als Aufforderung interpretiert, den alltagsintuitiven Zugang für Entscheidungsprozesse bei beginnendem Stottern für Nicht-Stotterfachpersonen systematisch zu instrumentalisieren. Betrachtet man die Trefferquote pro Videofall, kann man feststellen, dass der Videofall mit dem höchsten Schweregrad auch am treffsichersten zugeordnet wird (157 Treffer von 205 = 76 %), während die beiden anderen „leichteren“ Fälle weniger sicher korrekt zugeordnet werden (60,7 % und 52,9 % Trefferquote). Dieses Ergebnis bestätigt den Nutzen von Alltagsintuition bei der Identifikation von beginnendem Stottern insbesondere dann, wenn die Symptomatik eindeutig (= schwer) ausgeprägt ist. Für leichtere Fälle sollte die alltagsintuitive Einschätzung der Symptomatik durch ein Instrumentarium gelenkt werden. Ohne Vorwissen Ohne Vorwissen mit Kurzfortbildung Mittleres Vorwissen Experten Intuitiv-Treffer-Quote 56,7 % 82,4 % 61,4 % 73,4 % Krippendorfs Alpha 0.1905 0.7140 0.3466 0.6807 Rangreihe 4 1 3 2 Tab. 7: Intuitiv-Trefferquoten und Krippendorfs Alpha für die Schweregradzuordnung der Videofälle pro Erfahrungsgruppe Logopädinnen Erzieherinnen Kinderärzte Andere Berufe Intuitiv-Treffer-Quote 62,9 % 81,1 % 65,9 % 36,0 % Krippendorfs Alpha 0.4076 0.6605 0.5944 0.0528 Rangreihe 3 1 2 4 Tab. 8: Intuitiv-Trefferquoten und Krippendorfs Alpha für die Schweregradzuordnung der Videofälle pro Berufsgruppe 43 FI 1 / 2015 Jürgen Kohler 3.8 Inhaltsanalyse der Interviews mit den Anwendern Einige Anwender des Redeflusskompasses im Re-Test-Verfahren (N = 25 Anwender) wurden mit den wenig übereinstimmenden Ergebnissen der Zweittestungen in einem Einzelinterview konfrontiert und gaben Erklärungen dazu ab. Auch einige Teilnehmer der Videofallbetrachtung wurden hinsichtlich ihrer Schwierigkeiten bei der Einschätzung im Gruppensetting (N = 8 Gruppen) befragt. Die inhaltsanalytische Auswertung in Anlehnung an Mayring (2003) ergab als wichtigsten Grund für fehlende Übereinstimmung den inhaltlichen Differenzierungsgrad der Items. Diese Kategorie konnte in zwei gegensätzliche Ausprägungen unterteilt werden, da für die Nicht- Stotterfachleute der Differenzierungsgrad der Items i. A. zu hoch war und für die Stotterfachleute zu niedrig. Die Nicht-Stotterfachleute gaben häufig Schwierigkeiten mit solchen Items an, die auch im Re-Test-Verfahren schlechte Übereinstimmungswerte (vgl. niedrige Kappa-Werte in Tabelle 2) zeigten. Sie konnten insbesondere trotz der in den Durchführungsanweisungen des Redeflusskompasses gegebenen Beispiele nicht zwischen normalen und stottertypischen Unflüssigkeiten unterscheiden. Beispielsweise wurde mehrfach eine normale Gestik im Sinne des Items 10 „Mitbewegungen des Körpers“ fälschlicherweise als pathologische Begleitsymptomatik des Stotterns bewertet. Stotterfachleute zeigten durch ihren Differenzierungsbedarf, dass sie für ein valides und reliables Fachurteil weitere Informationen benötigen, die über den Differenzierungsgrad des Redeflusskompasses hinausgehen. So wünschten sich einige Experten die Aufnahme des Blickkontaktverhaltens als eigenständiges Item, um die Sekundärsymptomatik bei Stottern präziser fassen zu können. Mit dem fehlenden Kontextwissen und dem relativ niedrigen Differenzierungsgrad der Items erklärten sich die Experten auch ihr vorsichtiges und relativ unsicheres Einschätzen bei der Schweregradzuordnung der Videofallanalyse. 4 Diskussion und abschließende Schlussfolgerungen Die Niederschwelligkeit des Redeflusskompasses führt trotz wenig reliablen Einschätzungen der Primär- und Sekundärsymptomatik zu befriedigend validen und sensitiven Entscheidungen. Allerdings wirkt sich die Niederschwelligkeit auf die Spezifität des Instrumentes aus, die unbefriedigend ist. Die fehlende Spezifität ist problematisch, weil auf Grundlage der Empfehlung des Redeflusskompasses Kinder diagnostiziert werden, die diese Diagnostik gar nicht brauchen. Die relativ geringe Inter-Rater-Reliabilität ist problematisch, weil die schwache Übereinstimmung zwischen den Anwendern eine potenzielle Quelle des Missverständnisses bei der interdisziplinären Zusammenarbeit darstellt. Sowohl die unbefriedigende Inter-Rater-Reliabilität auf Ebene der Einzelitems als auch die fehlende Passung der Items zu der wichtigen Anwendergruppe der Nicht-Stotterfachleute legt eine völlige Neukonzeption des Redeflusskompasses nahe. Dabei gilt zu beachten: Der alltagsintuitive Zugang für Entscheidungen bei beginnendem Stottern ist attraktiv. Instrumente, die eine Entscheidungshilfe zum weiteren Vorgehen bei frühkindlichem Stottern sein wollen, sollten daher mehr anwenderbezogen in ihrer Konzeption sein. Sie sollten als vor-diagnostische Entscheidung mehr auf eine alltagsintuitive Ebene ausgerichtet sein, die auch von Nicht-Stotterfachleuten (wie z. B. Erzieherinnen oder Kinderärzten) und dementsprechend auch von den Bezugspersonen der betroffenen Kinder nachvollzogen werden kann. Die Stotterfachleute (z. B. Logopädinnen) hingegen sollten auf ein Instrumentarium zurückgreifen können, welches ihr Grundlagenwis- 44 FI 1 / 2015 Die Früherfassung des beginnenden Stotterns sen zum Stottern einbezieht. Logische Schlussfolgerung ist die konzeptuelle Trennung von Abklärungsbedarf einerseits und Diagnostik- und Therapiebedarf andererseits. Die Neukonstruktion des Redeflusskompasses wird daher zu einer Version 3.0 führen, welche auf konzeptueller Ebene die dargestellten Schlussfolgerungen des Forschungsprojektes einbeziehen wird. Die Veröffentlichung wird über die Website http: / / www.logopaedieundpraeven tion-hfh.ch ab Frühherbst 2014 zur Verfügung stehen. Dr. phil. Jürgen Kohler, Dipl.-Psych. Dozent Studiengang Logopädie Hochschule für Heilpädagogik Schaffhauserstr. 239 CH-8050 Zürich Juergen.kohler@hfh.ch Anmerkungen * 0,05 Signifikanzniveau; ** 0,01 Signifikanzniveau; *** 0,001 Signifikanzniveau; n.s. = nicht signifikant Dank gilt der Förderstiftung für das Sprachheilwesen des Kantons Zürich, die das Forschungsprojekt durch einen großzügigen Förderbeitrag unterstützt hat. Literatur Atteslander, P. (2003): Methoden der empirischen Sozialforschung. Walter de Gruyter, Berlin Beushausen, U. (2009): Therapeutische Entscheidungsfindung in der Sprachtherapie. Urban & Fischer, München Bloodstein, O. (1960): The development of stuttering. Changes in nine basic features. Journal of Speech and Hearing Disorders, 25, 219 -237, http: / / dx.doi.org/ 10.1044/ jshd.2503.219 Bohnsack, R. (2003): Gruppendiskussion. In: Flick et al. (Hrsg): Qualitative Forschung. Rowohlts Enzyklopädie, Hamburg S. 369 -384 Bortz, J., Döring, N. (2006): Forschungsmethoden und Evaluation für Human- und Sozialwissenschaftler. Springer-Verlag, Berlin, http: / / dx. doi.org/ 10.1007/ 978-3-540-33306-7 Braun, W., Baumann, U., Boltshauser, M. (2011): Redeflusskompass. Entscheidungshilfe für Fachpersonen bezüglich Beratung und Abklärungbedarfs bei Sprechunflüssigkeiten für Kinder im Alter von 2 bis 6 Jahren. Hochschule für Heilpädagogik, Zürich. Internet: http: / / www. logopaedieundpraevention-hfh.ch Bühner, M. (2011): Einführung in die Test- und Fragebogenkonstruktion. Pearson-Studium, München Eid, M., Gollwitzer, M., Schmitt, M. (2010): Statistik und Forschungsmethoden. Beltz Verlag, Weinheim/ Basel Hopf, C. (2003): Qualitative Interviews - ein Überblick. In: Flick, U.: Qualitative Sozialforschung. Rowohlt, Hamburg ICD-10 (2011): Internationale statistische Klassifikation der Krankheiten und verwandter Gesundheitsprobleme/ hrsg. vom Deutschen Institut für Medizinische Dokumentation und Information, DIMDI. Im Auftrag des Bundesministeriums für Gesundheit und Soziale Sicherung. WHO-Ausgabe. Johannsen, H. S., Schulze, H. (1998): Therapie von Redeflussstörungen bei Kindern und Erwachsenen. In: Böhme, G. (Hrsg), Sprach-, Sprech-, Stimm- und Schluckstörungen, Band 2 Therapie, 2. Auflage. 97 -112. G.Fischer, Stuttgart Johannsen, H. S. (2001): Ätiologie und Verlaufsbedingungen des kindlichen Stotterns: Darstellung der Inhalte und Zielsetzung einer Längsschnittstudie. Sprache - Stimme - Gehör, 25, 10 -13, http: / / dx.doi.org/ 10.1055/ s-2001-11976 Jungermann, H., Pfister, H. R., Fischer, K. (2010): Die Psychologie der Entscheidung. Eine Einführung, 3. Auflage. Spektrum Akademischer Verlag, Berlin/ Heidelberg Kohler, J. (in Druck): Empirische Überprüfung des Redeflusskompasses. Dissertation an der LMU München. Idstein: Schulz-Kirchner-Verlag Kohler, J. (2011): Der Redeflusskompass in der pädiatrischen Praxis. In: „Kinder- und Jugendarzt“. Zeitschrift des Berufsverbandes der Kinder- und Jugendärzte Jahrgang 42, Ausgabe 7/ 2011, 394 -397 Mayring, P. (2003): Qualitative Inhaltsanalyse. Beltz, Weinheim Natke, U. (2005): Stottern - Erkenntnisse, Theorien, Behandlungsmethoden. Verlag Hans Huber, Bern 45 FI 1 / 2015 Jürgen Kohler Neumann, K., Schneider P. (2011): Identifikation von Stottern im Vorschulalter. In: Der Kieselstein. Mitgliedermagazin der Bundesvereinigung Stotterer Selbsthilfe. Ausgabe August. Demosthenes-Verlag, Köln, 4 -7 Sandrieser, P. (1996): Kindliches Stottern - Frühsymptome erkennen. Audiovisuelles Medienzentrum der RWTH Aachen, Aachen Sandrieser, P., Schneider, P. (2008): Stottern im Kindesalter. 3. Auflage. Thieme Verlag, Stuttgart Starkweather, C. W., Gottwald, S. R. (1990): The demands and capacities model: Clinical Applications. In: Journal of Fluency Disorders 15, 143 -157, http: / / dx.doi.org/ 10.1016/ 0094-730X (90)90015-K
