Loading...

Diagnostik hierarchieniedriger Leseprozesse aus linguistischer Perspektive

by Gerrit Helm (Author)
©2026 Thesis 570 Pages
Open Access
Series: Positionen der Deutschdidaktik, Volume 19

Summary

Lesediagnostik bildet den Ausgangspunkt für schulische Leseförderung und Interventionsstudien der Leseforschung. Da die Verarbeitung der deutschen Schriftsprache jedoch vielfältige Anforderungen an Lesenlernende stellt, ist die Ermittlung von individuellen Leseständen eine Herausforderung für Lehrende und Forschende. In dem vorliegenden Buch wird vor diesem Hintergrund ein digitales Lesediagnoseverfahren entwickelt, das in der Lage ist, individuelle Unterschiede in der Verarbeitung der deutschen Schriftsprache bei Lesenlernenden sichtbar zu machen. Zunächst wird hierzu ein hierarchisches Modell des Wortlesens hergeleitet, das aufzeigt, welche Aspekte des Systems der Schriftsprache für die Diagnostik der hierarchieniedrigsten Lesefertigkeiten zu berücksichtigen sind. Das Modell dient dann als Grundlage für die Entwicklung von systematischen Leseitems, die in einer digitalen Browseranwendung eingesetzt werden. Berichtet werden abschließend erste Ergebnisse einer Pilotierung des Verfahrens.

Table Of Contents

  • Titelseite
  • Titel
  • Impressum
  • Inhalt
  • 1. Einleitung
  • 1.1 Ausgangssituation
  • 1.2 Zielsetzung und Ausrichtung der vorliegenden Arbeit
  • 1.3 Aufbau der Arbeit
  • 2. Ausgangssituation: Lesediagnostik
  • 2.1 Grundlagen der Lesediagnostik
  • 2.1.1 Gütekriterien
  • 2.1.2 Bezugsnormen
  • 2.1.3 Medialität / mediale Erscheinungsform
  • 2.2 Informelle Verfahren der Lesediagnostik
  • 2.3 Standardisierte Verfahren der Lesediagnostik
  • 2.3.1 Das Salzburger Lese-Screening (SLS)
  • 2.3.2 Der Stolperwörter Lesetest (STOLLE)
  • 2.3.3 Der ELFE II Leseverständnistest
  • 2.3.4 Der Zürcher Lesetest – II (ZLT)
  • 2.4 Zusammenführung und Forschungsfrage
  • 3. Die Entwicklung eines digitalen Verfahrens zur Lesediagnostik Teil I: Design
  • 3.1 Pseudowörter und Nichtwörter
  • 3.2 Wörter und Pseudowörter in der Diagnostik
  • 3.3 Aufgabenformate mit Pseudowörtern
  • 3.4 Lese- und Reaktionszeiten bei der Arbeit mit Touch-Eingaben vs. mit alternativen Eingabemechanismen (Pilotstudie 1)
  • 3.4.1 Die Spezifika von Tablets und Touch-Eingaben
  • 3.4.2 Forschungsfrage und Forschungsvorhaben
  • 3.4.3 Methode
  • 3.4.4 Ergebnisse
  • 3.4.5 Interpretation und Diskussion
  • 3.5 Zusammenführung in ein finales Design
  • 3.5.1 Weitere Anmerkungen zum Design: Händigkeit und Tutor
  • 3.5.2 Technische Anmerkungen zum Design
  • 3.6 Abschluss
  • 4. Die Entwicklung eines digitalen Verfahrens zur Lesediagnostik Teil II: Leseitems
  • 4.1 Lesen auf Ebene der graphemischen Verarbeitungseinheiten
  • 4.1.1 Inventarisierung
  • 4.1.1.1 Saussure und andere: Grapheme als Laut-Zeichen
  • 4.1.1.2 Vachek und andere: Grapheme als autonome Schriftzeichen
  • 4.1.1.3 Gallmann und andere: Grapheme als autonome, sprachfunktionale Zeichen
  • 4.1.1.4 Primus und andere: Buchstabensegmente und suprasegmentale Grapheme
  • 4.1.1.5 Rezec: Phonemabbilder, Grapheme und Grundformen
  • 4.1.1.6 Neef: Reduzierung auf Buchstaben als einzige Zugriffsgröße
  • 4.1.1.7 Grapheme aus Perspektive der Schriftlinguistik / Grapholinguistik
  • 4.1.1.8 Frequenzbasierte Bigramme als Verarbeitungseinheiten
  • 4.1.2 Hierarchisierung
  • 4.1.2.1 Ebene E0: Graphemische Events / Leseevents
  • 4.1.2.2 Ebene E1: Buchstabensegmente
  • 4.1.2.3 Ebene E2: Grundformen
  • 4.1.2.4 Ebene E3: Buchstaben
  • 4.1.2.5 Ebene E4: Graphemische Leseeinheiten
  • 4.1.3 Prozessmodellierung
  • 4.1.3.1 Buchstabensegmente identifizieren
  • 4.1.3.2 Grundformen substituieren
  • 4.1.3.3 Buchstaben assoziieren
  • 4.1.3.4 Graphemische Leseeinheiten parsen
  • 4.1.3.5 Gesamtüberblick
  • 4.1.4 Leseitem-Entwicklung
  • 4.2 Lesen auf Ebene der graphematischen Silbe und des graphematischen Fußes
  • 4.2.1 Inventarisierung
  • 4.2.1.1 Aufbau / Skelettpositionen
  • 4.2.1.2 Besetzung der Silbenkonstituenten
  • 4.2.1.3 Nebensilben, Silbenrumpf und ‚Tröge mit Henkeln‘
  • 4.2.1.4 Mehrsilbige Formen und Silbengrenzen
  • 4.2.1.5 Split-Nukleus-Hypothese
  • 4.2.1.6 Modalitätsspezifische Phänomene der graphematischen Silbe
  • 4.2.1.7 Der graphematische Fuß
  • 4.2.1.8 Abschluss
  • 4.2.2 Hierarchisierung
  • 4.2.2.1 Ebene E5: Silbenkonstituenten
  • 4.2.2.2 Ebene E6: Lesesilben / Graphematische Silben
  • 4.2.2.3 Ebene E7: Graphematischer Fuß
  • 4.2.2.4 Zusammenfassung
  • 4.2.3 Prozessmodellierung
  • 4.2.3.1 Silbenkonstituenten zusammenstellen
  • 4.2.3.2 Silbenschneiden
  • 4.2.3.3 Verfußen
  • 4.2.3.4 Gesamtüberblick
  • 4.2.4 Leseitem-Entwicklung
  • 4.3 Lesen auf Wortebene
  • 4.3.1 Inventarisierung
  • 4.3.1.1 Das phonologische Wort
  • 4.3.1.2 Das graphematische Wort
  • 4.3.1.3 Das semantische Wort
  • 4.3.1.4 Das morphologische Wort
  • 4.3.1.5 Das syntaktische Wort
  • 4.3.1.6 Das lexikalische Wort
  • 4.3.1.7 Das pragmatische Wort
  • 4.3.2 Hierarchisierung
  • 4.3.2.1 Ebene E8: Das graphematische Wort
  • 4.3.2.2 Ebene E9: Das morphologische Wort
  • 4.3.2.3 Ebene E10: Das lexikalische Wort
  • 4.3.2.4 Ebene E11: Das syntaktische Wort
  • 4.3.2.5 Nebenebenen: Das pragmatische Wort und das phonologische Wort
  • 4.3.2.6 Zusammenfassung
  • 4.3.3 Prozessmodellierung
  • 4.3.3.1 Graphematisches Wortlesen
  • 4.3.3.2 Morphologisches Wortlesen
  • 4.3.3.3 Lexikalisches Wortlesen
  • 4.3.3.4 Gesamtüberblick
  • 4.3.4 Leseitem-Entwicklung
  • 4.4 Gesamtmodell und Meta-Items
  • 4.4.1 Die Entwicklung von Meta-Items: Vorüberlegungen
  • 4.4.2 Die Entwicklung von Meta-Items: Item-Herstellung
  • 4.5 Abschluss der Leseitem-Entwicklung
  • 5. Praktische Erprobung (Pilotstudie 2)
  • 5.1 Erprobung der Leseitems
  • 5.1.1 Forschungsfrage
  • 5.1.2 Datenerhebung
  • 5.1.3 Datengrundlage
  • 5.1.4 Teilnehmende Lesenlernende
  • 5.1.5 Statistische Auswertungsverfahren
  • 5.1.6 Ergebnisse
  • 5.1.7 Diskussion
  • 5.2 Vergleich von Klassenstufen und individuellen Lernenden
  • 5.2.1 Forschungsfragen
  • 5.2.2 Datenerhebung
  • 5.2.3 Datengrundlage
  • 5.2.4 Teilnehmende Lesenlernende
  • 5.2.5 Statistische Auswertungsverfahren
  • 5.2.6 Ergebnisse
  • 5.2.7 Diskussion
  • 5.3 Erprobung unter heterogenen Ausgangsbedingungen
  • 5.3.1 Forschungsfragen
  • 5.3.2 Datenerhebung
  • 5.3.3 Datengrundlage
  • 5.3.4 Teilnehmende Lesenlernende
  • 5.3.5 Statistische Auswertungsverfahren
  • 5.3.6 Ergebnisse
  • 5.3.7 Diskussion
  • 5.4 Abschluss der Erprobungsstudien
  • 6. Implikationen für die Leseförderung
  • 6.1 Förderung auf Ebene der Buchstabensegmente – „Grundformen puzzeln“
  • 6.2 Förderung auf Ebene der Grundformen, Buchstaben und Einheiten
  • 6.3 Förderung auf Ebene der Silbenkonstituenten und Silben
  • 6.4 Förderung auf Ebene des graphematischen Fußes und Wortes – „Atlantis“
  • 6.5 Förderung auf Ebene des morphologischen Wortes (und Wissens)
  • 6.6 Förderung auf Ebene des lexikalischen Wortes – Wortschatzarbeit
  • 6.7 Zusammenführung
  • 7. Fazit und Ausblick
  • 7.1 Spezifische Implikationen auf Ebene der Diagnostikanwendung
  • 7.1.1 Ansatzpunkt für die Überarbeitung I: Leseitems
  • 7.1.2 Ansatzpunkt für die Überarbeitung II: Durchführungsprozedur
  • 7.1.3 Ansatzpunkt für die Erweiterung I: Morphologisches Lesen
  • 7.1.4 Ansatzpunkt für die Erweiterung II: Satzlesen
  • 7.1.5 Ausblick: Empirische Evaluation und Normierung
  • 7.2 Lesedidaktische Implikationen
  • 7.2.1 Bestimmung von schwierigkeitserzeugenden Mitteln auf Wortebene
  • 7.2.2 Lesen und Lesediagnostik aus linguistischer Perspektive
  • 7.2.3 Lesen unterhalb der Wortebene
  • 8. Literaturverzeichnis
  • 9. Anhang
  • 9.1 Anhang 1: Protokollbogen der Pilotstudie
  • 9.2 Anhang 2: Ergebnisse des Zweitklässlers Emil im Wiederholungsdurchgang
  • 9.3 Anhang 3: Übersicht sämtlicher entwickelter Leseitems

1. Einleitung

1.1 Ausgangssituation

Die Lesefertigkeiten und -fähigkeiten an deutschen Grundschulen sind ein lesedidaktisches und politisches Dauerthema. Nach den ernüchternden Ergebnissen bei den 15-jährigen Lernenden in der PISA-Studie 2000 (Baumert et al. 2001) richtete sich der Blick in den vergangenen Jahren auch zunehmend auf die Lernenden der Primarstufe. Hier zeigte vor allem der IQB-Bildungstrend aus dem Jahr 2021 (Stanat et al. 2022), dass im Bereich Lesen nur 57,6% der Lernenden in Klasse 4 den Regelstandard erreich(te)en und 18,8% sogar am Mindeststandard scheiter(te)n (Wittig/Schneider 2022, S. 52). Ein mediales Echo auf die Befunde erfolgte prompt: Die WELT spracht von „gravierenden Lernrückständen bei Grundschülern“, der SPIEGEL stellte infrage, ob die am Ende der Grundschulzeit vorgefundenen Rückstände im Lesen jemals aufzuholen wären. Als politische Reaktion war in zahlreichen Bundesländern zu beobachten, dass eine tägliche Lesezeit nach Vorbild der Hamburger BiSS-Schulen (Gailberger/Hauschild 2018) eingeführt wurde – stellenweise ohne Vorlaufzeit für die Schulen. In NRW etwa forderte die Ministerin Feller nur wenige Tage vor den Sommerferien, direkt nach diesen „[d]rei mal 20 Minuten verbindliche Lesezeit pro Woche“ (schulministerium.nrw.de) fest in die Stundentafel integrieren zu wollen. Es wird der Versuch beobachtbar, quasi ‚über Nacht‘ umfassende Lesefördermaßnahmen an Grundschulen zu etablieren.

Lesedidaktisch gilt es hingegen als gesicherte Erkenntnis, dass einer funktionalen Leseförderung als zweitem Schritt eine umfassende Lesediagnostik als erster Schritt vorangehen muss (Lenhard 2019; Gailberger et al. 2021), um so eine „diagnosebasierte individuelle Leseförderung“ (Hebbecker et al. 2019) vornehmen zu können.

Die hierzu vornehmlich eingesetzten und etablierten Verfahren zur Lesediagnostik1 sind jedoch zuletzt vor allem aus sprachdidaktischer Perspektive in die Kritik geraten: Vorgeworfen wird diesen zum einen, dass sie auf ein Item- Material setzen, dessen Bearbeitung auch einen gewissen Stand des Vor- und Weltwissens einfordert (z. B. Esslinger 2015, S. 132), was jedoch außerhalb der im Fokus stehenden Lesefertigkeiten und Lesefähigkeiten verbleiben sollte. So bekommen Unterschiede im Welt- und Sprachwissen sowie der Erfahrungsschatz der Kinder auch das Potenzial, Ergebnisse der Lesediagnostik zu beeinflussen. Zum anderen wird den Verfahren zur Lesediagnostik vorgeworfen, in der Regel nicht über konzeptionell systematisches Wortmaterial zu verfügen, anhand dessen Aussagen über implizit verfügbares Wissen der Kinder möglich werden (z. B. Zepnik 2016). Auf diese Weise erfüllen bestehende Verfahren vor allem eine „sondierende und eher selektierende Funktion“ (Esslinger 2015, S. 134; ähnlich: Bredel et al. 2017): Es wird mit diesen Verfahren zwar möglich, zwischen ‚starken‘ und ‚schwachen‘ Lesenden zu differenzieren, doch werden kaum Aussagen möglich, an welchen Stellen und hinsichtlich welcher (Teil-)Aspekte sich ‚starke‘ und ‚schwache‘ Lesende im Detail voneinander unterscheiden. Diese Einsicht jedoch wäre gerade notwendig, um eine diagnosebasierte und passgenaue Leseförderung vornehmen zu können. Es wird damit ein dringliches lesedidaktisches Desiderat, ein funktionales sprachsystematisches Verfahren zur Lesediagnostik vorzulegen.

1.2 Zielsetzung und Ausrichtung der vorliegenden Arbeit

Die vorliegende Arbeit möchte sich diesem annehmen und einen ersten Schritt zur Schließung dieses Desiderats vorbereiten. Ziel der Arbeit ist die Entwicklung eines (digitalen) Verfahrens zur Lesediagnostik, das in der Lage ist, individuelle Unterschiede in den Fertigkeiten von Lernenden der Primarstufe darin sichtbar zu machen, variierende Merkmalsausprägungen des Systems der Schriftsprache beim Lesen (effizient) zu verarbeiten. Erreicht werden soll dies auf der einen Seite durch ein Design, das neben einem Einsatz von lexikalischen Wortitems auch Pseudowort-Items (z. B. Hoffmann-Erz 2015; May 2014) zulässt, die sich als funktionales Werkzeug in der Diagnostik mit Kindern heterogener kultureller und sprachlicher Voraussetzungen etabliert haben (vgl. Ortiz 2021). Auf der anderen Seite soll ein umfassendes Leseitem-Material aus sprachsystematisch konstruierten Leseitems eine Diagnostik ermöglichen, in der das kontrollierte Auftreten spezifischer Item-seitiger Merkmalsausprägungen Verzögerungen in den Lese- und Bearbeitungszeiten der Teilnehmenden evoziert. Das Ausmaß und die Ausgestaltung dieser Verzögerungen lassen dann interpretativ Rückschlüsse zu, inwieweit die Verarbeitung der auftretenden schriftsprachlichen Merkmalsausprägungen gegebenenfalls noch eine spezifische Herausforderung für individuelle Lesenlernende darstellt.

Die Arbeit greift dabei auf zwei Grundannahmen zurück: Die erste Grundannahme ist, dass ein gelingender Leseprozess einen hohen Grad der Automatisierung beim Lesen aufweist (LaBerge/Samuels 1974; Lenhard 2019; Rosebrock/Nix 2020; Samuels 1994). Gesteigerte Leseanforderungen in konstruierten Leseitems sollten damit gemäß der Cognitive Load Theory (Sweller et al. 2011, Tindall-Ford et al. 2020) durch verlängerte Lese- und Bearbeitungszeiten messbar werden. Konkret wird deshalb versucht, durch eine systematische Variation einzelner schriftsprachlicher Merkmale, bei gleichzeitiger Beibehaltung aller weiteren Merkmalsausprägungen, gezielt Abweichungen in den Bearbeitungszeiten von Lesenlernenden hervorzurufen, um von diesen dann Rückschlüsse auf den Grad der Automatisierung der Verarbeitung (der fokussierten Aspekte) zu ­ziehen.

Die zweite Grundannahme ist, dass Lesen ein hierarchischer Prozess ist (Posner/McLeod 1982; Zepnik 2016), der zugleich auf mehreren Ebenen abläuft, die sich stetig von-oben-herab (top-down) und von-unten-herauf (bottom-up) be-einflussen. In Konsequenz dieser Annahme erfolgt die Entwicklung des Lese-item-Materials und die diesem vorangehende Theoriebildung stets Lese- Ebene für Lese-Ebene. Im Ergebnis entsteht so eine level-by-level-analysis (Dijk/Kintsch 1983, S. 10), beginnend bei der Ebene der Buchstabensegmente (Primus 2004; 2006) als niedrigster Ebene und der Ebene des lexikalischen Wortes (Eisenberg 2020a, S. 18) als höchster Betrachtungsebene.

In ihrer Ausrichtung nimmt die vorliegende Arbeit damit die in der deutschsprachigen Leseforschung eher unterrepräsentierte sprachwissenschaftlich/sprachdidaktische Perspektive auf das Lesen ein (dazu z. B. Rautenberg/Reißig 2015). In dieser wird das Lesen (auch) als Verarbeitung der vorgefundenen schriftsprachlichen Merkmalsausprägungen im Wort-Erkennen (z. B. Gailberger 2013) verstanden, während die Verknüpfung mit lexikalisch-semantischen (inhaltlichen) Konzepten im Wort-Verstehen den zweiten notwendigen Baustein bildet. Durch ihren gegenwärtig geringen Repräsentationsgrad stehen einer sprachdidaktischen Perspektive lediglich eine überschaubare Anzahl an Theoriegrundlagen zur Verfügung (v. a. Bangel 2018b; Bangel/Müller 2015). Dies führt dazu, dass an zahlreichen Stellen konzeptionelle Grundlagenarbeit verrichtet werden muss. Vor diesem Hintergrund sind die Ausführungen dieser Arbeit als exemplarisch zu betrachten: Sie demonstrieren ein mögliches Vorgehen bis zur Ebene der lexikalischen Wörter als vorläufig höchster betrachteter Ebene. Die Arbeit erhebt damit keinesfalls den Anspruch, eine allumfassende Beschreibung des Lesens aus sprachdidaktischer Perspektive liefern zu können und noch viel weniger ein allumfassendes Verfahren der Lesediagnostik auf dieser Grundlage.

1.3 Aufbau der Arbeit

Um das angestrebte Vorhaben zu erreichen, gliedert sich die vorliegende Arbeit in sechs Abschnitte: Das sich der Einleitung anschließende Kapitel (►2) liefert eine Einführung in die Grundlagen der Lesediagnostik. Nach einer Erläuterung der grundsätzlichen Gütekriterien, die jegliche Verfahren der Diagnostik aufweisen sollten, werden eine Reihe spezifischer Verfahren im Bereich Lesen vorgestellt. Der Schwerpunkt liegt dabei auf standardisierten und schulisch verbreiteten Instrumente wie dem Salzburger Lese-Screening 2–9 (Wimmer/Mayringer 2014), dem ELFE II Verständnistest (Lenhard et al. 2018) oder dem Zürcher Lesetest (Petermann/Daseking 2019). In einer kritischen Betrachtung der Verfahren im Anschluss an die jeweiligen Vorstellungen werden die (oben) aufgeführten Limitationen herausgearbeitet. Auf dieser Grundlage leitet sich das Vorhaben der vorliegenden Arbeit ab, eine eigene Diagnostik zu entwickeln, die die wahrgenommenen Limitationen in den diagnostischen Möglichkeiten der etablierten Verfahren überwindet.

Im zweiten Kapitel (►3) beginnt die Entwicklung eines eigenen Diagnostikinstruments zunächst hinsichtlich des Designs. Vorgestellt wird hierzu die Arbeit mit Pseudowörtern, die sich bereits in unterschiedlichen Settings als funktionales Werkzeug etabliert hat, um eine Diagnostik weitgehend unabhängig von den kulturellen und sprachlichen Vorerfahrungen der Teilnehmenden vornehmen zu können. Die Verwendung von Pseudowörtern setzt jedoch zugleich spezifische Aufgabenkontexte voraus, bei welchen sich vor allem der Einsatz von same- different-judgment-Aufgaben (Kinoshita et al. 2018; Krueger 1973a; Watanabe 1988) als funktional für das Design erweisen. Ein Setting mit same-different-judgments stellt wiederum spezifische Anforderungen an die Situation der (Lese-)Diagnostik, die in einem papierbasierten Format kaum zu erfüllen sind. Alternativ sind jedoch digitale Kontexte vorstellbar.

Das dritte Kapitel (►4) bildet den Kern der vorliegenden Arbeit und beschreibt die Entwicklung von sprachsystematischen Leseitems für die erdachte digitale Diagnostik. Das Kapitel gliedert sich hierzu in drei Abschnitte, in denen das Lesen zuerst auf Ebene der Buchstaben und Grapheme (►4.1), auf Ebene der graphematischen Silbe und des graphematischen Fußes (►4.2) und schließlich auf Ebene des graphematischen, morphologischen und lexikalischen Wortes (►4.3) betrachtet wird. Jede Betrachtung erfolgt dabei in einem Vierschritt: Zunächst werden für die Beschreibung des Systems der deutschen (Schrift-)Sprache relevante Einheiten und Zugriffsgrößen aus der Sprachwissenschaft und ihren Teildisziplinen zusammengetragen (Inventarisierung) und dann gemäß dem Grundverständnis dieser Arbeit in eine hierarchisch-gedachte Ebenenstruktur überführt (Hierarchisierung). Anschließend werden, orientiert am Prozess-Verständnis nach Langacker (2001), kognitive (Teil-)Prozesse des Lesens im Übergang der angesetzten Verarbeitungsebenen modelliert (Prozessmodellierung). Zuletzt wird orientiert an Erkenntnissen der sprachwissenschaftlichen wie auch kognitionspsychologischen (empirischen) Forschung hergeleitet, bei welchen Merkmalsausprägungen auf einer spezifischen Verarbeitungsebene die (Teil-)Prozesse, die zu dieser Ebene hin oder von dieser wegführen, als prozessförderlich (=leicht) oder prozesshinderlich (=schwer) gelten können. Dies stellt die Basis für die finale Leseitem-Entwicklung dar.

Die Entwicklung eines Verfahrens zur Lesediagnostik durchläuft üblicherweise mehrere Phasen, bei denen auf die Konzeption des Verfahrens zunächst eine Pilotierung, dann eine empirische Evaluation und schließlich die Normierung des Item-Materials folgt (Geisinger 2010; Lienert/Raatz 1998). Nach dem Abschluss der Konzeption am Ende des dritten Kapitels beschriebt das vierte Kapitel (►5) deshalb eine erste Pilotierung des entstandenen Instruments. Möglich wurde dies durch eine Kooperation mit dem drittmittelgeförderten Projekt Leseband_NRW der Bergischen Universität Wuppertal, in dessen Rahmen das entwickelte Verfahren zur Lesediagnostik an einer Vielzahl von Grundschulen in Nordrhein-Westfalen erstmalig erprobt werden konnte. Ziel dieser Pilotierung ist, das Verhalten der konzipierten Leseitems in tatsächlichen Anwendungssituationen studieren zu können. Insbesondere in den Blick genommen wird dabei, inwieweit Unterschiede in den Antwortrichtigkeiten und den erfassten Lese- und Bearbeitungszeiten zwischen einzelnen Leseitems eine Passung zu den konzeptionellen Überlegungen der Item-Entwicklung zeigen. Betrachtet wird dies auf globaler Ebene mit sämtlichen untersuchten Lernenden (►5.1), auf Ebene unterschiedlicher Klassenstufen (►5.2) und bei Lernenden von Schulen mit unterschiedlichem Schulsozialindex (►5.3).

Da (Lese-)Diagnostik vor allem dann Effektivität entwickelt, wenn sie in passgenaue Fördermaßnahmen mündet, bietet das fünfte Kapitel (►6) einen ersten Ausblick, in welchem Verhältnis mögliche Diagnosen durch das entwickelte Verfahren mit Lesefördermaßnahmen stehen. Hierzu werden unterschiedliche Lesefördermaßnahmen an der im dritten Kapitel entstandenen hierarchischen Modellierung des Lesens ausgerichtet. Dabei zeigt sich, dass einerseits bedingt durch die sprachdidaktische Ausrichtung und andererseits durch den Detailgrad der Modellierung nur wenige bestehende Förderverfahren herangezogen werden können. Zukünftig besteht also eventuell auch die Notwendigkeit, spezifischere Lesefördermaßnahmen zu entwickeln, die auf Ebenen unterhalb des Wortes abzielen.

Das Abschlusskapitel (►7) blickt auf die Arbeit, das entwickelte Instrument zur Lesediagnostik und die Erkenntnisse der Pilotierung zurück und leitet daraus Ansatzpunkte für Überarbeitungen und Erweiterungen und auch weiterführende lesedidaktische Implikationen ab. Vor allem wird der Zugewinn einer linguistischen Perspektive für eine umfassende Betrachtung des Lesens resümierend festgestellt.

2. Ausgangssituation: Lesediagnostik

Der Begriff Lesediagnostik verfügt über eine weite und eine enge Definition. In seiner weiten Form bezeichnet er unterschiedlichste Verfahren, Ansätze und konkrete Instrumente, mit denen in unterschiedlichen fachlichen und institutionellen Kontexten eine lernprozessbegleitende oder bilanzierende Aussage über die Lesestände, -fortschritte oder -probleme von Individuen oder Gruppen von Individuen getroffen werden (vgl. z. B. Schmidt 2018, S. 92; Ingenkamp/Lissmann 2008). Das Spektrum reicht hier von den standardisierten und informellen Verfahren wie dem Salzburger Lese-Screening (Wimmer/Mayringer 2014), dem ELFE II Leseverständnistest (Lenhard et al. 2018) oder dem Durchführen von Lautleseprotokollen (Rosebrock et al. 2017, S. 83–84) in der Primarstufe und Sekundarstufe I über Verfahren, die für den Einsatz an Berufsschulen erdacht wurden (z. B. der Baukasten Lesediagnose (Efing 2006)), bis hin zu solchen Verfahren, die in der klinischen Psychologie oder der medizinischen Forschung verbreitet sind (Galuschka/Schulte-Körne 2016). Zum Spektrum gehören die sogenannten Pen-and-Paper-Tests, bei denen Leseaufgaben mit einem Stift auf einem Papiertestbogen bearbeitet werden, und computergestützte Verfahren, bei denen entweder mit Maus und Tastatur oder einer Touch-Screen-Eingabe gearbeitet werden kann. Zum Dritten finden sich sowohl als punktuelle Diagnostik erdachte Verfahren im Spektrum wie auch lernprozessbegleitende Verfahren, etwa die Verlaufsdiagnostik sinnerfassenden Lesens (Walter 2014). Stellenweise werden sogar die Kompetenzstufen der PISA-Studie unter einem weiteren Blick mitbetrachtet (Lenhard 2019, S. 79–80).

Abhängig davon, welches Verfahren aus dem Spektrum herausgegriffen wird, stehen unterschiedliche Aspekte oder Teilbereiche des Lesens im Fokus der Diagnostik. Ein direkter Vergleich der Instrumente und Verfahren und den mit ihnen gestellten Diagnosen ist damit z. T. nicht immer möglich. Bei der Durchführung eines Lautleseprotokolls etwa steht die Ermittlung der Leseflüssigkeit im Zentrum (Rosebrock et al. 2017). Hierzu lesen Teilnehmende einen vorgegebenen Text laut vor, während die Beobachtenden korrekt gelesene Wörter auf einem Protokollbogen markieren, Lesefehler notieren und die Zeit stoppen. Wird demgegenüber etwa das standardisierte Salzburger Lese-Screening 2–9 (kurz: SLS 2–9) durchgeführt, bei dem die Lesenlernenden in drei Minuten eine maximale Anzahl von einfachen Sätzen als ‚richtig‘ oder ‚falsch‘ markieren, geht es um die Erfassung der „basalen Lesefertigkeit“ (Wimmer/Mayringer 2014, S. 11). In welchem Verhältnis nun Leseflüssigkeit und basale Lesefertigkeit zueinanderstehen, ist nicht exakt zu bestimmen, auch da beide Konzepte abweichende Auffassungen vom Lesen zugrunde legen.

In einer engen Auslegung lässt sich der Versuch beobachten, den Begriff der Lesediagnostik dem Begriff des Lese-Screenings als Kontrast gegenüberzustellen (Lenhard 2019; Marci-Boehncke o. J.). Zumeist werden für diese Unterscheidung rahmende Faktoren wie der Testumfang, der Differenzierungsgrad oder Facettenreichtum der Ergebnisse und vor allem die Testdauer herangezogen. So werden Verfahren wie der ELFE II oder der Hamburger Lesetest (HAMLET) (Lehmann et al. 2006) i.d.R. als Diagnostikverfahren bezeichnet und von Screenings wie dem SLS 2–9 oder dem Stolperwörter Lesetest (STOLLE) (Metze 2009) abgegrenzt. Die Grenze scheint jedoch sowohl fließend als auch relational zu sein: So ließe sich durchaus ein (noch) umfangreicheres Verfahren erdenken, welches auch den ELFE II oder HAMLET relational zu ‚Screenings‘ machte. Gemeinsam mit der Beobachtung, dass Lesediagnostik durchaus ein Wirtschaftsfaktor2 ist, führt dies auch zu der Vermutung, dass Begriffsunterscheidungen wie ‚Lesetest‘, ‚Lese-Screening‘ und eben ‚Lesediagnostikverfahren‘ eventuell Marketingbezeichnungen der Verlagshäuser sein könnten und eine davon losgelöste, systematische Gattungsbildung nicht möglich ist. Im weiteren Verlauf der Arbeit wird so explizit nicht der Versuch unternommen, diese Begriffe zu konturieren und voneinander abzugrenzen. Wird fortan von Lesediagnostik oder Verfahren zur Lesediagnostik gesprochen, schließt dies alle denkbaren Varianten (auch ‚Screenings‘) aller Medienformate und für alle Altersgruppen mit ein.

Unabhängig davon, welche Begriffsauffassung von Lesediagnostik zugrunde gelegt wird, ist es ein Feld mit großer Relevanz, sowohl im schulischen Kontext wie auch in der empirischen (fachdidaktischen) Forschung: Schulisch (nicht nur für den Deutschunterricht, sondern darüber hinaus) ist eine umfassende Lesediagnose eine Voraussetzung und der Ausgangspunkt für eine systematische Leseförderung (Gailberger et al. 2021). Lenhard fasst zusammen:

Um Lehr-Lern-Prozesse aktiv gestalten zu können, benötigen Lehrkräfte zum einen Informationen über den Stand der Schülerinnen und Schüler, um abgestimmte Angebote machen zu können. Zum anderen müssen sie wissen, ob ihre Bemühungen den gewünschten Erfolg haben (Lenhard 2019, S. 67).

Dies gilt im Feld der Leseförderungen in besonderem Maße: Wie Lehrkräfte berichten, ist die tägliche Zeit, die für die Leseförderung zur Verfügung steht, i.d.R. begrenzt,3 sodass es nötig wird, die wenige verfügbare Zeit maximal zu nutzen und Leseförderung zu betreiben, die an denen Stellen ansetzt, an denen Lesenlernende noch ‚Schwächen‘ haben – eben systematisch (vgl. Gailberger 2013). Dies setzt jedoch eine Kenntnis über Lesestärken und -schwächen der Lesenlernenden voraus. Verfahren zur Lesediagnostik werden dann mit der Zielperspektive herangezogen, diese notwendigen Einblicke in Lesestände ökonomisch zu ermöglichen.

In der empirischen Leseforschung kommen Verfahren der Lesediagnostik unterschiedliche Rollen zu, die sie zum ‚Rückgrat‘ der Forschungsberichte zahlreicher Projekte im nationalen wie internationalen Raum machen. Sie werden eingesetzt, i) um den Erfolg/Ertrag von Lesefördermaßnahmen nachzuweisen, ii) um Teilpopulationen von Teilnehmenden zu bilden/sortieren oder iii) als Ausgangspunkt für noch weitere detaillierte Aussagen zum Lesestand (Belgrad et al. 2010; Gailberger et al. 2021; Lauer-Schmaltz et al. 2014). In zahlreichen empirischen Designs wird mit Hilfe eines Diagnostikverfahrens zu einem ersten Zeitpunkt (t1) der Lesestand sämtlicher Projektteilnehmenden ermittelt, dann in einer Treatment-Gruppe eine Lesefördermaßnahme durchgeführt, während eine Vergleichsgruppe nicht gefördert wird und schließlich zu einem späteren Zeitpunkt (t2) erneut auf (dasselbe) Lesediagnostikinstrument zurückgegriffen. Die Lesefördermaßnahme gilt dann als effektiv, wenn die Treatment-Gruppe vom Testzeitpunkt t1 hin zu t2 einen signifikant größeren Zuwachs im Lesestand (zumeist: in den erfassten Punktwerten im eingesetzten Instrument) erzielt als eine nicht geförderte Kontrollgruppe.4 Exemplarisch lässt sich in der deutschen Übersetzung des einflussreichen anglo-amerikanischen Programms Reading for Understanding (Schoenbach et al. 1999) lesen:

In nur sieben Monaten […] verbesserte eine heterogen zusammengesetzte Gruppe von Schülern einer 9. Klasse – die gesamte Eingangsstufe an der Thurgood Marshall Academic High School in San Francisco – ihr Leseverstehen um einen Leistungssprung von durchschnittlich zwei Jahren. Dies ergab ein landesweit verwendeter normierter standardisierter Lesetest (Schoenbach et al. 2007, S. 59).

In beiden Einsatzkontexten – sowohl bei der schulischen Leseförderung als auch im Kontext der lesedidaktischen Forschung – wird relevant, dass zum Ersten ein jeweils passendes Diagnostikverfahren auszuwählen ist und zum Zweiten, dass dieses Diagnostikverfahren den jeweiligen Fokuspunkt dann funktional und zuverlässig zu erfassen vermag: Zielt eine Intervention beispielsweise darauf ab, das Wortlesen zu fördern, sollte eine solche Diagnostik zur Überprüfung der Wirksamkeit zum Einsatz gebracht werden, die a) Wortlesen in seinem Fokus hat und b) dieses ökonomisch und weitgehend unabhängig von weiteren störenden Einflussfaktoren erfasst. Während der erste Punkt bereits hinlänglich in der lesedidaktischen Fachliteratur betrachtet ist (Bertschi-Kaufmann/Graber 2021, Groeben/Hurrelmann 2009; Lenhard 2019), scheint eine Diskussion und Reflexion des zweiten Punktes vorrangig im Diskurs der Sprachdidaktik stattzufinden. Hier sind es beispielsweise Zepnik (2016) oder Esslinger (2015), die (z. T. vorsichtige) Kritik vor allem am Item-Material etablierter Diagnostikverfahren üben.

Im weiteren Verlauf dieses Kapitels werden nach einer Einführung in die Grundlagen, die für jedes Diagnostikverfahren gelten, unterschiedliche Verfahren vorgestellt. Die dargebotene Auswahl erhebt dabei keinerlei Anspruch auf Vollständigkeit. Ausgewählt wurden vor allem sowohl im Schulkontext als auch im Kontext der lesedidaktischen Forschung verbreitete und etablierte Verfahren. Erläutert werden soll die Funktionsweise der Verfahren, welche Aspekte des Lesens dabei in den Fokus der Diagnostik geraten und auf welches Konzept von Lesen dies schließen lässt. Abschließend werden – mit Blick auf die zuvor angedeuteten Limitationen – die Grenzen eines jeden Verfahrens beleuchtet. Hierbei wird sich zeigen, dass die durchaus unterschiedlichen (vor allem standardisierte) Verfahren aus einer sprachdidaktischen Perspektive doch ähnliche Limitationen in ihren diagnostischen Möglichkeiten aufzuweisen scheinen. Im Zentrum der Analyse steht dann vor allem die sprachsystematische Gestaltung des Item-Materials. So besteht im vermeintlich dichten Feld der Lesediagnostik (dennoch) ein klares Desiderat für ein sprachsystematisches Verfahren zur Lesediagnostik, dem sich die vorliegende Arbeit annehmen möchte.

2.1 Grundlagen der Lesediagnostik

Unabhängig von der Domäne der Diagnostik (Lesen, Schreiben, Sprechen, Hören) und unabhängig vom Verfahren, das hierzu eingesetzt wird, müssen alle Instrumente eine Reihe von Gütekriterien erfüllen. Daneben ist zu klären, auf welche Bezugsnormen die mit dem Verfahren oder Instrument erfassten Ergebnisse verweisen: Festzulegen ist, wann ein Ergebnis als ‚stark‘ oder als ‚schwach‘ einzustufen ist und vor welchem Hintergrund bzw. auf welcher Grundlage diese Einstufung vorgenommen wird. Zum Dritten verfügen Diagnostikverfahren domänenunabhängig über eine mediale Erscheinungsform, die es im Setting der Diagnostik zu beachten und zu reflektieren gilt.

2.1.1 Gütekriterien

Die Gütekriterien liefern eine Einschätzung, wie genau und wie zuverlässig ein spezifisches Diagnostik- oder Messverfahren funktioniert. Zu diesen Gütekriterien zählen im wissenschaftlichen Konsens die Validität, die Reliabilität und die Objektivität der Messung sowie – mit Blick auf die Items – eine Evaluation der Trennschärfe der einzelnen Items (oder Item-Gruppen) zueinander (Lindauer/Schneider 2016; Lienert/Raatz 1998).

Validität

Die Validität eines Mess- oder Diagnostikverfahrens gibt an, ob das Verfahren oder das Instrument tatsächlich das erfasst, was es zu erfassen vorgibt bzw. für den angedachten Zweck geeignet scheint (Lienert/Raatz 1998, S. 10–11). Die Standards der American Psychological Association (APA) definieren hier:

Validity refers to the degree to which evidence and theory suppert the interpretations of test scores for proposed uses of tests (American Psychological Association 2014, S. 11).

Stets möglich ist, dass ein Faktor A in den Fokus der Diagnostik gestellt werden soll, bei der Durchführung dann jedoch die Ausprägungen eines weiteren Faktors B die Datenerfassung mit-beeinflussen und so verfälschen. Ein denkbares Beispiel sind Textaufgaben im Fach Mathematik: Hier kann es vorkommen, dass Lernende an diesen scheitern und ihnen deshalb (vorschnell) mangelnde Fertigkeiten und Fähigkeiten im mathematischen Bereich attestiert werden, sich dann aber herausstellt, dass die Lernenden eher beim Lesen der (zu) anspruchsvollen Aufgabentexte scheiterten (Wilhelm 2016, S. 298–302; Stephany 2017). Somit geben einige Textaufgaben zwar vor, mathematische Aspekte zu messen, erfassen aber schlussendlich ebenso Aspekte des Lesens mit und sind in dieser Hinsicht nicht vollständig valide.

Überprüfbar wird die Validität eines Diagnostikverfahrens zum Beispiel durch den parallelen Einsatz eines zweiten Instruments mit ähnlichem Schwerpunkt. Soll etwa überprüft werden, ob eine Reihe von Items das Wortlesen valide erfassen kann, bietet es sich an, zeitgleich bei denselben zu diagnostizierenden Lesenden ein zweites (und validiertes) Verfahren zur Betrachtung des Wortlesens einzusetzen. Anschließend zeigt der Zusammenhang (die Korrelation) der Messwerte beider Diagnostikverfahren, inwieweit das zu überprüfende Verfahren tatsächlich das Wortlesen und nicht andere Faktoren erfasst. Die Validität des ELFE II Leseverständnistests beispielsweise wurde u. a. im Vergleich mit dem Salzburger Lese-Screening 2–9 ermittelt (Lenhard et al. 2018, S. 43).

Schneider und Lindauer schlagen vor, bei der Diagnostik im Kontext der Schule neben der hier bisher beschriebenen Inhaltsvalidität auch eine ökologische Validität und curriculare Validität anzusetzen (Lindauer/Schneider 2016, S. 141). Unter ökologischer Validität kann hierbei verstanden werden, inwieweit ein Setting eine tatsächliche Nähe zu Alltagssituationen hat und damit die in der Diagnostik betrachteten Aspekte eine Realität auch außerhalb der betrachteten Situation haben.5 Mit curricularer Validität kann andererseits gefasst werden, inwieweit die Aspekte im Fokus der Diagnostik auch im Lehrplan/Curriculum des Landes oder der spezifischen Schule verankert sind.

Im speziellen Fall der Lesediagnostik geht mit dem Herstellen von Validität insgesamt ein besonders hoher Anforderungsgrad einher: Folgt man etablierten Modellierungen des Lesens, wie dem Mehrebenenmodell (Rosebrock/Nix 2020), ist Lesen grundsätzlich ein vielschichtiges Phänomen, bei dem sich qua definitionem zahlreiche Faktoren und Ebenen gegenseitig beeinflussen. Wird exemplarisch der Fokus auf die Leseflüssigkeit gelegt, so gilt hier:

Leseflüssigkeit umfasst nach übereinstimmender Ansicht vieler Wissenschaftler ganz unterschiedliche Dimensionen, die aber allesamt eng miteinander zusammenhängen. Die folgenden Komponenten gelten als die wichtigsten: die Lesegenauigkeit und der Automatisierungsgrad des Dekodierens auf Wortebene; die Lesegeschwindigkeit und die prosodische Segmentierfähigkeit auf Satzebene (Rosebrock et al. 2017, S. 16).

Ein Verfahren der Lesediagnostik zu entwerfen, das nur eine Komponente, z. B. Lesegeschwindigkeit, herausgreift und diese mit hoher Validität erfasst, stellt damit hohe Anforderungen an die Konzeption des potenziellen Verfahrens.

Reliabilität

Die Reliabilität eines Mess- oder Diagnostikinstruments bezeichnet, wie gut das Verfahren den zu erfassenden Faktor tatsächlich misst und wie zuverlässig diese Werte z. B. wiederholbar sind (Lienert/Raatz 1998, S. 9–10). In anderen Formulierungen ist zu lesen, Reliabilität sei das Maß, in welchem „ein Testergebnis nicht vom reinen Zufall abhängt“ (Livingston 2018, S. 6). Angegeben wird die Reliabilität über den Reliabilitätskoeffizienten, der Werte zwischen 0 und 1 annimmt, wobei 1 anzeigt, dass eine maximal hohe Reliabilität vorliegt, und 0, dass das Ergebnis zufällig ist (Gäde et al. 2020, S. 330–331).

Der Unterschied zur Validität ist wie folgt zu erklären: Während die Validität angibt, ob bei einem Vergleich des Gewichts von zwei Äpfeln wirklich das Gewicht beider Äpfel gemessen wurde und nicht etwa der Durchmesser und die Höhe beider Äpfel verglichen wurden, sagt die Reliabilität aus, wie genau die Messung ist. Sollten die Äpfel mehrfach verglichen werden, sollte die Gewichtsdifferenz stets gleichbleiben und keine großen Schwankungen zeigen. Auf die Domäne des Lesens bezogen, bedeutet dies, dass wenn Lesenlernende an einem Tag durch ein Diagnostikverfahren auf einer gewissen Weise eingestuft wurden, sich diese Einstufung nicht verändern dürfte, wenn dieselben Lesenlernenden unmittelbar – ohne dass eine Leseförderung stattgefunden hat – erneut mit dem Instrument betrachtet werden.

Um die Reliabilität eines Verfahrens oder Instruments zu überprüfen, werden in der empirischen Forschung unterschiedliche Vorgehensweisen praktiziert, darunter die Test-Retest-Reliabilität, die Split-Half-Reliabilität und die Paralleltest- Reliabilität (Gäde et al. 2020, S. 322).

Die Test-Retest-Reliabilität bezeichnet den oben bereits angedeuteten Fall, dass eine Messung unter identischen Bedingungen erneut durchgeführt wird. Die Ergebnisse des wiederholten Durchlaufs sollten dann einen hohen Zusammenhang (Korrelation) zu den Ergebnissen des initialen Durchgangs aufweisen. Hierbei ist jedoch die geltende Grundannahme, dass sich die Teilnehmenden hinsichtlich ihrer Fähigkeiten und Fertigkeiten zwischen den Durchläufen nicht (stark) veränderten (also z. B. durch die Diagnostik selbst etwas ‚dazugelernt‘ haben), was bei einigen Diagnostikverfahren tatsächlich ein beobachtbares Problem wird (Gäde et al. 2020, S. 327)

Bei der Bestimmung der Paralleltest-Reliabilität wird zu einem existenten Diagnostikverfahren eine Parallelform entwickelt, die einen identischen Fokus hat (z. B. ein Testbogen mit ähnlichen, aber nicht identischen Items). Dann werden beide parallelen Formen mit denselben Teilnehmenden durchgeführt und die Korrelation zwischen den beiden Parallelformen ermittelt. In strengeren Auslegungen von Testtheorien ist zu lesen, dass eine Paralleltest-Reliabilität gar nicht existieren kann, da jede neue, auch parallele Form zu einem Instrument eigentlich ein genuin eigenes Instrument mit eigener Reliabilität ist. Hier muss oder müsste erst durch einen Abgleich der Mittelwerte, Mittelwertabweichungen und Messfehler ‚bewiesen‘ werden, dass die parallele Form eine annähernd identische ist, bevor eine Paralleltest-Reliabilität überhaupt in Betracht gezogen werden kann (Gäde et al. 2020, S. 328).

In der allgemeinen Testtheorie wird zudem davon ausgegangen, dass das Herstellen einer Parallelform zu einem existenten Instrument in hohem Maß aufwendig und deshalb kaum praktizierbar ist. In ausgewählten Instrumenten zur Lesediagnostik ist ein solches Paralleltest-Verfahren gewissermaßen Teil der Konstruktion, indem z. B. wie beim Salzburger Lese-Screening bereits zwei ähnliche Testbögen A/B mit unterschiedlichem Item-Material bereitgestellt werden.

An zahlreichen anderen Stellen ist das Herstellen einer Parallelform zu einem Diagnostikinstrument jedoch kaum möglich und es existiert auch keine konzipierte B-Form des Instruments (so z. B. beim ELFE II Leseverständnistest). In solchen Fällen kann eine Split-Half-Reliabilität die Grundlage der Reliabilitätsbestimmung werden. Hierzu wird das Ausgangsmaterial halbiert, eine gängige Aufteilung ist hier das Odd-Even-Verfahren, bei dem alle Items mit geraden Item- Nummern und alle Items mit ungeraden Item-Nummern so behandelt werden, als wären sie ein separates Instrument. Dann wird ermittelt, wie die Ergebnisse bzw. Diagnosen ausfallen würden, wenn nur die ‚geraden‘ oder nur die ‚ungeraden‘ Items zum Einsatz gekommen wären und erneut die Korrelation zwischen beiden virtuellen Durchgängen berechnet. Zu beachten ist hierbei jedoch, dass die Halbierung der Items automatisch zu zwei deutlich kürzeren Durchläufen der Diagnostik führt und dies ebenso einen (großen) Einfluss auf die Reliabilität haben kann: In der allgemeinen Testtheorie gilt die Annahme, dass längere/umfangreichere Item-Bögen eine höhere Reliabilität erzielen als kürzere. Somit muss die Split-Half-Reliabilität in ihren Werten an einigen Stellen virtuell (auf einen längeren Umfang) ‚aufgewertet‘ werden (Gäde et al. 2020, S. 324).

Objektivität

Objektivität sagt aus, dass das Ergebnis eines Verfahrens unabhängig von den äußeren Bedingungen ist, unter denen die Diagnostik durchgeführt wurde (Lindauer/Schneider 2016, S. 142). Gemäß einer gängigen Definition der Objektivität gilt:

Ein Test ist dann objektiv, wenn das ganze Verfahren, bestehend aus Testmaterialien, Testdarbietung, Testauswertung und Interpretationsregeln, so genau festgelegt ist, dass der Test unabhängig von Ort, Zeit, Testleiter und Auswerter durchgeführt werden könnte und für eine bestimmte Testperson bezüglich des untersuchten Merkmals dennoch dasselbe Ergebnis und dieselbe Ergebnisinterpretation liefert (Moosbrugger/Kelava 2020, S. 18).

Unterschieden werden können damit eine Durchführungsobjektivität, eine Auswertungsobjektivität und eine Interpretationsobjektivität. Die Durchführungsobjektivität bezeichnet, dass das Ergebnis weitgehend unabhängig von den durchführenden Personen ist. Wird ein Kind im Lesen diagnostiziert, dann ist das Verfahren dann durchführungsobjektiv, wenn keine Rolle spielt, ob die Klassenlehrkraft oder eine andere (Lehr-)Person den Erhebungsdurchgang leitet.

Formelle, standardisierte Verfahren der Diagnostik zeichnen sich dadurch aus, dass ihnen ein z. T. umfangreiches Manual mit expliziten Anweisungen für die Durchführung beiliegt, mit dem Ziel, so eine maximale Durchführungsobjektivität zu erreichen. Im Manual des Salzburger Lese-Screenings etwa ist nicht nur explizit niedergeschrieben, was bei der Anwendung gesprochen werden soll, sondern ebenso – in Form kleiner ‚Regieanweisungen‘ – welche Tätigkeiten dabei zu vollziehen sind:

»Genau, wieder den Haken! Und was habt ihr beim letzten Satz (‚Kirschen können sprechen.‘) eingeringelt?«

(Die Schüler antworten lassen.)

»Richtig, das Kreuz! Haben das alle richtig gemacht? Es kann sein, dass ihr einmal aus Versehen das falsche Zeichen einringelt. Wenn das passiert, übermalt bitte dieses Zeichen und ringelt das richtige ein. Nehmt keinen Radiergummi oder Tintenkiller, weil das viel zu lange dauert.«

(An der Tafel demonstrieren.) (Wimmer/Mayringer 2014, S. 32).

Eine Auswertungsobjektivität liegt vor, wenn die Ergebnisse bzw. Diagnosen unabhängig davon sind, welche Person die Auswertung übernommen hat. Die Aussage, wie viele Leseitems ein Kind z. B. ‚richtig/erwartungsgemäß‘ bearbeitet hat, sollte nicht davon abhängen, welche Person einen Testbogen auswertet, beispielsweise weil eine zweite Person andere Antworten noch als ‚erwartungsgemäß‘ einstuft als eine erste. Bei zahlreichen standardisierten Verfahren der Lesediagnostik wird versucht, eine maximale Auswertungsobjektivität durch das Mitliefern von Auswertungsschablonen zu gewährleisten, sodass allein durch ein Anlegen der Korrekturschablonen angemessene und nicht-angemessene Antworten identifiziert und summiert werden können.

Bei informellen Verfahren der Lesediagnostik ist die Aufrechterhaltung (hoher) Auswertungsobjektivität um ein Vielfaches anforderungsreicher, da hier zumeist die individuelle und per se subjektive Beobachtung Grundlage der Auswertung wird. An vielen Stellen kommen deshalb detaillierte Beobachtungsbögen, wie z. B. der Bogen zur Notation der Intonationsfähigkeit beim Lesen nach Pinnell et al. (1995), zum Einsatz. Dass Einschätzungen von Lehrkräften, die ohne Kriterienraster getroffen werden, einer großen Streuung unterliegen können und damit geringe Auswertungsobjektivität aufweisen, konnten schon Birkel und Birkel (2002) bei der Beurteilung von Klassenarbeiten zeigen.6

Die Interpretationsobjektivität sagt aus, dass die aus den Auswertungen der Ergebnisse gezogenen Schlussfolgerungen ebenso unabhängig davon sein sollten, welche Person diese zieht (Moosbrugger/Kelava 2020, S. 21). Zahlreiche standardisierte Diagnostikverfahren formulieren klare Regeln, wie die Ergebniswerte zu deuten sind. Zumeist kommen hierzu Normtabellen zum Einsatz, die z. B. aufzeigen, wie ein spezifischer Ergebnis-Rohwert bei Lernenden einer Klassenstufe zu interpretieren ist.

Trennschärfe

Wenn (v. a.) bei standardisierten Verfahren der (Lese-)Diagnostik intendiert ist, mit unterschiedlichen Items jeweils unterschiedliche Aspekte in den Fokus zu rücken, so muss sichergestellt werden, dass die unterschiedlichen Items tatsächlich auch Unterschiedliches erfassen. Moosbrugger und Kelavar definieren:

Die Trennschärfe eines Items gibt in der deskriptivstatistischen Itemanalyse an, wie stark die mit dem jeweiligen Item erzielte Differenzierung zwischen den Testpersonen mit der Differenzierung durch den Gesamttest übereinstimmt (Moosbrugger/Kelava 2020, S. 749).

Eine hohe Trennschärfe kann v. a. durch eine hohe Varianz an Items erzeugt werden (also durch möglichst stark unterschiedliche Items), wobei hier kein Automatismus greift: Auch Itembögen mit hoher Item-Varianz können empirisch eine geringe Trennschärfe hervorrufen. Der Trennschärfe-Index rit kann hierbei Werte zwischen 1 (=das Item wird vorrangig von Teilnehmenden mit ‚guten‘ Gesamtwerten gelöst, es unterscheidet sich kaum von anderen Items) und -1 (=das Item wird vorrangig von Teilnehmenden mit ‚schlechten Gesamtwerten‘ gelöst, die Trennschärfe ist positiv, doch sollte das Item ggf. reflektiert werden) annehmen. Werte zwischen .4 und .7 werden als anzustrebende Trennschärfen angesehen.

2.1.2 Bezugsnormen

Lesende mit Rückgriff auf ein Diagnostikverfahren als ‚stärker‘ oder ‚schwächer‘ (hinsichtlich der betrachteten (Teil-)Aspekte des Lesens) einzustufen, setzt stets die Existenz einer Referenzgröße voraus: Lesende sind ‚stark‘/‚stärker‘ oder ‚schwach‘/‚schwächer‘ im Vergleich zu X, also beispielsweise zu anderen Lesenden derselben Schulklasse, derselben Klassenstufe, derselben Schulform etc. Nach Heckhausen (1974) können drei Vergleichs- oder Bezugsnormen unterschieden werden: die individuelle Bezugsnorm, die soziale Bezugsnorm und die kriteriale Bezugsnorm (ebenso: Dickhäuser/Rheinberg 2003).

Bei der individuellen Bezugsnorm werden Ergebnisse, die bei demselben Teilnehmenden zu einem vorherigen Zeitpunkt ermittelt wurden, als Vergleichsgröße herangezogen. Erzielt die teilnehmende Person beim zweiten (oder n-ten) Messdurchlauf eine Verbesserung im Ergebniswert, gilt dies als eine ‚starke‘ (Lese-) Leistung, unabhängig davon, ob die (Lese-)Leistung nun z. B. dem durchschnittlichen Wert der Klassen- oder Jahrgangsstufe entspricht oder nicht (Dickhäuser/Rheinberg 2003, S. 42). Insbesondere im Kontext der (Schul-)Notengebung kann die individuelle Bezugsnorm dann beinahe eine pädagogische Bezugsnorm werden, wenn etwa Klassenarbeiten von Kindern, die eigentlich ‚sehr schwach‘ einzustufen wären, doch eine bessere Zensur erhalten, da das Kind über den individuell gestellten Erwartungen abschneidet und/oder sich ‚besonders angestrengt‘ hat. Im Kontext der Leseförderung ist das Anwenden einer individuellen Bezugsnorm notwendig, um Fortschritte im Leseerwerb der Lesenlernenden nachzuweisen. In der Konzeption standardisierter Diagnostikverfahren ist jedoch eher eine soziale Bezugsnorm vorzufinden.

Für die soziale Bezugsnorm werden die Ergebnisse von Teilnehmenden mit den Ergebnissen einer zuvor vordefinierten Gruppe (z. B. der Klasse, der Klassenstufe) verglichen. Bei etablierten Verfahren der Lesediagnostik ist üblich, die Lesenlernenden derselben Klassenstufe als Norm heranzuziehen. So verfügen sowohl das Salzburger Lese-Screening, der ELFE II Leseverständnistest oder der Stolperwörter Lesetest in ihren Manualen über Normtabellen für die Klassenstufen der Grundschule und z. T. auch für die der Sekundarstufe I. Diese Normtabellen sind das Ergebnis z. T. umfangreicher Normierungsstudien, wie sie z. B. Gartner (2010) für das Salzburger Lese-Screening 2–9 verantwortete.7 Die Grundannahme der Datenerhebung für die Normierung ist dabei, dass die Ergebniswerte bei ausreichend großer Zahl an Teilnehmenden normalverteilt sind. Auf dieser Datengrundlage lässt sich ein (z. B. klassenstufenspezifischer) Mittelwert errechnen, die Varianz und daraus dann die für die Interpretation relevante Standardabweichung. So gelten Ergebniswerte von Teilnehmenden dann als ‚auffällig‘, wenn sie mehr als 1.5 Standardabweichungen (in strengen Auffassungen 2 Standardabweichungen) vom Mittelwert der Vergleichsgruppe differieren (Lenhard 2019, S. 77) (s. auch Abbildung 1).

Abb. 1: Normalverteilung und die daraus resultierende Zuteilung der Normwerte.
Abb. 1: Normalverteilung und die daraus resultierende Zuteilung der Normwerte.

Bei der dritten möglichen Bezugsnorm, der kriterialen oder auch sachlichen Bezugsnorm, werden die erfassten Leistungswerte nicht mit Ergebnissen derselben oder anderen Teilnehmenden verglichen, sondern mit zuvor festgelegten, definierten Kriterien (Lenhard 2019; Dickhäuser/Rheinberg 2003). Das prominenteste Beispiel einer kriterialen Bezugsnorm sind die Bildungsstandards der Kultusministerkonferenz (KMK), die die Grundlage der kompetenzorientierten Rahmenlehrpläne und Kerncurricula der Bundesländer darstellen. Gemäß dem Lehrplan des Bundeslands NRW beispielsweise gilt es am Ende der zweiten Klasse zu überprüfen, ob Kinder „häufig wiederkehrende Morpheme (u. a. ver-, vor-, nach- als Präfixe, bekannte Stamm-Morpheme) und Silben auf einen Blick [identifizieren]“ (KMK 2021, S. 23).

Details

Pages
570
Publication Year
2026
ISBN (PDF)
9783631929483
ISBN (ePUB)
9783631929490
ISBN (Hardcover)
9783631929476
DOI
10.3726/b22597
Open Access
CC-BY
Language
German
Publication date
2026 (April)
Keywords
Diagnose-Anwendungen Lesediagnoseverfahren Wortlesen Lesen aus linguistischer Perspektive Sprache als System Schriftspracherwerb Sprachdidaktik Lesedidaktik Lesediagnostik
Published
Berlin, Bruxelles, Chennai, Lausanne, New York, Oxford, 2026. 570 S., 16 farb. Abb., 111 s/w Abb., 83 Tab.
Product Safety
Peter Lang Group AG

Biographical notes

Gerrit Helm (Author)

Gerrit Helm studierte die Fächer Deutsch und Englisch für das Lehramt an Grundschulen und Gymnasien an der Carl von Ossietzky Universität Oldenburg. Im Anschluss promovierte er im Bereich der Sprachdidaktik bei Prof. Dr. Nanna Fuhrhop ebenso in Oldenburg. Aktuell arbeitet er als Postdoc an der Friedrich-Schiller-Universität in Jena.

Previous

Title: Diagnostik hierarchieniedriger Leseprozesse aus linguistischer Perspektive