Lade Inhalt...

Der C-Test: Aktuelle Tendenzen / The C-Test: Current Trends

Aktuelle Tendenzen / Current Trends

von Rüdiger Grotjahn (Band-Herausgeber)
Sammelband 365 Seiten

Inhaltsverzeichnis

  • Cover
  • Titel
  • Copyright
  • Autorenangaben
  • Über das Buch
  • Zitierfähigkeit des eBooks
  • Inhalt / Contents
  • Der C-Test: Aktuelle Tendenzen. Einleitung und Übersicht über den Band
  • 1. Einleitung
  • 2. Der vorliegende Band
  • 2.1. Allgemeiner Überblick
  • 2.2. Die einzelnen Beiträge
  • 3. Ausblick
  • Literaturverzeichnis
  • C-Tests und ‚allgemeine Sprachkompetenz‘: Theoretische Überlegungen und empirische Analysen
  • 1. Theoretische Grundlagen
  • 1.1. Allgemeine Sprachkompetenz
  • 1.2. Erwartungsgrammatik und sprachliche Redundanz
  • 1.3. Allgemeine Sprachkompetenz aus psycholinguistischer Sicht
  • 1.3.1. Darstellung in Sprachverarbeitungsmodellen
  • 1.3.2. Beobachtete Sprachproduktionsprozesse beim Sprachverstehen
  • 1.3.3. Gegenargumente
  • 1.3.4. Zusammenfassung
  • 2. Empirische Daten
  • 2.1. Forschungsfragen
  • 2.2. Forschungsmethoden
  • 2.3. Datenauswertung und Interpretation
  • 2.3.1. Ergebnisse der quantitativen Datenanalyse
  • 2.3.2. Ergebnisse der qualitativen Datenanalyse
  • 3. Diskussion und Ausblick
  • Danksagung
  • Literaturverzeichnis
  • C-test as an indicator of general language proficiency in the context of a CBT (SIMTEST)
  • 1. Introduction
  • 2. Test design and development
  • 2.1 Institutional background
  • 2.2. Design brief
  • 2.3. In-house specifications
  • 2.4. Computer-based construction, delivery and assessment
  • 3. Psychometric analysis
  • 3.1. Objectives
  • 3.2. Method
  • 3.3. Analysis
  • 3.4. Results
  • 3.4.1. General descriptive statistics
  • 3.4.2. Internal consistency
  • 3.4.3. Unidimensionality
  • 3.4.4. Concurrent evidence of validity
  • 3.4.5. Convergent evidence of validity
  • 3.4.6. Sensitivity to change
  • 3.5. Psychometric conclusions
  • 4. Feedback
  • 4.1. Initial C-Test trials (students’ feedback)
  • 4.2. Initial C-Test trials (teachers’ feedback)
  • 4.3. On-line post-exam surveys (students)
  • 4.4. On-line post-exam surveys (teachers)
  • 4.5. Interviews with students (July, 2007)
  • 4.6. C-Test survey with teachers (July, 2007)
  • 4.7. Conclusions on feedback
  • 5. Overall conclusions
  • Post script
  • Further acknowledgements
  • References
  • Do test takers with different language backgrounds take the same C-test? The effect of native language on the validity of C-tests
  • 1. Introduction
  • 2. The effect of test taker characteristics on the validity of language tests
  • 3. The Luxembourg test setting
  • 4. Measurement invariance in confirmatory factor analysis
  • 5. Research questions
  • 6. Background of the study
  • 7. Instruments
  • 8. Data collection procedure
  • 9. Participants
  • 10. Data analyses: Modeling design and procedures
  • 11. Results
  • 11.1. Descriptive statistics
  • 11.2. Results of the multi-group factor analyses
  • 11.2.1. German C-Test
  • 11.2.2. French C-test
  • 12. Summary and discussion
  • References
  • Die onDaF–TestDaF-Vergleichsstudie: Wie gut sagen Ergebnisse im onDaF Erfolg oder Misserfolg beim TestDaF vorher?
  • 1. Einleitung
  • 2. Unterschiede zwischen onDaF und TestDaF
  • 3. Untersuchungsfragen
  • 4. Methode
  • 4.1. Tests und Teilnehmer
  • 4.2. Durchführung und Auswertung
  • 5. Ergebnisse
  • 5.1. Deskriptive Statistiken
  • 5.1.1. onDaF-Texte
  • 5.1.2. TestDaF-Prüfungsteile
  • 5.2. Verteilung der Sprachniveaus
  • 5.3. Analysen auf der Basis von Testscores
  • 5.4. Analysen auf der Basis von Sprachniveaus
  • 6. Zusammenfassung und Diskussion
  • 7. Fazit
  • Danksagung
  • Literaturverzeichnis
  • The validity of C-Tests as measures of academic and everyday language proficiency: A multidimensional item response modeling study
  • 1. Introduction
  • 2. The Study
  • 2.1. Rationale
  • 2.2. Participants and instruments
  • 2.3. Procedure and results
  • Conclusions
  • References
  • Messäquivalenz von klassischem C-Test und computergestütztem Multiple-Choice C-Test im Rasch-Modell
  • 1. Einführung
  • 2. Methode
  • 3. Ergebnisse
  • 3.1. Konfirmatorische Faktorenanalysen
  • 3.2. Homogenität der MC-Texte im PCM
  • 3.3. Homogenität von offenen und MC-Texten im PCM
  • 3.4. Übereinstimmung der erfassten Personenmerkmale
  • 3.5. Fähigkeitsunterschiede und Personenmerkmale
  • 3.6. Diagnostische Relevanz
  • Literaturverzeichnis
  • Zur Validität von muttersprachlichen C Tests: Bedeutung von verbaler Intelligenz und Informationsverarbeitungsgeschwindigkeit unter Berücksichtigung des Lebensalters
  • 1. Einleitung
  • 2. Fragestellung
  • 3. Methode
  • 3.1. Versuchsplanung
  • 3.2. Stichproben
  • 3.3. Messinstrumente
  • 3.3.1. C-Test
  • 3.3.2. Zahlen-Verbindungs-Test (ZVT)
  • 3.3.3. Leistungsprüfsystem (LPS)
  • 3.4. Versuchsdurchführung
  • 3.4.1. Datenerhebung in den Schulen
  • 3.4.2. Datenerhebung in den Universitäten
  • 4. Ergebnisse
  • 4.1. Zusammenstellung der Altersgruppen
  • 4.2. C-Test: Itemanalyse, Reliabilität und Parallelität
  • 4.3. C-Test-Mittelwerte und Standardabweichungen
  • 4.4. Validität
  • 4.4.1. Außenkriterium Deutschnote
  • 4.4.2. Außenkriterium verbale Intelligenz
  • 4.4.3. Außenkriterium Informationsverarbeitungsgeschwindigkeit
  • 5. Diskussion
  • 5.1. Ein 3-Faktoren-Modell für „general language proficiency“
  • 5.2. C-Test-Leistung und Deutschnote
  • 5.3. C-Test-Leistung und verbale Intelligenz
  • 5.5. C-Test-Leistung und Geschwindigkeit der Informationsverarbeitung
  • 6. Ausblick
  • Literaturverzeichnis
  • Do C-tests measure language comprehension of learning disabled students?
  • 1. Introduction
  • 2. Method
  • 2.1. Study 1
  • 2.1.1.Participants
  • 2.1.2.Material and procedure
  • 2.1.3.Design and hypotheses
  • 2.1.4.Results
  • 2.1.5.Discussion
  • 2.2. Study 2
  • 2.2.1. Participants
  • 2.2.2. Material and procedure
  • 2.2.3. Design and hypotheses
  • 2.2.4.Results
  • 2.2.5. Discussion
  • 3. Generaldiscussion
  • References
  • Appendix
  • C-test texts
  • A German C-test for migrant children
  • 1. Background
  • 2. Test development process – an overview
  • 2.1. The need for a C-test
  • 2.2. Purpose of the test
  • 2.3. Designing the C-test
  • 2.3.1. Pre-versions of the test
  • 2.3.2. Construction and trial of the final version
  • 2.3.3. Further outcomes of data analyses
  • 2.3.4. Summary
  • 3. DIALANG – C-test
  • 3.1. Design
  • 3.2. Test administration of DIALANG
  • 3.3. Results
  • 3.4. Summary
  • 4. Creating cut-off points
  • 4.1. Receiver Operating Characteristic analysis of the C-test
  • 4.2. Summary
  • 5. Conclusion and remaining questions
  • References
  • Failed restorations in the C-test: Types, sources, and implications for C-test processing
  • 1. Introduction
  • 2. The present study
  • 2.1. The participants
  • 2.2. Instrumentation
  • 2.2.1. The QPT
  • 2.2.2. The C-Test
  • 2.2.3. The verbal protocols
  • 2.2.4. Procedure
  • 3. Results and discussion
  • 3.1. Readability index as predictor of C-Test difficulty
  • 3.2. Verbal protocol analysis of failed restorations
  • 1. Over-reliance on top-down knowledge
  • 2. Overlooking delicate points of grammar
  • 3. Automatic restoration of high frequency lexicon
  • 4. Poor retrieval or non-retrieval of lexical items
  • 5. Inserting semantically-fit items, disregarding the C-Test rules
  • 6. Overlooking major points of grammar
  • 7. Breakdown in text processing
  • 4. Concluding remarks
  • Acknowledgements
  • References
  • Appendix
  • TEETH
  • SUSAN
  • DOLLAR
  • MOVIE
  • Zur Rolle des Makrokontexts bei der Bearbeitung spanischer C-Test-Texte: Fehleranalysen ausgewählter Lückenwörter
  • 1. Einleitung
  • 2. Fehleranalyse
  • 2.1. Die Kollokation delmismoin Text 1
  • 2.2. Das Pronomen sein Text 3 und Text 4
  • 2.3. Die Präposition en in Text 2 und Text 3
  • 2.4. Die Verbformenes und ser in den Texten 1, 3 und 4
  • 2.5. Das Passiv ser recreada in Text 4
  • 2.6. Tempus und Aspekt des Verbs intentaba in Text 2
  • 2.7. Der unpersönliche Ausdruck era preciso unirse in Text 2
  • 3. Schlussfolgerungen
  • Literaturverzeichnis
  • Anhang 1: C-Test
  • Text 1: El Minero
  • Text 2: España en el año 1561
  • Text 3: Máxima seguridad
  • Text 4: Edificios para la música
  • Text 5: No te olvides de tu perro
  • Anhang 2: Fehleranteile (%) bei den untersuchten Lücken
  • Der C-Test im Spanischen: Konstruktions- und Auswertungsspezifika
  • 1. Einleitung
  • 2. Sprachspezifische Konstruktions- und Auswertungs- problemebei spanischen C-Tests
  • 2.1. Fehlende 1:1-Entsprechung zwischen Orthographie und Lautung
  • 2.1.1. Die Grapheme <c> und<g>
  • 2.1.2. Die Polygraphen <ch> und <ll>
  • 2.2. Enklitika
  • 2.3. Komposita
  • 2.4. Wortlänge
  • 2.4.1. Lange Verbendungen
  • 2.4.2. Abgeleitete Adverbien auf -mente
  • 2.4.3. Die Nominalendung -miento
  • 2.4.4. Der Elativ (absoluter Superlativ)
  • 2.4.5. Expressive Suffixe
  • 2.5. Der Doppelkonsonant <rr>
  • 2.6. Akzentzeichen
  • 3. Schlussbemerkung
  • Literaturverzeichnis
  • Construction and validation of a C-Test in Persian
  • 1. Introduction
  • 2. Method
  • Materials, procedures and subjects
  • 3. Results and discussion
  • 4. Conclusions
  • References
  • Appendix
  • Der C-Test und sein schulischer Wert: Eine Lanze für mehr C-Tests in der Schule
  • 1. Populäre Meinungen über den C-Test
  • 2. Das C-Test-Konstrukt: Was soll nun eigentlich gemessen werden?
  • 3. Unkanonisch nach didaktischen Kriterien konstruierte C-Tests
  • 4. Die schulischen Potenziale des C-Tests
  • 5. Zur Rolle des C-Tests im Rahmen der schulischen Evaluationskultur
  • 6. Ein Fazit
  • Literaturverzeichnis
  • The C-Test bibliography: version January 2014
  • 1. Introduction
  • 2. Bibliography
  • Reihenübersicht

| 7 →

Der C-Test: Aktuelle Tendenzen. Einleitung und Übersicht über den Band

Rüdiger Grotjahn*

This introductory chapter describes the contents and the structure of present anthology. To this end, it first outlines some current trends in C-Test research. Subsequently, it gives a general overview of the issues dealt with and the methods used. It then describes the contents of each chapter at some length, making an attempt to also establish relationships among the chapters and to provide the reader with some additional references to the pertinent literature.

1. Einleitung

In den letzten Jahren hat sich der C-Test weiter in der Testlandschaft etabliert (vgl. zum Folgenden auch die Hinweise in Grotjahn, 2010a). So hat es u.a. erfolgreiche Anwendungen des C-Test-Prinzips auf Sprachen wie Koreanisch, Polnisch, Griechisch, Niederländisch und Persisch gegeben (vgl. zum Persischen Baghaei, im vorliegenden Band). Weiterhin sind C-Tests in einer Reihe von Studien zum Bildungsmonitoring verwendet worden – so z.B. im Forschungsprojekt „Deutsch Englisch Schülerleistungen International – DESI“, in der Hamburger Längsschnittstudie „Kompetenzen und Einstellungen von Schülerinnen und Schülern – KESS“ oder im Rahmen einer großangelegten Bildungsstudie zu den fremdsprachlichen Kompetenzen von Schülern der Klasse 7 luxemburgischer Schulen (vgl. Reichert, Brunner & Martin, im vorliegenden Band). Auch in einer Reihe von Projekten zur Förderung von Deutsch als Zweitsprache bei Kindern, Jugendlichen und Erwachsenen sind C-Tests eingesetzt worden, darunter auch lernbehinderte Jugendliche (vgl. zur letztgenannten Gruppe Linnemann & Wilbert, im vorliegenden Band).Auch bei deutschen Muttersprachlern sind C-Tests verwendet worden, so z.B. von Wockenfuß (2009) zur „Diagnostik von Sprache und Intelligenz bei Jugendlichen und jungen Erwachsenen“ (vgl. auch Wockenfuß & Raatz, im vorliegenden Band).Zudem ist eine Tendenz zu beobachten, verstärkt C-Tests für spezifische Diskursbereiche zu entwickeln. Schließlich werden in jüngerer Zeit zunehmend auch deutsche C-Tests mit Stammtilgung der linken Worthälfte zur ökonomischen Messung der Lesekompetenz im Deutschen eingesetzt (vgl. z.B. die Dissertation von ← 7 | 8 → Mashkovskaya, 2014 im Rahmen des Sprachkompetenzprojekts Diagnose & Förderung an der Universität Duisburg-Essen).

Auch die kommerzielle Vermarktung von C-Tests schreitet voran. So bietet der Cornelsen Verlag mittlerweile C-Tests als Diagnoseinstrument im Rahmen von schulischen Fördermaterialien für Deutsch als Zweitsprache an (vgl. Baur, Chlosta & Goggin, 2011, 2012).In der Schweiz werden vom Schulverlag plus C-Tests zur Evaluation von Fremdsprachenkompetenzen in Französisch und Englisch im 5. bis 9. Schuljahr auf der Plattform Lingualevel kostenpflichtig zur Verfügung gestellt (siehe http://www.lingualevel.ch/; Lenz & Studer, 2008). Weitere Beispiele für einen kommerziellen Einsatz sind folgende vom TestDaf-Institut bzw. der Gesellschaft für Akademische Studienvorbereitung und Testentwicklung (g.a.s.t) angebotenen online C-Tests: onDaF (Online-Einstufungstest Deutsch als Fremdsprache; siehe http://www.ondaf.de sowie Eckes, im vorliegenden Band), onSET (Online-Spracheinstufungstest für Englisch und weitere Sprachen; siehe http://www.onset.de) und onScreen (Teil des Tests für Ausländische Studierende – TestAS; http://www.testas.de/de/screening.htm).

Im Folgenden werde ich zunächst einen kurzen allgemeinen Überblick über die im vorliegenden Band behandelten Themen und die verwendeten Forschungsmethoden geben. Daran anschließend werde ich die einzelnen Beiträge relativ ausführlich beschreiben, Querverbindungen herstellen sowie einige ergänzende Literaturhinweise geben.

2. Der vorliegende Band

2.1. Allgemeiner Überblick

Im vorliegenden Band geht es in einem ersten Schwerpunkt wiederum um die zentrale Frage der Konstruktvalidität von C-Tests als Maß allgemeiner Sprachkompetenz – und zwar u.a. um folgende Aspekte: Eindimensionalität des C-Test-Konstrukts; Dimensionalität von C-Tests, die sowohl aus bildungs- als auch aus alltagssprachlichen Texten bestehen; Messäquivalenz von fremdsprachlichen C-Tests bei Probanden mit unterschiedlichen Muttersprachen; Gemeinsamkeiten sprachlicher Produktion und Rezeption; (reduzierte) Redundanz bei der Verarbeitung natürlicher Sprachen; inneres und privates Sprechen bei der Lösung von C-Tests; mentale Prozesse beim Lösen von C-Tests; konvergente und divergente Validität; Augenscheingültigkeit und Washback; Sensitivität von C-Tests bei der Messung von Lernzuwachs;Messäquivalenz von klassischem C-Test und computergestütztem Multiple-Choice C-Test; Beziehung von C-Test-Leistung, (verbaler) Intelligenz und Geschwindigkeit der Informationsverarbeitung;Beziehung zwischen C-Test-Leistung und Lebensalter bei Muttersprachlern; ← 8 | 9 → Rolle des Mikro- und Makrokontextes bei der Rekonstruktion der C-Test-Lücken; Bestimmung optimaler Trennwerte für Kompetenzniveaus; psychometrische Merkmale von C-Tests zur Messung von Verstehenskompetenzen lernbehinderter deutscher Jugendlicher mit Deutsch als Mutter- oder Zweitsprache.

Darüber hinaus werden folgende Aspekte, die keinen unmittelbaren Bezug zur Frage der Konstruktvalidität aufweisen, thematisiert: Effektivität des onDaF als Screening-Verfahren für den Test Deutsch als Fremdsprache – TestDaF; C-Test-Ergebnisse als Eingangswerte für computer-adaptives Testen (CAT); Vorhersage der Schwierigkeit von C-Test-Texten; Anwendbarkeit des C-Test-Prinzips auf das Persische; Konstruktions- und Auswertungsspezifika bei spanischen C-Tests; spezifischer Wert schulischer C-Tests.

Zur Untersuchung der genannten Aspekte werden eine Vielzahl von Methoden und Designs verwendet: psychometrische Analysen auf der Basis der klassischen und probabilistischen Testtheorie unter Einschluss multidimensionaler Modelle;konfirmatorische Mehrgruppen-Faktorenanalysen; Optimierung von Trennwerten mit Hilfe von ROC-Analysen; Lautdenkprotokolle und retrospektive Interviews zu den (mentalen) Lösungsprozessen; Korrelationsanalysen mit diversen Außenkriterien;Erhebung der Einstellungen zu C-Tests bei Studierenden und Lehrenden mit Hilfe von Fragebögen und qualitativen Interviews; Mittelwertvergleiche zwischen den Ergebnissen im Einstufungstest und im Kursabschlusstest (ANOVA); Fehleranalysen der C-Test-Lösungen. Auffallend ist die Breite der methodologischen Zugänge sowie der zunehmende Einsatz auch komplexerer mathematischer Analyseverfahren.

2.2. Die einzelnen Beiträge

Der Beitrag „C-Tests und ‚allgemeine Sprachkompetenz‘: Theoretische Überlegungen und empirische Analysen“ von Yuki Asano beschäftigt sich mit der grundlegenden Frage, inwieweit (deutsche) C-Tests als Maß allgemeiner Sprachkompetenz anzusehen sind (vgl. hierzu auch Eckes, im vorliegenden Band; Linnemann & Wilbert, im vorliegenden Band; Sumbling, Viladrich, Doval & Riera, im vorliegenden Band). Die Autorin definiert allgemeine Sprachkompetenz als eindimensionales Konstrukt, das im Sinne einer zentralen integrativen Kompetenz allen Sprachleistungen (unter Einschluss der klassischen vier Fertigkeiten) zugrunde liegt und das von kommunikativer Sprachkompetenz im Sinne eines komplexen mehrdimensionalen Konstrukts zu unterscheiden ist.

Für eine erste theoretische Klärung, warum ein schriftlicher Lückentest allgemeine Sprachkompetenz zu erfassen erlaubt, diskutiert die Autorin zunächst ← 9 | 10 → Ollers Konzept einer internalisierten Erwartungsgrammatik und die Rolle sprachlicher Redundanz bei der Verarbeitung natürlicher Sprachen. Je höher die Sprachkompetenz einer Person ist, desto eher ist diese in der Lage, mit Hilfe ihrer Erwartungsgrammatik die sprachlichen Redundanzen zu nutzen und die Lücken eines C-Tests erfolgreich zu rekonstruieren.

Zur weiteren Klärung betrachtet die Autorin allgemeine Sprachkompetenz aus der Sicht der modernen Psycholinguistik. Dazu beschreibt sie zunächst psycholinguistische Modelle, die „von einem gemeinsamen kognitiven System für Sprachproduktion und -rezeption ausgehen“ – mit einem Schwerpunkt auf dem bekannten Modell von Levelt. Weiterhin verweist Asano u.a. auf Libermans „Motor Theory of Speech Perception“. Daran anschließend werden eine Reihe von Argumenten genannt, die eher für eine kognitive und biologische Trennung von Sprachproduktion und -rezeption sprechen.

Die theoretischen Überlegungen sind der Ausgangspunkt für die empirische Studie der Autorin. Diese besteht aus drei Teilstudien und zeichnet sich sowohl durch eine Daten- als auch eine Methodentriangulation aus. Anhand korrelationsstatistischer Analysen wird der Zusammenhang zwischen allgemeiner Sprachkompetenz (gemessen anhand von C-Tests) und den vier Fertigkeitsbereichen (gemessen anhand des TestDaF) untersucht. Mit Hilfe von Beobachtung und introspektiven Daten (Lautes Denken; retrospektives Interview) wird der Frage nachgegangen, ob beim schriftlichen Lösen von C-Tests ähnliche Prozesse wie beim Sprechen und Hören ablaufen. Untersucht wurden 10 bzw. 18 japanische Deutschlernende (Datenerhebungen 1 bzw. 2) sowie zwei japanische Deutschlernende und drei deutsche Muttersprachler (Datenerhebung 3) mit Hilfe eines selbst entwickelten C-Tests und des im TestDaF als Anker verwendeten C-Tests. Auf potentielle Einschränkungen u.a. aufgrund der kleinen Stichproben weist die Autorin selbst explizit hin.

In der korrelationsstatistischen Untersuchung ergaben sich signifikante, substantielle Pearson-Korrelationen zwischen den C-Tests und den vier Teiltests des Test-DaF. Die höchste Korrelation (0.81; N = 18) ergab sich zwischen dem TestDaF-Ankertest und dem Gesamtergebnis im TestDaF. Die Ergebnisse sprechen nach Auffassung der Autorin insgesamt dafür, „dass C-Tests nicht nur die Lesekompetenz oder die Schreibkompetenz messen, sondern vornehmlich integrative Fähigkeiten, die alle vier Fertigkeitsbereiche mehr oder weniger abdecken“.

Die Analyse der verbalen Daten zur Lösung des selbst entwickelten C-Tests ergab ebenfalls eine Reihe von interessanten Befunden: So kamen z.B. Muttersprachler und Nichtmuttersprachler z.T. anhand unterschiedlicher Prozesse zu den gleichen Lösungen. Weiterhin scheint sich das Verstehen bei Nichtmuttersprachlern ← 10 | 11 → vorwiegend auf die Satzebene zu beziehen (vgl. für partiell unterschiedliche Befunde Babaii & Fatahi-Majd sowie Grotjahn & Schiller, im vorliegenden Band). Schließlich war die Herangehensweise der Testteilnehmer in Abhängigkeit von Faktoren wie Motivation und Testschwierigkeit unterschiedlich. Dies belegt nach Ansicht der Autorin Sigotts (2004; 2006) Konzept eines fluiden C-Test-Konstrukts. Die Fluidität des Testkonstrukts ist m.E. allerdings kein spezifisches Merkmal von C-Tests, sondern gilt auch in Bezug auf andere (standardisierte) Sprachtests.

Im folgenden 56-seitigen Beitrag „C-test as an indicator of general language proficiency in the context of a CBT (SIMTEST)“ beschreiben Mick Sumbling, Carme Viladrich, Eduardo Doval und Laura Riera im Detail die Funktion und psychometrischen Qualitäten eines an der Autonomen Universität von Barcelona (UAB) als Teil des Testsystems SIMTEST eingesetzten C-Tests. SIMTEST wurde an der Einheit für Evaluation und Zertifizierung des Sprachenzentrums der UAB entwickelt und existiert für Englisch und weitere Sprachen. Es handelt sich um ein computer-basiertes Testsystem (CBT) zur Einstufung in Sprachkurse und zur Zertifizierung am Kursende auf der Basis des Gemeinsamen europäischen Referenzrahmens für Sprachen (GER). Da von den Testergebnissen der Verlauf und Erfolg des Studiums abhängen kann, ist SIMTEST von seiner Funktion her ein high-stakes-Test. Der vorliegende Beitrag beschränkt sich auf die englische Version des Testsystems.

Neben einem nicht-adaptiven C-Test (20 Min.) besteht SIMTEST aus adaptiven Multiple-Choice-Tests zu Lexik und Grammatik (VGF-CAT; 10–20 Min.) sowie Hörverstehen (L-CAT; 10–20 Min.). Das Hörverstehen wird nur bei der Zertifizierung überprüft. SIMTEST wird ergänzt durch eine Schreibaufgabe im Papier-Bleistift-Format (Einstufung: 20 Min.; Zertifizierung: 90 Min.) und einer mündlichen Prüfung (Einstufung: Einzelprüfung, 10 Min.; Zertifizierung: Paarprüfung, 20 Min.).Die Testteilnehmer haben in der Regel noch keinen universitären Abschluss und sind zu 65% weiblich. Die Englischkurse sind eher allgemeinsprachlich ausgerichtet und den sechs GER-Niveaus A1, A2, B1, B2.1, B2.2 und C1.1 zugeordnet.

Der C-Test entspricht dem klassischen Konstruktionsprinzip und besteht aus jeweils vier Texten mit 25 Lücken pro Text. Die vorerprobten Texte werden per Zufall einer Datenbank entnommen und gelten als gegenseitig austauschbar. Das C-Test-Ergebnis dient als ein erster, vorläufiger Schätzwert für die englische Sprachkompetenz und als Startwert für die adaptiven Teile des SIMTEST. Der Aufbau einer Datenbank angemessen schwieriger, äquivalenter C-Test-Texte ist damit ein zentraler Aspekt des Testprojekts. ← 11 | 12 →

Die Autoren gehen zunächst kurz auf die Testspezifikationen und den institutionellen Hintergrund für die Testentwicklung ein. Anschließend beschreiben sie im Detail die durchgeführten psychometrischen Analysen. Es wurden fünf Datensätze analysiert: ein Papier-Bleistift-Prätest von 20 C-Test-Texten mit insgesamt 225 Studierenden (TE01); ein Einstufungstest mit 500 Studierenden (PL01); ein computerbasierter Prätest von 26 neuen C-Test-Texten mit insgesamt 396 Studierenden (TE05); ein Einstufungstest mit 809 Studierenden(PL05); eine Zertifikatsprüfung mit 816 Studierenden – darunter 441 aus der vorangehenden Einstufungsprüfung (CE06). Zur Analyse der internen Konsistenz wurde Cronbachs Alpha und der Intraklassen-Korrelationskoeffizient (ICC) berechnet, der nicht nur die Rangordnung, sondern auch die Schwierigkeit der Items (C-Test-Texte) berücksichtigt. Außerdem wurde der Standardmessfehler ermittelt. Die Dimensionalität wurde anhand der Itemtrennschärfen und der Übereinstimmung der Daten mit Andrichs Rating-Skalen-Modell beurteilt. Für das Rating-Skalen-Modell wurden zudem Reliabilitäts- und Separationsindizes berechnet.

Weiterhin wurden folgende Validitätsaspekte untersucht: (a) Korrelation zwischen C-Test-Ergebnissen und aktueller Kursstufe der Testteilnehmer; (b) Korrelation zwischen den Ergebnissen im C-Test und im VGF-CAT, Hörverstehenstest, Schreibaufgabe und mündlicher Prüfung; (c) Überprüfung der faktoriellen Struktur der eingesetzten Tests mit Hilfe konfirmatorischer Faktorenanalysen; (d) Korrelation zwischen C-Test-Ergebnissen und Selbsteinschätzungen der Testteilnehmer; (e) Zuwachs der C-Test-Ergebnisse in Abhängigkeit von der Kursstufe (ANOVA); (f) Güte der anhand der C-Tests auf der Basis von ROC-Analysen (Receiver Operating Characteristic(s)) ermittelten Trennwerte.

Bei den ROC-Analysen wurde davon ausgegangen, dass die mit einer falschen positiven und einer falschen negativen Entscheidung (Überschätzung vs. Unterschätzung des wahren Sprachniveaus) verbundenen Kosten gleich zu gewichten sind. Entsprechend wurden die Trennwerte so gewählt, dass die Differenz zwischen der sog. Sensitivität (Wahrscheinlichkeit einer richtigen positiven Entscheidung) und der sog. Spezifität (Wahrscheinlichkeit einer richtigen negativen Entscheidung) minimal war. Als Maß wurde die Fläche unter der ROC-Kurve zu Grunde gelegt (zur Verwendung von ROC-Kurven siehe auch Kniffka & Linnemann, im vorliegenden Band sowie Goldhammer & Hartig, 2007, S. 175–181).

Es ergaben sich u.a. folgende Ergebnisse: Die auf der Basis der klassischen Testtheorie und des Rating-Skalen-Modells der probabilistischen Testtheorie durchgeführten Analysen zeigten für die verwendeten C-Tests sehr zufrieden stellende psychometrische Eigenschaften. Nur wenige Texte erwiesen sich als ← 12 | 13 → nicht modellkonform. Außerdem waren die Texte in ihrer Schwierigkeit weitgehend vergleichbar. Damit war eine wichtige Bedingung für die Austauschbarkeit der Texte im Hinblick auf ein Item-Banking erfüllt. Zudem konnten auf verlässliche Weise fünf verschiedene Niveaustufen anhand der C-Test-Ergebnisse unterschieden werden.

Weiterhin ergaben sich mittlere bis hohe Korrelationen zwischen C-Test-Ergebnissen und aktueller Kursstufe und statistisch signifikante, substanzielle Zuwächse im C-Test über die Kursstufen. Die mit Hilfe der ROC-Analysen ermittelten Trennwerte zeigten fast durchgehend hohe Werte für Sensitivität, Spezifität und AUC (area under the curve). Die Korrelationen zwischen den Testteilen waren in allen Stichproben stets größer als 0.5. Speziell für den C-Test ergaben sich folgende Korrelationen mit den übrigen Testteilen: 0.60 ≤ r ≤ 0.65 (VGF-CAT); 0.56 ≤ r ≤ 0.69 (Schreibaufgabe); 0.63 ≤ r ≤ 0.70 (mündliche Prüfung); r = 0.51(Hörverstehen). Die restlichen Korrelationen lagen im Bereich von 0.64 (Hörverstehen und VGF-CAT) bis 0.91 (Schreibaufgabe und mündliche Prüfung).Bemerkenswert sind hier u.a. die relativ hohe Korrelationen der C-Tests mit den mündlichen Prüfungen und die zugleich eher geringe Korrelation zwischen C-Test und Hörverstehen – ein Befund, der eher im Widerspruch zur bisherigen Forschung zum C-Test steht (siehe die Belege in Eckes & Grotjahn, 2006; Baghaei & Grotjahn, 2014; sowie auch Asano, im vorliegenden Band). Auch die Korrelationen der C-Test-Komponente mit den Selbsteinschätzungsskalen Hörverstehen, Produktion mündlich, Interaktion mündlich, Lesen und Schreiben sind mit ca. 0.50 relativ hoch. Zwischen C-Test und Gesamtwert der Selbsteinschätzungen beträgt die Korrelation sogar 0.57. Hier ist allerdings zu fragen, inwieweit diese Werte nicht auch die jeweils erreichte Kursstufe widerspiegeln.

Bemerkenswert sind auch die Ergebnisse der konfirmatorischen Faktorenanalysen (CFA). Ziel der CFA war, die von Eckes & Grotjahn (2006) im Hinblick auf die Komponentialität des Konstrukts „general language proficiency“ formulierten fünf Modelle für die Beziehung zwischen C-Test und den vier Komponenten des TestDaF (Test Deutsch als Fremdsprache) in Bezug auf den SIMTEST zu überprüfen. Es ergaben sich für die drei untersuchten Stichproben trotz unterschiedlicher Anzahl von Variablen und Unterschiede in der Verteilung der Fähigkeiten weitgehend übereinstimmende Ergebnisse. In den beiden Einstufungstest-Stichproben mit den Komponenten C-Test, VGF-CAT, Schreiben und Sprechen ergab sich jeweils u.a. eine Einfaktorlösung. Besser passte allerdings ein Modell mit den hochkorrelierten Faktoren Produktion (operationalisiert durch mündliche Prüfung und Schreibaufgabe) und Rezeption (operationalisiert durch VGF-CAT und C-Test). Für die Zertifikatsstichprobe ergab ebenfalls ← 13 | 14 → das Modell mit der zusätzlichen Variablen Hörverstehen als Teil des Faktors Rezeption die beste Passung. Allerdings war die Anpassung hier deutlich schlechter als in den beiden anderen Stichproben. Insgesamt sprechen die Analysen nach Ansicht der Autoren dafür, dass die untersuchten C-Tests allgemeine Sprachkompetenz im Sinne eines weiter unterteilbaren Faktors „general language proficiency“ messen. Dies stimmt weitgehend mit den Folgerungen in Eckes & Grotjahn (2006) überein. Dort wurde die beste Modellanpassung allerdings dann erreicht, wenn der C-Test nicht dem Faktor Rezeption, sondern dem Faktor Produktion (TestDaF-Subtests Schriftlicher Ausdruck und Mündlicher Ausdruck) zugeordnet wurde (vgl. auch die theoretischen Modelle von Sprachkompetenz für die englischen DESI-Daten in Jude, 2008, Kap. 6.2.2 und 6.2.3). Sumbling, Viladrich, Doval und Riera weisen auf die Möglichkeit hin, dass die Unterschiede in den Ergebnissen der beiden Studien möglicherweise auf Unterschiede in den Testteilnehmern (im Fall des TestDaF eine Vielzahl von Nationalitäten und Muttersprachen) sowie auch auf Unterschiede in den eingesetzten Itemformaten zurückzuführen sind.

Die Autoren schließen ihre psychometrischen Analysen mit der Betrachtung der Sensitivität des C-Test im Hinblick auf die Messung von Lernzuwachs ab. Auf den untersuchten Kursstufen B1, B2.1, B2.2 und C1.1 war der Kompetenzzuwachs nach 9-monatigem Englischunterricht jeweils signifikant und substanziell (mittlere bis hohe Effektstärken).

Im letzten Teil ihres Beitrags beschäftigen sich die Autoren ausführlich mit den Reaktionen der Testteilnehmer und der Lehrenden auf den C-Test sowie mit dessen Augenscheingültigkeit (face validity) – ein Aspekt, der auch im Hinblick auf den Washback-Effekt und die konsequenzielle Validität von C-Tests eine wichtige Rolle spielt (vgl. hierzu auch Mashkovskaya, 2014, Kap. 4.7; Mainzer, 2014; sowie Harsch & Schröder, im vorliegenden Band). Zur Untersuchung dieses empirisch bisher nur unzureichend erforschten Aspekts wurden anhand von Fragebögen mit geschlossenen und offenen Formaten Daten erhoben u.a. zur Schwierigkeit der C-Tests, zu Klarheit der Instruktionen, zu den Zeitvorgaben und zum Testkonstrukt. Schwierigkeit und Zeitvorgaben wurden tendenziell als weitgehend angemessen angesehen. Die offenen schriftlichen Kommentare der Studierenden zum C-Test waren in der Tendenz eher positiv, wobei negative Kommentare allerdings zuweilen extreme Ablehnung des C-Tests ausdrückten. Die Autoren belegen dies anhand einer Vielzahl aus dem Katalanischen ins Englische übersetzten Aussagen. Außerdem wurden mündliche Interviews mit sechs Studierenden zu deren Wahrnehmung des C-Tests und zu den eingesetzten Bearbeitungsstrategien durchgeführt, die ebenfalls im Detail von den Autoren kommentiert werden. Ein wichtiger Befund aus den Untersuchungen zu den Reaktionen ← 14 | 15 → der Lehrenden ist u.a., dass diese im Laufe der Zeit und mit zunehmender Vertrautheit mit C-Tests das C-Test-Verfahren zunehmend positiv beurteilten. Die Autoren stellen abschließend fest, dass trotz der nachgewiesenen sehr positiven psychometrischen Qualitäten von C-Tests das Problem der tendenziell nicht sehr hohen Augenscheingültigkeit weiterhin bestehe und dass Studierende, Lehrende und Sprachtester besser über die Vorzüge von C-Tests informiert werden sollten. Wie allerdings die nunmehr 33-jährige Geschichte der C-Test-Forschung belegt, sind Vorurteile gegenüber dem C-Test nicht leicht auszuräumen.

Monique Reichert, Martin Brunner und Romain Martin gehen in „Do test takers with different language backgrounds take the same C-test? The effect of native language on the validity of C-tests“ der wichtigen Frage nach, inwieweit ein deutscher und ein französischer C-Test im Rahmen einer großangelegten Bildungsstudie bei Schülern der Klasse 7 in Luxemburg das (eindimensionale) Konstrukt „allgemeine Sprachkompetenz“ (general language proficiency) in äquivalenter Weise in zwei verschiedenen Sprachgruppen zu messen erlaubt. Sollte keine ausreichende Messäquivalenz vorliegen, dann ist ein Vergleich zwischen Testteilnehmern aus unterschiedlichen Sprachgruppen oder auch zwischen den Sprachgruppen insgesamt problematisch.

Im ersten Teil ihres Beitrags diskutieren die Autoren zunächst den Einfluss von Eigenschaften der Testteilnehmer und insb. der Muttersprache auf die faktorielle Validität von Sprachtests. Die diskutierten Studien konnten u.a. zeigen, dass der Einfluss der Muttersprache tendenziell am stärksten am Anfang des Fremdsprachenlernprozesses war (vgl. hierzu auch Jude, 2008).

In Bezug auf den C-Test ist bisher der Einfluss insb. folgender Variablen auf die C-Test-Leistung und das C-Test-Konstrukt untersucht worden: kognitiver Stil, Intelligenz, Testerfahrung, Angst bei der Verwendung des Computers sowie Sprachstand. So konnte z.B. Sigott (2004, 2006) zeigen, dass sich weiter fortgeschrittene und weniger fortgeschrittene Englischlerner in Bezug auf die bei der Rekonstruktion der Lückenwörter verwendeten kognitiven Prozesse unterscheiden (vgl. hierzu Asano, im vorliegenden Band; Babaii &Fatahi-Majd, im vorliegenden Band; Grotjahn & Schiller, im vorliegenden Band). Welchen Einfluss die Muttersprache der Kandidaten auf die Lösung von C-Tests hat, ist jedoch bisher weitgehend ungeklärt. Eine Klärung ist im Hinblick auf den beschriebenen Einsatz von C-Tests in Luxemburg von großer Bedeutung: Luxemburg weist den größten Anteil an Migranten innerhalb der europäischen Union auf und hat zudem drei Amtssprachen, nämlich Luxemburgisch, Deutsch und Französisch. ← 15 | 16 →

Zur Beantwortung der Frage nach der Messäquivalenz bzw. Messinvarianz setzen die Autoren das komplexe Verfahren der konfirmatorischen Mehrgruppen-Faktorenanalyse (multi-group confirmatory factor analysis) ein (zur Verwendung dieses Verfahrens in der C-Test-Forschung vgl. auch Eckes & Grotjahn, 2006, S. 313; Jude, 2008, Kap. 2.4 und 6.4). In diesem Zusammenhang beschreiben sie zunächst folgende vier zunehmend restriktivere Stufen von Messinvarianz: (a) (partielle) konfigurale Invarianz (Annahme: gleiche Struktur der Faktormatrix); (b) (partielle) metrische Invarianz (Annahme: gleiche Faktorladungen); (c) (partielle) skalare Invarianz (Annahme: gleiche Achsenabschnitte (Konstanten)); (d) strikte Invarianz (Annahme: gleiche Messfehlervarianzen).1

In der beschriebenen empirischen Studie wurde eine relativ repräsentative Stichprobe von Schülern der Klasse 7 unterschiedlicher luxemburgischer Schulformen untersucht – mit einem Fokus auf folgenden zwei Gruppen: (a) Testteilnehmer mit den germanischen Sprachen Luxemburgisch und/oder Deutch als Muttersprache (N = 1262); (b) Testteilnehmer mit den romanischen Sprachen Portugiesisch und/oder Französisch als Muttersprache (N = 281) – davon 71% portugiesischer Nationalität.

Der eingesetzte deutsche und französische C-Test bestand jeweils aus vier Texten mit 20 Lücken und wurde mit einer Zeitbegrenzung von drei Minuten pro Text per Computer administriert.Die verwendeten C-Test-Texte stammten aus früheren Untersuchungen und wurden für die vorliegende Untersuchung vorerprobt. Cronbachs Alpha betrug für die beiden C-Tests jeweils 0.85. Mit Hilfe der konfirmatorischen Mehrgruppen-Faktorenanalyse wurde getestet, ob die C-Test-Texte einen einzigen Faktor bzw. eine einzige latente Fähigkeit, nämlich general language proficiency, in äquivalenter Form über die beiden Gruppen von Testteilnehmern (germanische vs. romanische Muttersprache) hinweg messen.

Die Analysen führten bei dem deutschen C-Test zu folgenden Ergebnissen: Konfigurale, partielle metrische und partielle skalare Invarianz konnten nachgewiesen werden, allerdings keine strikte Invarianz. Ein Text erwies sich jeweils als nicht messäquivalent. Außerdem zeigte sich, dass die Gruppe der Testteilnehmer mit romanischer Muttersprache eine Standardabweichung unter dem latenten Mittelwert der Teilnehmer mit germanischer Muttersprache lag.

In Bezug auf den französischen C-Test ergaben sich folgende Befunde: Das konfigurale Invarianzmodell ergab eine vorzügliche Anpassung. Auch die partielle ← 16 | 17 → metrische Invarianz konnte nachgewiesen werden, nicht dagegen die partielle skalare Invarianz und als Folge auch nicht die strikte Invarianz.

Die Autoren kommen zu folgender abschließenden Bewertung: Die untersuchten C-Test-Texte messen in beiden Sprachgruppen jeweils allgemeine Sprachkompetenz – repräsentiert als einzige latente Variable im faktoranalytischen Modell (konfigurale Invarianz). Allerdings ergaben die Analysen zur metrischen Invarianz, dass für jeweils einen Text die Ladung auf dem gemeinsamen Faktor in der Gruppe mit romanischer Muttersprache deutlich stärker ausgeprägt war und dass deshalb Testteilnehmer mit unterschiedlicher Muttersprache im Hinblick auf ihre Sprachkompetenz nur eingeschränkt vergleichbar sind – es sei denn, man lässt den entsprechenden Text jeweils unberücksichtigt. Da zudem im Fall des französischen C-Tests keine partielle skalare Invarianz nachgewiesen werden konnte, scheint dieser für einen Vergleich über die beiden Gruppen von Muttersprachlern hinweg nur sehr eingeschränkt geeignet zu sein. Gravierend ist auch, dass in keinem Fall die strikte Invarianz gezeigt werden konnte. Dies bedeutet u.a., dass im Fall individueller Zulassungs- oder Einstufungsentscheidungen die Verwendung der beobachteten Werte im C-Test zu einer höheren Zahl von inkorrekten Ablehnungen in der Gruppe mit den höheren Residualvarianzen führen würde. Angesichts dieser Ergebnisse schließen die Autoren ihren Beitrag zu Recht mit folgender Empfehlung: „Wenn Gruppen oder Mitglieder von Gruppen anhand des beobachteten Summenwerts im C-Test verglichen werden sollen, sollten die Forscher zunächst mit Hilfe wissenschaftlich rigoroser Methoden (z.B. konfirmatorischer Mehrgruppen-Faktorenanalysen) untersuchen, ob der verwendete Test invariant über diese Gruppen hinweg misst“ (Übersetzung RG).

Thomas Eckes behandelt in „Die onDaF–TestDaF-Vergleichsstudie: Wie gut sagen Ergebnisse im onDaF Erfolg oder Misserfolg beim TestDaF vorher?“ die wichtige Frage, inwieweit der auf C-Test-Texten basierende Online-Einstufungstest Deutsch als Fremdsprache (onDaF) als Prädiktor für die akademische Zulassungsprüfung „Test Deutsch als Fremdsprache (TestDaF)“ genutzt werden kann. Beim onDaF handelt es sich um einen internetgestützten C-Test zur Feststellung des Niveaus der allgemeinen Sprachkompetenz von Deutschlernern (vgl. auch die Beschreibung der C-Test-Komponente des computerbasierten SIMTEST durch Sumbling, Viladrich, Doval&Riera, im vorliegenden Band). Der onDaF besteht aus 8 Texten mit jeweils 20 Lücken und dauert 40 Minuten (5 Min. pro Text). Jeder Testteilnehmer erhält aus einer Datenbank gesteuert über einen Algorithmus eine unterschiedliche Auswahl von kalibrierten C-Test-Texten. Der onDaF unterscheidet zwischen folgenden GER-Sprachniveaus: Unter A2, A2, B1, B2, C1. Seine Funktionen sind: Einstufung, ← 17 | 18 → Kurszuweisung, Rückmeldung an Lerner hinsichtlich des Sprachstandes und Lernfortschritts, Screening in Bezug auf den TestDaF. Es handelt sich damit im Vergleich zum TestDaF um einen low- bzw. medium-stakes-Test.

Der TestDaF besteht aus den vier Subtests Leseverstehen, Hörverstehen, Schriftlicher Ausdruck und Mündlicher Ausdruck und ist im Gegensatz zum onDaF in seiner Zusammenstellung fixiert. Er wird abgesehen vom Mündlichen Ausdruck papierbasiert dargeboten. Die Durchführungszeit beträgt 190 Min. Der TestDaF ist als Test kommunikativer Kompetenz in Deutsch im akademischen Kontext konzipiert und hat die high-stakes-Funktion eines universitären Zulassungstests. Er differenziert zwischen den TestDaF-Niveaustufen TDN 3, TDN 4, TDN 5 sowie der Kategorie „unter TDN 3“, wobei der Bereich TDN 3 bis TDN 5 den GER-Niveaus B2 und C1 entspricht. onDaF und TestDaF unterscheiden sich damit in der Zahl und der Verteilung der Niveaustufen. Dies führt, wie Eckes selbst feststellt, „zwangsläufig zu einem Unschärfeproblem“ beim Vergleich der beiden Testsysteme.

Die Frage nach dem Verhältnis von onDaF und TestDaF ist zum einen von theoretischem Interesse, da hohe Korrelationen zwischen onDaF und den vier TestDaF-Subtests für die Validität von C-Tests als Instrument zur Messung allgemeiner Sprachkompetenz sprechen würden. Zum anderen würde eine Übereinstimmung von onDaF- und TestDaF-Ergebnissen den Einsatz des wenig zeitaufwendigen und kostengünstigen onDaF als (grobes) Messinstrument der Kommunikationsfähigkeit in Deutsch im akademischen Kontext und damit auch als Screening-Instrument in Bezug auf den weit aufwendigeren TestDaF rechtfertigen.

Nach der Darstellung relevanter Unterschiede zwischen onDaF und TestDaF beschreibt der Autor im Detail die durchgeführte Studie. Insgesamt 1467 Testteilnehmer bearbeiteten den in Papierform dargebotenen onDaF zusammen mit dem TestDaF im Rahmen von sechs TestDaF-Erprobungen. Dabei fungierte der C-Test zugleich als Ankertest für die TestDaF-Subtests Hörverstehen und Leseverstehen. Analysen der onDaF-Ergebnisse mit Hilfe des Ratingskalen-Rasch-Modells ergaben ein gute Modellanpassung, angemessene Schwierigkeiten sowie hohe Reliabilitäten. Auch für die zu erprobenden TestDaF-Prüfungsteile waren die psychometrischen Werte zufriedenstellend.

Zwischen onDaF und TestDaF ergaben sich auf der Basis der Testscores Pearson-Korrelationen von 0.66 für das Leseverstehen und 0.69 für das Hörverstehen. Die Pearson-Korrelationen zwischen onDaF und allen vier Subtests auf der Basis der Niveaueinstufungen betrugen für das Leseverstehen 0.60, für das Hörverstehen und den Schriftlichen Ausdruck jeweils 0.62 und für den Mündlichen Ausdruck 0.54. Die Korrelationen sind damit substantiell und ähnlich hoch ← 18 | 19 → wie in vielen vergleichbaren Studien (vgl. Eckes & Grotjahn, 2006). Weiterhin ergab sich eine Korrelation von 0.71 zwischen dem onDaF-Score und dem TestDaF-Gesamtscore – ermittelt anhand einer Hauptkomponentenanalyse der Niveaueinstufungen in allen vier Testteilen. Insgesamt stützen diese und weitere Befunde m.E. den Schluss, dass der untersuchte C-Test allgemeine Sprachfähigkeit im Deutschen (vgl. hierzu auch Asano, im vorliegenden Band; Sumbling, Viladrich, Doval&Riera, im vorliegenden Band) und möglicherweise in einem beschränkten Maß auch Kommunikationsfähigkeit in Deutsch im akademischen Kontext zu erfassen erlaubt.

Abschließend analysiert der Autor die Übereinstimmung zwischen den onDaF- und den TestDaF-Einstufungen. Es ergaben sich die höchsten Einstufungsdifferenzen für das onDaF-Niveau B1. Hier wurden zwischen 45% (Hörverstehen) und 57% (Mündlicher Ausdruck) der Teilnehmer im TestDaF auf TDN 3 und damit auf dem GER-Niveau B2 eingestuft. Vor dem Hintergrund der Untersuchungen von Kecker & Eckes (2010) und Kecker (2011) zur Beziehung des TestDaF zu den Niveaustufen des GER interpretiert Eckes diesen Befund dahingehend, dass die entsprechenden onDaF-Teilnehmer im TestDaF vermutlich zu hoch eingestuft würden.

Insgesamt kommt der Autor zu dem Schluss, „dass sich der onDaF zur Vorhersage der Leistung im TestDaF eignet“ und damit auch sinnvoll für die Vorbereitung auf den TestDaF eingesetzt werden kann. Wünschenswert wäre eine Nachfolgestudie mit der Internet-Standardversion des onDaF zur Untersuchung der Frage, welchen Einfluss das Format (Papier vs. Internet) auf die beobachteten Zusammenhänge hat.

Der Beitrag „The validity of C-Tests as measures of academic and every day language proficiency: A multidimensional item responsemodelingstudy“ von Purya Baghaei und Rüdiger Grotjahn beschäftigt sich mit der Frage, inwieweit es möglich ist, mit Hilfe unterschiedlicher Typen von deutschen C-Test-Textenin valider Weise deutsche alltagssprachliche und bildungssprachliche Kompetenzen (im Sinne der Unterscheidung von BICS und CALP bei Cummins) zu messen. Dazu werden Daten aus Daller (1999) und Daller & Grotjahn (1999) zu den Deutschkompetenzen türkischer Rückkehrer einer erneuten Analyse unterzogen. Dort wurde u.a. mit Hilfe von Faktorenanalysen und anhand des klassischen latent-additiven Testmodells gezeigt, dass bildungssprachliche und alltagssprachliche deutsche C-Test-Texte, die aus universitären Lehrwerken sowie aus Zeitungsbeiträgen zu Alltagsthemen stammten, unterschiedliche psychometrische Dimensionen bildeten.

Im vorliegenden Beitrag werden die Ergebnisse von 200 Rückkehrern bei sechs C-Test-Texten (jeweils 20 Lücken) mit Hilfe des eindimensionalen und ← 19 | 20 → des mehrdimensionalen Rating-Skalen-Modells analysiert. Dabei wird jeweils das „multidimensional random coefficients multinomial logit model“ (Adams, Wilson & Wang, 1997) verwendet und zur Verringerung der Zahl der zu schätzenden Parameter die Zahl der Kategorien pro Text von 21 auf drei reduziert. Baghaei& Grotjahn können zeigen, dass das zweidimensionale Modell besser zu den Daten passt als das eindimensionale Modell, wobei beide Dimensionen allerdings substanziell korrelieren. Dieses Ergebnis entspricht in wesentlichen Punkten den Befunden in Baghaei & Grotjahn (2014) zur Zweidimensionalität von C-Tests, die aus schriftlichen und mündlichen Texten bestehen.

Insgesamt zeigen die Analysen das Potenzial multidimensionaler probabilistischer Testmodelle sowie die Notwendigkeit, bei der Konstruktion und Verwendung von C-Tests stärker als bisher das Genre und die Struktur der Texte zu beachten. Weitere Begründungen für den Einsatz multidimensionaler probabilistischer Testmodelle bei der Analyse von Sprachtestdaten finden sich in Baghaei & Grotjahn (2014).

Die Studie von Hella Klemmert „Messäquivalenz von klassischem C-Test und computergestütztem Multiple-Choice C-Test im Rasch-Modell“ ist eine methodologische Weiterführung von Jakschik, Klemmert & Klinck (2010). Während die letztgenannte Arbeit auf dem klassischen Testmodell basiert, kommen in der vorliegenden Studie komplexere Modelle zum Einsatz, und zwar die konfirmatorische Faktorenanalyse und das Partial Credit Model (PCM) (ein eindimensionales Rasch-Modell für Items mit mehrstufigem Antwortformat).

Der Fokus der Untersuchung liegt auf der Frage, inwieweit der an der Bundesagentur für Arbeit entwickelte computergestützte Multiple-Choice C-Test für Deutsch als Zweitsprache mit dem dort eingesetzten klassischen papierbasierten C-Test mit offenem Antwortformat im Hinblick auf das zugrundeliegende Konstrukt übereinstimmt. Datengrundlage sind zwei Gruppen von erwachsenen Zweitsprachlern. Die Gruppe 1 (n = 497) bearbeitete zunächst die Papierform A (sechs Texte im klassischen Format) und später den aus den gleichen Texten bestehenden Multiple-Choice (MC) C-Test (jeweils fünf Optionen pro Lücke). Die Gruppe 2 (n = 548) bearbeitete dagegen zuerst die MC-Version und anschließend eine zur Form A parallele Form B des klassischen C-Tests. Die Darstellung konzentriert sich auf die Untersuchung der Ergebnisse in Gruppe 2, da hier sowohl Unterschiede im Format als auch in der Textgrundlage vorliegen.

Die Ergebnisse der konfirmatorischen Faktorenanalyse über alle 12 Texte sprechen für ein zweifaktorielles Modell, wobei allerdings die Faktoren mit 0.95 extrem hoch korrelieren. Die Autorin interpretiert dies im Sinne von „zwei separierbaren Konstrukten, die aber stark überlappende Fähigkeiten erfassen.“ ← 20 | 21 →

In einem nächsten Schritt wurde mit Hilfe des PCM überprüft, ob die sechs MC-Texte ein gemeinsames Merkmal messen. Es ergab sich lediglich beim ersten Text eine unzureichende Passung. Die Autorin weist darauf hin, dass eine schlechte Modellpassung des Startitems bei computergestützten Tests nicht ungewöhnlich sei. Sie interpretiert die geringe Modellkonformität von Text 1 als „Ausdruck einer Art ‚Eingewöhnungsphase‘ bei Testbeginn“ und spricht sich für die Beibehaltung von Text 1 aus.

In einem Folgeschritt wurde überprüft, in welchem Umfang die beiden C-Test-Formate das gleiche Merkmal erfassen. Dazu wurden zunächst alle 12 Texte gemeinsam anhand des PCM skaliert. Abgesehen von Text 1 ergab sich eine zufrieden stellende Homogenität. Anschließend wurde für jeden der sechs MC-Texte in separaten Analysen mit Hilfe des PCM untersucht, inwieweit der Text zu der aus den klassischen C-Test-Texten gebildeten Skala passt. Dies stellt einen stärkeren Test auf Itemhomogenität dar als die gemeinsame Skalierung aller 12 Texte. Die sechs Analysen ergaben bei drei Texten deutliche Modellabweichungen. Die Autorin interpretiert dies dahingehend, „dass mit dem MC Antwortformat ein geringfügig differierendes Merkmal erfasst wird.“

In einem weiteren Schritt wird analysiert, inwieweit sich die festgestellten Unterschiede zwischen MC-Format und klassischem C-Test-Format auf die Fähigkeitsschätzungen auswirken. Die Untersuchung zeigt bei 16% der Personen überzufällige Unterschiede, die allerdings nur sehr schwach ausgeprägt sind. Weitere Untersuchungen zu den Personenmerkmalen „verballogisches Denken“, „nicht sprachgebundenes logisches Denken“, „Geschlecht“ und „Alter“ zeigen, dass die Differenz der geschätzten Personenparameter lediglich mit der Variablen „nicht sprachgebundenes logisches Denken“ signifikant korreliert (r = –0.18). Dies wird als Hinweis interpretiert, dass Personen mit höheren Fähigkeiten im nicht sprachgebundenen logischen Denken einen geringfügigen Vorteil im MC C-Test haben können (vgl. zum Zusammenhang von C-Test-Leistung und Intelligenz auch Pishghadam & Tabataba’ian, 2011;Linnemann & Wilbert, im vorliegenden Band; Wockenfuß & Raatz, im vorliegenden Band).

Abschließend untersucht die Autorin die MC-Form und die klassische Form im Hinblick auf Unterschiede bei der Klassifikation von Personen bezüglich verschiedener Umschulungsmaßnahmen und vergleicht die ermittelten Übereinstimmungswerte mit der erwarteten Übereinstimmung zwischen zwei Paralleltests mit Reliabilitäten von 0.90. Die Analysen zeigen, dass die diagnostischen Urteile auf der Basis von MC-Form und klassischer Form in einem Ausmaß übereinstimmen, wie es bei hoch reliablen Paralleltests zu erwarten ist. Insgesamt sprechen damit die Resultate aus der vorliegenden Studie dafür, in der diagnostischen Praxis der Arbeitsagenturen anstelle des klassischen C-Tests im ← 21 | 22 → Papier & Bleistiftformat den ökonomischeren computer-administrierten C-Test im MC-Format einzusetzen.

Bei dem Beitrag von Verena Wockenfuß und Ulrich Raatz „Zur Validität von muttersprachlichen C-Tests:Bedeutung von verbaler Intelligenz und Informationsverarbeitungsgeschwindigkeit unter Berücksichtigung des Lebensalters“ handelt es sich im Wesentlichen um eine Beschreibung und Weiterführung von Überlegungen und Analysen in Wockenfuß (2009). Dort wurde der Einfluss folgender drei Variablen auf die Leistung deutscher Muttersprachler in einem massiv zeitlimitierten deutschen C-Test untersucht: verbale Intelligenz gemessen anhand von vier Untertests des Leistungsprüfsystems (LPS) von Horn, Informationsverarbeitungsgeschwindigkeit gemessen mit Hilfe von zwei Matrizen des Zahlen-Verbindungs-Tests (ZVT) von Oswald & Roth sowie basale muttersprachliche Fähigkeiten operationalisiert anhand der Deutschnote. Der bereits von Wockenfuß in einer früheren Studie validierte zeitlimitierte C-Test bestand aus zwei Parallelformen A und B mit jeweils fünf Texten mit 20 Lücken. Durch die sehr knappe Bearbeitungszeit von 1 Min. und 15 Sek. pro Text wurde eine der Untersuchungsstichprobe angemessene Schwierigkeit von 67.3% bzw. 64.9% erreicht (vgl. zur Zeitlimitierung auch Grotjahn, 2010b).Die Autoren beschreiben die verwendeten Instrumente im Detail und begründen ausführlich ihren Einsatz.

Die im vorliegenden Beitrag analysierten Daten stammen aus einer Teilstichprobe von insgesamt 1055 deutschen Muttersprachlern (880 Schüler und 175 Studierende) im Alter von 9 bis 57 Jahren aus Wockenfuß (2009). Für die Analysen wurde die Stichprobe in insgesamt 14 Altersgruppen aufgeteilt. Die beiden eingesetzten C-Tests erwiesen sich als ausreichend äquivalent und zudem als hoch reliabel (Cronbachs Alpha 0.91 bzw. 0.93). Es ergaben sich u.a. folgende Resultate: (a) Die Leistung im C-Test korreliert in allen Altersgruppen substantiell mit der Leistung im verbalen Intelligenztest (0.39 ≤ rtc ≤ 0.69; Median = 0.61) – ohne einen systematischen altersabhängigen Trend. (b) In allen Altersgruppen gibt es eine schwache Korrelation zwischen C-Test-Leistung und Informationsverarbeitungsgeschwindigkeit (0.00 ≤ rtc ≤ 0.56;Median = 0.26). (c) C-Test-Leistung und Deutschnote korrelieren nur sehr schwach – mit Ausnahme der Altersgruppen „Ende der Grundschulzeit“ (rtc = –0.51) und „Abitur“ (rtc = –0.40). Nach Herauspartialisierung der verbalen Intelligenz tendieren allerdings alle Korrelationskoeffizienten gegen Null – mit Ausnahme der Werte in den beiden untersten Altersstufen. Dies interpretieren die Autoren dahingehend, dass in allen betrachteten Altersstufen die verbale Intelligenz bei der Beurteilung der Leistungen im Fach Deutsch mit einfließt und dadurch die Korrelationen zwischen Note und C-Test erhöht, dass aber lediglich in den beiden untersten ← 22 | 23 → Altersgruppen der 9- bis 11-Jährigen die basalen Fähigkeiten und Fertigkeiten in der Muttersprache Deutsch bei der Benotung eine stärkere Rolle spielen.

Anschließend diskutieren die Autoren ihre Ergebnisse im Lichte eines 3-Faktoren-Modells allgemeiner Sprachfähigkeit (general language proficiency) mit drei interagierenden Grundfaktoren: „Verbale Intelligenz“ (V), „Schnelligkeit der Informationsverarbeitung“ (S) sowie „basale sprachliche Fähigkeiten und Fertigkeiten“ (B). Sie kommen zu folgenden Schlussfolgerungen: (a) Muttersprachliche C-Tests messen in allen Altersstufen den Faktor V. (b) Bei Schülern zu Beginn der Sekundarstufe I erfassen muttersprachliche C-Tests auch in die Deutschnote eingehende schulrelevante Fähigkeiten und Fertigkeiten (Faktor B). (c) Die Geschwindigkeit der Informationsverarbeitung hat einen schwachen Einfluss auf die Leistungen im C-Test und im LPS. Die Autoren diskutieren, inwieweit die Konstrukte „allgemeine muttersprachliche Kompetenz“ (gemessen anhand des C-Tests) und „verbale Intelligenz“ (gemessen anhand des LPS) übereinstimmen und ob möglicherweise die Höhe der beobachteten Korrelationen zumindest in Teilen durch den gemeinsamen Speed-Anteil der beiden Messinstrumente bedingt ist (vgl. zum Zusammenhang von C-Test-Leistung und Intelligenz bei deutschen Muttersprachlern und deutschen Zweitsprachenlernern auch Klemmert, im vorliegenden Band; Linnemann & Wilbert, im vorliegenden Band).

Abschließend sprechen sich die Wockenfuß und Raatz u.a. für eine Durchführung weiterer Untersuchungen mit anderen verbalen Intelligenztests im Sinne einer konvergenten und divergenten Validierung aus. Sollten entsprechende Replikationen zeigen, dass die von muttersprachlichen C-Tests und verbalen Intelligenztests gemessenen Konstrukte substanziell übereinstimmen, dann könnte ein (computerbasierter) stark zeitlimitierter muttersprachlicher C-Test nicht nur als ökonomisches Instrument zur Messung allgemeiner Sprachfähigkeit, sondern auch sinnvoll als Kurztest zur Messung der verbalen Intelligenz von Jugendlichen und jungen Erwachsenen eingesetzt werden. Auch die Intelligenzdiagnostik könnte somit von den Ergebnissen der vorliegenden Studie profitieren.

Ergänzend ist hierzu noch anzumerken, dass eine Untersuchung des Zusammenhangs zwischen Intelligenz und C-Test-Leistung natürlich auch im Hinblick auf Fremdsprachenlerner von Interesse ist. So konnten z.B. Pishghadam & Tabataba’ian (2011) in einer Stichprobe von 90 fortgeschrittenen iranischen Lernern des Englischen einen substantiellen Zusammenhang zwischen den Ergebnissen im Wechsler IQ Test für Erwachsene (WAIS III) und den Ergebnissen in einem englischen C-Test-Text mit 50 Lücken nachweisen (vgl. als weitere Studie mit iranischen Englischlernern Baghaei & Roshanzam, 2010). ← 23 | 24 →

Markus Linnemann und Jürgen Wilbert gehen in „Do C-tests measure language comprehension of learning disabled students?”) der Frage nach, inwieweit C-Tests Verstehenskompetenzen und damit zugleich eine allgemeine, die klassischen vier Fertigkeiten übergreifende Sprachkompetenz bei lernbehinderten Jugendlichen messen. Bei der vorliegenden Studie handelt es sich in Teilen um eine Weiterführung der Untersuchung von Linnemann & Wilbert (2010), in der erstmals der Einsatz eines C-Tests bei lernbehinderten Jugendlichen überprüft wurde.

Im einleitenden Teil diskutieren die Autoren zunächst Vorteile des Einsatzes von C-Tests im Unterrichtskontext z.B. zur Bildung von homogenen Lerngruppen oder auch zur Lernverlaufsanalyse im Rahmen curriculum-basierter Evaluation (vgl. auch Wilbert & Linnemann, 2011; sowie Harsch & Schröder, im vorliegenden Band; Sumbling, Viladrich, Doval&Riera, im vorliegenden Band). Daran anschließend formulieren sie vor dem Hintergrund der Ergebnisse in Linnemann & Wilbert (2010) – jeweils bezogen auf die Verstehenskompetenzen lernbehinderter Jugendlicher – u.a. folgende Hypothesen: (a) Es besteht eine deutlicher Zusammenhang zwischen den Leistungen im C-Test und im Leseverstehen. (b) Ergebnisse im C-Test, Leseverstehenstest und Hörverstehenstest weisen einen gemeinsamen Anteil an Varianz auf. (c) Die Leistung im C-Test kann durch Verstehen fördernde Bedingungen des Testeinsatzes erhöht werden.

Zur Überprüfung der Hypothesen wurden zwei Studien durchgeführt. Die erste, korrelationsstatistisch ausgerichtete Untersuchung beruhte auf einer Stichprobe von 49 Schülern aus den Klassen 5 bis 9 deutscher Förderschulen (Altersdurchschnitt = 13.6 Jahre). Für 73.5% der Probanden war Deutsch die Muttersprache. Zur Messung wurden in individueller Administration sechs deutsche Texte mit jeweils ca. 80 Wörtern eingesetzt – und zwar jeweils zwei Texte als Hörverstehensaufgabe (vorgelesen durch den Versuchsleiter), zwei Texte als Leseverstehensaufgabe und zwei Texte im C-Test-Format. Zu jedem der Texte gehörten außerdem 10 Ja-Nein-Items zur Überprüfung der Verstehensleistung. Die Probanden wurden unter Kontrolle von Präsentationform (Leseverstehen, Hörverstehen, C-Test) und Text in Form eines (erweiterten) lateinischen Quadrats per Zufall auf die verschiedenen Bedingungskombinationen aufgeteilt.

Es ergab sich eine signifikante Korrelation (Pearson) von = 0.44 zwischen C-Test-Ergebnis und Leseverständnis. Die Korrelation von 0.19 zwischen C-Test und Hörverstehen war dagegen nicht signifikant. Außerdem korrelierten Leseverstehen und Hörverstehen signifikant mit = 0.35. Auch die Korrelationen zwischen Verstehensleistung im C-Test und den Ergebnissen im Leseverstehen und Hörverstehen waren mit = 0.34 bzw. = 0.44 signifikant. Angesichts der nichtsignifikanten Korrelation zwischen C-Test und Hörverstehen ← 24 | 25 → stellt sich für die Autoren u.a. die Frage, welche Ursachen für die beobachtete Korrelation zwischen Leseverstehen und Hörverstehen in Betracht kommen und ob bessere sprachliche Verstehensfähigkeiten zu höheren C-Test-Leistungen führen.

Der letztgenannte Aspekt ist Thema der zweiten, experimentell ausgerichteten Studie. Hier wurde untersucht, ob die Ankündigung, dass nach der Bearbeitung des C-Tests das Textverstehen überprüft wird, zu besseren C-Test-Ergebnissen führt (vgl. für eine ähnliche Studie bereits Grotjahn &Tönshoff, 1992). Die Untersuchungsstichprobe bestand aus 46 Förderschülern (vergleichbar mit Studie 1). Es wurden fünf C-Test-Texte aus der Studie 1 administriert. Zu jedem Text gehörten 16 Ja-Nein-Items zur Messung des Verstehens. Die Schüler wurden per Zufall in zwei Gruppen aufgeteilt. In einer Gruppe (n = 23) wurde den Schülern mitgeteilt, dass nach jedem Text das Verstehen überprüft würde. In der anderen Gruppe (n = 21) wurde lediglich beim letzten Text das Verstehen überprüft – allerdings ohne vorherige Ankündigung.

Es ergaben sich u.a. folgende Ergebnisse: Die Probanden erzielen bei allen C-Test-Texten signifikant höhere Werte bei Ankündigung einer Verstehensüberprüfung. Es handelt sich allerdings um einen eher geringen Effekt (η² = 0.063; nach Auspartialisierung der Variablen Intelligenz anhand von Raven ’s Standard Progressive Matrices Test η² = 0.108). Außerdem war die Korrelation zwischen den Werten im C-Test und im angekündigten Verstehenstest hochsignifikant und substantiell (r = 0.75).

Die Autoren interpretieren ihre Ergebnisse folgendermaßen: Wird ein nachfolgender Verstehenstest angekündigt, dann versuchen die Probanden bei der Lösung eines C-Test-Textes ein komplexes mentales Modell des Textes aufzubauen, was wiederum die Rekonstruktion der fehlenden Wortteile erleichtert. Für die Autoren ist die Leistung im C-Test deshalb ein Indikator für die Verstehenskompetenz. Wie die Autoren selbst anmerken, ist allerdings nicht auszuschließen, dass die höheren C-Test-Ergebnisse beim angekündigten Verstehenstest lediglich auf eine Steigerung der Motivation durch die Ankündigung zurückzuführen sind.

Insgesamt kommen die Autoren vor dem Hintergrund der nicht signifikanten Korrelation von r = 0.19 zwischen den Ergebnissen im C-Test und im Hörverstehen zu dem Schluss dass ihre Studie nur partiell dafür spricht, dass die Leistung im C-Test allgemeine Sprachkompetenz in allen vier Teilkompetenzen widerspiegelt. Angesichts der in Untersuchungen mit Fremdsprachenlernern gefundenen signifikanten und auch deutlich höheren Korrelationen zwischen C-Tests und Hörverstehenstests, die zudem zuweilen sogar geringfügig höher waren als zwischen C-Tests und Leseverstehenstests (vgl. Eckes, im vorliegenden ← 25 | 26 → Band; Eckes & Grotjahn, 2006), stellt sich m.E. allerdings auch hier die Frage, ob die nichtsignifikante Korrelation zwischen C-Test und Hörverstehen nicht auch auf die spezielle Untersuchungsgruppe (lernbehinderte Jugendlichemit Deutsch als Erst- bzw. Zweitsprache) und/oder auf das spezielle Format des eingesetzten Verstehenstests zurückzuführen ist. Welchen Einfluss die spezifische Untersuchungsgruppe auf die faktorielle Struktur des C-Test-Konstrukts haben kann, zeigt eindrucksvoll der Beitrag von Reichert, Brunner & Martin (im vorliegenden Band).

Der Beitrag von Gabriele Kniffka und Markus Linnemann „A German C-test formigrant children“ beschreibt im Detail die Entwicklung eines C-Tests zur Einstufung von Lernern mit Deutsch als Zweitsprache in einer Sommerschule im Rahmen des Projekts „Sprachförderung für Schülerinnen und Schüler mit besonderem Bedarf” an der Universität zu Köln. Die Autoren begründen die Wahl eines C-Tests mit dessen Ökonomie hinsichtlich Testentwicklung und -durchführung sowie mit dessen hoher Objektivität, Reliabilität und Validität.

Das Alter der angezielten Lerner mit Deutsch als Zweitsprache lag schwerpunktmäßig im Bereich von 12 bis 15 Jahren. Die Autoren beschreiben zunächst kurz die Entwicklung und Erprobung mehrerer Vorformen des zu entwickelnden C-Tests. Die C-Tests wurden nach dem klassischen Konstruktionsprinzip entwickelt. Angesichts der Zielgruppe wurden bei der Auswertung semantisch und morphologisch akzeptable Varianten als korrekt gewertet. Rechtschreibefehler blieben unberücksichtigt, solange die intendierte Form eindeutig erkennbar war.

Anschließend gehen die Autoren genauer auf die Erprobung der endgültigen Version ein. Die untersuchte Stichprobe bestand aus 63 Lernern mit Deutsch als Zweitsprache aus allen Schulformen, schwerpunktmäßig jedoch aus der Hauptschule (42.2%). Unter den 50 verschiedenen Muttersprachen fanden sich am häufigsten Türkisch (22.8%) und Russisch (13.7%). Der C-Test bestand aus fünf Texten mit jeweils 20 Lücken und war hoch reliabel (Cronbachs Alpha = 0.96). Ein Vergleich zwischen den Testteilnehmern mit Türkisch und Russisch als Muttersprache mit Hilfe einer Kovarianzanalyse (Länge des Deutscherwerbs als Kovariate) ergab signifikante Unterschiede zwischen den beiden Gruppen bei zwei der fünf Texte. Als mögliche Erklärung nennen die Autoren potentiell unterschiedliche Bearbeitungsstrategien in den beiden Gruppen. Dieser Befund verdeutlicht die Notwendigkeit einer sorgfältigen Auswahl der C-Test-Texte angesichts spezifischer Adressatengruppen (vgl. zur Messäquivalenz von C-Tests in unterschiedlichen Gruppen von Testteilnehmern auch Reichert, Brunner & Martin, im vorliegenden Band).

Ein weiterer wichtiger Befund ist der Nachweis der Notwendigkeit, die Korrektoren bei der Bewertung von akzeptablen Varianten und von Rechtschreibfehlern ← 26 | 27 → gründlich zu schulen. Dies wird u.a. damit begründet, dass die Bewerter in einigen Fällen Rekonstruktionen, die im unmittelbaren Kontext akzeptabel, bei Berücksichtigung der Gesamtbedeutung des Textes jedoch eindeutig falsch waren, als korrekt gewertet haben.

In den nächsten Teilen des Beitrags beschreiben die Autoren eine Studie zur Validierung ihres C-Tests und zur Zuordnung der C-Test-Ergebnisse zu den Kompetenzniveaus des Gemeinsamen europäischen Referenzrahmen für Sprachen (GER). Zur Verankerung wurde das computer-adaptive Testsystems DIALANG (http://www.lancaster.ac.uk/researchenterprise/dialang/about) gewählt, das die Ergebnisse der Testteilnehmer entsprechend dem Kompetenzstufenmodell des GER ausweist. 57 Jugendliche zwischen 13 und 18 Jahren lösten die Endversion des C-Tests sowie Teile des DIALANG. Die Verwendung des DIALANG erwies sich allerdings als problematisch. So waren z.B. ein Teil der Antwortoptionen in einigen Subtests nicht lesbar. Diese Probleme schränken die Belastbarkeit der Ergebnisse deutlich ein.

Zur Beschreibung des Zusammenhangs zwischen C-Test und DIALANG-Subtests wurden Rangkorrelationen berechnet. Die höchste Korrelation ergab sich mit Grammar, gefolgt von Vocabulary. Die Korrelationen (Kendalls Tau-b) mit Listening, Writing und Reading sind mit 0.32, 0.35 und 0.35 relativ gering – verglichen z.B. mit den Pearson-Korrelationen zwischen dem C-Test-System onDaF und den entsprechenden Teilen des TestDaF (vgl. Eckes, im vorliegenden Band). Hier ist allerdings anzumerken, dass sich für Kendalls Tau-b in der Regel (deutlich) niedrigere Werte ergeben als für den auf stärkeren Annahmen beruhenden Pearson-Korrelationskoeffizienten.

Die Autoren selbst nennen für die relativ niedrigen Korrelationen folgende mögliche Gründe: (a) C-Test und DIALANG messen unterschiedliche Fähigkeiten; (b) Qualitätsprobleme der verwendeten Instrumente. Angesichts der Befunde zum DIALANG als externem Kriterium in einer Validierungsstudie zum TestDaF (vgl. Eckes, 2010a, S. 171–181; Kecker & Eckes, 2010; Eckes, im vorliegenden Band) dürften m.E. auch Qualitätsprobleme beim DIALANG als weitere mögliche Erklärung für die geringen Korrelationen in Frage kommen.

Abschließend wird ein Verfahren zur Zuordnung der Testteilnehmer zu den GER-Kompetenzniveaus mit Hilfe optimierter C-Test-Trennwerte (cut-off points) beschrieben. Da das Niveau von Sprachkursen in der Regel anhand des GER charakterisiert wird, ist eine verlässliche Zuordnung von C-Test-Ergebnissen zu den GER-Niveaustufen vor allem auch im Hinblick auf praktische Einstufungsentscheidungen, die bisher in vielen Fällen anhand einer unzureichenden empirischen Basis erfolgen, von großer Bedeutung (vgl. auch Schön, Johnson & Zimmermann, 2014). Bei dem vorgestellten Verfahren handelt es ← 27 | 28 → sich um sog. ROC-Analysen (Receiver Operating Characteristic(s)). ROCAnalysen wurden m.W. bisher noch nicht in der C-Test-Forschung eingesetzt und werden auch von Sumbling, Viladrich, Doval&Riera (im vorliegenden Band) zur Bestimmung von optimalen Trennwerten für Einstufungsentscheidungen verwendet (eine kurzen Überblick über die Anwendung des Verfahrens in der psychologischen Diagnostik geben Goldhammer & Hartig, 2007, S. 175–181).

Kniffka und Linnemann illustrieren das Verfahren anhand der Bestimmung eines optimalen Trennwerts für die GER-Niveaus B1 und B2. Ein Trennwert ist optimal, wenn er zu möglichst wenigen (binären) Fehlklassifikationen führt. Hierbei kann auch z.B. Berücksichtigung finden, ob bei einer Einstufung in einen Sprachkurs eine potentielle Unterforderung des Lerners anders gewichtet werden soll als eine potentielle Überforderung. In den ROC-Analysen diente als Kriterium für das „wahre“ Kompetenzniveau (B1/B2) der C-Test-Teilnehmer deren Ergebnis im DIALANG-Testteil Hörverstehen. Kniffka und Linnemann zeigen, dass kein verlässlicher Trennwert gefunden werden kann und nennen eine Reihe von möglichen Erklärungen. Dieser Teil der Studie illustriert das Potential von ROC-Analysen zur Bestimmung von Trennwerten im Hinblick auf eine kriteriale Interpretation von C-Test-Ergebnissen (für alternative Verfahren zur Bestimmung von Trennwerten für C-Test-Daten vgl. Eckes, 2010a, 2010b, 2012; Harsch & Schröder, 2007; Reichert, Keller & Martin, 2010).

In ihrem Beitrag „Failed restorations in the C-test: Types, sources, and implications for C-test processing“ gehen Esmat Babaii und Mosayeb Fatahi-Majd der Frage nach, inwieweit die Lerner beim Lösen eines englischen C-Tests auch auf den Makrokontext zurückgreifen und ob sich leistungsstärkere und leistungsschwächere Probanden im Hinblick auf das Ausmaß makrokontextueller Verarbeitungsprozesse unterscheiden.Für die Entwicklung eines neuen C-Tests für relativ weit fortgeschrittene Englischlernende wurden zunächst aus einer Sammlung von Texten mit unterschiedlichen Flesch-Lesbarkeitswerten acht Texte von 16 Englischlehrenden ausgewählt. Die acht Texte wurden dann als C-Test (25 Lücken pro Text) von 30 iranischen Englischstudierenden bearbeitet. Für die Hauptuntersuchung wurden vier C-Test-Texte anhand der H& #246;he ihrer Reliabilitäten (Kuder-Richardson Formel KR-21) ausgewählt. Die Benutzung von KR-21 ist allerdings nicht unproblematisch, da das Verfahren wegen der stochastischen Abhängigkeit der Lücken innerhalb eines Textes zu Fehleinschätzungen führen kann.

Ein interessanter Befund dieser Pilotierungsuntersuchung ist, dass sich Lesbarkeitswerte (Flesch-Index) und empirische Schwierigkeit der C-Test-Texte in ihren jeweiligen Rangordnungen deutlich unterscheiden. Ein entsprechender ← 28 | 29 → Befund ergab sich auch in der anschließenden Hauptuntersuchung mit 61 Probanden und vier Texten. Die Autoren kommen deshalb zu Recht zu der Einschätzung, dass sich einfache Lesbarkeitsformeln wie der Flesch-Index nicht als alleiniger Prädiktor der Schwierigkeiten von englischen C-Test-Texten eignen (vgl. den ähnlichen Befund von Kaufmann, 2013 in Bezug auf deutsche C-Test-Texte).

Für die Hauptuntersuchung wurden zunächst anhand des Oxford Quick Placement Test (QPT, version 1, 2004) in einer Stichprobe von 108 iranischen Studierenden mit Englisch als Hauptfach 35 leistungsschwache und 26 leistungsstarke Probanden identifiziert. Diese lösten dann den neu entwickelten englischen C-Test. Zwischen QPT und C-Test ergab ich eine sehr hohe Pearson-Korrelation von 0.82 – ein erneuter Beleg für die kriterienbezogene Validität von C-Tests. Eine Zufallsauswahl von 13 leistungsschwachen und 13 leistungsstarken Probanden nahm sodann kurz nach der Bearbeitung des C-Tests an einer retrospektiven Erhebung der bei der Lösung der Lücken ablaufenden mentalen Prozesse teil. Dabei wurden die Probanden zunächst aufgefordert zu verbalisieren, wie sie die Lücken gelöst haben. Anschließend wurden sie über ihre Fehler informiert und um weitere Informationen hinsichtlich potentieller Fehlerursachen gebeten.

Die Analyse der introspektiven Daten ergab bei den fehlerhaften Rekonstruktionen insbesondere folgende Problembereiche: (1) unzureichend reflektierter Rückgriff auf inhaltliches Wissens; (2) Übersehen von grammatikalischen Details; (3) automatische Wahl hochfrequenter Elemente bei der Rekonstruktion der Lücken (vor allem durch leistungsschwächere Probanden); (4) Fehler beim Abruf von lexikalischen Elementen (trotz eines ausreichenden Verständnisses); (5) Nichtbeachtung des C-Test-Prinzips (z.B. semantisch korrektes Einsetzen von zwei Wörtern in eine Lücke). Die 4. Kategorie war dabei mit 29.2% die bei weitem häufigste Fehlerursache in der oberen Leistungsgruppe.

Insgesamt gab es einen hochsignifikanten Zusammenhang zwischen Fehlerkategorie und Leistungsniveau. Die Autoren kommen zu dem Schluss, dass für die leistungsstarken Probanden der C-Test eine integrative Aufgabe darstellt, zu deren Lösung ein breites Spektrum von lexikalischen, grammatikalischen, orthographischen, textuellen und kontextuellen Ressourcen nötig ist. Dagegen fokussieren die leistungsschwächeren Probanden eher den Mikrokontext der Lücken – vermutlich in vielen Fällen aufgrund von unzureichenden makrokontextuellen Kompetenzen.

Rüdiger Grotjahn und Cordula S. Schiller beschäftigen sich in ihrer Studie „Zur Rolle des Makrokontexts bei der Bearbeitung spanischer C-Test-Texte: Fehleranalysen ausgewählter Lückenwörter“ ähnlich wie Babaii & Fatahi-Majd ← 29 | 30 → (im vorliegenden Band)mit der bislang nicht hinreichend geklärten Frage, in welchem Ausmaß und unter welchen Bedingungen der C-Test über die Fähigkeit zur Verarbeitung des unmittelbaren Kontexts der Lückenwörter hinaus auch die Fähigkeit zur Verarbeitung des Makrokontextes erfasst. Nur wenn der C-Test auch makrokontextuelle Kompetenzen erfasst, kann dieser als Test allgemeiner Sprachfähigkeit angesehen werden (vgl. auch Asano, im vorliegenden Band).

Zu Klärung Frage wurden 12 ausgewählte Lückenwörter eines spanischen C-Tests (fünf Texte mit jeweils 25 Lückenwörtern), der in einer Gruppe von 154 fortgeschrittenen universitären Spanischlernern mit vorwiegend Englisch als Muttersprache eingesetzt worden war, einer Fehleranalyse unterzogen. Um Aussagen über den Zusammenhang zwischen Spanischkompetenz und Lösungshäufigkeit bei bestimmten Lücken zu ermöglichen, wurde das beobachtete Leistungsspektrum entsprechend dem C-Test-Gesamtwert in vier Quartile eingeteilt.

Untersucht wurden u.a. die Fehler bei folgenden Elementen: die Kollokation del mismo, das Pronomen se, die Präposition en, die Verbformen es und ser, das Passiv ser recreada, Tempus und Aspekt des Verbs intentaba sowie der unpersönliche Ausdruck era preciso unirse (der zu rekonstruierende Teil ist jeweils unterstrichen).

Die Autoren interpretieren die Ergebnisse ihrer Fehleranalysen dahingehend, dass die Fähigkeit zur makrokontextuellen Verarbeitung durch den untersuchten C-Test zumindest in gewissem Umfang erfasst wird und dass zudem weiter fortgeschrittene Lerner im Vergleich zu weniger fortgeschrittenen Lernern tendenziell eher in der Lage sind, auch den Makrokontext bei der Rekonstruktion der Lücken zu nutzen. Dieses Ergebnis stimmt überein mit Babaii&Fatahi-Majd (im vorliegenden Band), die ebenfalls einen Vorteil leistungsstärkerer Probanden bei der Nutzung des Makrokontextes belegen konnten. Ein weiterer interessanter Befund der vorliegenden Studie ist, dass bestimmte, den Lernern vermutlich bekannte spanische Strukturwörter, keineswegs besonders leicht zu ergänzen sind – entgegen der für deutsche, englische und französische C-Test-Texte festgestellten Tendenz, dass Strukturwörter leichter zu rekonstruieren sind als Inhaltswörter.

Abschließend weisen die Autoren noch darauf hin, dass zur weiteren Bestätigung ihrer Befunde ergänzende Analysen der von den Testteilnehmern verwendeten Lösungsprozesse mit Hilfe introspektiver Verfahren notwendig sind (vgl. hierzu auch Babaii & Fatahi-Majd, im vorliegenden Band).

Im Beitrag von Cordula S. Schiller und Rüdiger Grotjahn „Der C-Test im Spanischen: Konstruktions- und Auswertungsspezifika“geht es um (potentielle)Probleme bei der strikten Anwendung des klassischen C-Test-Prinzips auf das ← 30 | 31 → Spanische. Die Autoren folgen dabei in Teilen den Ausführungen von Grotjahn, Tönshoff & Hohenbleicher (1994) zu ähnlichen Problemen bei der Entwicklung italienischer C-Tests.

Es werden u.a. folgende Problembereiche diskutiert: (1) Irregeleitete Hypothesenbildung im Fall einer fehlenden 1:1-Entsprechung zwischen Orthographie und Lautung beim letzten nicht getilgten Graphem (<c>, <g>, <ch> und <ll>); (2) Lösungs- und Auswertungsprobleme bei enklitischen Pronomen; (3) Komposita; (4) lange Verbendungen; (5) Adverbien auf -mente; (6) Nominalendung -miento; (7) Elativ (absoluter Superlativ); (8) expressive Suffixe; (9) Doppelkonsonant <rr>; (10) Bewertung von Akzentfehlern.

Die Autoren machen jeweils konkrete Vorschläge für den Umgang mit den aufgezeigten Problemen und diskutieren, ob eine vorgeschlagene Modifikation des klassischen Vorgehens die Lösungsschwierigkeit spanischer C-Tests erhöht oder verringert. Schiller und Grotjahn kommen vor dem Hintergrund ihrer Analysen zu dem Schluss, dass das klassische C-Test-Prinzip im Spanischen modifiziert und flexibilisiert werden sollte. Ein flexibleres, durch den Testteilnehmer nicht ohne weiteres vorhersagbares Tilgungsprinzip hätte nach Ansicht der Autoren darüber hinaus den Vorteil, dass Buchstabenzählen als lernerseitige Lösungsstrategie und potentielle Quelle konstruktirrelevanter Varianz weitgehend ausgeschlossen werden könnte.

Purya Baghaei beschreibt in „Construction and validation of a C-Test in Persian“ im Detail die erstmalige Erstellung und Validierung eines C-Tests für Persisch. Dazu gibt der Autor zunächst einen Überblick über die Entwicklung und Validierung von C-Tests und insbesondere über Modifikationen des klassischen Tilgungsprinzips wie z.B. Tilgung von einem Drittel jedes zweiten Wortes oder Tilgung der ersten Hälfte eines Wortes. Er argumentiert, dass sich das C-Test-Prinzip sehr gut für das Persische als flektierende Sprache mit einer alphabetischen Schrift eignet – im Gegensatz zu Sprachen wie Chinesisch oder Japanisch.

Anschließend beschreibt der Autor eine eigene Studie mit einem nach dem klassischen Prinzip konstruierten persischen C-Test mit fünf Texten und jeweils 25 Lücken aus bildungs- und allgemeinsprachlichen Quellen für Jugendliche. Die Erprobungsstichprobe bestand aus 158 männlichen Sekundarstufenschülern aus Mashhad (Iran) – aufgeteilt in sechs Alterskohorten von 12–17 Jahren. 98% der Probanden hatte Persisch als Familiensprache. Baghaei diskutiert in diesem Zusammenhang die Argumente gegen die Verwendung von Muttersprachlern als Referenzkategorie zur Validierung von Fremdsprachentests und stellt zu Recht fest, dass seine Studie über die untersuchten Muttersprachler hinaus auch Hinweise in Bezug auf die Validität des entwickelten C-Tests für Persischlerner liefern könne. Sollte sich nämlich ein altersabhängiger Zuwachs bei den C-Test-Ergebnissen ← 31 | 32 → der Muttersprachler ergeben, dann dürfte der entwickelte C-Test prinzipiell auch geeignet sein für eine Differenzierung zwischen Fremdsprachenlernern.

Die Datenanalyse erfolgte mit Verfahren sowohl der klassischen als auch der probabilistischen Testtheorie. Analysen mit dem Partial Credit Model mit anschließender Hauptkomponentenanalyse der Residuen konnten die Eindimensionalität des C-Tests nachweisen. Außerdem ergaben sich hohe Reliabilitäten und Trennschärfen. Allerdings zeigten die Analysen eine unzureichende Diskriminationsfähigkeit im oberen Leistungsspektrum. Ähnliche Deckeneffekte konnten z.B. auch im Fall deutscher, englischer oder französischer C-Tests nachgewiesen werden. Dies ist allerdings m.E. keine grundsätzliche Schwäche von C-Tests. Eine bessere Differenzierung im oberen Leistungsspektrum kann z.B. über die Komplexität der Texte, eine weitere Redundanzreduktion z.B. durch Tilgung von zwei Dritteln jedes zweiten Wortes oder auch über eine deutliche Limitierung der Bearbeitungszeit pro Text erreicht werden (vgl. zum Letzteren Grotjahn, 2010b; Wockenfuß, 2009; sowie auch den Beitrag von Wockenfuß & Raatz, im vorliegenden Band).

Im letzten thematischen Beitrag zum Sammelband mit dem Titel „Der C-Test und sein schulischer Wert: Eine Lanze für mehr C-Tests in der Schule“ beschäftigen sich Claudia Harsch und Konrad Schröder u.a. mit dem Problem der Augenscheingültigkeit (face validity) von C-Tests und plädieren zugleich für einen intensiveren Einsatz von C-Tests im schulischen Kontext. Sie weisen u.a. darauf hin, dass der C-Test einen hohen Vorhersage-Wert habe und deshalb ein guter Screening-Test sei (vgl. hierzu z.B. auch Eckes, im vorliegenden Band). Sie weisen ferner darauf hin, dass das C-Test-Format einen integrativen Zugriff insbesondere auf folgende Facetten des Sprachvermögens erlaubt: Umgang mit Texten, Lesevermögen, Interpolationsfähigkeit, Nutzung von Ko- und Kontext, lexikalische Kompetenzen sowie sprachstrukturelle Kompetenzen (Morphologie, Syntax). Wegen des integrativen Charakters des C-Tests könnten allerdings diese einzelnen Facetten nicht ohne weiteres identifiziert werden und Fehler deshalb auch nicht ohne weiteres unterrichtlich therapiert werden.

Die Autoren sprechen sich dafür aus, im Unterricht auch nichtkanonische, nach didaktischen Kriterien konstruierte C-Tests, bei denen die Schließung der Lücken Kompetenzen erfordern, die Gegenstand des vorangehenden Unterrichts waren, kriterienorientiert einzusetzen.Entsprechende „didaktische C-Tests“ könnten dann nach Ansicht der Autoren nicht nur für eine Evaluation durch den Lehrer, sondern auch für die Selbstevaluation (z.B. im Kontext der Portfolio-Arbeit) eingesetzt werden. Zudem könnte man auch die für das Schließen der Lücken notwendigen Kompetenzen zusammen mit den Schülern im Sinne einer ← 32 | 33 → Sensibilisierung für Sprache und Kommunikation erarbeiten (vgl. zum Einsatz von C-Tests im schulischen und akademischen Kontext auch die Hinweise von Mashkovskaya, 2014, Kap. 4.6).Hier stellt sich m.E. allerdings die Frage, ob Lehrende mit der Erstellung entsprechender „didaktischer C-Tests“ angesichts ihrer zeitlichen Belastung nicht zumeist überfordert sind und nicht eher Lehrwerkautoren diese Aufgabe übernehmen sollten. Letztere könnten dann auch die für eine sinnvolle unterrichtsbezogene Interpretation der Testergebnisse notwendigen didaktischen Kommentare zu den einzelnen Lücken verfassen.

Anschließend gehen die Autoren auf die „Rolle des C-Tests im Rahmen der schulischen Evaluationskultur“ ein. Sie erachten es als vordringlich, Vorbehalte gegenüber dem C-Test-Format auf Seiten der Lehrerschaft und Bildungsadministratoren abzubauen und weisen darauf hin, dass die Lernenden in der Regel mit dem C-Test-Format keine Probleme haben (vgl. Mainzer, 2014 und Sumbling, Viladrich, Doval&Riera, im vorliegenden Band für partiell abweichende Befunde in Bezug auf face validity und washback von C-Tests bei universitären Fremdsprachenlernern).

Der Sammelband wird abgeschlossen mit dem Beitrag „The C-Test bibliography: version January 2014“ von Rüdiger Grotjahn. Es handelt sich dabei um eine Aktualisierung der 224 Einträge umfassenden Bibliografie von Grotjahn (1996). Aufgenommen wurden wiederum lediglich Beiträge, die einen substantiellen Beitrag zur Forschung zum C-Test leisten. Entsprechend blieben Arbeiten, in denen der C-Test in erster Linie zur Datenerhebung oder als Messinstrument eingesetzt wird, weitgehend unberücksichtigt.Die aktualisierte Bibliografie umfasst nunmehr 498 Einträge und belegt eindrucksvoll die Fruchtbarkeit der Forschung zum C-Test in den 33 Jahren seit der Einführung dieses Testformats im Jahre 1981.

3. Ausblick

Die Beiträge des Sammelbandes belegen erneut die psychometrische Qualität und praktischen Nutzen des C-Test-Prinzips sowie die Innovativität und Internationalisierung der Forschung zum C-Test. Mit dem vorliegenden achten C-Test-Sammelband endet meine mehr als 20-jährige Herausgeberschaft zum C-Test. Ich hoffe sehr, dass eine Kollegin oder ein Kollege aus der „C-Test-Gemeinde“ die Arbeit weiterführt. ← 33 | 34 →

Literaturverzeichnis

Adams, Raymond J., Wilson, Mark & Wang, Wen-Chung. (1997). The multidimensional random coefficients multinomial logit model. Applied Psychological Measurement, 21(1), 1–23.

Asano, Yuki. (im vorliegenden Band). C-Tests und ‚allgemeine Sprachkompetenz‘: Theoretische Überlegungen und empirische Analysen. In Rüdiger Grotjahn (Hrsg.), Der C-Test: Aktuelle Tendenzen/The C-Test: Current trends (S. 39–52). Frankfurt am Main: Lang.

Babaii, Esmat & Fatahi-Majd, Mosayeb (im vorliegenden Band). Failed restorations in the C-test: Types, sources, and implications for C-test processing. In Rüdiger Grotjahn (Hrsg.), Der C-Test: Aktuelle Tendenzen/The C-Test: Current trends (S. 261–274). Frankfurt am Main: Lang.

Baghaei, Purya. (im vorliegenden Band). Construction and validation of a C-Test in Persian. In Rüdiger Grotjahn (Hrsg.), Der C-Test: Aktuelle Tendenzen/The C-Test: Current trends (S. 299–312). Frankfurt am Main: Lang.

Baghaei, Purya & Grotjahn, Rüdiger. (2014). Establishing the construct validity of conversational C-Tests using a multidimensional Rasch model. Psychological Test and Assessment Modeling, 56(1), 60–82
[http://www.psychologie-aktuell.com/index.php?id=204].

Baghaei, Purya & Grotjahn, Rüdiger. (im vorliegenden Band). The validity of C-Tests as measures of academic and everyday language proficiency: A multidimensional item response modeling study. In Rüdiger Grotjahn (Hrsg.), Der C-Test: Aktuelle Tendenzen/The C-Test: Current trends (S. 163–171). Frankfurt am Main: Lang.

Baghaei, Purya & Roshanzamir, Mohsen. (2010). A new perspective on C-Test construct validity: Examining its relationship with multiple intelligences. Ferdowsi Review, 1(2), 21–31.

Baur, Rupprecht S., Chlosta, Christoph & Goggin, Melanie. (2011). Cornelsen C-Test. In Torsten Andreas, Heike Baake, Rupprecht S. Baur, Christoph Chlosta, Melanie Goggin, Tanja Heinemann, Henriette Hoppe, Sandra Niebuhr-Siebert & Duygu Yelegen (Hrsg.), Fördermaterialien für Deutsch als Zweitsprache 5/6 – Mit Cornelsen C-Test (S. 4–22). Berlin: Cornelsen.

Baur, Rupprecht S., Chlosta, Christoph & Goggin, Melanie. (2012). Doppelklick 5. Der Cornelsen C-Test. Berlin: Cornelsen.

Daller, Helmut. (1999). Migration und Mehrsprachigkeit: Der Sprachstand türkischer Rückkehrer aus Deutschland. Frankfurt am Main: Lang.

Daller, Helmut & Grotjahn, Rüdiger. (1999). The language proficiency of Turkish returnees from Germany: An empirical investigation of academic and everyday language proficiency. Language, Culture and Curriculum, 12(2), 156–172.

Eckes, Thomas. (2010a). Der Online-Einstufungstest Deutsch als Fremdsprache (onDaF): Theoretische Grundlagen, Konstruktion und Validierung. In Rüdiger Grotjahn (Hrsg.), Der C-Test: Beiträge aus der aktuellen Forschung/The C-Test: Contributions from current research (S. 125–192). Frankfurt am Main: Lang
[https://www.ondaf.de/gast/ondaf/info/dokumente/Eckes_onDaF_2010.pdf].

Eckes, Thomas. (2010b). Standard-Setting bei C-Tests: Bestimmung von Kompetenzniveaus mit der Prototypgruppenmethode. Diagnostica, 56(1), 19–32.

Eckes, Thomas. (2012). Examinee-centered standard setting for large-scale assessments: The prototype group method. Psychological Test and Assessment Modeling, 54(3), 257–283.

Eckes, Thomas. (im vorliegenden Band). Die onDaF–TestDaF-Vergleichsstudie: Wie gut sagen Ergebnisse im onDaF Erfolg oder Misserfolg beim TestDaF vorher? In Rüdiger ← 34 | 35 → Grotjahn (Hrsg.), Der C-Test: Aktuelle Tendenzen/The C-Test: Current trends (S. 137–162). Frankfurt am Main: Lang.

Eckes, Thomas & Grotjahn, Rüdiger. (2006). A closer look at the construct validity of C-tests. Language Testing, 23(3), 290–325.

Goldhammer, Frank & Hartig, Johannes. (2007). Interpretation von Testresultaten und Testeichung. In Helfried Moosbrugger & Augustin Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion (S. 165–192). Heidelberg: Springer.

Grotjahn, Rüdiger. (1996). The C-Test bibliography: version December 1995. In Rüdiger Grotjahn (Hrsg.), Der C-Test. Theoretische Grundlagen und praktische Anwendungen (Bd. 3, S. 435–457). Bochum: Brockmeyer
[http://www.c-test.de/deutsch/index.php?lang=de&section=originalia und http://www.c-test.de].

Grotjahn, Rüdiger. (2010a). Der C-Test: Beiträge aus der aktuellen ← 35 | 36 → Forschung. Einleitung und Übersicht über den Band. In Rüdiger Grotjahn (Hrsg.), Der C-Test: Beiträge aus der aktuellen Forschung/The C-Test: Contributions from current research (S. ix–xxxiv). Frankfurt am Main: Lang.

Grotjahn, Rüdiger. (2010b). Gesamtdarbietung, Einzeltextdarbietung, Zeitbegrenzung und Zeitdruck: Auswirkungen auf Item- und Testkennwerte und C-Test-Konstrukt. In Rüdiger Grotjahn (Hrsg.), Der C-Test: Beiträge aus der aktuellen Forschung/The C-Test: Contributions from current research (S. 265–296). Frankfurt am Main: Lang.

Grotjahn, Rüdiger. (im vorliegenden Band a). Der C-Test: Aktuelle Tendenzen. Einleitung und Übersicht über den Band. In Rüdiger Grotjahn (Hrsg.), Der C-Test: Aktuelle Tendenzen/The C-Test: Current trends (S. 7–37). Frankfurt am Main: Lang.

Grotjahn, Rüdiger. (im vorliegenden Band b). The C-Test bibliography: version January 2014. In Rüdiger Grotjahn (Hrsg.), Der C-Test: Aktuelle Tendenzen/The C-Test: Current trends (S. 323–365). Frankfurt am Main: Lang.

Grotjahn, Rüdiger & Schiller, Cordula S. (im vorliegenden Band). Zur Rolle des Makrokontexts bei der Bearbeitung spanischer C-Test-Texte: Fehleranalysen ausgewählter Lückenwörter. In Rüdiger Grotjahn (Hrsg.), Der C-Test: Aktuelle Tendenzen/The C-Test: Current trends (S. 275–287). Frankfurt am Main: Lang.

Grotjahn, Rüdiger & Tönshoff, Wolfgang. (1992). Textverständnis bei der C-Test-Bearbeitung. Pilotstudien mit Französisch- und Italienischlernern. In Rüdiger Grotjahn (Hrsg.), Der C-Test. Theoretische Grundlagen und praktische Anwendungen (Bd. 1, S. 19–95). Bochum: Brockmeyer
[http://www.c-test.de/deutsch/index.php?lang=de&section=originalia].

Grotjahn, Rüdiger, Tönshoff, Wolfgang & Hohenbleicher, Heike. (1994). Der C-Test im Italienischen. Theoretische Überlegungen und empirische Analysen. In Rüdiger Grotjahn (Hrsg.), Der C-Test. Theoretische Grundlagen und praktische Anwendungen (Bd. 2, S. 115–149). Bochum: Brockmeyer
[http://www.c-test.de/deutsch/index.php?lang=de&section=originalia].

Harsch, Claudia & Schröder, Konrad. (2007). Textrekonstruktion: C-Test. In Bärbel Beck & Eckhard Klieme (Hrsg.), Sprachliche Kompetenzen: Konzepte und Messung. DESI-Studie (Deutsch Englisch Schülerleistungen International) (S. 212–225). Weinheim: Beltz [http://www.pedocs.de/volltexte/2010/3140/pdf/978_3_407_25398_9_1A_D_A.pdf].

Harsch, Claudia & Schröder, Konrad. (im vorliegenden Band). Der C-Test und sein schulischer Wert: Eine Lanze für mehr C-Tests in der Schule. In Rüdiger Grotjahn (Hrsg.), Der C-Test: Aktuelle Tendenzen/The C-Test: Current trends (S. 313–321). Frankfurt am Main: Lang.

Jakschik, Gerhard, Klemmert, Hella & Klinck, Dorothea. (2010). Computergestützter Multiple Choice C-Test in der Bundesagentur für Arbeit: Bundesweite Erprobung und Einführung. In Rüdiger Grotjahn (Hrsg.), Der C-Test: Beiträge aus der aktuellen Forschung/The C-Test: Contributions from current research (S. 233–264). Frankfurt am Main: Lang.

Jude, Nina. (2008). Zur Struktur von Sprachkompetenz. Diss. phil., Fachbereich Psychologie und Sportwissenschaften der Johann Wolfgang Goethe-Universität, Frankfurt am Main [http://www.fachportal-paedagogik.de/fis_bildung/suche/fis_set.html?FId=880590].

Kaufmann, Nicole. (2013). Zur Vorhersage der Schwierigkeit deutscher C-Tests: Eine empirische Studie anhand des ‚Online-Einstufungstest Deutsch als Fremdsprache‘ (onDaF). Schriftliche Hausarbeit für die Masterprüfung der Fakultät für Philologie an der Ruhr-Universität Bochum, Seminar für Sprachlehrforschung.

Kecker, Gabriele. (2011). Validierung von Sprachprüfungen: Die Zuordnung des TestDaF zum Gemeinsamen europäischen Referenzrahmen für Sprachen. Frankfurt am Main: Lang.

Kecker, Gabriele & Eckes, Thomas. (2010). Putting the Manual to the test: The TestDaF–CEFR linking project. In Waldemar Martyniuk (Hrsg.), Aligning tests with the CEFR: Reflections on using the Council of Europe’s draft Manual (S. 50–79). Cambridge: Cambridge University Press.

Klemmert, Hella. (im vorliegenden Band). Messäquivalenz von klassischem C-Test und computergestütztem Multiple-Choice C-Test im Rasch-Modell. In Rüdiger Grotjahn (Hrsg.), Der C-Test: Aktuelle Tendenzen/The C-Test: Current trends (S. 173–188). Frankfurt am Main: Lang.

Kniffka, Gabriele & Linnemann, Markus. (im vorliegenden Band). A German C-test for migrant children. In Rüdiger Grotjahn (Hrsg.), Der C-Test: Aktuelle Tendenzen/The C-Test: Current trends (S. 239–259). Frankfurt am Main: Lang.

Lenz, Peter & Studer, Thomas. (2008). Lingualevel: Instrumente zur Evaluation von Fremdsprachenkompetenzen: 5.–9. Schuljahr (2. Aufl.). Bern: Schulverlag.

Linnemann, Markus & Wilbert, Jürgen. (2010). The C-test: A valid instrument for screening language skills and reading comprehension of children with learning problems? In Rüdiger Grotjahn (Hrsg.), Der C-Test: Beiträge aus der aktuellen Forschung/The C-Test: Contributions from current research (S. 113–124). Frankfurt am Main: Lang.

Linnemann, Markus & Wilbert, Jürgen. (im vorliegenden Band). Do C-tests measure language comprehension of learning disabled students? In Rüdiger Grotjahn (Hrsg.), Der C-Test: Aktuelle Tendenzen/The C-Test: Current trends (S. 223–238). Frankfurt am Main: Lang.

Mainzer, Mirka. (2014). Der C-Test als Einstufungstest im Hochschulkontext: Untersuchung zur face validity und washback. Schriftliche Hausarbeit für die Masterprüfung der Fakultät für Philologie an der Ruhr-Universität Bochum, Seminar für Sprachlehrforschung.

Mashkovskaya, Anna. (2014). Der C-Test als Lesetest bei Muttersprachlern. Diss. phil., Universität Duisburg-Essen, Fachbereich Geisteswissenschaften [http://duepublico.uni-duisburg-essen.de/servlets/DocumentServlet?id=32859].

Pishghadam, Reza & Tabataba’ian, Maryam S. (2011). IQ and test format: A study into test fairness. Iranian Journal of Language Testing, 1(1), 1–13 [http://www.ijlt.ir/portal/files/402-2011-01-01.pdf].

Reichert, Monique, Brunner, Martin & Martin, Romain (im vorliegenden Band). Do test takers with different language backgrounds take the same C-test ? The effect of native language on the validity of C-tests. In Rüdiger Grotjahn (Hrsg.), Der C-Test: Aktuelle Tendenzen/The C-Test: Current trends (S. 109–135). Frankfurt am Main: Lang.

Reichert, Monique, Keller, Ulrich & Martin, Romain. (2010). The C-test, the TCF and the CEFR: a validation study. In Rüdiger Grotjahn (Hrsg.), Der C-Test: Beiträge aus der aktuellen Forschung/The C-Test: Contributions from current research (S. 205–231). Frankfurt am Main: Lang.

Schiller, Cordula S. & Grotjahn, Rüdiger. (im vorliegenden Band). Der C-Test im Spanischen: Konstruktions- und Auswertungsspezifika. In Rüdiger Grotjahn (Hrsg.), Der ← 36 | 37 → C-Test: Aktuelle Tendenzen/The C-Test: Current trends (S. 289–297). Frankfurt am Main: Lang.

Schön, Almut, Johnson, Natalia & Zimmermann, Kerstin. (2014). Schwellen erkennen – verschiedene Möglichkeiten zur Festlegung von cut scores in C-Tests. In Regina Mügge (Hrsg.), Gekonnt, verkannt, anerkannt? – Sprachen im Bologna-Prozess. Dokumentation der 27. Arbeitstagung 2012 (S. 71–88). Bochum: AKS-Verlag.

Sigott, Günther. (2004). Towards identifying the C-Test construct. Frankfurt am Main: Lang.

Sigott, Günther. (2006). How fluid is the C-Test construct? In Rüdiger Grotjahn (Hrsg.), Der C-Test: Theorie, Empirie, Anwendungen/The C-Test: Theory, empirical research, applications (S. 139–146). Frankfurt am Main: Lang.

Sumbling, Mick, Viladrich, Carme, Doval, Eduardo & Riera, Laura. (im vorliegenden Band). C-test as an indicator of general language proficiency in the context of a CBT (SIMTEST). In Rüdiger Grotjahn (Hrsg.), Der C-Test: Aktuelle Tendenzen/The C-Test: Current trends (S. 53–108). Frankfurt am Main: Lang.

Temme, Dirk & Hildebrandt, Lutz. (2008). Gruppenvergleiche bei hypothetischen Konstrukten: Die Prüfung der Übereinstimmung von Messmodellen mit der Strukturgleichungsmethodik (SFB 649 Discussion Paper 2008-042). Berlin: Humboldt-Universität, Institut für Marketing [http://edoc.hu-berlin.de/series/sfb-649-papers/2008-42/PDF/42.pdf].

Temme, Dirk & Hildebrandt, Lutz. (2009). Gruppenvergleiche bei hypothetischen Konstrukten: Die Prüfung der Übereinstimmung von Messmodellen mit der Strukturgleichungsmethodik. Schmalenbachs Zeitschrift für betriebswirtschaftliche Forschung, 61(2), 138–185.

Wilbert, Jürgen & Linnemann, Markus. (2011). Kriterien zur Analyse eines Tests zur Lernverlaufsdiagnostik. Empirische Sonderpädagogik, 3, 225–242 [http://www.psychologie-aktuell.com/fileadmin/download/esp/3-2011_20111130/wilbert.pdf].

Wockenfuß, Verena. (2009). Diagnostik von Sprache und Intelligenz bei Jugendlichen und jungen Erwachsenen. Aachen: Shaker.

Wockenfuß, Verena & Raatz, Ulrich. (im vorliegenden Band). Zur Validität von muttersprachlichen C-Tests: Bedeutung von verbaler Intelligenz und Informationsverarbeitungsgeschwindigkeit unter Berücksichtigung des Lebensalters. In Rüdiger Grotjahn (Hrsg.), Der C-Test: Aktuelle Tendenzen/The C-Test: Current trends (S. 189–222). Frankfurt am Main: Lang.

* Korrespondenzadresse: Prof. Dr. Rüdiger Grotjahn, Ruhr-Universität Bochum, Seminar für Sprachlehrforschung, D-44780 Bochum. E-mail: ruediger.grotjahn@rub.de.

1 Der an einer genaueren Charakterisierung der genannten Formen von Invarianz sowie an einer Einführung in die konfirmatorische Mehrgruppen-Faktorenanalyse interessierte Leser sei auf die State-of-the-Art-Artikel von Temme & Hildebrandt (2008, 2009) verwiesen.

| 39 →

C-Tests und ‚allgemeine Sprachkompetenz‘: Theoretische Überlegungen und empirische Analysen

Yuki Asano*

It is widely accepted that C-tests are valid operationalizations of the one-dimensional construct of general language proficiency. However, not very much is known about why C-tests allow us to measure this construct. The present study aims to take a closer look at this construct, both by examining the correlations between C-tests and the four language skills (reading, listening, writing and speaking) as operationalized by the Test of German as a Foreign Language TestDaF and by analyzing the cognitive processes evoked during C-test solving.

The results of the quantitative data showed that C-tests correlate with the four language skills. In the verbal data analysis, psycholinguistic models and theories were applied. I proceeded on the assumption that the same cognitive mechanisms underlie speech production and reception and that thus general language proficiency covers both production and reception. Furthermore, the concept of expectancy grammar (Oller, 1976), i.e. the internalized ability to make prediction utilizing the characteristic of the language, was also applied to the data analysis.

One piece of evidence for a close and reciprocal functional relationship between the processing of language production and comprehension is internal speech, the function of which is to activate the process of speech perception to help the process of language production. Both the activation of internal speech and the use of expectancy grammar during C-test solving were found in the qualitative data. In addition, data analysis showed that what C-tests measure is fluid (Sigott, 2006), depending on motivation, test-taking strategies or test difficulty, and that the cognitive processes demanded to solve a C-test are also different between native and non-native speakers.

1. Theoretische Grundlagen

1.1. Allgemeine Sprachkompetenz

Ein C-Test beruht auf der Annahme eindimensionaler Sprachkompetenz. Analog zum faktoranalytischen Nachweis eines Faktors genereller Intelligenz in der psychologischen Forschung wurde auch im Bereich des Fremdsprachenlernens und -lehrens der Versuch unternommen, Sprachkompetenz einfaktoriell zu modellieren. Allgemeine Sprachkompetenz wird in diesem Kontext als eine zentrale integrative Sprachkompetenz verstanden, die in den klassischen vier Fertigkeitsbereichen einer Sprache (Lesen, Hören, Sprechen und Schreiben) gleichermaßen ← 39 | 40 → wirksam ist und allen Sprachleistungen zugrunde liegt (vgl. Vollmer, 1982, S. 39).1

Diese Annahme blieb jedoch nicht ohne Kritik. Ein wichtiger Kritikpunkt ist, „ob die kognitiven und intellektuellen Fertigkeiten eines Menschen nur eine Dimension seiner Sprachkompetenz ausmachen, oder ob sie als der eigentliche Kern aller Sprachleistungen definiert werden“ (Vollmer, 1982, S. 43). Cummins (1980, 1983) erfasst Sprachkompetenz als ein Kontinuum, das sich einerseits aus dem Grad der Kontextabhängigkeit und andererseits aus der erforderlichen kognitiven Fähigkeit ergibt. Er unterscheidet dabei einzelne Sprachkompetenzen nach ihren unterschiedlichen Dimensionen: „It seems clear that some basic distinctions must be made in order to accommodate these very different understandings of the nature of ‘language proficiency’“ (Cummins, 1983, S. 111). Folgt man Cummins (1983), dann misst ein C-Test eine Sprachkompetenz, die mit kognitiven und intellektuellen Fähigkeiten korreliert und in einem institutionalisierten Kontext erworben wird. Cummins bezeichnet diese Kompetenz als „cognitive academic language proficiency (CALP)“.

Von einer allgemeinen Sprachkompetenz würde man u.a. erwarten, dass sie verschiedene Aspekte der kognitiven Sprachverarbeitung umfasst. In der Tat handelt es sich bei der Sprachverarbeitung um Verarbeitungsprozesse auf der Wort-, Satz und Diskursebene, durch die Sprachverstehensprozesse in Gang gesetzt werden, die in Form von phonologischen/orthographischen, semantisch-syntaktischen und pragmatischen Prozessen ablaufen. Das Sprachenverstehen ist „a multi level processing task which entails a number of simultaneous processing activities“ (Boekaerts, 1981, S. 32), also als ein mehrdimensionaler Prozess zu verstehen, bei dem gleichzeitig mehrere Verarbeitungsprozesse erfolgen und sprachliches Wissen auf verschiedenen Ebenen („input-based“, „schema-based“ und „contextual understanding“ (ebd.)) einbezogen wird.

1.2. Erwartungsgrammatik und sprachliche Redundanz

Zur Klärung, warum ein schriftlicher Lückentest es ermöglicht, allgemeine Sprachkompetenz zu erfassen, werden zwei zentrale Begriffe eingeführt, die C-Tests theoretisch zugrunde liegen: Erwartungsgrammatik und sprachliche Redundanz.

„Language is viewed as an abbreviatory system whereby human processing of information is facilitated through sequential coding. The key ingredient to successful use of ← 40 | 41 → language is the ability to anticipate elements in sequence. This is true for encoding operations as well as for decoding“ (Oller, 1974, S. 443).

Oller (1974) weist darauf hin, dass der sprachlichen Kompetenz sequenziell ablaufende Kodierungsprozesse zugrunde liegen, die sowohl für die Enkodierung als auch für die Dekodierung2 gelten. Diese Kodierungsprozesse gehen schneller und effektiver vonstatten, je besser eine Person die Elemente, die in weiteren, kognitiven Prozessen sequentiell auftreten, antizipieren kann. Diese Fähigkeit wird von Oller (1974, 1976, 1979) als „Expectancy Grammar“ d.h. Erwartungsgrammatik bezeichnet. Sie ist nach Oller „the foundation of all language skills“ (Oller, 1974, S. 444) und gilt auf allen Ebenen der Sprachverarbeitung (z.B. auf phonetischer bis pragmatischer Ebene) und in allen Fertigkeitsbereichen gleichermaßen.

Kommende Elemente können vorhergesehen werden, weil die Informationen in natürlicher Sprache redundant sind und weil man unter Ausnutzung der in sämtlichen sprachlichen Äußerungen enthaltenen Redundanz die weiteren sprachlichen Elemente erschließen kann (vgl. auch Freese, 1994, S. 306). Diese Redundanz hat eine positive Funktion. Wenn z.B. ein Hörer oder Leser den Wortschatz, die Grammatik und den kulturellen Hintergrund der Sprache kennt und diese Kenntnisse anwenden kann, kann er dank dieser Redundanzen die beschädigten oder fehlenden Sprachelemente rekonstruieren. Je weniger Sprachkompetenz er besitzt, desto schlechter gelingt die Rekonstruktion.

1.3. Allgemeine Sprachkompetenz aus psycholinguistischer Sicht

1.3.1. Darstellung in Sprachverarbeitungsmodellen

Dieses Kapitel befasst sich mit den psycholinguistischen Modellen, die von einem gemeinsamen kognitiven System für Sprachproduktion und -rezeption ausgehen. Die Auffassung, dass die vier Fertigkeitsbereiche lediglich Differenzierungen eines zusammenhängenden Systems sind, veranschaulicht das Modell von Schade (2008), das sich an Levelt (1989) anlehnt und in Abbildung 1 wiedergegeben ist. Sowohl bei der Sprachproduktion als auch bei der Sprachrezeption wird zugleich auf das mentale Lexikon und auf das Langzeitgedächtnis als Wissensspeicher zurückgegriffen. Das zeigt, dass diese beiden Prozesse nicht komplett getrennt voneinander ablaufen. Das Modell bezieht sich zwar primär ← 41 | 42 → auf die akustisch dargebotene Sprache, also Sprechen und Hören, jedoch lässt es sich auch auf die schriftliche Sprache anwenden, weil beiden Modalitäten der grundsätzlich gleiche Mechanismus zugrunde liegt (Goldenberg, 2007).

Illustration

Abbildung 1: Modell der Sprachverarbeitung (Schade, 2008)

Der Pfeil im Modell, der die produktive und rezeptive Sprachverarbeitung verbindet, entspricht „internal speech“ bei Levelt (1989, 1999), d.h. dem inneren Sprechen. Zum besseren Verständnis soll dessen älteres Modell (1989) eingeführt werden, das die für die Thematik dieses Beitrags relevanten Schritte deutlicher veranschaulicht. Das Modell stellt die empirisch am besten gestützte Theorie zu Sprachverarbeitungsprozessen bei monolingualen Sprechern dar3 (vgl. Kormos, 2006).

Aus dem Modell Levelts sind im vorliegenden Artikel nur „internal speech“, „overt speech“ und „parsed speech“ von Interesse, weil sie die Sprachproduktion und -rezeption miteinander verbinden. Sie gelten damit als Schlüssel für die Frage nach der Struktur der allgemeinen Sprachkompetenz. Die Funktion von „internal speech“ ist die Überprüfung der Korrektheit und Angemessenheit der präartikulierten sprachlichen Äußerungen, die im Formulator produziert wurden. Nach Levelts Theorie wird ein Wort, das ausgesprochen werden soll, gleichzeitig im Sprachverstehenssystem („speech comprehension system“) aktiv, ohne dass sich der Sprecher es sich schon tatsächlich selbst hat sagen hören. Sowohl diese präartikulierten als auch die artikulierten Äußerungen (also „internal speech“ und „overt speech“) werden im Verstehensprozess verarbeitet und aktivieren ← 42 | 43 → dann als „parsed speech“ die Monitorfunktion (vgl. Kormos, 2006; Levelt, 1989, 1999).

Illustration

Abbildung 2: Sprachproduktionsmodell von Levelt (1989, S. 9)

1.3.2. Beobachtete Sprachproduktionsprozesse beim Sprachverstehen

Lautrepräsentationen, aus denen sich ein Wort zusammensetzt, sind sowohl bei der Sprachproduktion als auch beim Sprachverstehen wichtig. Sprenger (2006) weist in diesem Zusammenhang darauf hin, dass neue Untersuchungen der Sprachproduktion diese Theorie stützen: ← 43 | 44 →

„Wenn ein Sprecher ein Wort plant, das zum Beispiel den Klang ‚p‘ enthält, so fällt es ihm leichter, ein (gehörtes) Wort daraufhin zu beurteilen, ob es ebenfalls den Klang ‚p‘ enthält. Dieser Effekt ist sogar dann messbar, wenn es gar nicht zur Artikulation des geplanten Wortes kommt. Es handelt sich also um einen Effekt der Vernetzung zwischen phonologischen Repräsentationen des Produktions- und des Verstehenssystems“ (Sprenger, 2006, S. 3).

Vater (2002, S. 213) merkt dazu an: „Ein Sprecher ist normalerweise sein eigener Hörer.“ Ein Sprecher „hört“ die auditive Komponente indirekt, die durch den Monitor im inneren Sprechen produziert wurde. Diese interne Kontrolle der Klangform eines auszusprechenden Wortes vollzieht sich zeitlich vor der Artikulation (präartikuliert) und folgt den sowohl biologischen als auch kognitiv gleichen Prozessen des Sprachverstehens. Somit wird argumentiert, dass sich das innere Sprechen indirekt an der Sprachproduktion beteiligt. Ebenso zeigt sich bei der Sprachrezeption inneres Nachsprechen, das beim Hören unter erschwerten Bedingungen (z.B. Geräusche im Hintergrund) oder beim leisen Lesen, bei dem man auf schwierige Stelle stößt, zu beobachten ist (vgl. Rohrer, 1978, S. 94). Durch dieses Nachsprechen erhöht sich die Verweildauer des Dekodierten im Kurzzeitgedächtnis (Wessels, 1994, S. 139f.).

Bereits Liberman (1957) argumentiert in seiner „Motor Theory of Speech Perception“, dass Sprachrezeption auch auf Sprachproduktion beruht. Dies wurde durch die Erregungsbewegung in der Sprechmuskulatur während des Zuhörens nachgewiesen: Selbst wenn die tatsächliche Muskelbewegung nicht erfolgte, wurde eine neuronale Erregung in den Hirnregionen, die mit der motorischen Bewegung bei der Sprachproduktion zu tun haben, beobachtet. Diese Muskelbewegung (und Erregung in den Hirnregionen) während des Zuhörens wird als inneres Mitsprechen bezeichnet. Gemäß Libermans Theorie liegt beiden Prozessen ein vergleichbarer kognitiver Mechanismus zugrunde. Diese Annahme wird in Oller (1976) als Argument für die Annahme einer allgemeinen Sprachkompetenz benutzt. Ebenso weisen Ackermann, Mathiak & Ivry (2004) in ihren neurowissenschaftlichen Forschungsergebnissen darauf hin, dass tatsächlich die neuronale Repräsentation der „internal speech“ die Hirnareale innerhalb der rechten Hemisphäre des Kleinhirns aktiviert, die für die akustische verbale Verarbeitung zuständig sind. Daraus schließen Ackermann, Mathiak & Ivry (2004), dass diese Hirnregion sowohl für die Sprachproduktion als auch für das Sprachverstehen zuständig ist.

1.3.3. Gegenargumente

Es gibt jedoch eine Reihe von Argumenten für die Auffassung, dass das Sprachverstehen und die Sprachproduktion biologisch voneinander getrennt verlaufen: So argumentiert z.B. Wessels (1994, S. 194ff.), dass Sprachverstehen als komplexer ← 44 | 45 → Vorgang über die Sprachproduktion hinausgehe. Beim Sprachverstehen werde eine „mehr oder weniger intakte, sprachliche Oberfläche angetroffen“ (Wendt, 1993, S. 76), während bei der Sprachproduktion diese erst „hergestellt“ (ebd.) werden müsse. Daraus ergibt sich die Annahme, dass das Sprachverstehen als Voraussetzung der Sprachproduktion anzusehen ist. Für diese These spricht auch der Umstand, dass sich beim Erst- oder Zweitspracherwerb vor allem im natürlichen Kontext die rezeptive Kompetenz früher als die produktive entwickelt (vgl. Butzkamm, 1989; Vogel, 1990). Die klassische Zuordnung der Sprachproduktion zum Broca-Zentrum und der Sprachrezeption zum Wernicke-Zentrum ist ein weiteres Gegenargument. Jedoch gilt es als belegt, dass beide Zentren immer an der Sprachverarbeitung beteiligt sind.

1.3.4. Zusammenfassung

Trotz dieser Gegenargumente stimmen produktive und rezeptive kognitive Sprachverarbeitungsprozesse m.E. in mehrfacher Hinsicht überein, so dass sie sich letztlich auf ein allgemeines kognitives Sprachverarbeitungssystem zurückführen lassen. Sie sind eng miteinander verwobene Prozesse und sie bedienen sich derselben linguistischen Ressourcen des mentalen Lexikons, also eines Wissensspeichers im Langzeitgedächtnis. Produzieren ist aus dieser Sicht nichts anderes als „der spiegelbildliche Ablauf des Verstehensprozesses unter Beteiligung derselben Wissenskomponenten“ (Wiese, 1983, S. 23). In der Psycholinguistik ist es allgemeiner Konsens, dass es sich bei der Sprachrezeption nicht lediglich um einen rezeptiven, sondern vielmehr um einen aktiven Prozess handelt, also um ein konstruktives Handeln, das, vom Kontext beeinflusst, durch unsere Erwartungen und unser Wissen gesteuert wird (Pisoni, 1978). Eine offene Frage ist allerdings, ob allgemeine Sprachkompetenz mit den gemeinsamen Verarbeitungsprozessen der Sprachproduktion und -rezeption gleichzusetzen ist.

2. Empirische Daten

2.1. Forschungsfragen

Das Ziel der Untersuchung ist, ein besseres Verständnis des von C-Tests gemessenen Konstrukts ‚allgemeine Sprachkompetenz‘ zu erlangen. Zu diesem Zweck werden sowohl qualitative und quantitative Daten erhoben (Datentriangulation) als auch unterschiedliche Forschungsmethoden eingesetzt (Methodentriangulation). Anhand quantitativer Daten wird mithilfe korrelationsstatistischer Analysen der Zusammenhang zwischen den vier Fertigkeitsbereichen und allgemeiner Sprachkompetenz untersucht. Anhand qualitativer Daten wird dann der Frage nachgegangen, ob man aus den beobachtbaren kognitiven Prozessen beim Lösen ← 45 | 46 → eines C-Tests das Konstrukt allgemeiner Sprachkompetenz ableiten kann. Dabei ist die Frage von Interesse, ob beim Lösen eines schriftlich dargebotenen C-Tests ähnliche kognitive Verarbeitungsprozesse wie bei akustisch dargebotener Sprache (Hören und Sprechen) ablaufen. Denn wenn dabei Prozesse des Sprechens und Hörens ebenfalls stattfinden, ruft ein C-Test in gewisser Hinsicht alle vier Fertigkeitsbereiche ab.

2.2. Forschungsmethoden

Die Forschungsgegenstände sind ein Erprobungsansatz des TestDaF (Test Deutsch als Fremdsprache), ein C-Test (Ankertest) aus acht deutschen Texten, den das TestDaF-Institut als Ankertest verwendet und ein selbst entwickelter und vorerprobter C-Test (Asano) aus vier deutschen Texten.

Tabelle 1: Datenerhebung

Illustration

Die qualitativen Daten der ersten Datenerhebung stammen aus Beobachtungen während der Lösung der C-Tests (Asano) und aus einem retrospektiven Interview, das bei jedem einzelnen Teilnehmer (10 Japanern mit fortgeschrittenen Deutschkenntnissen) durchgeführt wurde. Das Ziel der ersten Datenerhebung war explorativ, d.h. die Untersuchung zielte nicht auf die Überprüfungen einer spezifischen Fragestellung oder Theorie. Leitend war lediglich das Interesse an der Frage, ob die Lösung von C-Tests möglicherweise ähnliche Prozesse wie die Verarbeitung akustisch dargebotener Sprache erfordert. Bei der zweiten Datenerhebung ging es um die offizielle Erprobung des TestDaF an der Dokkyo-Universität in der Nähe von Tokyo. Neben dem Erprobungsansatz vom TestDaF ← 46 | 47 → (LV = Leseverstehen, HV = Hörverstehen, SA = Schriftlicher Ausdruck, MA = Mündlicher Ausdruck) wurden der C-Test (Ankertest) und der C-Test (Asano) eingesetzt und die quantitativen Zusammenhänge statistisch analysiert. Ziel war, die qualitative Datenanalyse der ersten und dritten Erhebung zu ergänzen, wobei die Ergebnisse aus einer kleinen Stichprobe von nur 18 japanischen Deutschlernenden natürlich keine allgemein gültige, aussagekräftige Interpretation zulassen. Bei der dritten Datenerhebung ging es um die Analyse des Verhaltens bei der Lösung des C-Tests (Asano). Die insgesamt fünf Testteilnehmer (zwei japanischen Deutschlernende und drei deutsche Muttersprachler) sollten hier ihre Gedanken bei der Bearbeitung der C-Test-Texte laut äußern. Vor der eigentlichen Datenerhebung wurde dieses Verfahren mit einem anderen C-Test geübt.

2.3. Datenauswertung und Interpretation

2.3.1. Ergebnisse der quantitativen Datenanalyse

Bei der quantitativen Datenanalyse wurden die Zusammenhänge zwischen den einzelnen Fertigkeitsbereichen und den zwei C-Tests untersucht. Die relevanten Pearson-Korrelationen finden sich in Tabelle 2.

Tabelle 2: Pearson-Korrelationen zwischen C-Tests und TestDaF

TestDaF C-Test (Asano) C-Test (Ankertest)
Leseverstehen (LV) .640** .729**
Hörverstehen (HV) .539* .486*
Schriftlicher Ausdruck (SA) .692** .473*
Mündlicher Ausdruck (MA) .555* .539*
LV+HV .648** .672**
SA+MA .705** .581*
LV+HV+SA+MA .751** .810**

Anmerkung: * p < .01. ** p < .001.

Sowohl der C-Test (Ankertest) als auch der C-Test (Asano)4 korrelierten am höchsten mit der Summe der vier Fertigkeitsbereiche. Vergleicht man die Korrelationen der C-Tests mit der Summe der produktiven Fertigkeitsbereiche (SA+MA) und der rezeptiven Fertigkeitsbereiche (LV+HV), waren sie mit LV+HV bei beiden C-Tests auf dem Niveau von 0.001 signifikant. Mit SA+MA war nur die Korrelation des C-Tests (Asano) auf diesem Niveau signifikant. ← 47 | 48 →

Die Aussage: „C-Tests messen allgemeine Sprachkompetenz“, ist insofern zutreffend, als die Ergebnisse der in dieser Studie verwendeten zwei C-Tests mit allen Fertigkeitsbereichen des TestDaF substantiell korrelieren (vgl. auch die entsprechenden Befunde in Eckes & Grotjahn, 2006). Am höchsten korrelierten sie jedoch erwartungsgemäß mit der Summe der vier Fertigkeitsbereiche. Daraus lässt sich zwar nicht ableiten, dass die C-Tests und die Summe aller Fertigkeiten genau das Gleiche messen; doch angesichts der hohen Korrelationen zwischen den C-Tests und den einzelnen Fertigkeitsbereichen sowie den C-Tests und der Summe aller Fertigkeitsbereichen ist eher anzunehmen, dass C-Tests nicht nur die Lesekompetenz oder die Schreibkompetenz messen, sondern vornehmlich integrative Fähigkeiten, die alle vier Fertigkeitsbereiche mehr oder weniger abdecken (vgl. auch Eckes & Grotjahn, 2006).

2.3.2. Ergebnisse der qualitativen Datenanalyse

Die qualitative Datenanalyse ließ komplexere Schlüsse zu. Im Folgenden werden einige wichtige Ergebnisse zusammenfassend dargestellt. Zunächst wird dabei auf Ergebnisse eingegangen, die die These unterstützen, dass zur Lösung von C-Tests rezeptive und produktive Sprachverarbeitungsprozesse aktiviert werden.

Die erste und dritte Datenerhebung ergaben, dass die Testteilnehmer vor allem bei Schwierigkeiten Satzteile oder Sätze laut lasen und versuchten, die richtige Antwort zu finden. Je schwieriger es den Testteilnehmern fiel, die Lücke auszufüllen, umso häufiger lasen sie den Text laut vor sich hin. Mit einer Korrelation von = –.79 (< .001) ist dieser Zusammenhang substantiell.

Beim retrospektiven Interview wurde festgestellt, dass vor allem Nichtmuttersprachler sich bei einer schwierigen Stelle ein Wort einfallen lassen, indem sie sich überlegen, ob sie eine sinnhafte Einheit in einem Kontext bereits früher gehört haben. In Anbetracht der im theoretischen Teil dargelegten Sachverhalte ist zu vermuten, dass dieses Phänomen der „parsed speech“ im psycholinguistischen Modell entspricht. „Parsed speech“ aktiviert beim Sprachverstehensprozess den Sprachproduktionsmechanismus, um das Verstehen zu unterstützen, und verbindet somit die produktiven und rezeptiven Sprachverarbeitungsprozesse. Lesen erfolgt mithilfe von akustisch dargebotenen Sprachinputs durch Sprechen. Das Sprechen aktiviert wiederum das „schon mal Gehörte“ im mentalen Lexikon. Daher kann erwartet werden, dass bei der Lösung von C-Tests sowohl produktive und als auch rezeptive Sprachverarbeitungsprozesse zum Einsatz kommen.

Ein wichtiges Indiz für die Nutzung der Erwartungsgrammatik (vgl. Abschnitt 1.2) war, dass sowohl muttersprachliche als auch nichtmuttersprachliche Probanden ← 48 | 49 → im C-Test auch das lasen, was (noch) nicht im Text stand. Mit den anderen Worten: Sie lasen nicht nur das laut, was buchstäblich geschrieben stand, sondern auch Ungeschriebenes, und zwar mit einer spezifischen Erwartung. So wurde z.B. bei den Lücken mit einem Diphthong wie „ble(iben)“ beim Lesen der zweite Teil automatisch ergänzt, d.h. es wurde nicht [ble] sondern als [blɐi] gelesen. Dies zeigt, dass Lösen von C-Tests ein interaktiver Prozess ist, bei dem Text-Input und im Gehirn gespeicherte Wissensbestände in komplexer Weise zur Lösung beitragen.

Außerdem wurde die allgemeine Sprachkompetenz im Hinblick auf die Wahrnehmung der Testteilnehmer untersucht. Neben den erwarteten Antworten, dass C-Tests Grammatik und Wortschatz sowie Leseverstehen messen würden, fanden sich weitere interessante Bemerkungen auf Seiten der Testteilnehmer. Obwohl diesen klar war, dass es sich beim C-Test um einen rein schriftlichen Test handelte, meinten einige von ihnen, dass C-Tests auch die Hörkompetenz erfassen, und dass der Prozess, der beim Lösen des C-Tests im Kopf abläuft, dem ähnelt, der beim Sprechen außerhalb der Testsituation erfolgt. Dies ist ein interessanter Befund im Hinblick auf die Augenscheingültigkeit (face validity) von C-Tests.

Vor dem Hintergrund der erhobenen Daten stellt sich u.a. die Frage, ob allgemeine Sprachkompetenz überhaupt als eine hinreichend stabile und abgrenzbare Kompetenz existiert. Was C-Tests messen, ist nach Sigott (2006) „fluide“ (engl: fluid). Die verbalen Daten deuten darauf hin, dass sich allgemeine Sprachkompetenz als ein Zusammenspiel verschiedener kognitiver Prozesse und weiterer Einflussfaktoren manifestiert. Zu den Einflussfaktoren zählen z.B. Motivation, Testschwierigkeit oder auch Lösungsstrategien, die sich bei jedem Zusammenspiel von C-Test und Testteilnehmer variabel ändern können. So wurde z.B. beobachtet, dass muttersprachliche und nichtmuttersprachliche Teilnehmer den Inhalt des Textes auf unterschiedlichen Ebenen verstanden und dennoch zur gleichen Lösung kamen. Die Erläuterungen im retrospektiven Interview zeigten, dass sich das Verstehen bei nichtmuttersprachlichen Testteilnehmern in erster Linie auf die Satzebene bezog und dass diese den Sinn des Textes nur sehr selten anhand von kohäsionsstiftenden Merkmalen sowie des Allgemeinwissens erfassten. Darüber hinaus waren die Herangehensweisen bei jedem Testteilnehmer unterschiedlich. Vor allem nichtmuttersprachliche Testteilnehmer gingen mit dem Test zum Teil sehr strategisch um. Obwohl sie die Bedeutung der Wörter im Satz kaum verstanden hatten, versuchten sie, ein passendes Wort lediglich durch morphosyntaktische Regeln oder durch Vermutung des Tilgungsprinzips zu finden. Das hat zur Folge, dass bei den Testteilnehmern, die schon genügende Vorerfahrungen hatten, C-Tests andere Kompetenzen messen als bei denjenigen, ← 49 | 50 → die zum ersten Mal einen C-Test lösen. Als letzter Aspekt konnte festgestellt werden, dass die Bereitschaft und Motivation, sich mit dem Test ernsthaft und geduldig zu beschäftigen, eine wichtige Determinante der C-Test-Leistung sein kann. Werden C-Tests wie im vorliegenden Fall zu Forschungszwecken oder auch als Einstufungstests verwendet, haben die Testergebnisse keine persönlichen Konsequenzen für den Testteilnehmer, und der Test weist deshalb Charakteristika eines „Low-stakes“-Tests auf. So verdeutlichen z.B. die Ergebnisse des retrospektiven Interviews, dass es vor allem den nichtmuttersprachlichen Testteilnehmern, insbesondere dann, wenn sie beim Lösen des Tests Schwierigkeiten hatten, an Motivation mangelte, und dass dies Auswirkungen auf ihr Testverhalten hatte. Auch dies kann dahingehend interpretiert werden, dass sich das von C-Tests gemessene Konstrukt in Abhängigkeit von den Testteilnehmern und dem jeweiligen Kontext in dynamischer Weise ändert.

3. Diskussion und Ausblick

Die empirischen Analysen haben gezeigt, dass die spezifische Bedeutung des Konstrukts allgemeine Sprachkompetenz von den jeweiligen Testteilnehmern und vom jeweiligen Verwendungskontext abhängen kann (vgl. auch Deville & Chalhoub-Deville, 2006). Die Ergebnisse können damit auch als Beleg dafür gewertet werden, dass Aussagen zur Validität von Tests stets auf die jeweilige Testpopulation und den jeweiligen Einsatzbereich zu beziehen sind (vgl. z.B. Bachman, 2005; Bachman & Palmer, 2010).

Eine weitere Erkenntnis ist, dass das Konstrukt ‚allgemeine Sprachkompetenz‘ aus zwei verschiedenen Perspektiven gesehen werden kann. Eine Perspektive ist das Paradigma der vier traditionellen Teilkompetenzen Schreiben, Lesen, Sprechen und Hören. Das andere Paradigma bezieht sich auf den Grad der Komplexität der kognitiven Verarbeitungsprozesse, mithin z.B. auf die Frage, ob Verarbeitungsprozesse auf der morphosyntaktischen oder pragmatischen Ebene ablaufen. Wenn man die Intention eines Sprechers oder Lesers verstehen will, reicht es nicht aus, lediglich die Bedeutung der Wörter zu kennen und die Sätze grammatisch zu analysieren. Ab einem bestimmten Grad des Verstehens muss man sich auf sein Allgemeinwissen oder sein Weltwissen beziehen. Eine implizite Botschaft des Textes erfordert offensichtlich andere Verstehensprozesse als das Verstehen der einzelnen Wörter. Wenn man von allgemeiner Sprachkompetenz spricht, sollte deshalb expliziert werden, welche kognitiven Verarbeitungsprozesse unter welchen Voraussetzungen möglicherweise während der Bearbeitung von C-Tests aktiviert werden.

Weiterhin ergeben sich vor dem Hintergrund der vorangehenden Ausführungen im Hinblick auf die Definition von allgemeiner Sprachkompetenz noch eine ← 50 | 51 → Reihe von offenen Fragen: Inwiefern gehören z.B. zum Konstrukt ‚allgemeine Sprachkompetenz‘ solche Aspekte, die bei der Bearbeitung eines C-Tests augenscheinlich nicht direkt gefordert werden, wie z.B. interpersonale kommunikative Sprachkompetenz oder kreatives Schreiben und Sprechen? Inwieweit sollen oder können die Ergebnisse eines C-Tests Auskunft über solche Aspekte der Sprachkompetenz ergeben? Oder auch: Inwieweit lässt sich allgemeine Sprachkompetenz von allgemeinen kognitiven Fähigkeiten unterscheiden? Diese und weitere Fragen zeigen, dass die Diskussion um das Konstrukt ‚allgemeine Sprachkompetenz‘ auch nach mehreren Jahrzehnten keinesfalls abgeschlossen ist.

Danksagung

Die vorliegende Arbeit beruht auf meiner Masterarbeit „Misst ein C-Test das, was er messen soll? Konstruktdefinition als Basis für die Validierung von C-Tests (Asano, 2010). Die Arbeit wurde von Herrn Prof. Dr. Rüdiger Grotjahn und Frau Prof. Dr. Karin Kleppin betreut. Ihnen danke ich für fachlichen Rat und konstruktive Kritik.

Literaturverzeichnis

Ackermann, Hermann, Mathiak, Klaus & Ivry, Richard B. (2004). Temporal organization of “internal speech” as a basis for cerebellar modulation of cognitive functions. Behavioral and Cognitive Neuroscience Reviews, 3(1), 14–22.

Asano, Yuki. (2010). Misst ein C-Test das, was er messen soll? Konstruktdefinition als Basis für die Validierung von C-Tests. Unveröffentlichte schriftliche Hausarbeit für die Masterprüfung, Ruhr-Universität Bochum, Seminar für Sprachlehrforschung.

Bachman, Lyle F. (2005). Building and supporting a case for test use. Language Assessment Quarterly, 2(1), 1–34.

Bachman, Lyle F. & Palmer, Adrian S. (2010). Language assessment in practice: Developing language assessments and justifying their use in the real world. Oxford: Oxford University Press.

Boekaerts, Monique. (1981). Is there a direct link between the comprehension process and the production process? In Manfred Heid (Hrsg.), Beziehungen zwischen Sprachrezeption und Sprachreproduktion im Fremdsprachenunterricht. Protokoll eines Werkstattgesprächs des Goethe House New York im vom 23. bis 26. September 1980 (S. 26–60). München: Goethe-Institut.

Butzkamm, Wolfgang. (1989). Psycholinguistik des Fremdsprachenunterrichts. Natürliche Künstlichkeit: Von der Muttersprache zur Fremdsprache. Tübingen: Francke.

Cummins, Jim P. (1980). The crosslingual dimensions of language proficiency: implications for bilingual education and the optimal age question. TESOL Quarterly, 14, 175–187.

Cummins, Jim P. (1983). Language proficiency and academic achievement. In John W. Oller, Jr. (Hrsg.), Issues in language testing research (S. 108–129). Rowley: Newbury House.

Deville, Craig & Chalhoub-Deville, Micheline. (2006). Old and new thoughts on test score validity. In Micheline Chalhoub-Deville, Carol A. Chapelle & Patricia Duff (Hrsg.), Inference and generalizability in applied linguistics: Multiple perspectives (S. 9–25). Amsterdam: Benjamins.

Eckes, Thomas & Grotjahn, Rüdiger. (2006). A closer look at the construct validity of C-tests. ← 51 | 52 → Language Testing, 23(3), 290–325.

Freese, Hans-Ludwig. (1994). Was misst und was leistet „Leistungsmessung mittels C-Tests“? In Rüdiger Grotjahn (Hrsg.), Der C-Test: Theoretische Grundlagen und praktische Anwendungen (Bd. 2, S. 305–311). Bochum: AKS-Verlag.

Goldenberg, Georg. (2007). Neuopsychologie. Grundlagen, Klinik, Rehabilitation (4. Aufl.). München: Urban & Fischer.

Kormos, Judith. (2006). Speech production and second language acquisition. New Jersey: Erlbaum.

Levelt, Willem J. M. (1989). Speaking: From intention to articulation. Cambridge, MA: Bradford Books/MIT Press.

Levelt, Willem J. M. (1999). Producing spoken language: a blueprint of the speaker. In Colin M. Brown & Peter Hagoort (Hrsg.), The neurocognition of language (S. 83–122). Oxford: Oxford University Press.

Liberman, Alvin M. (1957). Some results of research on speech perception. Journal of the Acoustic Society of America, 29, 117–123.

Oller, John W., Jr. (1974). Expectancy for successive elements: Key ingredient to language use. Foreign Language Annals, 7, 443–452.

Oller, John W., Jr. (1976). Evidence for a general language proficiency factor: An expectancy grammar. Die Neueren Sprachen, 75(2), 165–174.

Oller, John W., Jr. (1979). Language tests at school: A pragmatic approach. London: Longman.

Pisoni, David B. (1978). Speech perception. In William K. Estes (Hrsg.), Handbook of learning and cognitive processes (Bd. 6, S. 167–233). Hillsdale. N. J.: Erlbaum.

Rohrer, Josef. (1978). Die Rolle des Gedächtnisses beim Sprachenlernen. Bochum: Kamp.

Schade, Ulrich. (2008). Konnektionismus. [http://www.ikp.uni-bonn.de/lehre/informationen-materialien/informationen-und-materialien-kopho/materialien-1/schade/konnektionismus/Konnektionismus.ppt/view].

Sigott, Günther. (2006). How fluid is the C-Test construct? In Rüdiger Grotjahn (Hrsg.), Der C-Test: Theorie, Empirie, Anwendungen. (S. 139–146). Frankfurt am Main: Lang.

Sprenger, Simone. (2006). Aspekte der Sprachproduktion. Kognitionsforschung. Nijmegen: Max-Planck-Institut für Psycholinguistik, Forschungsbericht 2006.
[http://www.mpg.de/456948/forschungsSchwerpunkt1?c=166410].

Vater, Heinz. (2002). Einführung in die Sprachwissenschaft (4. vollst. überarb. und erw. Aufl.). München: Fink.

Vogel, Klaus. (1990). Lernersprache. Linguistische und psycholinguistische Grundfragen zu ihrer Erforschung. Tübingen: Narr.

Vollmer, Helmut J. (1982). Spracherwerb und Sprachbeherrschung: Untersuchungen zur Struktur von Fremdsprachenfähigkeit: Ein empirischer Beitrag zu einer psycholinguistisch orientierten Sprachlehr-/-lernforschung. Tübingen: Narr.

Wendt, Michael. (1993). Die drei Dimensionen der Lernersprache. Tübingen: Narr.

Wessels, Michael G. (1994). Kognitive Psychologie. München & Basel: Reinhardt.

Wiese, Richard. (1983). Psycholinguistische Aspekte der Sprachproduktion: Sprechverhalten und Verbalisierungsprozesse. Hamburg: Buske.

* Korrespondenzadresse: Yuki Asano, University of Konstanz, Department of Linguistics, D-78457 Konstanz. E-mail: yuki.asano@uni-konstanz.de.

1 Demgegenüber wird kommunikative Sprachkompetenz oder auch (kommunikative) Sprachfähigkeit meist im Sinne eines komplexen, mehrdimensionalen Konstrukts verstanden (vgl. z.B. Bachman & Palmer, 2010, S. 43ff.). Eine entsprechende Konstruktdefinition liegt z.B. dem TestDaF zugrunde.

2 Dekodierung bzw. Inputverarbeitung ist der Prozess, der mit dem Wahrnehmen von Lauten oder Schriftzeichen beginnt und mit ihrem Verstehen endet. Enkodierung bezeichnet den Vorgang, der die Dekodierung komplementiert. Sie umfasst die Prozesse, die sich mit der phonetischen und schriftlichen Realisation befassen, die dazu führt, ein bestimmtes Wort auszudrücken.

3 Kormos (2006) „model of bilingual speech production“ erweitert die Modelle Levelts (1989, 1999).

4 Sowohl der Ankertest (C-Test) für die TestDaF-Erprobung als auch der C-Test (Asano) besitzen hinreichende Reliabilität (Ankertest: α = 0.909, C-Test (Asano): α = 0.905).

| 53 →

C-test as an indicator of general language proficiency in the context of a CBT (SIMTEST)

Mick Sumbling, Carme Viladrich, Eduardo Doval & Laura Riera*

SIMTEST is an on-line, multi-component test of foreign language proficiency for placement and certification purposes. In this CBT (computer-based test) context, the C-test component functions as an initial indicator of a candidate’s general language proficiency and also provides an entry point to CAT (computerised adaptive test) components. SIMTEST has been used institutionally at the language centre of the UAB (Universitat Autònoma de Barcelona) to place students on EFL (English as a Foreign Language) courses and to certify their level of proficiency according to the CEFR (Common European Framework of Reference) in end-of-course examinations since 2001. SIMTEST has also been developed in Catalan and Spanish, while versions in French and German are under construction.

In this paper we describe the design and development of the C-test in the SIMTEST context and go on to examine its reliability and validity in this setting. The origins of C-testing and its theoretical rationale are briefly reviewed, along with the conclusions of various research studies. Test development is described in terms of the original construct design brief, initial trials, in-house specification setting, the selection process leading to pre-testing, psychometric analysis and banking, and administration in fully operational testing situations. The advantages of computer-based C-test construction and assessment are outlined. Psychometric analysis of C-tests in pre-testing and operational placement and certification situations considers internal consistency, unidimensionality and correlations with other exam components – both computer-based and non-CBT evaluations – and with known levels of language proficiency. Internal consistency is high, showing C-tests to be homogenous in their construction with similar levels of difficulty – an important aspect of test design since tests are selected at random from the item bank and are considered to be interchangeable. Encouraging correlations are shown between C-test scores and those from the CAT component tests of lexical and grammatical knowledge and listening comprehension, in addition to the non-computerized tests of writing and speaking – indicating the capacity to confirm known levels of ability and the sensitivity to detect changes in the levels of ability of test-takers over time. The question of the C-test’s face validity is also addressed, through reference to feedback questionnaires, on-line surveys and qualitative methods (interviews) used with students and teachers at different stages of test development.

1. Introduction

The ‘C’ in C-test (Raatz & Klein-Braley, 1982) is usually taken to refer to cloze: a term that serves as a phonic reminder of a principle of Gestalt psychology in which the recall of incomplete visual shapes tends towards closure (Davies et ← 53 | 54 → al., 1999, p. 23). ‘Cloze Procedure’ was originally presented to the world in 1953 by the journalist W. L. Taylor as an improved tool for assessing the relative readability of written materials for school children in the USA (Taylor, 1953; cited in Sigott, 2004, p. 15). Taylor also linked his cloze procedure to the information theory of Claude E. Shannon – and the systematic deletions of complete words in ‘pure’ cloze tests are intended to function in the same way as random noise in the communications system (Klein-Braley, 1997). After discovering significant differences between individuals, Taylor proposed using the procedure to measure the first language (L1) reading ability of adults (Bormuth, 1967; Crawford, 1970; quoted in Ikeguchi, 1998 and Brown, 2002, p. 79). Shortly afterwards, it was adopted into the ‘family’ of integrative tests of foreign or second language (L2) ability introduced in the 70s and 80s. Both cloze and the C-test are considered to be integrative tests in that they engage more than one skill (or sub-skill) and focus on texts rather than on discrete points of language.

C-test procedure was developed as a refinement of cloze procedure in response to serious deficiencies and technical problems which had been observed with cloze, particularly those noted by Alderson (1979) and Klein-Braley (1983). The C-test was also explicitly developed as a test of general language proficiency (Klein-Braley & Raatz, 1984 – cited in Ikeguchi 1995) and this is accepted by many to be its underlying trait (Chiara, Cline & Sakurai, 1996; Coleman, 1994; Dörnyei & Katona, 1992; Hastings, 2002; Hughes, 1989; Raatz & Klein-Braley, 2002).

Weir (1990) notes that C-tests and cloze are based on the same theoretical rationale – in that they both measure the ability to deal with reduced redundancy and predict from context. Studies indicate that as much as 75% of written language is redundant (Koller & Zahn, 1996). The canonical C-test reduces the natural redundancy in a text by around 25% (Köberl & Sigott, 1994) and requires candidates to restore it. Redundancy is reduced by the systematic deletion of the second halves of alternate words in the central parts of a number of short texts, which assures the replication of random sampling according to Raatz & Klein-Braley (1982). The candidate interacts with the ‘damaged’ text and produces the language necessary to restore it. The greater the global ability in – or the more complete the knowledge of – the language, the higher the score.

The reliability and validity of the C-test have been noted, along with its superiority to cloze (Dörnyei & Katona, 1992), its teacher-friendliness (Katona & Dörnyei, 1993) and its economy (Coleman, 1994; Weir, 1993). Coleman has identified what he sees as the pros and cons of the C-test and, in summary he concludes that: ← 54 | 55 →

“…the C-test, unlike many other test types, is easy to construct, quick to administer, easy and unambiguous to score, and highly reliable…unrivalled in providing a snapshot of a learner’s general competence in a foreign language.” (1994, pp. 218f.)

The C-test has produced a wealth of research documents and generally – in contrast to the work on cloze – the research community has shown an almost entirely positive attitude to the C-Test with empirical findings that confirm both the quality and usefulness of the procedure (Grotjahn, Klein-Braly & Raatz, 2002; Eckes & Grotjahn, 2006). As Coleman has noted, the C-Test has been thoroughly researched but has seen greater use as a research topic than as a research tool (Coleman, 1994). However, while C-Testing is commonly in use in Germany – especially in the university context – the C-est has rarely been seen in mainstream operational language testing in the Anglo-American tradition.

McBeath (1989) points to the lack of authenticity and face validity he sees in the C-Test:

“The complete artificiality of C-tests and their, at present, limited use make it highly unlikely that the average student will have encountered the format before, and the initial reaction is likely to be one of bewilderment.” (p. 39)

Alderson (2002), who was wary of the euphoria that had greeted cloze procedure, went so far as to warn against the perils of C-testing:

“The notion that there is a Holy Grail of language testing, a magic procedure which could produce universally valid measures of language ability, had, I thought, been finally laid to rest… I worry that we have not learned from history: we risk reviving alchemists’ claims of universal validity for another method, this time the C-Test procedure. We should be on our guard against this danger.” (p. 15)

Hastings (2002) mentions other features of C-tests that may be frustrating to some language students:

“Unlike discrete-point tests, they do not reward cramming or rote memorization: the blanks conform to no syllabus smaller than the language being tested. Unlike multiple-choice tests, they provide no mechanism for passive guessing: the test-taker must actively generate the answers. Unlike essay tests, they do not allow one to avoid difficult words and structures in favour of easier ones: each item has one and only one correct solution, and no substitutions are allowed.” (p. 9)

Hastings then goes on to point out that it is precisely these properties that help to make the C-test a valid measure of language proficiency.

Davies (2003) has observed that the move to integrative and then communicative testing in the 70s and 80s represented a paradigm shift rather than a developmental growth in language testing. A “Promised Land” had been envisaged (Morrow, 1979, pp. 150f.) in which test reliability, while remaining important, would be subordinate to the face validity of communicative tests. Davies (2003) observed that communicative testing, for Morrow, represented a testing construct or a belief rather than a means or method of testing. He goes on to mention ← 55 | 56 → that the kind of requirements Morrow places on communicative testing are impossible in practice. Widdowson (2001) also advances the self-confessed “heretical principle” that:

“You just cannot test the ability to communicate and it is pointless to try.” (p. 18)

It is an enigma that the Communicative Approach to second language teaching, introduced in the late 70s and characterised by an eclectic, non-dogmatic methodological stance on what can be done in the foreign language classroom, has not seen the same eclecticism applied in language testing circles in the Anglo-American tradition. In the absence of communicative tests, the major exam boards have largely ‘played safe’ continuing to rely on discrete-point testing, various forms of ‘rational deletion’ cloze and other formats whose face validity is assured principally by virtue of the fact that they are a part of that tradition, i.e. they are familiar to fee-paying, test-taking clients.

In Germany, where much of the pioneering work was carried out, the C-test has become a “well-established feature of the university testing scene” (Baumeister, Dresemann, Traxel & Zahn, 2005, p. 21) as an entry, placement and screening test used “for a wide variety of students of English at German universities, and universities of applied sciences”. In Spain, the C-test was until very recently almost totally unknown. We will go on to explain how C-tests came to be used in tandem with computerized adaptive tests (CAT) – where test content adapts to an individual’s ability – in the design and development of a CBT, called the SIMTEST, at the Language Service of the UAB in Catalonia, Spain.

2. Test design and development

2.1 Institutional background

Since September of 2001 the Language Service (Servei de Llengües) at the Universitat Autònoma de Barcelona has been using C-tests in operational CBTs in order to place students on its English as a Foreign Language (EFL) courses. The C-test is used as an indicator of general language proficiency, but in the context of CBT. Scores are linked to a proficiency scale to provide an entry point on a CAT testing knowledge of vocabulary, grammar and functional items (VGF-CAT). The placement battery is completed with a short (20-minute) writing sample and a brief individual oral assessment. Students are placed on 120-hour courses defined in terms of the Common Reference Levels of the Common European Framework of Reference (CEFR, Council of Europe, 2001) – as can be seen in Table 1. ← 56 | 57 →

Table 1: Institutional levels and the CEFR

Illustration
Illustration

Figure 1: C-Test in its institutional context at the Servei de Llengües (SdL) ← 57 | 58 →

Students at the centre are predominantly female (approximately 65%) and typically undergraduates (approx. 90%) following general EFL rather than EAP (English for Academic Purposes) courses. At the end of these they sit a final exam that also includes C-tests and a VGF-CAT (using items from a separate certification item pool) – in addition to a CAT of listening comprehension, a 90-minute writing paper and a paired 20-minute interview.

Both writing and speaking are evaluated using CEFR criteria, i.e. descriptors, taken from the Framework and adapted via extensive collaboration with representatives from other Catalan university language centres and in-house consultations between teachers and testers. Results are always given in terms of the level of language proficiency detected (see Figure 1).

2.2. Design brief

In September 2000, a brief was given to design a quick and reliable computer-based placement test for EFL enrolments at the language centre (then known as SIM) that would classify new students in terms of the CEFR’s common reference levels. As Koller & Zahn (1996) have noted:

“A problem area that confronts most organisers of foreign language courses, particularly at university level, is that of placing students in the appropriate course. Placement tests for large numbers usually require considerable resources both as regards personnel and facilities.” (p. 401)

The then existing paper & pencil placement test consisted of 100 multiple choice items based on aspects of grammar. Responses were entered onto a separate answer sheet organised into 4 columns. Questions had been sequenced according to perception of increasing difficulty, and each column was interpreted as representing each of the first 4 levels at the centre. The test was timed at 60 minutes; sheets then had to be corrected by hand using a template. Instructions indicated that if there were more than 10 mistakes in any column starting from the left, an initial placement would indicate the course associated with that column, i.e. more than 10 mistakes in the first column indicated placement in Level 1. Items had not been pre-tested, and were based on the teaching syllabus of the time. Perhaps unsurprisingly, results often failed to follow the expected patterns. The placement battery was completed with a short writing sample and interview, at which a decision was made by the interviewing teacher, based on a consideration of all 3 parts, i.e. grammatical competence, writing and oral. Administering the complete placement battery took just over 90 minutes per candidate.

Since the brief for the new test stipulated a CBT, the advantages of using a computer adaptive test (CAT), delivering far fewer calibrated items than the existing one via an algorithm and giving automatic and immediate results, were ← 58 | 59 → quickly recognised. The scope of items was also extended to include those testing knowledge of vocabulary and communicative functions in order to produce a test capable of indicating more than just grammatical competence. In order to maximise test efficiency, CAT theory indicates that:

“A procedure for selecting the first item in an adaptive test should almost always use all of the information that is available about an examinee.” (Wise & Kingsbury, 2000, p. 144)

Since a placement test is typically the first contact between new enrolments and a centre, an absence of information about examinees is normal. It was felt that administering a short, efficient test prior to a CAT might enhance its efficiency and, at the same time, add face validity to the CBT. It would also provide additional information upon which to make a final placement decision.

Following up the brief references to C-testing in some of the standard works on language testing (Alderson, Clapham & Wall, 1995; Hughes, 1989; Weir 1993), research led to the possibility of using C-tests in tandem with the CAT, using the result of the C-test to provide what Thissen & Mislevy (2000) describe as a ‘provisional proficiency estimate’.

In December 2000, C-tests were trialled for the first time at the centre with students on preparation courses for the Cambridge First Certificate Exam (FCE), who were sitting their exams later in the same month. Each student completed two paper and pencil C-tests, with an atypical format of 50 deletions at this trial stage, and also answered a short feedback questionnaire on their impressions of the experience. What was immediately interesting about the results with the first groups that were trialled was the striking similarity in the scores they achieved on each of the two C-tests. Later, on being informed of their exam results, it was possible to note the similarity between results in the trials and the grade awarded in the FCE – as can be seen in Table 2.

Trials recontinued in January, 2001 with students on extensive and semi-intensive courses. These were the first to examine the hypothesis that the C-Test might be an instrument capable of detecting the different institutional levels, and to gauge students’ reactions to a new type of test. The format was identical to that used with the FCE groups. Prior to trialling, class teachers involved were shown the materials, invited to do the tests, given information about how they should go about trialling and asked for comments. January was seen as a good month for trialling in that semi-intensive courses were finishing very shortly afterwards (in February) and extensive courses were approximately half-way through their courses. Trialling went ahead with 7 distinct groups across 4 course levels (n = 76). Results of the statistical analyses of these trials were encouraging, but – given the limited numbers involved – no significant conclusions ← 59 | 60 → could be made. The feedback, on the other hand, is discussed in Section 3 of this paper.

Table 2: Results of initial trials with FCE students (12/2000)

Illustration

2.3. In-house specifications

Since C-tests in the operational test would be selected at random from an item bank, it was important that they should be interchangeable – not only in terms of their psychometric properties, but also in terms of their specifications: text length, amount of contextualisation, text intactness, readability, level of interest, etc. As Ikeguchi (1998) notes:

“…texts carefully chosen according to their similarities in terms of interest and readability level lead to the superiority of a C-test constructed using several short passages over a C-Test using only one text.” (p. 8)

C-test researchers at the Gerhard-Mercator University of Duisburg were contacted and we asked for permission to make use of the 31 C-Tests in English they had made available on the WWW. The Duisburg C-tests were examined in terms of the points mentioned above and with reference to guidelines on their construction and, while it was decided to follow the latter closely, some adaptations to both the specifications and the tests themselves were made.

While it was decided to follow the basic format of 4 C-tests, each with 25 damaged words in order to facilitate a percentage score, it was also felt that stricter observance of the guidelines was needed. An initial specification for text ← 60 | 61 → length was set at a minimum of 70 and a maximum of 110 words. The maximum was later raised to 120 words for C-tests created in-house. The Duisburg C-Tests included some that were considerably shorter than the 70-word minimum. In most cases these consisted of a very short, intact first sentence with deletions continuing well into the last sentence. Raising the maximum word limit, we argued, would guarantee greater contextualisation for test-takers and, at the same time, lead to greater standardisation of tests. It was also stipulated that all C-tests should have an appropriate title and completely intact opening and closing sentences.

In line with Grotjahn (1987), some flexibility for the starting point is allowed, so that deletion can begin at the second word of the second or third sentence depending on the amount of meaningful contextualisation provided by the opening sentence. If a sentence is felt to be too short to prepare the test-taker for what is to come, deletion begins with the third sentence. Unless mentioned in the title or appearing undamaged elsewhere in the text, proper nouns are left undamaged and not counted in the deletion process. Single letter words (I, a) are also left undamaged and uncounted. Common words relating to nationality or countries are left undamaged if they cannot be ascertained from the contextual clues available. Hyphenated words are relatively uncommon, but are considered as two words of which one can be damaged. Since only exact responses, correctly spelt, are considered to be correct, sensitivity to the spelling conventions of varieties of English is an additional in-house guideline. Other than these points, the deletion process is mechanical.

The selection process for the first pre-testing session was atypical, in that we had permission to use the Duisburg C-Tests. But subsequent selection processes would involve the in-house creation of C-tests from scratch, i.e. from texts.

C-Test texts, in addition to being complete in themselves, should be aimed at the general reader. Hastings (2002) indicates that:

“In general, tests of reduced redundancy should not employ texts dealing with the fantastic, esoteric, arcane, or technical topics beyond the experience of the ordinary person.” (p. 16)

While texts are expected to be “maximally authentic” (Grotjahn, Klein-Braley & Raatz, 2002), in the authors’ view they should also be maximally interesting – since, in ‘real life’ we usually only read what is of interest to us. Baumeister et al. (2005) recommend a common sense approach to text selection, but with an important limitation: ← 61 | 62 →

“The genre most likely to provide usable texts is that of referential, introductory works for adult learners…Common sense is a useful starting point, but native-speaker instincts cannot replace the calibration process…” (p. 23)

Once suitable authentic sources have been identified, and a significant number of interesting texts of the right text length are saved in electronic format, these are reviewed and a selection made for processing as C-tests.

2.4. Computer-based construction, delivery and assessment

Computer-based construction facilitates the creation of C-tests, their delivery in pre-testing sessions, the retrieval of results for psychometric analysis and the banking of suitable tests into operational item-banks.

Texts are converted into tests via an in-house tool known as the C-texter, and are then passed to staff members for vetting. They consider title and text topic suitability, check for spelling mistakes, and offer details of any perceived difficulty with the text or specific words. While Weir (1993) has stressed the importance of using native speaker specialists as a control group in trialling, Raatz (1985) has noted that while the performance of native speakers on cloze tests is highly variable, it is far more common for them to score 100% on C-tests. Once feedback has been collected, some editing may be necessary before tests are either accepted for pre-testing, or held back for recycling as practice materials. C-tests are then electronically stored in the appropriate pools of the item bank.

Sabatini (1998) has written of the advantages of computerizing tests:

“By using the technology to computerize testing, it is possible to reduce anxiety and boredom inherent in traditional testing, give the learner more control, and collect better information.” (p. 74)

Advantages go on to include standardizing test administration, which may include programmed tutorials, non-verbal instructions, demonstration items, trial runs, and so on. Fulcher (2003, p. 404) stresses the need for such tutorials, examples and practice tests. The electronic collection of data and immediate, automatic results are, perhaps, the most obvious advantages of CBTs. Operational test results for groups are easily accessed via an administration tool and an individual’s scores can be called up for closer examination.

Bachman (2000, p. 7) has remarked on the advances in IRT which have made it possible to tailor tests to individual test-takers’ levels of ability and noted the increasing familiarity with personal computers which makes large-scale CBTs and CATs possible for the first time. He also comments on the degree to which: ← 62 | 63 →

“…advances in multimedia and web technologies offer the potential for designing and developing computer-based tests that are more authentic and interactional than their paper and pencil counterparts.” (Bachman, 2000, p. 7)

In pre-testing, too, the delivery of packs of items from the pre-test pool to students and the retrieval of results for psychometric analysis are efficiently facilitated. The importance of rigorous pre-testing of all test items for inclusion in placement tests is highlighted by Fulcher (1997):

“Without pre-testing and post hoc analysis, no institution could be sure that its placement tests were providing better information than tossing a coin 1619 times. It is important that institutions such as universities know the estimates of error in their placement procedures, in fairness to students…” (Fulcher, 1997, p. 136)

In our own context, since items are not only be used for placement purposes but also for end-of-course certification, the importance becomes paramount. The stakes are high: it is often the case that students need the extra course credits obtained from foreign language course study in order to complete their degrees.

3. Psychometric analysis

3.1. Objectives

Psychometric analysis of C-Tests focuses on the question of the C-test’s validity in its role as initial indicator of language proficiency. As has been said, this component of the SIMTEST is constructed by the random selection of 4 C-tests from the item bank for delivery to each student. That is, C-tests are conceived as being interchangeable measures of language proficiency. Psychometrically speaking, this conceptual model implies particular types of reliability and validity evidence, since we expect our C-ests to be consistent. This will constitute evidence “of the reliability of test scores derived from the statistical interrelationships among item responses or scores on separate parts of a test” (AERA, APA & NCME, 1999, p. 176).

It is known that when several items conform to unidimensionality, then they are consistent; although the reverse is not always true (Osburn, 2000). Unidimensionality is the first stage of equivalence between measures. Further stages include the statistical test of equivalence of the discrimination parameters and the difficulty parameters. These are considered to provide evidence of validity based on the internal structure, to the extent that they provide information about “the degree to which the relationships among test items and test components conform to the construct on which the proposed test score interpretations are based” (AERA, APA & NCME, 1999, p. 13).

Analysis of the relationships between exam scores and external variables provides a further important source of validity evidence, constituting the strongest ← 63 | 64 → support for the construct underlying the test interpretations. In this section we provide empirical evidence of validity, both concurrent and convergent, according to the standard nomenclature (AERA, APA & NCME, 1999). Analyses include a range of external variables and designs, such as correlational analysis with results from other general language proficiency exams, relationship to known groups, sensitivity to change, and correlation with students’ own perceptions.

3.2. Method

Results are automatically stored as a part of all placement and certification procedures. In this section we analyze data from 2001, 2005 and 2006, showing the development of the SIMTEST. Data was obtained from different contexts: two samples are from pre-testing trials, two from placement samples and another is from certification. The general characteristics of the students at the Servei de Llengües have been described in Section 2.1.

The two pre-testing trials considered here took place in May of 2001 (TE01) and 2005 (TE05). Students were required to answer 4 or 6 C-tests and 100 or 40 VGF items. In 2001, students were also required to answer a series of 35 self-assessment questions testing perceived ability to perform tasks in the language skills (listening, spoken production, spoken interaction, reading, writing) by reference to CEFR “can-do” statements. The data was gathered in order to calibrate both C-tests and VGF items.

Placement testing data comes from sessions that took place in September 2001 (PL01) and September 2005 (PL05), i.e. at the start of the academic year at the centre. The certification session analyzed is that of June 2006 (CE06) i.e. a final exam sitting at the end of the academic year. These sessions combined CBT and non-CBT components according to the specifications described in Section 1.1 and represented in Figure 1.

Details of the administrations under consideration in chronological order:

1. TE01: Paper and pencil pre-testing of 20 C-tests in May 2001. 5 packs of 4 C-tests were administered (A, B, C, D and E) to 225 students. Students per pack are: nA = 46, nB = 44, nC = 47, nD = 42, nE = 46. The participants’ CEFR levels ranged from A1 (1 in SdL terms) to B2.2 (5 in SdL terms).

2. PL01: Placement in September 2001. 500 students were tested. The participants’ CEFR levels ranged from A1 (1 in SdL terms) to B2.2 (5 in SdL terms).

3. TE05: Computer-based pre-testing of 26 new C-tests in May 2005. 10 packs grouped into 5 packs of 3 C-tests each were administered. The 5 packs ← 64 | 65 → were: 1) AA-AF, 2) AB-AG, 3) AC-AH, 4) AD-AI and 5) AE-AJ. The last C-Test of the second pack of each group was the anchor C-Test. Students answered their first pack of 3 C-Tests (e.g. AA) and after a series of VGF items and a short break the second pack of 3 was presented (e.g. AF). 396 students completed the packs (students per group of packs are: n1 = 83, n2 = 74, n3 = 81, n4 = 78, n5 = 80). The participants’ CEFR levels ranged from B1 (3 in SdL terms) to C1.1 (6 in SdL terms).

4. PL05: Placement in September 2005. 809 new enrolments were tested. The participants’ CEFR levels ranged from A1 (1 in SdL terms) to C1.1 (6 in SdL terms).

5. CE06: Certification exam in June 2006. 816 students sat the exam, 441 of them with repeated measures on placement and certification. The participants’ CEFR levels ranged from B1 (3 in SdL terms) to C1.1 (6 in SdL terms).

The registered measures in the pre-testing sessions were: number of correct responses in each C-Test, total number of correct responses in each C-Test pack, percentage of correct responses for the packs of VGF items (number of items ranged from 40 to 100), self-assessed level of proficiency (only in 2001), and level the student was studying at, in terms of CEFR criteria.

In the placement and certification sessions we registered the proficiency level estimated from the following parts of the exam: the C-Test, the VGF multiple choice questions, the listening items (CE06 only), the writing exam, the oral exam, and level being studied at the time the candidate took the exam. The latter is considered to be the best approximation to the true level of the student because the pre-tests and certification exams were held in May or June, close to the end of the course.

3.3. Analysis

General descriptive statistics for each component of the test in all samples are presented first, as well as item response distributions (Section 3.4.1).

To analyze internal consistency (Section 3.4.2) we calculated the mean correlation among the individual C-Tests in each pack, Cronbach’s alpha coefficient (Cronbach, 1951) and the intraclass correlation coefficient (ICC) (McGraw & Wong, 1986). We took as a reference Nunnally & Bernstein’s (1994) suggestion that when testing knowledge by a set of tests, Cronbach’s alpha values for each of the tests should be higher than 0.8. The ICC calculated with absolute agreement specification is more demanding than alpha, in the sense that it includes not only the order but also the level of examinees in the calculus. High agreement is only possible when the difficulty levels of the items are similar. Additionally, ← 65 | 66 → the standard error of measurement (SEM) was calculated taking into account the estimation of reliability provided by Cronbach’s alpha coefficient.

Relative to internal structure, we included the correlation between each item score and the corrected total test score as an indicator of unidimensionality (Section 3.4.3). For a more formal evaluation, we chose the Rasch model as in previous research studies (Eckes & Grotjahn, 2006; Norris, 2006). Regarding the appropriate Rasch model, Eckes (2006) concluded that Andrich’s rating scale model (Andrich, 1978) describes C-test data better than other item response theory models, and it was used to model our data.

The model fit was evaluated by means of the Rasch model mean-square fit values, both weighted (Infit) and non-weighted (Outfit). Since both statistics have a Chi-square distribution with 1 degree of freedom, values close to 1 show a good fit to the data (Wright & Masters, 1982). According to Bond & Fox (2001), values higher than 1.3 indicate underfit and those lower than 0.7 show overfit.

In the context of the Rasch model, we also calculated the item reliability index, an equivalent to Cronbach’s alpha, i.e. with a range from 0 to 1. The item reliability index is an estimate of the replicability of item difficulty.

To estimate the number of different levels that C-Tests can distinguish, we calculated the separation index and strata index (Wright, 1996; Wright & Masters, 1982). These indices are estimates of the spread or separation of items on the measured variable. Both are expressed in terms of standard error units (Bond & Fox, 2001) and are interpreted as the number of ability strata that items can distinguish. The separation index is more conservative than the strata index, and therefore Wright (Wright & Masters, 2002) advises its use.

Evidence of concurrent validity (Section 3.4.4) was obtained from the relation between C-Test results and the level being studied by the student when the exam was taken. Three statistical indicators were obtained: Pearson’s correlation coefficients between C-Test results and level; analysis of variance (ANOVA) of the C-Test results for known group levels controlling for the year of exam; and receiving operating characteristic curve (ROC curve) analysis of the discriminative power between levels. These three indicators highlight different aspects of the relationship and facilitate both the comparability with previous published results and the acquisition of new insights from the data.

Particularly interesting for our purposes is ROC curve methodology (Green & Swets, 1966). As we stated above, the role of C-Test battery in SIMTEST is to determine an initial estimation of a candidate’s proficiency level. Consequently, when pre-testing C-Tests, we used ROC curve methodology in order to obtain the cut-off points that best discriminate between adjacent known levels. ← 66 | 67 →

We selected cut-off points that minimize the difference between sensitivity and specificity, because in the context of SIMTEST, there is the same cost associated with a false positive (true level overestimated) as with a false negative (true level underestimated) at each level. The global ability to discriminate was quantified by means of the area under the curve (AUC).

In the same vein, evidence of convergent validity was obtained in two manners (Section 3.4.5). Pearson correlation coefficients between proficiency levels estimated from five measures – C-Test, multiple choice VGF items, multiple choice audio items, writing exam, and oral exam – were obtained. Subsequent confirmatory factor analysis (CFA) of the covariance between these measures helped to derive stronger statistical evidence of convergent validity.

CFA was conducted in order to test the five models proposed by Eckes & Grotjahn (2006) relative to the divisibility of the general language proficiency construct. According to these authors, relations between the different components of our language examinations can be structured in 3 basic ways. M0: all components load in one factor that could be called general language proficiency, M1: examination components load in two correlated factors, one production factor, including writing and oral exams, and one reception factor including VGF and listening components. M2: components load in two correlated factors, a written skills factor, with substantial factor loadings from VGF and writing exam, and an oral skills factor with loadings from audio multiple choice questions and oral exam.

We studied the position of C-Test batteries in these three scenarios depicted in Figure 2. Hypothesized factors are represented in ellipses, observed variables in rectangles, factor loadings as single-headed arrows, covariances as double-headed arrows, and unicities (not included in the diagram) were specified for all observed variables.

In the context of model M0, C-Test is expected to be an indicator of the general language proficiency factor. In the context of model M1, two alternative positions can be contrasted for C-Test results. They could load on the production factor (model M1.a), or instead on the reception factor (model M1.b). Finally, in the context of the model M2, C-Test could load on the written skills factor (model M2.a) or on the oral skills factor (model M2.b). ← 67 | 68 →

Illustration

Figure 2: Plan of confirmatory factor analysis of 3 alternative structural models for the relations between 5 components of English exams ← 68 | 69 →

Parameters were estimated from the variance-covariance matrix by the maximum likelihood method, and goodness-of-fit statistics and standardized estimates were obtained. Based on considerations by McDonald & Ho (2002) we considered four goodness-of-fit indices in CFA: Chi-square with corresponding degrees of freedom and probability level (χ2, df, p), root mean squared error of approximation and its 95% confidence interval (RMSEA, CI95%), comparative fit index (CFI), and number of cases in the sample for chi-square to be on the edge of statistical significance with p = 0.05 (Hoelter’s index).

Additional evidence of convergent validity was derived from the relationship between C-test results and the self-assessment of proficiency. This was estimated by means of Pearson correlation coefficient.

Sensitivity to change was also estimated from two databases (Section 3.4.6). Firstly – by comparing results from placement and certification tests for the 441 students with repeated measures in databases PL05 and CE06 – we would expect that on average, students gain one level after a one year course. Secondly – by estimating the equivalent measures effect for the 396 students who took two packs of C-test in the pre-testing session held in May 2005 (database TE05) – we would expect results to be largely equivalent, the only expected effect being a practice effect. Effect sizes were obtained by means of Cohen’s d (Cohen, 1977), with the usual cut-off points for interpretation (see for instance, Husted, Cook, Farewell & Gladman, 2000).

Statistical significance level was set at p < 0.05. All statistical data reported is significant – at least at this level – unless otherwise explicitly stated.

Rasch model parameter estimates and statistics were obtained by the Conquest computer program (Wu, Adams & Wilson, 1998). Confirmatory factor analyses were run using the AMOS 7.0 software (AMOS, 2005; Arbuckle, 2005). All remaining analyses were carried out with SPSS v14.0 (SPSS, 2005).

3.4. Results

3.4.1. General descriptive statistics

In Table 3, we show the mean, standard deviation (SD), number of cases (n) and number of items (k) for the number of correct responses in the pack of C-tests, the percent of correct responses in the VGF questions, self-assessment of proficiency, and level the student was studying at for the pre-test sessions in June 2001 (TE01) and May 2005 (TE05). Note that in May 2005 all students responded to 2 packs of 3 texts with 25 damaged words each, while self-assessment was not carried out. ← 69 | 70 →

Table 3: Descriptive statistics for each component in pre-testing samples

Illustration

In the pre-test sessions, the C-Tests showed intermediate difficulty. For 4 C-tests with a potential range of correct responses between 0 and 100, the mean was 55, and for the two sessions with 3 C-tests, with a maximum of 75 correct responses, the means were between 43 and 45. Variability was high (coefficients of variation between 27% and 31%), as expected in a measure that reflects individual differences. These general results were replicated in each pack from TE01 and TE05 samples, as shown in detail in Table 4.

Table 4: Descriptive statistics of the responses obtained in each pack from the pre-testing samples

Illustration

The number of words correctly restored in each pack in TE01 was slightly higher than half the total number of damaged words in each pack (means ranged between 50.04 and 62.98 with an overall mean of 55.36). Bearing in mind that the total number of damaged words was lower in TE05, similar results were obtained in this sample (while means ranged from 38.96 to 49.94, the overall mean ← 70 | 71 → of these was 43.98). All of these results indicate that C-test packs were of intermediate difficulty. However, according to the general results, the standard deviation and the minimum and maximum for each pack showed a wide range of individual correct responses. In addition, C-tests were analyzed individually and results showed that the mean of correct responses was a mid-range value in both samples (TE01: mean = 13.84, min = 9.85, max = 19.36; TE05: mean = 14.66, min = 11.89, max = 18.24).

The proportion of correct responses in the VGF multiple choice questions behaves similarly (Table 3). The mean of 0.60 is mid-range and coefficients of variation are between 25% and 27%. Self-assessed level of proficiency was a bit less optimistic in mean, at 17.5, exactly the central value between minimum 0 and maximum 35, but more variable in individual results (coefficient of variation = 36%).

The known level of the students, with values between 0 and 6, had a mean between 3 and 4, in accordance with the global results; nevertheless, it was the most variable measure with coefficients of variation between 39% and 43%.

Table 5 shows descriptive statistics for placement (PL01, Pl05) and certification (CE06) samples. Mean, standard deviation (SD), number of cases (n) and number of items (k) for the level of proficiency estimated from the pack of C-tests, the VGF, audio, writing and oral exams, and known level are included. The number of items was personalized in the VGF and audio exams delivered in CAT format. In all measures, minimum level was 0 and maximum level was 6.

Table 5: Descriptive statistics for each component in placement and certification samples

Illustration

In the placement test data, proficiency levels estimated from four different components (C-Test, VGF, audio, writing) showed means of between 1.80 and 2.88, one level apart around the known level mean, which was 2.43 both in the PL01 and in the PL05 samples. On average, C-test seemed to underestimate, and VGF questions overestimate, the level of the students. Oral and writing exam ← 71 | 72 → means were underestimations in the sample PL01 but were very close to the mean of known level in the sample TE05. Certification data behaved somewhat differently. C-test and VGF means were under the mean of known level and writing and oral exam means were above. The mean for audio items was the best approximation to the mean of known level. In general, standard deviations from 1 to 1.49 were between expected margins for a 7-level scale, but for the C-test measures in placement exams, with very low mean values, the standard deviations of nearly 1.5 points, indicate positively skewed distributions.

3.4.2. Internal consistency

The indicators of internal consistency of the C-test packs (see Table 6) show a high degree of relation among the C-test results within each pack. Inter-item correlations were high in both the TE01 sample (mean = 0.675, min = 0.592, max = 0.771) and the TE05 sample (mean = 0.720, min = 0.624, max = 0.797).

Table 6: Reliability, internal consistency indices and standard errors of measurement in all packs administered in pre-testing sessions.

Illustration

← 72 | 73 →

Coherently with inter-item correlations, Cronbach’s alpha values obtained were high and very similar in both samples (TE01: mean = 0.887, min = 0.851, max = 0.928; TE05: mean = 0.881, min = 0.820, max = 0.921). ICC values were also high in both samples (TE01: mean = 0.825, min = 0.713, max = 0.907, and TE05: mean = 0.848, min = 0.803, max = 0.918). Although internal consistency is good, the high variability in scores (Table 6) led to sizeable SEM in both samples (TE01: mean = 5.26, min = 5.264, max = 6.32 and TE05: mean = 4.18, min = 3.54, max = 4.82).

3.4.3. Unidimensionality

In the TE01 sample the mean of corrected item-total correlation was 0.764 (min = 0.609, max = 0.894) and in the TE05 sample it was 0.777 (min = 0.642, max = 0.868). As can be seen, results were similar in both samples and show clear evidence of unidimensionality.

Tables 7 and 8 show the rating scale model statistics for the TE01 sample and TE05 sample respectively. Difficulty values for each C-test in each pack are shown in the first column of each table. Results are scaled so that the mean difficulty for each pack is equal to 0. In the case of those packs from the TE05 sample which included the anchor item (packs AF, AG, AH, AI and AJ), the anchor item difficulty was fixed at 0.

All C-tests behaved in a very similar way in terms of difficulty, as would be expected. The range of their values per pack had a mean of 0.751 in the TE01 sample and of 0.448 in the TE05 sample. In all cases, the standard errors were very low, although the number of cases used to adjust the Rasch model to the data was not very high.

Relative to the Infit index, only 2 C-tests administered in 2001 and another 2 administered in 2005 have values outside the interval [0.7, 1.3]. Regarding the Outfit index, 3 C-tests from the TE01 sample and 4 from the TE05 sample show some signs of bad adjustment, but their observed Infit and Outfit values are not far away from the established bounds.

The three indices of the capacity of the items to distinguish between students evaluated are also shown in Tables 7 and 8. The reliability index values for the items were close to 0.90 in the TE01 sample (mean = 0.939, min = 0.824, max = 0.983) as well as in the TE05 sample (mean = 0.897, min = 0.774, max = 0.987).

According to the results, the C-tests administered in 2001 can distinguish, on average, 5.314 levels (min = 2.17, max = 7.66), a number similar to the one obtained with the C-Tests administered in 2005 (mean = 4.82, min = 1.85, max = 8.65). ← 73 | 74 →

Table 7: Rasch statistics for C-tests of the packs in TE01 sample

Illustration

← 74 | 75 →

Table 8: Rasch statistics for the C-Tests of the packs in TE05 sample

Illustration

← 75 | 76 →

Illustration

3.4.4. Concurrent evidence of validity

In pre-testing data, the results from the packs of 4 C-Tests presented moderate-to-high correlations with the course level the students were following. Correlation coefficients ranged from 0.71 to 0.76 independently of the number of texts in the pack and the year of the pre-testing. In the CE06 sample, even with a severe restriction of range in level (levels between 3 and 6) the correlation coefficient was as high as 0.59. As might be expected, individual texts showed greater variability in their correlations with levels ranging between 0.47 and 0.83. Distributions can be seen in Table 9.

Table 9: Frequency of correlations of C-tests with known proficiency level falling into each range from pre-testing samples

Illustration

← 76 | 77 →

Illustration

Figure 3: Means of C-test results per level and year (x: CE06, o: TE01, □: TE05)

Observed means across levels showed the expected pattern (see Figure 3). Means increased with known group level in all our samples (TE01, TE05 and CE06) and all differences proved to be statistically significant. However, as Figure 3 illustrates, the shape of the increasing function showed slight variation between samples.

The known level was the most important source of variation (eta2= 0.48) but the certification sample mean is approximately 5 points out of 100 above that of pre-testing samples across all levels (eta2 = 0.04). Comparing the two pre-testing samples, the only statistically significant difference is 10 points in level 2 (eta2 = 0.01).

Table 10 shows the estimated cut-off points for the two pre-testing samples using the ROC curve methodology. In order to facilitate comparability, all cut-off values are expressed over 100 points. All the AUC (area under the curve) were good, ranging between 0.86 and 0.94 in sample TE01 and between 0.84 and 0.95 in sample TE05. In both samples, AUC decreases steadily as the level increases from level 1 to level 4. In the upper levels, AUC remains stable. ← 77 | 78 →

Table 10: Optimal cut-off points estimated in TE01 and TE05 samples

Illustration

3.4.5. Convergent evidence of validity

C-Test batteries correlated with percent of correct responses in VGF with values between 0.74 and 0.83 in pre-testing 2001, 0.70 to 0.83 in the first pack of pre-test 2005, 0.63 to 0.74 in the second pack of pre-test 2005. As expected, correlations of individual texts with VGF results were more variable, but all of them had values over 0.47 (see Table 11).

Table 11: Frequency of correlations of C-test with VGF multiple choice question results falling into each range from pre-testing samples

Illustration

Bivariate correlations between the levels derived from different components of the placement and certification exams are shown in Table 12. As can be seen, correlations with C-test range from 0.50 to 0.70. The most correlated components are writing and oral exams, with correlations between 0.80 and 0.95. In this context, VGF-CAT results show intermediate correlations between 0.60 and 0.75. When C-test results were scaled in their original scores (from 0 to 100 points) slightly superior correlations with other components of the exam were obtained (data not shown here).

Regarding CFA results, analysis of sample CE06 is described in detail. Results from samples PL05 and PL01 (which did not include an audio component) are presented in a complementary way. ← 78 | 79 →

Table 12: Bivariate Pearson correlation coefficients between estimated levels of language proficiency from different components of the exams

Illustration

When reading our results, it is important to bear in mind that the samples are not directly comparable because they differ in fundamental aspects of data gathering design. In placement samples we measured 4 components of the exam and cases were spread across 7 levels of proficiency (from 0 to 6), in the certification sample, we measured 5 components of the exam and cases were restricted to moderate to high levels of proficiency (from 3 to 6).

Furthermore, sample PL01 had 8 cases with 1 or 2 missing values each, sample PL05 had 24 cases with 1 or 2 missing values each, and sample CE06 had 1 case with 1 missing value. All missing values were imputed by maximum likelihood. All variables were quantitative measurements with no serious departures from normality.

Goodness-of-fit indices obtained in the 3 samples, CE06, PL05 and PL01, can be seen in Table 13, where n stands for number of cases, and NI for number of variables in the analysis. Statistics for the best-fitting model within each sample are in italics. Boldface characters point up statistics for the model with the better balance of goodness of fit and parsimony within each sample. ← 79 | 80 →

Table 13: Goodness of fit statistics for 5 CFA models in 3 samples

Illustration

Results from the 3 samples were largely congruent in spite of being obtained with a different number of variables and different variability between cases. In the CE06 sample, CFA revealed that C-test results are best described as part of a reception factor, along with multiple choice VGF and audio components of the exam. The unidimensional solution (M0) did not yield acceptable goodness-of- fit indices, particularly RMSEA = 0.17. Models M2 showed poorer fit, but if we had to choose between written and oral skills, C-tests fit better with oral skills. As can be seen from Hoelter’s index our conclusions are not attributable to the relatively large samples we analyzed.

The one factor solution showed to be adequate in describing placement results both for PL01 and PL05 data, that is, in the context of a four component exam without the audio multiple choice questions. Nevertheless, in both placement samples, the best-fitting model was M1.b, although we considered this model an over-parametrization, since just another reception variable (multiple choice VGF) was included in the analysis. Again, models M2 show poorer fit to the data, M2.b being better than M2.a.

Standardized factor loadings for the model with the better balance of goodness of fit and parsimony within each sample are shown in Table 14. In order to ← 80 | 81 → achieve comparability with the factor loadings most usually published, the solution was completely standardized, i.e. both the observed variables and their corresponding factor were standardized. As can be seen, all factor loadings have values of 0.69 or above. As would be expected, production and reception skills factors, if they could be distinguished, showed a sizeable correlation of 0.86.

Table 14: Standardized factor loadings for 3 samples

Illustration

To test if observed results are due to restriction of range in sample CE06, placement samples were re-analyzed, restricting levels to 3 or higher. As can be seen in Table 15, the results in both sub-samples strongly agree with those in the complete samples. Goodness-of-fit indices tend to be better, particularly in sample PL01, for which all models except M2.a would fit the data.

Table 15: Goodness-of-fit statistics for 5 CFA models in 2 placement samples restricted to levels equal or higher to 3

Illustration

← 81 | 82 →

The relationship between C-test results and the self-assessment responses of students provides different evidence, as it evaluates the degree of convergence between an objective exam and the students’ subjective perceptions of their own proficiency.

The Pearson correlation coefficient of the pack of 4 C-tests with the sum of 35 self-assessment items (sample TE01) had a magnitude of 0.57 which sharply descended to a magnitude of 0.17 when the CEFR level of the student was partialled out. As can be seen in Table 16, all correlations with subscales were around 0.50. Additionally, correlations between each C-test and subscales of self-assessment showed values between 0.39 and 0.53.

Table 16: Pearson correlation coefficients between C-tests and self-evaluation subscales obtained from the sample TE01

Illustration

3.4.6. Sensitivity to change

The fact that 441 students who took the placement test in 2005 then went on to take the final exam in June 2006, after following a whole academic course at the centre, provides us with useful data to analyze the C-test’s responsiveness to change. As in the CE06 sample, C-tests were only administered to levels 3 to 6, so the sample with repeated measures is reduced to 329 cases. As can be seen in Figure 4, all distributions show the expected pattern: C-test results improve between levels and at the end of the academic year within each level. ← 82 | 83 →

Illustration

Figure 4: Box-plot of C-test results for the students who took the C-test at placement 2005 and certification 2006 before and after a 9-month academic course in levels 3 to 6

Table 17 shows means, standard deviations and effect sizes for the same data. A mixed model ANOVA with level as between-subjects factor and C-test before and after the course as within-subjects factor with principal and interaction effects was conducted to study statistical significance of change. All levels showed significant improvement in their mean results (eta2 = 0.31), with students at level 3 benefiting most (11 points in mean), while the improvement in the other levels was lower (8 points in mean) and statistically comparable between them (eta2for the interaction effect = 0.03). As can be seen in the table, all effect sizes were between moderate and large, that is, the change in means associated to the intervention is quantified between 63% and 108% of the initial standard deviation. ← 83 | 84 →

Table 17: Means, standard deviations (SD) and effect sizes of C-test results of the students who took the C-test at placement 2005 and after a 9-month academic course in levels 3 to 6

Illustration

Due to the fact that all participants in TE05 took two packs of 3 C-tests each, our data also provides evidence about the re-test effect. As can be seen in Figure 5, re-test effect is more visible at lower levels, particularly in examinees studying at level 2. The maximum of 75 points in the graph is due to the fact that 3 C-Tests are used to obtain each score.

Illustration

Figure 5: Box-plot for re-test results obtained in the sample TE05 ← 84 | 85 →

Effect sizes of the re-test were noticeable at levels 1 to 3 (0.55, 0.72, 0.37 respectively) with mean differences between 3 and 6 points. For superior levels, effect sizes ranged between 0.09 and 0.17 and all changes were less than 2 points. In spite of these differences, when intraclass correlation coefficients (ICC) of absolute agreement were calculated, observed values ranged from moderate to high with the sole exception of packs AD-AI (see Table 18). For these two packs, not only was the ICC lower than expected, but standard error was very high as the lower and upper limits of the 95% confidence interval show.

Table 18: Intraclass correlation coefficients (ICC) of absolute agreement and 95% confidence intervals (CI) for test-retest data in TE05 sample

Packs ICC (CI 95%)
05AA – AF 0.744 (0.631 – 0.827)
05AB – AG 0.876 (0.810 – 0.920)
05AC – AH 0.763 (0.590 – 0.858)
05AD – AI 0.676 (0.082 – 0.864)
05AE – AJ 0.798 (0.665 – 0.876)

3.5. Psychometric conclusions

Details

Seiten
365
ISBN (PDF)
9783653045789
ISBN (ePUB)
9783653977547
ISBN (MOBI)
9783653977530
ISBN (Buch)
9783631654309
Sprache
Deutsch
Erscheinungsdatum
2014 (Juli)
Erschienen
Frankfurt am Main, Berlin, Bern, Bruxelles, New York, Oxford, Wien, 2014. 365 pp., 20 b/w fig., 88 tables

Biographische Angaben

Rüdiger Grotjahn (Band-Herausgeber)

Rüdiger Grotjahn ist Professor am Seminar für Sprachlehrforschung der Universität Bochum. Seine Hauptforschungsgebiete sind Sprachtests, Forschungsmethodologie und individuelle Unterschiede beim Fremdsprachenlernen. Rüdiger Grotjahn is a professor at the Department of Second Language Research, University of Bochum (Germany). His main research interests are language testing, research methodology, and the study of individual differences in language learning.

Zurück

Titel: Der C-Test: Aktuelle Tendenzen / The C-Test: Current Trends