Lade Inhalt...

Die Validität der Skalen des Gemeinsamen europäischen Referenzrahmens für Sprachen

Eine empirische Untersuchung der Flüssigkeits- und Wortschatzskalen des GeRS am Beispiel des Italienischen und des Deutschen

von Katrin Wisniewski (Autor:in)
©2014 Dissertation 634 Seiten

Zusammenfassung

Die Skalen des Gemeinsamen europäischen Referenzrahmens für Sprachen (GeRS) kommen zunehmend etwa bei der Formulierung von Bildungsstandards oder der Erstellung von Sprachtests zum Einsatz. Dieser Entwicklung steht jedoch ein eklatanter Mangel an Studien zur Möglichkeit der validen Verwendung dieser Skalen gegenüber. Diese Arbeit untersucht die theoretische und empirische Validität der GeRS-Skalen für Wortschatz und Flüssigkeit. Sie zeigt, dass die Skalen auf keiner kohärenten theoretischen Grundlage basieren. Zudem erfassen sie die untersuchte empirische italienische und deutsche gesprochene Lernersprache nur mangelhaft. Die Ergebnisse legen eine umfassende Überarbeitung der GeRS-Skalen nahe, um authentischer Lernersprache und aktuellen Forschungserkenntnissen gerecht zu werden.

Inhaltsverzeichnis

  • Cover
  • Titel
  • Copyright
  • Autorenangaben
  • Über das Buch
  • Zitierfähigkeit des eBooks
  • Danksagung
  • Inhaltsverzeichnis
  • Einleitung
  • 1. Hintergrund
  • 1.1. Skalen zur Beurteilung fremdsprachlicher Kompetenz
  • 1.1.1. Arten von Skalen
  • 1.1.2. Skalierungsverfahren
  • 1.1.3. Die Analyse von Skalen
  • 1.2. Die Skalen des Gemeinsamen europäischen Referenzrahmens
  • 1.2.1. Skalierungsmethode der GeRS-Skalen: Praktikabilität als Leitkriterium
  • 1.2.2. Analyse der GeRS-Skalen
  • 1.2.2.1. Generalisierbarkeit: Eine Kluft im Referenzrahmen
  • 1.2.2.2. Kontextfreiheit und Kontextgebundenheit
  • 1.2.2.3. Funktionen und Zielgruppen der GeRS-Skalen
  • 1.2.2.4. Kriteriums- und Normorientierung
  • 1.2.2.5. Die Deskriptoren
  • 1.2.3. Das Validitätsdefizit der GeRS-Skalen
  • 1.2.3.1. Zur theoretischen Verankerung der GeRS-Skalen (Kapitel 5)
  • 1.2.3.2. Die empirische Validität der GeRS-Skalen: eine monodimensionale Perspektive
  • 1.3. Das Design dieser Arbeit
  • 1.3.1. Forschungsfragen
  • 1.3.2. Validierungsansatz
  • 1.3.2.1. Denkrahmen: Die Abklärung der Möglichkeiten des validen Skaleneinsatzes
  • 1.3.2.2. Der Drei-Säulen-Ansatz
  • 1.3.2.3. Möglichkeiten und Abgrenzungen
  • 1.3.3. Methoden: theoretischer Teil
  • 1.3.4. Methoden: empirischer Teil
  • 1.3.4.1. Die Datenerhebung
  • 1.3.4.2. Die Operationalisierung der GeRS-Deskriptoren
  • 1.3.4.2.1 Die Operationalisierung der Flüssigkeitsskala (A2-B2)
  • 1.3.4.2.2 Die Operationalisierung der Skala zum Wortschatzspektrum (A2-B2)
  • 1.3.4.2.3 Die Operationalisierung der Skala zur Wortschatzbeherrschung (A2-B2)
  • 1.3.4.3. Weitere Indikatoren der Flüssigkeit und des Wortschatzes
  • 1.3.4.3.1. Flüssigkeitsindikatoren
  • 1.3.4.3.2. Lexikalische Indikatoren
  • 1.3.4.3.3. Indikatoren lexikalischer Korrektheit
  • 1.3.4.4. Methoden der Datenaufbereitung: Transkription, Annotation, Lemmatisierung
  • 1.3.4.5. Methoden der Datenanalyse
  • 2. Flüssigkeit und Lexikalische Kompetenz In der L2
  • 2.1 Flüssigkeit
  • 2.1.1 Einleitung
  • 2.1.2 Theoretischer Teil
  • 2.1.2.1 Grundlegende Eigenschaften von Flüssigkeit in der L2
  • 2.1.2.2 Die Rolle der Flüssigkeit in L2-Erwerbstheorien, -modellen und -hypothesen
  • 2.1.2.2.1 Flüssigkeit in Modellen der Sprachproduktion
  • 2.1.2.2.2 Flüssigkeit als offenes komplexes dynamisches System
  • 2.1.2.2.3 Flüssigkeit in Noticing-, Input- und Output-Hypothesen
  • 2.1.2.2.4 Flüssigkeit in soziokulturellen und soziolinguistischen L2-Erwerbstheorien
  • 2.1.2.3 Geläufige Definitionen von Flüssigkeit: vier Positionen
  • 2.1.3 Empirische Messungen von Flüssigkeiten: Möglichkeiten und Grenzen
  • 2.1.4 Die Flüssigkeit im Gemeinsamen europäischen Referenzrahmen
  • 2.1.4.1 Der Flüssigkeits-Begriff im Text des GeRS
  • 2.1.4.2 Die GeRS-Flüssigkeitsskala: theoretisch kohärent?
  • 2.1.4.2.1 Detailanalyse der GeRS-Skala
  • 2.1.4.2.2 Die Quellskalen der GeRS-Skala
  • 2.1.5 Zusammenfassung
  • 2.2 Die lexikalische Kompetenz
  • 2.2.1 Einleitung
  • 2.2.2 Theoretischer Teil
  • 2.2.2.1 Der Wortschatz in Spracherwerbstheorien
  • 2.2.2.2 Einheiten des Lexikons
  • 2.2.2.3 Das mentale Lexikon: Aufbau und Prozesse
  • 2.2.2.4 Wortschatzerwerb
  • 2.2.2.5 Lexikalische Kompetenz in der L2
  • 2.2.2.5.1 Aspekte des Wortwissens
  • 2.2.2.5.2 Modelle der lexikalischen Kompetenz
  • 2.2.2.6 Ein Arbeitsmodell lexikalischer Kompetenz in der Fremdsprache
  • 2.2.2.6.1 Einleitung: Abgrenzungen und Zielsetzung
  • 2.2.2.6.2 Komponenten und Einflussgrößen der lexikalischen Kompetenz
  • 2.2.2.6.3 Komponente 1: Das lexikalische Wissen
  • 2.2.2.6.4 Komponente 2: Strategische Kompetenz
  • 2.2.2.6.5 Komponente 3: Zugriff auf das mentale Lexikon
  • 2.2.2.6.6 Zusammenfassung und Ausblick
  • 2.2.3 Methodische Aspekte der Messung der lexikalischen Kompetenz
  • 2.2.3.1 Testformate – eine Übersicht
  • 2.2.3.2 Verbreitete Tests mit lexikalischem Fokus
  • 2.2.3.3 Empirische Studien zur Einschätzung der lexikalischen Kompetenz
  • 2.2.3.3.1 Vergleiche von Wortschatzindikatoren mit subjektiven Bewerterurteilen
  • 2.2.3.3.2 Maße zur Erfassung der Dimensionen des Wortschatzes
  • 2.2.3.3.3 Die Bewertung lexikalischer Fehler
  • 2.2.3.3.4 Die Bewertung formelhafter Sequenzen
  • 2.2.4 Die lexikalische Kompetenz im GeRS
  • 2.2.4.1 Der Begriff der lexikalischen Kompetenz im GeRS-Text
  • 2.2.4.2 Die Skalen zur lexikalischen Kompetenz im GeRS
  • 2.2.4.2.1 Detailanalyse der Skala zum Wortschatzspektrum
  • 2.2.4.2.2 Detailanalyse der Skala zur Wortschatzbeherrschung
  • 2.2.5 Zusammenfassung
  • 3. Empirische Analysen der Skalen für Flüssigkeit und Wortschatz
  • 3.1. Empirische Analysen der Flüssigkeitsskala
  • 3.1.1. Flüssigkeitsskala Niveau A2
  • 3.1.1.1. Empirische Relevanz der A2-Niveaubeschreibnung
  • 3.1.1.2. Konvergenz und Trennbarkeit
  • 3.1.1.3. Empirischer Konstruktbezug
  • 3.1.1.4. Praktikabilität
  • 3.1.1.5. Zusammenfassung Niveau A2
  • 3.1.2. Flüssigkeitsskala Niveau B1
  • 3.1.2.1. Empirische Relevanz der B1-Niveaubeschreibung
  • 3.1.2.2. Konvergenz und Trennbarkeit
  • 3.1.2.3. Empirischer Konstruktbezug
  • 3.1.2.4. Praktikabilität
  • 3.1.2.5. Zusammenfassung Niveau B1
  • 3.1.3. Flüssigkeitsskala Niveau B2
  • 3.1.3.1. Empirische Relevanz der B2-Niveaubeschreibung
  • 3.1.3.2. Konvergenz und Trennbarkeit
  • 3.1.3.3. Empirischer Konstruktbezug
  • 3.1.3.4. Praktikabilität
  • 3.1.3.5. Zusammenfassung Niveau B2
  • 3.1.4. Zusammenfassung: Die empirische Validität der Flüssigkeitsskala
  • 3.2. Empirische Analysen der Skala zum Wortschatzspektrum
  • 3.2.1. Skala zum Wortschatzspektrum A2
  • 3.2.1.1. Empirische Relevanz der A2-Niveaubeschreibung
  • 3.2.1.2. Konvergenz und Trennbarkeit
  • 3.2.1.3. Empirischer Konstruktbezug
  • 3.2.1.4. Praktikabilität
  • 3.2.1.5. Zusammenfassung Niveau A2
  • 3.2.2. Skala zum Wortschatzspektrum B1
  • 3.2.2.1. Empirische Relevanz der B1-Niveaubeschreibung
  • 3.2.2.2. Konvergenz und Trennbarkeit
  • 3.2.2.3. Empirischer Konstruktbezug
  • 3.2.2.4. Praktikabilität
  • 3.2.2.5. Zusammenfassung Niveau B1
  • 3.2.3. Skala zum Wortschatzspektrum B2
  • 3.2.3.1. Empirische Relevanz der B2-Niveaubeschreibung
  • 3.2.3.2. Konvergenz und Trennbarkeit
  • 3.2.3.3. Empirischer Konstruktbezug
  • 3.2.3.4. Praktikabilität
  • 3.2.3.5. Zusammenfassung Niveau B2
  • 3.2.4. Die empirische Validität der Skala zum Wortschatzspektrum
  • 3.3. Empirische Analysen der Skala zur Wortschatzbeherrschung
  • 3.3.1. Skala zur Wortschatzbeherrschung Niveau A2
  • 3.3.1.1. Empirische Relevanz
  • 3.3.1.2. Konvergenz und Trennbarkeit
  • 3.3.1.3. Empirischer Konstruktbezug
  • 3.3.1.4. Praktikabilität
  • 3.3.1.5. Zusammenfassung Niveau A2
  • 3.3.2. Skala zur Wortschatzbeherrschung Niveau B1
  • 3.3.2.1. Empirische Relevanz der B1-Niveaubeschreibung
  • 3.3.2.2. Konvergenz und Trennbarkeit
  • 3.3.2.3. Empirischer Konstruktbezug
  • 3.3.2.4. Praktikabilität
  • 3.3.2.5. Zusammenfassung Niveau B1
  • 3.3.3. Skala zur Wortschatzbeherrschung Niveau B2
  • 3.3.3.1. Empirische Relevanz
  • 3.3.3.2. Konvergenz und Trennbarkeit
  • 3.3.3.3. Empirischer Konstruktbezug
  • 3.3.3.4. Praktikabilität
  • 3.3.3.5. Zusammenfassung Niveau B2
  • 3.3.4. Die Beschreibung der lexikalischen Fehler mit dem Arbeitsmodell der lexikalischen Kompetenz
  • 3.3.5. Zusammenfassung: Die empirische Validität der Skala zur Wortschatzbeherrschung
  • 4. Schluss
  • 4.1. Zusammenfassung
  • 4.1.1. Ergebnisse zur theoretischen Kohärenz (Säule 1 der Validierung)
  • 4.1.2. Ergebnisse zur empirischen Robustheit und Relevanz (Säule 2 der Validierung)
  • 4.1.3. Ergebnisse zur Praktikabilität (Säule 3 der Validierung)
  • 4.2. Ausblick
  • Abbildungsverzeichnus
  • Tabellenverzeichnis
  • Abkürzungsverzeichnis
  • Literaturverzeichnis
  • Anhang
  • Anhang A: Beschreibung der GeRS-Skalen
  • Anhang B: Datenerhebung, Sprachtest
  • Anhang C: Indikatoren zur Annotation
  • Anhang D: Daten
  • Anhang E: Datenauswertung

Einleitung

Der Gemeinsame europäische Referenzrahmen für Sprachen (im Folgenden: GeRS, EUROPARAT 2001a,b, 2004) ist seit seinem Erscheinen im Jahr 2001 zum wohl wichtigsten Bezugspunkt für die Gestaltung von Sprachtests, Bildungsstandards, Curricula, und Lehrbüchern geworden (vgl. etwa ALDERSON 2007; FULCHER 2004; HULSTIJN 2007; HULSTIJN/ALDERSON/SCHOONEN 2010; LITTLE 2006, 2007; SCHNEIDER 2005, 2007). Mit dem Referenzrahmen steht verschiedenen Nutzergruppen ein methodisch komplex aufbereitetes Hilfsmittel zur Beschreibung und Einschätzung kommunikativer Sprachkompetenzen in der Fremdsprache zur Verfügung. Das vom Europarat herausgegebene Dokument hat sich damit als fruchtbares Instrument für die Förderung der europäischen Mehrsprachigkeit herausgestellt. Eine sehr hohe - und stetig steigende - Zahl von Sprachtests (Curricula, Lehrbüchern usw.) wird nunmehr auf den GeRS bezogen, wobei auch wichtige Entscheidungen aufgrund dieser Einschätzungen getroffen werden (so genannte high stakes-Tests). Die Gewissheit darüber, dass faire und valide Einschätzungen von Lernersprache mit Hilfe des Referenzrahmens tatsächlich möglich sind, ist deshalb von immenser Bedeutung.

Trotz der weiten Verbreitung des GeRS kann nicht außer Acht gelassen werden, dass das Dokument von Beginn an auch sehr kritisch diskutiert wurde. Zunächst hat man ihm vor allem mangelnde Kohärenz und fehlende Theoriebindung vorgeworfen (vgl. ALDERSON/FIGUERAS/KUIJPER/NOLD/TAKALA/TARDIEU 2004; BAUSCH/CHRIST/KÖNIGS/KRUMM 2003; QUETZ 2007). Insbesondere in Bezug auf die im Referenzrahmen vorfindlichen Skalen liegt auch ein Mangel an empirischer Validierung vor, der zunehmend angeprangert wird (vgl. ALDERSON 2007; FULCHER 2004; HULSTIJN 2007; HULSTIJN/ALDERSON/SCHOONEN 2010; LITTLE 2007). Gerade die Skalen und damit das Stufensystem werden aber von vielen Nutzern als essentielles Kennzeichen des GeRS wahrgenommen:

“Without the scales, the CEFR would have been largely ignored in European language education” (ALDERSON 2007: 661).

Diese lückenhafte empirische Validierung resultiert aus der Herangehensweise der methodisch durchaus ausdifferenzierten Kalibrierung der GeRS-Skalen im Schweizer Projekt des Schweizer Nationalfonds zur Förderung der wissenschaftlichen ← 13 | 14 → Forschung (NORTH 2000; SCHNEIDER/NORTH 2000). In einem mehrstufigen Prozess, der hier nur auszugsweise beschrieben werden kann, kategorisierten und rangordneten Bewerter1 zunächst eine große Zahl an bereits existierenden, aus verschiedenen Testkontexten stammenden englischsprachige Deskriptoren (kurze Beschreibungen von Lernersprache). Die tauglichsten wurden schließlich mit Hilfe des statistischen Verfahrens der Multifacetten-Rasch-Analyse auf einer gemeinsamen Skala der L22-Kompetenz angesiedelt. Dabei fungierten die Entscheidungen der Bewerter faktisch als Daten, während das Rasch-Modell als externer Schiedsrichter wirkte, der über die Tauglichkeit der Deskriptoren entschied (vgl. FULCHER/DAVIDSON/KEMP 2011: 7). Über die entstandenen Skalen weiß man demzufolge, dass sie für die am Projekt beteiligten Bewerter gut handhabbar waren, dass die dort enthaltenen Aspekte der L2-Kompetenz von diesen Bewertern als wichtig erachtet wurden, und welche Deskriptoren sie als Ausdruck einer höheren oder aber weniger ausgeprägten kommunikativen L2-Kompetenz erachten: D.h. die Skalen drücken eine Bewertungskonvention aus.

Dies ist sicherlich sehr nützlich. Der Aspekt der Handhabbarkeit von Skalen durch Praktiker darf nicht unterschätzt werden, wohingegen als bedenklich zu betrachten ist, dass momentan allein diese Perspektive das empirische Fundament der GeRS-Skalen bildet. Empirische Validität können GeRS-Skalen nämlich nur dann beanspruchen, wenn die in ihnen enthaltenen Deskriptoren auf wirkliche Lerneräußerungen, den Beschreibungsgegenstand also, überhaupt anwendbar sind (vgl. ALDERSON 1991). Es ist bislang aber nicht untersucht worden, ob die Skalen einen Bezug zu empirischer, authentischer Lernersprache haben.

Die Mehrzahl der europäischen Bildungs- und Testinstitutionen verlässt sich damit momentan mit teils großer Selbstverständlichkeit auf ein Skalensystem, das einer vollumfänglichen Überprüfung noch harrt und sich in gewisser Weise zu verselbständigt haben scheint. Brian NORTH3, Hauptverantwortlichen des Schweizer Projekts, war durchaus bewusst, dass die GeRS-Skalen einen Bewerterkonsens ← 14 | 15 → repräsentieren und nichts darüber aussagen, was Lerner in Sprachtests tun (NORTH 2000: 71).

Ziel der vorliegenden Arbeit4 ist deshalb herauszufinden, wie gut und umfassend drei GeRS-Skalen erfassen können, was Lerner in einer typischen Sprachtestsituation tatsächlich tun und wie kohärent diese Skalen in theoretischer Hinsicht sind. In der Studie wird das Verhältnis ausgewählter Niveaubeschreibungen (A2-B2) dieser Skalen (zum Wortschatzspektrum, seiner Beherrschung sowie der Flüssigkeit) zu spracherwerbs- und sprachtesttheoretischen Aspekten und zu empirischer gesprochener italienischer und deutscher Lernersprache untersucht.

In dieser Arbeit werden Skalenvalidierungen bzw. Skalierungen als mehrperspektivische Prozesse verstanden. Laut dem in Kapitel 1.3.2.2 vorgestellten Drei-Säulen-Ansatz müssen Deskriptoren auf einem sorgsam ausdefinierten theoretischen Konstrukt basieren bzw. bei einer nachträglichen Skalenvalidierung auf ein solches zurückführbar sein. Diese erste Säule der Skalenvalidität wird hier als durch eine empiriebasierte Vorgehensweise zu ergänzen verstanden, bei der Nachweise für die Passung von Skala und Lernersprache erbracht werden sollten (Säule 2, vgl. FULCHER 1996; FULCHER et al. 2011; UPSHUR/TURNER 1995, 1999). Zudem müssen Skalen auch handhabbar sein, darf die Praktikabilität also nicht außer Acht gelassen werden (Säule 3). Handhabbarkeit wird aber nicht als durch eine gute Inter-Rater-Reliabilität automatisch hergestellt verstanden, sondern hier werden Nachweise dafür als nötig erachtet, dass (auch übereinstimmende) Urteile tatsächlich auf den verwendeten Skalen beruhen.

Die hier untersuchten Forschungsfragen (vgl. Kapitel 1.3.1) beziehen sich auf diese drei Säulen der Skalenvalidierung:

Zunächst ist von Interesse, inwiefern die untersuchten Skalen theoretisch kohärent sind, da dies zur Skalenvalidität entscheidend beiträgt (Säule bzw. Forschungsfrage 1). Deshalb werden die Konstrukte der fremdsprachlichen Flüssigkeit sowie des Lernerwortschatzes beleuchtet. Dies dient vor allem dazu, die GeRS-Skalen auf theoretische Bezüge zu analysieren. Die ausführliche Analyse versteht sich jedoch auch als Grundlage für die Ausformulierung möglicher Konstrukte der Flüssigkeit und der lexikalischen Kompetenz in Sprachtests. Vor dem Hintergrund der bislang lückenhaften Modellierung der lexikalischen Kompetenz wird ein Arbeitsmodell dieses Aspekts der kommunikativen L2-Kompetenz entwickelt.

Weiterhin wird das Verhältnis zwischen GeRS-Dekriptoren und authentischer Lernersprache analysiert (Säule bzw. Forschungsfrage 2). Dazu gehört die Untersuchung ← 15 | 16 → der Frage, ob die in den Skalen beschriebenen Phänomene von den Lernern tatsächlich (in nennenswerter Anzahl) produziert werden. Empirische Beobachtbarkeit und Relevanz sind eine Voraussetzung für Validität und beeinflussen außerdem die Reliabilität von Bewerterurteilen. Anschließend wird der Frage nachgegangen, inwiefern die Niveaubeschreibungen dazu geeignet sind, Lernerproduktionen zu erfassen. Unabhängig von Bewertereindrücken wird versucht zu eruieren, ob die alleinige Verwendung der operationalisierten GeRS-Deskriptoren einer Niveaustufe zu sinnvollen Ergebnissen führt und ob die so gruppierten Lerner sich deutlich von anderen Sprechern abgrenzen lassen (Kriterium der Konvergenz & Trennbarkeit). Auch wird untersucht, ob die operationalisierten Deskriptoren einen empirischen Bezug zum jeweiligen Skalenkonstrukt aufweisen – damit wird die Frage behandelt, ob die Skalen tatsächlich Flüssigkeit, die Wortschatzbreite und –beherrschung messen, oder ob konstruktirrelevante Aspekte in den Skalen verborgen sind (Kriterium des empirischen Konstruktbezugs). Dieser Analyseaspekt liegt an einer Schnittstelle zwischen Theorie und Empirie. Hier wird wiederum das oben erwähnte Arbeitsmodell der lexikalischen Kompetenz vor allem für die Fehlerannotation fruchtbar gemacht.

Neben der theoretischen und der empirischen, lernersprachenbezogenen Validitätsdimension wird auch die Praktikabilität der genannten Niveaubeschreibungen analysiert (Säule bzw. Forschungsfrage 3). Es stellt sich die Frage, ob Bewerterurteile spiegeln, was die Skalen vorgeben, ob sie nachweisbar auf Deskriptoren zurückgehen, und welche anderen Einflussfaktoren aufgezeigt werden können. Hier rückt also das Verhältnis zwischen GeRS-Deskriptoren, Lernersprache und Beurteilungen ins Zentrum.

Die Datenerhebung erfolgte im Jahr 2008 im Rahmen des KOLIPSI-Projekts an der Europäischen Akademie Bozen, wo knapp 1.500 Südtiroler Oberschüler auf ihre schriftlichen L2-Kompetenzen getestet wurden (ABEL/VETTORI/WISNIEWSKI 2012). Einhundert Schüler nahmen am eigens konstruierten mündlichen Sprachtest teil. 19 Schüler (10 Italienisch-, 9 Deutschlerner) wurden aufgrund einer Reihe an Kontrollvariablen für diese Studie ausgewählt. Die Testkonstruktion folgte internationalen Qualitätsstandards (AERA/APA/NCME 1999; Alte 2001, 2003a-d, 2006 a-d; BACHMAN/PALMER 1996/20105; EUROPARAT 2009, ← 16 | 17 → 2009 [2003]6; FULCHER 2003; FULCHER/DAVIDSON 2007; LUOMA 2004; ausführlicher ABEL/VETTORI/WISNIEWSKI 2012). Für jede Produktion liegen 4–5 auf Audioaufnahmen basierende, sehr gut übereinstimmende Bewertungen vor, die mit Hilfe eines eng auf den Referenzrahmen bezogenen Bewertungsrasters angefertigt wurden (vgl. Anhang B).

Die Produktionen wurden nach leicht modifizierten CHAT-Transkriptionskonventionen (MACWHINNEY 2000; vgl. Anhang D) im Annotationseditor ELAN des Max-Planck-Instituts in Nijmegen transkribiert.7 Anschließend wurden die Deskriptoren so weit wie möglich messbar gemacht und in so genannte ‚Skalenvariablen‘ übersetzt; diese Operationalisierung war eine Grundlage für die Annotation der Transkripte. Neben diesen GeRS-basierten Indikatoren wurde eine recht große Anzahl verschiedener forschungsrelevanter Aspekte der Flüssigkeit und des Wortschatzes zur Ergänzung der Analysen kodiert (z.B. Strategien oder Verzögerungsphänomene). Die Annotation erfolgte ebenfalls im multi-layer standoff-Editor (vgl. LÜDELING/WALTER/KROYMANN/ADOLPHS 2005) Elan.8 Weite Teile der Kodierung wurden zur Erhebung und Kontrolle der Kodierungsreliabilität unabhängig von zwei Kodiererinnen durchgeführt.9

Die Datenaufbereitung und –analse erfolgte sowohl mit spezifisch sprachbezogener Software (z.B. dem TreeTagger vgl. SCHMID 1994, oder Wordsmith) als auch mit dem Statistikprogramm SPSS. Es wurde eine Vielzahl den Forschungsfragen angemessener Analysen durchgeführt, darunter neben deskriptiven Verfahren zum Vergleich von Gruppen und Korrelationen vor allem Cluster- und Diskriminanzanalysen.

Die Ergebnisse deuten darauf hin, dass mehrere, teils gravierende Aspekte als bedrohlich für die Anwendbarkeit und Validität der drei analysierten Skalen zumindest hinsichtlich der hier untersuchten Lerner zu betrachten sind. Dazu gehört die Tatsache, dass ein Theoriebezug der Skalen in der Regel kaum oder gar nicht herstellbar ist bzw. auch im Text des Referenzrahmens selbst kaum Informationen zu den zu unterstellenden Skalenkonstrukten zu finden sind. Die ← 17 | 18 → Analyse der Lernersprache ergab zudem, dass die operationalisierten Deskriptoren häufig nicht geeignet waren, um empirisch beobachtbares Lernerverhalten im Korpus zu erfassen; ebenso wurden teils mangelhafte oder gar widersprüchliche Konstruktbezüge offenbar. Auch die Praktikabilität der drei Skalen stellte sich im Einklang mit Ergebnissen der Forschung zur Variabilität im Bewerterverhalten als lückenhaft dar: regelmäßig rekurrierten Bewerter auf skalenexterne bzw. auch konstruktirrelevante Größen.

Die bisher erreichte und zweifellos enorm positive Wirkung des Referenzrahmens auf das Lehren, Lernen und Prüfen von Sprachen auf internationaler, nationaler und regionaler Ebene muss anerkannt werden. Dennoch liefern die Resultate der Untersuchungen Hinweise auf Aspekte mangelnder Validität der GeRS-Skalen. Das Skalensystem scheint sich verselbständigt, in gewisser Weise reifiziert zu haben, ohne dass die Beschaffenheit der Skalen dazu eine ausreichend sichere Grundlage böte. Darauf deuten die Ergebnisse der vorliegenden Studie hin, die sich allerdings aufgrund des Untersuchungsdesigns, d.h. der tiefgehenden Analysen mündlicher Lernersprache, auf wenige Fälle (N=19) beschränken musste und nur sehr vorsichtige Schlüsse erlaubt. Neben den kritisch diskutierten Aspekten werden Möglichkeiten vorgeschlagen, bereits durch kleinere Veränderungen ein vermutlich besseres Funktionieren der Skalen zu erreichen: der Referenzrahmen versteht sich erfreulicherweise als offenes Dokument (vgl. EUROPARAT 2001b: 10).

Die Ergebnisse müssten an einem wesentlich größeren Korpus für mehr Zielsprachen überprüft werden. Erst umfassendere Studien könnten zeigen, wie die anderen GeRS-Skalen und –Niveaus sich für mehr Sprachen und Sprecher im Mündlichen und Schriftlichen bewähren. Ein in diese Richtung zielendes Unternehmen ist das merlin-Projekt, das derzeit von der TU Dresden koordiniert wird.10 Bestätigen sich die hier entwickelten Bedenken, wäre eine umfassende Neu-Skalierung vonnöten, die dann (mindestens) auf der dreifachen Perspektive der Theoriegebundenheit, der Koppelung an empirische Lernersprache und der Berücksichtigung von Aspekten der Handhabbarkeit beruhen könnte.Der momentan beobachtbare Einsatz GeRS-basierter Skalen wäre nicht zu rechtfertigen, wenn die oben genannten Validitätsaspekte sich auch in größerem Rahmen als derartig problematisch erweisen würden. ← 18 | 19 →

Der Aufbau der Arbeit folgt der oben dargestellten Argumentation. Im ersten Kapitel wird zunächst die Problemlage geschildert, indem zunächst grundsätzlich auf Typen sowie Erstellungs- und Analyseverfahren von Skalen im Sprachtestbereich eingegangen wird (Kapitel 1.1). Anschließend werden die Skalen des Referenzrahmens hinsichtlich verschiedener Gesichtspunkte wie etwa ihrer Generalisierbarkeit und ihrer Funktionen kritisch besprochen, woraus ihr Validitätsdefizit deutlich wird (Kapitel 1.2). Im Anschluss wird das Design der Arbeit vorgestellt, wobei zunächst Forschungsfragen und Validierungsansatz entwickelt werden (Kapitel 1.3.1 und 1.3.2), bevor der Fokus auf den verschiedenen verwandten Methoden der Datenerhebung, -aufbereitung und –analyse liegt (Kapitel 1.3.3 und 1.3.4). Auch die Operationalisierung der GeRS-Deskriptoren wird in diesem Abschnitt erläutert.

In den nachfolgenden Kapiteln werden die Forschungsfragen behandelt. Abschnitt zwei widmet sich jeweils zunächst den Konstrukten der L2-Flüssigkeit und der lexikalischen Kompetenz sowie ihrer Messbarkeit, um darauf aufbauend die Frage nach der theoretischen Kohärenz der drei betrachteten Skalen behandeln zu können (erste Forschungsfrage). Das dritte Kapitel ist der empirischen Validierung gewidmet (zweite und dritte Forschungsfrage). Hier wird zunächst auf Aspekte des Bezugs zwischen Lernersprache und den Niveaubeschreibungen der drei in Frage stehenden GeRS-Skalen eingegangen, jeweils anschließend auf den Umgang der Bewerter mit ihnen.11 ← 19 | 20 →

← 20 | 21 →

                                                   

    1  Zu Gunsten der vereinfachten Lesbarkeit wird in dieser Arbeit für den Plural bei Personen generisch das Maskulinum verwendet.

    2  In dieser Arbeit wird der Begriff ‚L2‘ in allgemeiner Weise sowohl für (ungesteuert erworbene) Zweit- als auch für (gesteuert erworbene) Fremdsprachen verwendet. KRASHENS (1981) terminologische Unterscheidung zwischen ‚Erwerb‘ und ‚Lernen‘ wird nicht übernommen. Zum Modus des L2-Erwerbs der Probanden dieser Studie vgl. Kapitel 1.3.4.1.

    3  Ich danke Brian North für die freundliche Zuarbeit sämtlicher Quellskalen des GeRS sowie weiterer relevanter Dokumente für diese Arbeit.

    4  Die Arbeit wurde von Mai 2010 bis August 2012 vom Europäischen Sozialfonds und dem Freistaat Sachsen gefördert (Projektnr. 80949331).

    5  Bei BACHMAN/PALMER 2010 handelt es sich um eine überarbeitet Neuauflage von BACHMAN/PALMER 1996, die zum Zeitpunkt der Testkonstruktion noch nicht erschienen war. Die Neuauflage wurde bezüglich verschiedenster Aspekte der Arbeit ebenso genutzt wie zur Nachkontrolle der Verfahren, die vor ihrem Erscheinen durchgeführt wurden.

    6  Die Handbuchausgabe von 2009 stand ebenfalls zum Zeitpunkt der Testkonstruktion noch nicht zur Verfügung, wurde aber für verschiedene Aspekte der Qualitätskontrolle (z.B. bei der Datenauswertung) verwendet.

    7  Online zugänglich unter http://www.lat-mpi.eu/tools/elan/, Oktober 2013. Die Transkriptionen sind im .txt-Format und innerhalb der Elan-Dateien (.eaf-Format) auf Anfrage bei der Autorin zugänglich.

    8  Alle Annotationen und die zugrunde liegenden Audio-Aufnahmen sind auf Anfrage an die Autorin auf DVD frei verfügbar. Die Tagsets finden sich in Anhang C.

    9  Ich danke Teresa Knittel für ihre Mitarbeit.

  10  Im merlin-Projekt wird eine größere Anzahl schriftlicher Lernerproduktionen des Italienischen, Deutschen und Tschechischen unter anderem auf Indikatoren hin annotiert, die aus Operationalisierungen von GeRS-Skalen stammen. Das Projekt wird im Programm Lebenslanges Lernen der EU von 2012–2014 gefördert (518989-LLP-2011-DE-KA2-KA2MP).

  11  Ein umfangreicher Anhang vervollständigt die Arbeit. Weitere Daten (Transkripte, Annotationen, Audiodateien) werden auf Anfrage von der Autorin auf einer DVD zur Verfügung gestellt.

  

1.  Hintergrund

Im folgenden Kapitel wird die Problemlage, die zur Entstehung dieser Arbeit geführt hat, geschildert. Der GeRS soll dabei keineswegs in all seinen Facetten dargestellt werden, sondern es werden nur die für die Fragestellungen dieser Arbeit wichtigen Aspekte beleuchtet. Dadurch rücken aber die vermutlich schwächsten Charakteristika des Dokuments ins Zentrum. Dies soll die vielen positiven Auswirkungen des GeRS keineswegs in Abrede stellen: Wie bereits angedeutet hat das Niveaustufensystem des GeRS enormen Einfluss auf die Bewertung, die Lehre und das Lernen fremder Sprachen in ganz Europa, aber zunehmend auch weltweit (vgl. TSCHIRNER 2012). Erstmals verfügt Europa mit dem Referenzrahmen, dessen Skalen oft als ‚Herzstück‘ betrachtet werden, über ein Bezugswerk, das die Standardisierung des Lehrens und Prüfens von Sprachen vereinfacht und transparent macht und sehr viel zur Qualitätsentwicklung in diesen Bereichen beigetragen hat:

“It is our belief that, whatever its shortcomings, the CEFR has introduced a notion of levels of development that is far better – if only because it can be challenged – than the vague terms (not measures) used to date” (HULSTIJN et al. 2010: 16).

Der Referenzrahmen ist in 30 Sprachen übersetzt worden, und zahlreiche GeRS-bezogene Initiativen v.a. des Europarats helfen dabei, den Gebrauch des GeRS in vielen Bereichen zu etablieren.12 So gibt es, um ein Beispiel zu nennen, die so genannten ‘Reference Level Descriptions’ (RLDs), d.h. einzelsprachspezifische Illustrierungen der GeRS-Niveaus; für das Deutsche existiert seit 2005 die zweite Auflage von Profile deutsch (GLABONIAT/MÜLLER/RUSCH/SCHMITZ/WERTENSCHLAG 2005). Diese Projekte sind zunehmend korpusgestützt, so z.B. das Profilo della lingua italiana (SPINELLI/PARIZZI 2010), die norwegischen RLD Norsk Profil (CARLSEN 2013) oder das sehr umfangreich angelegte English Profile Project (HAWKINS/FILIPOVÍC 2011).13 Die RLD bemühen sich um eine Veranschaulichung der GeRS-Niveaus, die sie als gegeben voraussetzen und mit vielfältigem Material anreichern. ← 21 | 22 → Daneben gibt es auch Studien zum Ausrichten von Tests am GeRS (vgl. FIGUERAS/NOIJONS 2009; FIGUERAS/NORTH/TAKALA/VERHELST/VANAVERMAET 2005), allerdings bislang keinerlei Arbeiten zur empirischen Validität der GeRS-Skalen.

1.1  Skalen zur Beurteilung fremdsprachlicher Kompetenz

Skalen zur Beurteilung fremdsprachlicher Kompetenzen (proficiency scales oder rating scales14) sind seit den 50er Jahren, als die einflussreiche Skala des US-amerikanischen Foreign Service Institute (FSI) entstand (vgl. FULCHER/DAVIDSON 2007), weit verbreitet (NORTH 2000: 14; für eine Übersicht ALDERSON 1991). Sie eignen sich besonders für die subjektive, da von Beurteilern abhängige, Einschätzung produktiver und interaktiver mündlicher und schriftlicher Leistungen in offeneren Testformaten.

Derartige Skalen – auch als „band scores, band scales, profile bands, proficiency levels, proficiency scales, proficiency ratings“ (ALDERSON 1991: 71) bezeichnet – unterscheiden sich teils erheblich, wie in Kapitel 1.1 deutlich wird. Immer wird jedoch versucht, mit ihrer Hilfe (horizontale) Aspekte sprachlicher Kompetenz hierarchisch ansteigend beschreibbar zu machen. Sie messen die Größe, die Häufigkeit, die Intensität, die Bedeutung oder den Rang mit Bezug auf die Tiefe oder die Breite einer demonstrierten Fähigkeit (HUDSON 2005: 207).

Skalen betonen positive Eigenschaften der Lernersprache. HARSCH (2005: 137) hebt als weitere Stärken hervor, dass skalenbasierte Bewerttungen prototypisches ← 22 | 23 → Verhalten zu beschreiben in der Lage sein können, detaillierte Informationen in Form von Deskriptoren15 bieten und die Reliabilität von Beurteilungen erhöhen können. Gleichzeitig sind sprachliche Produktionen mit Skalen vergleichbarer, und sie können zu Systemen (wie im Referenzrahmen) zusammengestellt werden (vgl. NORTH 2000: 12). BACHMAN/PALMER (2010: 352) unterstreichen, dass man mit rating scales Informationen über Lernersprache erhalten kann, die auf anderem Wege nur sehr schwierig zu erlangen wären.

Andererseits bergen die auf solchen Skalen basierenden Einschätzungen Reliabilitätsprobleme. Bewerterurteile sind durch inkonsistentes Verhalten ein und derselben Person über verschiedene Bewertungen hinweg (mangelnde Intra-Rater-Reliabilität) ebenso bedroht wie durch Unterschiede zwischen mehreren Beurteilern (mangelnde Inter-Rater-Reliabilität), bspw. wenn Bewerter verschieden streng beurteilen (BACHMAN/PALMER 2010: 352). So betont NORTH (1994: 26), dass das Ziel von ‘Rating’-Verfahren darin bestehen müsse, die unvermeidliche Subjektivität zu systematisieren. Selbst wenn dies der Fall ist und mithilfe einer Skala reliable Urteile gefällt werden, sie also praktikabel ist, kann ihr jedoch nicht automatisch Validität unterstellt werden. Skalen müssen einen nachweisbaren Konstrukt-/Modellbezug haben und empirisch relevant sein (vgl. Kapitel 1.2.3. und 1.3.2).

Ein weiterer Kritikpunkt gegenüber Kompetenzskalen betrifft den häufig fehlenden Nachweis für ihre Kompatibilität mit Ergebnissen der Fremdsprachenerwerbsforschung (TURNER/UPSHUR 2002: 51). Konkret wird vielen Skalen zudem vorgeworfen, dass ihre Deskriptoren schlecht und unrealistisch gruppiert sowie vage und relativ formuliert sind (TURNER/UPSHUR 2002: 51; UPSHUR/TURNER 1995: 6). Ein Hauptkritikpunkt auch aus der Perspektive dieser Arbeit liegt darin, dass die Deskriptoren nicht oder nicht ausreichend empirisch relevant sind bzw. die auf einem Niveau erwähnten Aspekte nicht in der vorhergesagten Weise gemeinsam auftreten (FULCHER 1996; UPSHUR/TURNER 1995).

1.1.1  Arten von Skalen

Skalen zur Einschätzung fremdsprachlicher Kompetenz unterscheiden sich bezüglich einer teils eng zusammenhängenden Reihe von Faktoren. Der folgende knappe Überblick fokussiert für diese Studie zentrale Aspekte. ← 23 | 24 →

Die wohl wichtigste Differenzierung betrifft die (1) Generalisierbarkeit der Aussagen, die mittels einer Skala angestrebt wird:

“Sampling has to find a defensible way of covering a range of contexts … to enable claims to be made about what sort of performance is likely to be made in untested contexts” (SKEHAN 1998: 155).

Hierzu ist die Unterscheidung zwischen zwei Skalentypen hilfreich: Skalen, aufgrund derer einschätzbar werden soll, wie ein Proband eine konkrete Test-Aufgabe im ‚wirklichen Leben‘ zu lösen imstande wäre, werden als ‘real-life’-Skalen (BACHMAN 1990) bzw. aktueller als Skalen bezeichnet, die auf einem ‘can do’-Ansatz basieren (BACHMAN 2011). Diesem Typus rechnet BACHMAN auch die GeRS-Skalen zu (ebda.). Solche Skalen passen zu dem als ‘New Behaviourism’ definierten Validitätsverständnis (CHAPELLE 1998). Ausschlaggebend ist der Testkontext, der so genau wie möglich der Lebenswelt nachgebildet sein muss. Der Generalisierbarkeitsanspruch ist bei solchen Skalen übersichtlich. Es wird nicht unbedingt von einer stabilen, sprecherinternen Kompetenz ausgegangen:

“Validity would be the degree to which it could be shown that there is a correspondence between the real-world facets and the test facets, and score meaning could only be generalized to corresponding real world tasks” (FULCHER/DAVIDSON 2007: 16).

Skalen hingegen, bei denen aufgrund einer (oder mehrerer) Performanzleistung(en) Aussagen über die Kompetenz getroffen werden, können als ‘ability-based’ bezeichnet werden (BACHMAN/PALMER 2010: 341; der ältere Begriff ist der des ‘interactive-ability approach’). Ability-basierte Skalen müssen auf ein Modell oder Konstrukt der L2-Kompetenz bezogen sein.16 Solche Skalen entsprechen einem interaktionistischen Validitätsverständnis (CHAPELLE 1998: 34): Das Resultat eines Tests wird als Ergebnis von Konstrukten, Kontextfaktoren und deren Interaktion begriffen (vgl. das Arbeitsmodell zur lexikalischen Kompetenz, Kapitel 2.2.2.6).17 Solche Skalen wollen Aussagen über die Ausprägung bestimmter Bereiche der kommunikativen Kompetenz ermöglichen; sie lassen sich auf ‘target ← 24 | 25 → language use domains’ verallgemeinern (BACHMAN 2011; vgl. BACHMAN/PALMER 2010: 60–62). Trotz der demgemäß größeren Generalisierbarkeit von ‘ability’-Skalen dürfen diese nur

„auf die durch die Bewertung tatsächlich elizitierten Prozesse, Fertigkeiten oder Wissensbestände hin verallgemeinert werden“ (HARSCH 2005: 151, vgl. ALDERSON 1991: 80).

Auch ability-basierte Skalen können nicht auf unvorgesehene Funktionen, Nutzer und Kontexte übertragen werden. Die höhere Verallgemeinerbarkeit einer Skala bringt eine geringere Beschreibungstiefe mit sich (HUDSON 2005: 208).18

Die reliefartige Gegenüberstellung der Skalentypen bzw. die Rückführung aller Versuche der Beschreibung fremdsprachlicher Kompetenz auf entweder eine ‘can do’- oder eine ‘ability’-Ausrichtung19 bei BACHMAN (2011) läuft Gefahr, Zwischenformen zu vernachlässigen, wie unten (vgl. Kapitel 1.2.2.1) ausgeführt wird. Zur übersichtlicheren Kurzdarstellung der Hauptskalentypen wird dieser Unterscheidung aber grob gefolgt. BACHMAN/PALMER (2010) gehen nur noch auf ‘ability’-Skalen ein, während ‘can do’-Skalen generell mehr Forschungsaktivität gewidmet zu werden scheint (vgl. HUDSON 2005, vgl. Kapitel 1.1.2).

Ein weiterer wichtiger, eng mit der gerade erläuterten Typologie zusammenhängender Aspekt zur Beschreibung von Skalenarten betrifft die Frage nach dem Einbezug von (2) Kontext in Skalen.20 In verhaltensbasierten Skalen (can do) muss ← 25 | 26 → der Kontext genau spezifiziert werden, während kompetenzbezogene Skalen (ability) keine Kontextabhängigkeit aufweisen sollten (vgl. BRINDLEY 1998). Kontextfreie Skalen sind, wie HUDSON (2005: 209f.) bemerkt,

“(…) terse, efficient, and seemingly straightforward in their application (…) operationalizing terms like “small vocabulary” and “vocabulary of moderate size” clearly becomes normative in nature.”

Skalen lassen sich weiterhin danach unterteilen, welche (3) Funktion sie haben und welche (4) Zielgruppe sie erreichen sollen. In diesem Zusammenhang wird immer wieder Charles ALDERSONs Aufsatz (1991) zitiert, der als Zielgruppen Bewertende, Testautoren und Nutzer herausarbeitet, die Skalen entweder zur Beurteilung (rating scale), zur Berichterstattung (reporting scale) oder zur Testerstellung (construction scale) verwenden können; bei der Analyse und Erstellung von Skalen ist es von großer Wichtigkeit, diese Aspekte mit zu bedenken.

Weiterhin lassen sich (5) holistische von analytischen Skalen unterscheiden (SHOHAMY 1988: 173). Bei letzteren misst und bewertet man verschiedene Aspekte der Kompetenz einzeln. Dadurch erhält der Kandidat ein Profil seiner Fähigkeiten.21 Bei holistischen Skalen hingegen erfolgt eine einzige Gesamtbewertung. BACHMAN/PALMER (2010: 339) verurteilen Globalskalen, die eine eindimensionale L2-Kompetenz suggerierten und zu Interpretationsproblemen, Unklarheiten bei der Niveauzuschreibung und uneindeutiger Gewichtung von Komponenten durch die Bewerter führen könnten, und empfehlen die ausschließliche Verwendung analytischer Skalen. Holistische Skalen verleiteten außerdem dazu, gute Inter-Rater-Reliabilitätswerte als Validitätsargument umzudeuten (FULCHER/DAVIDSON 2007: 97; vgl. WEIGLE 2002: 121). ← 26 | 27 →

Ferner unterscheiden sich Skalen hinsichtlich (6) des Messniveaus (Nominalskalen, Ordinalskalen, Intervallskalen), wobei beim Sprachtesten wohl maximal Ordinalskalenniveau erreicht werden kann (vgl. EUROPARAT 1994a: 17).

Man kann außerdem zwischen (7) kriteriums- und normorientierten Skalen unterscheiden: wird eine sprachliche Leistung auf eine konkrete Gruppe bezogen, spricht man von normorientierter Bewertung, liegt der Bewertung hingegen ein externer Standard zugrunde, handelt es sich um ein kriteriumsorientiertes Vorgehen (vgl. z.B. BACHMAN/PALMER 2010: 342; EUROPARAT 1994a: 27). Brian NORTH (EUROPARAT 1994a: 27–30) arbeitet Bedingungen für kriteriumsorientierte Skalen heraus. Sie dürfen nicht aus relativen Niveaustufen (die nur in Bezug aufeinander Sinn ergeben) bestehen (BACHMAN 1990: 343–344) und die Deskriptorformulierungen dürfen nicht relativ sein. Außerdem verweist NORTH auf die Gefahr einer Zirkelargumentation, die in dieser Arbeit den (von NORTH später mit entwickelten) GeRS-Skalen zum Vorwurf gemacht wird:

“Presumably it [the criterion description, K.W.] loses validity if samples or research indicate that what actually happens is different from what is described in the descriptor” (EUROPARAT 1994a: 29).

Als Standards bzw. Kriterien können verschiedene Referenzen dienen, z.B. Niveaustufen (vgl. BACHMAN/PALMER, ebda.). Eine (8) Anschlussmöglichkeit an die L2-Erwerbsforschung besteht:

“But there is a fourth sense of criterion-referenced measurement which is even more difficult to achieve and which has eluded language testers so far. This is that the proficiency levels which are the basis of criterion referencing are linked in some cumulative way to a course of development. This would allow each intermediate step simultaneously to have a proficiency, real world dimension, and also a relationship with other stages of development.” (SKEHAN 1989: 6)

Das Verhältnis von Bewertungsskalen zur L2-Erwerbsforschung ist jedoch umstritten. Es ist nicht klar, ob man überhaupt von Erwerbssequenzen sprechen kann oder eher von individuellen, hochvariablen Mustern beim Erlernen von Sprachen (vgl. z.B. BARDOVI-HARLIG 2006: ‘main routes’ vs ‘individual paths’). Während einige Linguisten das Verhältnis von Bewertungsskalen und L2-Erwerb sehr kritisch sehen (vgl. dazu EUROPARAT 1994a: 26), fordert z.B. DE JONG (1988: 74):

“What we need to know if we want to develop good scales is not linguistic knowledge of how language is structured, what all the features of language are; we need to know how somebody acquires language, that is, what the developmental stages in language acquisition are.” ← 27 | 28 →

Die Erfassung sprachlicher Kompetenzen in Bewertungsskalen ist etwas anderes als die Beschreibung des Erwerbsverlaufs einer L2; jedoch ist beides miteinander verbunden. Widersprechen Skalen Erkenntnissen der Erwerbsforschung, ist ihre Aussagekraft bedroht; nehmen sie nicht Bezug auf die Forschung, laufen sie Gefahr, irrelevante Aspekte der L2-Kompetenz abzubilden. Problematisch ist, dass Bewertungsskalen eingesetzt werden (müssen), bevor eine auch nur annähernd vollständige Theorie des L2-Erwerbs vorliegen kann. Dies ist jedoch keine Rechtfertigung für eine Entkoppelung beider Bereiche. Forscher bspw. im SLATE-Netzwerk (Second Language Acquisition and Testing in Europe) befassen sich mit besonderem Fokus auf den GeRS auch mit der Frage, wie Erwerbssequenzen mit der kommunikativen L2-Kompetenz zusammenhängen (vgl. z.B. BARTNING/MARTIN/VEDDER 2010).22

1.1.2  Skalierungsverfahren

Die Konstruktion von Skalen ist ein komplexer Prozess, der eng mit der oben beschriebenen Art der Skala zusammenhängt. Häufig werden keine Informationen zur Skalierung zur Verfügung gestellt (BRINDLEY 1998: 117; KNOCH 2011: 81; NORTH 2000: 3). HUDSON (2005) diagnostiziert einen Forschungsschwerpunkt bei der Entwicklung von Skalen zum Testen sprachlicher Performanz, wobei die Erledigung einer möglichst authentischen, gründlich durch jeweilig relevanten Kontext definierten Aufgabe im Vordergrund steht (‘can do’-Ansatz).

Details

Seiten
634
Erscheinungsjahr
2014
ISBN (PDF)
9783653039252
ISBN (MOBI)
9783653984903
ISBN (ePUB)
9783653984910
ISBN (Hardcover)
9783631650158
DOI
10.3726/978-3-653-03925-2
Sprache
Deutsch
Erscheinungsdatum
2014 (August)
Schlagworte
Sprachtest Wortschatz Lernersprache Lexikalische Kompetenz
Erschienen
Frankfurt am Main, Berlin, Bern, Bruxelles, New York, Oxford, Wien, 2014. 634 S., 52 s/w Abb., 35 Tab.
Produktsicherheit
Peter Lang Group AG

Biographische Angaben

Katrin Wisniewski (Autor:in)

Katrin Wisniewski, Studium der Romanistik, Politikwissenschaft, Geschichte und Deutsch als Fremdsprache in Dresden, Bologna und Leipzig; seit 2009 Wissenschaftliche Mitarbeiterin am Institut für Romanistik der TU Dresden; Forschung zur Schnittstelle Sprachtesten/Spracherwerbsforschung, Validitätsforschung, Methodologie.

Zurück

Titel: Die Validität der Skalen des Gemeinsamen europäischen Referenzrahmens für Sprachen