Show Less
Open access

Triangulation in der Fremdsprachenforschung

Series:

Edited By Daniela Elsner and Britta Viebrock

Fremdsprachenlernen und Fremdsprachenunterricht sind facettenreiche Forschungsgegenstände, deren Untersuchung ein komplexes Design verlangt. Um ein multidimensionales Bild der ablaufenden Prozesse zu erhalten, werden in der fremdsprachlichen Unterrichtsforschung immer häufiger rekonstruktive und interpretative Verfahren mit standardisierten quantitativen Methoden verbunden. Methoden-, Theorie-, Daten- oder Beobachtertriangulation werden zur Überprüfung von Forschungsergebnissen sowie zur Erweiterung von Erkenntnismöglichkeiten eingesetzt. Die Beiträge in diesem Band zeigen die unterschiedlichen Dimensionen des Triangulationskonzepts, seine theoretischen Grundlagen sowie praktische Anwendungen. Sie sind im Anschluss an die zweite forschungsmethodische Sommerschule der Deutschen Gesellschaft für Fremdsprachenforschung (DGFF) entstanden.
Show Summary Details
Open access

Analyse quantitativer und qualitativer Befragungsdaten mit SPSS

← 152 | 153 →Analyse quantitativer und qualitativer Befragungsdaten mit SPSS

Astrid Jurecka

Zur Untersuchung inhaltlicher Forschungsfragen werden in den Erziehungswissenschaften und der Bildungsforschung immer häufiger Befragungsmethoden sowohl aus der quantitativen als auch der qualitativen Forschungstradition herangezogen. Im Rahmen dieses Kapitels sollen Möglichkeiten und Strategien zur gemeinsamen Auswertung und Interpretation solcher Daten aufgezeigt werden. Im ersten Teil wird der Fokus zunächst auf den schriftlichen Fragebogen sowie das qualitative Interview als Beispiele für gängige Befragungsverfahren aus den beiden Forschungstraditionen gelegt. Ferner wird jeweils auf Grundlagen der Testkonstruktion, auf Itemformate, Skalenniveaus sowie das jeweilige Vorgehen bei der Quantifizierung von Daten eingegangen. Der letzte Teil des Beitrags beinhaltet dann eine Darstellung gängiger statistischer Analyseverfahren sowie deren Durchführung mithilfe des Analyseprogramms SPSS.

1. Einleitung

Nachdem etwa seit Mitte der 1920er Jahre in den Sozialwissenschaften zwei methodische Forschungsrichtungen – die qualitative und die quantitative – unterschieden wurden (Kelle 2008), findet sich in den letzten Jahren unter den Begriffen „Methodentriangulation“ und Mixed Methods verstärkt wieder die Tendenz, Methoden aus beiden Forschungstraditionen zur Beantwortung und Untersuchung inhaltlicher Fragestellungen heranzuziehen (ebd.). So konstatieren etwa Gläser-Zikuda et al. (2012: 7f.) für die empirische Bildungsforschung und die Erziehungswissenschaften die Etablierung qualitativer Forschungsmethoden, die stärkere Wahrnehmung quantitativer Forschungsmethoden, und die Kombination qualitativer und quantitativer Verfahren als derzeitige forschungsmethodische Trends. Dabei unterscheiden die Autoren bezüglich der Verbindung qualitativer und quantitativer Methoden unterschiedliche Modelle: das Vorstudienmodell, das Verallgemeinerungsmodell, das Vertiefungsmodell sowie das Triangulationsmodell (ebd.: 8). Diese Modelle zeigen unterschiedliche Zeitpunkte und Stadien an, zu denen im Rahmen wissenschaftlicher Studien eine Kombination beider methodischer Richtungen sinnvoll sein kann. So wird etwa im Rahmen des Vorstudienmodells, welches häufig zur Generierung von Hypothesen verwendet wird, eine qualitative der quantitativen Untersuchung vorgeschaltet, und bei Anwendung des Verallgemeinerungsmodells werden die ← 153 | 154 →Ergebnisse einer vollständig durchgeführten qualitativen Studie anhand quantitativer Methoden auf Verallgemeinerung hin überprüft. Im Vertiefungsmodell hingegen werden zunächst quantitative Methoden angewandt, deren Interpretation anschließend unter Verwendung qualitativer Methoden vertieft wird, während im Rahmen des Triangulationsmodells Fragestellungen gleichzeitig anhand qualitativer und quantitativer Methoden bearbeitet werden (ebd.: 8). Ähnliche Vorgehensweisen werden auch bereits im Rahmen der Grounded Theory (z.B. Strauss/Corbin 1996) berichtet. Dort wird eine induktive, der Theoriebildung dienende Phase mithilfe offener, qualitativer Fragen einer deduktiven Phase der Theorieüberprüfung und Verallgemeinerung mithilfe von geschlossenen Itemformaten vorgeschaltet (Konrad 2011). Der Vorteil einer Kombination der Forschungsmethoden wird häufig in deren komplementärer Verwendung gesehen (z.B. Flick 2011), um so Schwächen des einen methodischen Ansatzes jeweils gezielt durch Stärken des anderen auszugleichen (Gläser-Zikuda et al. 2012, Kelle 2008, vgl. auch Settinieri in diesem Band).

Wie bereits aus dieser knappen Darstellung kombinierter Anwendungsmöglichkeiten qualitativer und quantitativer Forschungsmethoden ersichtlich wird, ist eine gemeinsame Auswertbarkeit von aus beiden methodischen Traditionen stammenden Daten für alle dargestellten Modelle von großer Relevanz. Das vorliegende Kapitel wird sich daher speziell mit der Aufbereitung und gemeinsamen Analyse von Daten auseinandersetzen, die mithilfe von „qualitativen“ oder „quantitativen“ Befragungsmethoden erhoben wurden. Dabei wird zur besseren Nachvollziehbarkeit der Inhalte an den entsprechenden Stellen primär auf Standardwerke aus der Methodik verwiesen. Dies soll es dem Leser erleichtern, die hier lediglich übersichtsartig dargestellten Thematiken eigenständig vertiefen zu können.

In der sozialwissenschaftlichen Forschung erfolgt ein großer Teil der Datenerhebung anhand unterschiedlicher Befragungsformen. Im ersten Teil des Beitrags werden zunächst gängige Befragungsformen und Instrumente zur Datenerhebung aus der quantitativen und der qualitativen methodischen Tradition dargestellt. Dabei wird der Fokus vor allem auf dem schriftlichen Fragebogen (als Beispiel für eine traditionell eher quantitative Befragungsmethode) sowie dem Interview (als Beispiel für eine tendenziell eher qualitativ ausgerichtete Befragungsmethode) liegen. Ferner werden die für eine gemeinsame Auswertung der Daten notwendigen Schritte dargestellt. Statistische Analyseverfahren setzen dabei in der Regel voraus, dass die Daten quantifiziert sind, dass ihnen also ein numerischer Wert zugeordnet wurde (vgl. Kempf 2010, Konrad 2011), weshalb auf die Quantifizierung von Daten gesondert eingegangen wird. Im letzten Teil des Kapitels wird als Beispiel für eine computerbasierte Datenanalyse die Analysesoftware SPSS vorgestellt, sowie auf die gängigsten statistischen Analyseverfahren und deren Umsetzung mithilfe des Programms eingegangen.

← 154 | 155 →2. Die Befragung als Methode zur Datenerhebung

Die Befragung ist eine der am häufigsten verwendeten Methoden zur Sammlung von Informationen und Daten in der empirischen Forschung, wobei sich Alltagsfragen von wissenschaftlichen Fragestellungen hinsichtlich ihrer theoretisch-wissenschaftlichen Fundierung und hinsichtlich des Grades der Standardisierung unterscheiden (Konrad 2011: 4). Des Weiteren ist eine Befragung, vor allem bei Verwendung eines Fragebogens, systematisch und zielgerichtet, sie ist gegenstandsbezogen und findet unter kontrollierten Bedingungen statt (ebd.: 7).

Eine Befragung kann entweder mündlich oder schriftlich erfolgen. Im ersten Fall werden dem Befragten durch einen geschulten Interviewer Fragen mündlich gestellt oder vorgelesen, die dieser wiederum in mündlicher Form beantwortet. Dies kann in einer Face-to-Face-Situation erfolgen, oder aber aus der Distanz (vgl. z.B. Broda 2006), beispielsweise über das Telefon oder über Videotelefonie. Im Falle einer schriftlichen Vorgabe liest und bearbeitet der Befragte die vorgegebenen Fragen üblicherweise eigenständig, und auch deren Beantwortung erfolgt in schriftlicher Form. Sowohl mündliche als auch schriftliche Fragen können von offenem oder geschlossenem Format sein. Offenes Format bedeutet, dass dem Befragten keine Antwortmöglichkeiten vorgegeben werden. Dies ist häufig im Rahmen eines Interviews der Fall, es werden jedoch auch offene Antwortformate in Fragebögen verwendet. Geschlossene Antwortformate werden üblicherweise bei der Konstruktion schriftlicher Fragebögen angewandt, hier sind verschiedene konkrete Lösungs- oder Antwortmöglichkeiten jeweils vorgegeben (z.B. Bühner 2006). Eine detailliertere Darstellung unterschiedlicher Item- und Antwortformate erfolgt in den folgenden Abschnitten.

2.1 Der schriftliche Fragebogen

Der schriftliche Fragebogen gehört zu den gängigsten Befragungsmethoden in den Sozialwissenschaften. Obgleich er durchaus qualitativ ausgerichtet sein kann, beispielsweise bei gewähltem offenem Antwortformat, wird der Fragebogen aufgrund seines oft deduktiven Charakters und des meist geschlossenen Antwortformats üblicherweise den quantitativen Methoden der Datenerhebung zugeordnet.

Mithilfe eines Fragebogens können relativ schnell und ökonomisch die Daten einer großen Anzahl von Personen erhoben und ausgewertet werden, weshalb er gut zur Überprüfung der Allgemeingültigkeit von Theorien und Hypothesen geeignet ist. Im Rahmen von Fragebögen werden unter Verwendung geschlossener Antwortformate üblicherweise vorformulierte Antwortmöglichkeiten schriftlich vorgegeben (z.B. Konrad 2011: 51; zu Vor- und Nachteilen verschiedener Itemformate siehe auch Jonkisz et al. 2011: 31ff.), von denen dann die jeweils ← 155 | 156 →am ehesten zutreffende von der befragten Person ausgewählt wird. Fragebögen sind häufig in hohem Maße im Hinblick auf ihre Bearbeitung und Auswertung standardisiert. Nach Bühner (2006: 46) werden bei der Test- und Fragebogenentwicklung unterschiedliche Stufen durchlaufen. Dabei handelt es sich unter anderem um Anforderungsanalyse und Problemstellung, Planung und Literatursuche, Eingrenzung des Merkmals und Arbeitsdefinition, Testentwurf und Überprüfung, Itemanalyse und Itemselektion, Kriterienkontrolle sowie Eichung/Normierung des Testverfahrens (ebd.: 46ff.).

Der Konstruktion eines Fragebogens geht üblicherweise eine spezifische Problem- bzw. Fragestellung voraus. Denkbar wäre etwa die Forschungsfrage, ob die selbst wahrgenommene muttersprachliche Kompetenz von Kindern mit Deutsch als Zweitsprache auch mit der tatsächlichen Sprachkompetenz in der Muttersprache übereinstimmt. Um diese Fragestellung zu untersuchen, könnte daher (neben einem entsprechenden Sprachtest) ein Fragebogen entwickelt werden, der die wahrgenommene muttersprachliche Kompetenz von Personen erfasst.

Nach Festlegung der Problemstellung sowie Festlegung des zu untersuchenden Merkmals, welches in o.g. Beispiel die wahrgenommene muttersprachliche Kompetenz darstellt, folgen üblicherweise die Eingrenzung des Merkmals sowie eine genaue Definition des zu messenden Konstrukts. Dazu können unterschiedliche Quellen genutzt werden, wie beispielsweise zu der Thematik bereits existierende Theorien, empirische Studien, Testverfahren, oder auch die Durchführung einer Laien- oder Expertenbefragung (z.B. Bühner 2006: 47). Auf diese Weise wird das Merkmal mit allen dazugehörigen Facetten zunächst genau definiert. Darauf basierend werden erste Überlegungen dahingehend angestellt, auf welche Art und Weise das interessierende Merkmal konkret erfasst bzw. erfragt werden könnte. Für eine möglichst vollständige Erfassung des Merkmals „wahrgenommene muttersprachliche Kompetenz“ wäre beispielsweise das Abfragen unterschiedlicher Aspekte sprachlicher Teilkompetenzen, wie etwa des Hör- oder Leseverstehens, denkbar.

Anders als bei physikalischen Größen wie dem Gewicht oder der Länge eines Stocks lassen sich viele interessierende Merkmale leider nicht direkt beobachten oder messen. So ist es etwa, bezogen auf das hier verwendete Beispiel, nicht möglich, einem Menschen dessen Einschätzung der eigenen muttersprachlichen Kompetenzen direkt anzusehen. Das interessierende Merkmal bzw. die interessierende Eigenschaft wird daher häufig auch als latente Variable bezeichnet. Um also Aussagen bezüglich dieses Merkmals bei einer oder mehreren Personen machen zu können, oder anders ausgedrückt, um das Konstrukt zu operationalisieren (z.B. Breuer 2010: 40), muss zunächst das Merkmal beobachtbar bzw. sichtbar gemacht werden. Dies geschieht üblicherweise, indem – basierend auf theoretischen Annahmen sowie Ergebnissen bereits existierender empirischer ← 156 | 157 →Studien – das Konstrukt anhand von Fragen, im Folgenden auch bezeichnet als Items, möglichst genau abgebildet wird. Die zugrundeliegende Annahme ist hier, dass durch die Beobachtung einer Handlung oder Reaktion einer Person (in diesem Falle die Beantwortung eines Items) Rückschlüsse auf die zugrundeliegende, latente Variable und den Grad der Ausprägung einer Person bezüglich dieses Merkmals gezogen werden können. Zur Messung der wahrgenommenen muttersprachlichen Kompetenzen könnte beispielsweise unter anderem ein Item formuliert werden wie „Wie schätzen Sie ihre muttersprachlichen Fähigkeiten bezüglich des Lesens von literarischen Texten ein?“, zu beantworten auf einer mehrstufigen Antwortskala (z.B. 1 = sehr gering; 5 = sehr gut). Diese beobachtbaren Antworten auf Items werden auch häufig als manifeste Variable bezeichnet.

Üblicherweise wird so in einem ersten Entwurf eines Fragebogens ein sogenannter Itempool erzeugt, d.h. eine größere Anzahl von Items, von denen – basierend auf den vorherigen Recherchen – angenommen wird, dass sie das interessierende Konstrukt abbilden. Dabei muss darauf geachtet werden, dass alle Facetten eines Konstrukts korrekt repräsentiert sind, da es ansonsten zu einer Konstruktunterrepräsentation, oder aber zur Erhebung konstruktirrelevanter Variablen und somit einer Einschränkung der Validität kommen kann (z.B. Messick 1989).

2.1.1 Itemformate

Im Zuge der Konstruktion eines Items muss ferner festgelegt werden, welches Format ein Item haben soll. So existieren, wie bereits erwähnt, offene oder geschlossene Itemformate. Obgleich in schriftlichen Fragebögen auch offene Itemformate verwendet werden können, werden diese tendenziell eher den qualitativen Befragungsformen zugeordnet. Auf offene Antwortformate wird daher im Rahmen der Darstellung qualitativer Befragungsformen eingegangen. Üblicherweise besitzt bei quantitativen Befragungen der größte Teil der Fragen ein geschlossenes Antwortformat (Broda 2006: 70). Das bedeutet, dass die befragte Person sich für eine vorgegebene Antwortalternative entscheiden muss. Beispiele für geschlossene Antworten sind etwa Multiple-Choice- und Richtig-Falsch-Fragen, oder auch Rating-Skalen.

Anhand von Rating-Skalen (auch bezeichnet als Likert-Skalen) soll ein Merkmal hinsichtlich der Stärke seiner Ausprägung erfasst werden. Dazu werden bei der Rating-Skala üblicherweise unterschiedliche Abstufungen bzw. Kategorien benannt. Die befragte Person soll dann wählen, welche Antwortalternative, d.h. welche Merkmalsausprägung, am ehesten auf sie zutrifft. Beispiele für solche Skalen sind die Häufigkeitsskala, die Intensitäts-, die Wahrscheinlichkeits- oder die Bewertungsskala (Bühner 2006: 54).

← 157 | 158 →Bei solchen Itemformaten muss außerdem die Anzahl der Merkmalsabstufungen festgelegt werden. Dies ist dabei prinzipiell dem Testautor überlassen, wobei jedoch beachtet werden sollte, dass nicht eine zu geringe oder eine zu große Anzahl an Antwortkategorien gewählt wird. Üblich ist eine Anzahl von vier oder fünf Antwortkategorien, wobei häufig Skalen ohne eine mittlere Kategorie (beinhaltet oft Formulierungen wie „vielleicht“, „manchmal“, „mittel“, etc.) gewählt werden, um die Ambiguität dieser mittleren Kategorie auszuschließen.

2.1.2 Das Skalenniveau

Ziel und Grundlage des Messens ist die Abbildung des sogenannten empirischen Relativs in ein numerisches Relativ. Nach Bortz und Schuster (2010: 13) lässt sich ein Messvorgang „allgemein dadurch charakterisieren, dass einem Objekt bezüglich der Ausprägung einer Eigenschaft eine Zahl zugeordnet wird“. Das zu messende Konstrukt muss mit Beobachtungs- und Messoperationen verknüpft werden (vgl. Breuer 2010) und mithilfe von Testitems, die jeweils wiederum von einem bestimmten Antwortformat sind, operationalisiert werden (z.B. Bühner 2006). „Das Messen ist eine Zuordnung von Zahlen zu Objekten oder Ereignissen, sofern diese Zuordnung eine homomorphe Abbildung eines empirischen Relativs in ein numerisches Relativ ist“ (Bortz/Schuster 2010: 16). Diese Abbildung wird auch als Skala bezeichnet. Das sogenannte Skalenniveau gibt dabei Regeln an, welche Eigenschaften eine bestimmte Skala besitzt, und speziell welche Transformationen von Werten jeweils erlaubt sind, ohne dass Informationen dadurch verloren gehen (Borg/Stauffenbiel 1997). Borg und Stauffenbiel (1997: 6) beschreiben das Skalenniveau als eine auf Hypothesen bezüglich des Zusammenhangs von Werten mit anderen Beobachtungen basierende „Rollenzuweisung“.

Das Skalenniveau bezieht sich also auf Messeigenschaften von Items, Skalen und Testkennwerten (Bühner 2006: 73). Die bekanntesten und wichtigsten Skalenniveaus sind die Nominalskala, die Ordinalskala, die Intervallskala und die Verhältnisskala (z.B. Bortz/Schuster 2010). Diese werden im Folgenden kurz dargestellt, da das Skalenniveau für die unten dargestellte Quantifizierung von Daten sowie für die Frage, welche statistischen Auswertungsverfahren jeweils zulässig sind, von Relevanz ist. Dabei schließt jedes höhere Skalenniveau die für niedrigere Niveaus zulässigen Transformationen jeweils mit ein.

Die Nominalskala ist das „schwächste“ (Borg/Stauffenbiel 1997: 5) Skalenniveau. Üblicherweise werden Antwortformate, bei denen eine Antwort einzelnen wertfreien Kategorien zugeordnet werden kann, dem Nominalskalenniveau zugeordnet (z.B. Bühner 2006: 74). Ein denkbares Beispiel wäre hier etwa die Frage nach der Lieblingsfarbe (Antwortmöglichkeiten: rot, grün, blau, gelb). Hier ← 158 | 159 →können lediglich Aussagen getroffen werden, die angeben, ob die gleiche oder eine andere Kategorie von unterschiedlichen Personen oder Personengruppen gewählt wurde, oder aber Aussagen bezüglich der Häufigkeit des Vorkommens der verschiedenen Antwortkategorien (z.B. die am häufigsten gewählte Farbe ist rot; 20 % haben die Farbe Gelb gewählt, etc.).

Der Ordinalskala hingegen werden Daten zugeordnet, anhand derer auch vergleichende Aussagen (besser/schlechter, größer/kleiner, etc.) getroffen werden können (vgl. Bühner 2006). Die Größe der Werte spiegelt auch deren Rangordnung wieder (vgl. Rost 1996: 19), dennoch muss der Abstand zwischen den unterschiedlichen Werten nicht gleich groß sein. Ein denkbares Beispiel wäre hier die Platzierung von Teilnehmern eines 100-Meter-Laufs: Hier wird, je nach Geschwindigkeit, den Personen Platz 1, 2, 3 etc. zugeteilt, allerdings muss der zeitliche Abstand zwischen Person 1 und Person 2 nicht genauso groß sein wie zwischen Person 2 und Person 3.

Intervallskalierte Werte weisen hingegen die gleichen Abstände (Intervalle) auf (z.B. Rost 1996). Ein häufig genanntes Beispiel ist hier die Temperatur in Celsius. Hier sind außerdem Aussagen bezüglich Differenzen möglich, wie z.B. „10 Grad Celsius ist halb so warm wie 20 Grad Celsius“, etc. Eine weitere Skala stellt die Verhältnisskala dar. Dieser werden viele physikalische Messungen zugewiesen, wie etwa die Länge in cm oder das Gewicht in kg. Hier können Aussagen hinsichtlich der Gleichheit von Verhältnissen getroffen werden (vgl. Bortz/Schuster 2010: 15).

Unterschiedlichen Antwortformaten können unterschiedliche Skalenniveaus zugeordnet werden. Welches Skalenniveau beispielsweise eine Rating-Skala hat, ist dabei bislang nicht abschließend geklärt. In Abhängigkeit davon, ob die Abstände zwischen den Abstufungen der Skala gleich sind oder nicht, kann für die Rating-Skala entweder ein Ordinal- oder Intervallskalenniveau angenommen werden (siehe dazu auch Bühner 2006: 55). Die meisten gängigen statistischen Auswertungsverfahren setzen eine Skalierung mindestens auf Intervallskalenniveau voraus.

2.1.3 Codierung und Quantifizierung

Die Codierung und Quantifizierung von aus geschlossenen Antwortformaten stammenden Daten ist in der Regel relativ problemlos möglich (vgl. Konrad 2011: 89). So liegen häufig Werte wie das Alter oder bestimmte Reaktionszeitwerte bereits in Zahlenform vor. Bezüglich geschlossener Antworten mit mehreren Antwortkategorien werden üblicherweise den Antwortkategorien Zahlen zugeordnet. So kann beispielsweise der Antwortmöglichkeit „stimme nicht zu“ ← 159 | 160 →die Zahl eins zugewiesen werden, „stimme eher nicht zu“ die Zahl 2, etc. Wenn die Antwortkategorien dabei eine mehr oder weniger starke Ausprägung eines Merkmals abbilden, dann ist es häufig sinnvoll, der niedrigsten Ausprägung auch die niedrigste Zahl zuzuordnen, da dies die Auswertung und Ergebnisinterpretation vereinfacht. Aber auch bei nominal skalierten und dichotomen Items, wie etwa der Frage nach dem Geschlecht, sollten den Kategorien festgelegte Zahlenwerte zugeordnet werden. So könnte etwa die Kategorie „weiblich“ mit 1, und „männlich“ mit 2 codiert werden. Ist eine Frage einfach mit „Ja“ oder „Nein“ beantwortbar, dann wird „Ja“ üblicherweise die Zahl 1, und „Nein“ die Zahl 0 zugeordnet. Gleiches gilt für Richtig-Falsch-Antworten.

Schwieriger wird die Zuordnung bei Mehrfachantworten. In der Regel sollten sich die unterschiedlichen Werte einer Variablen gegenseitig ausschließen (Janssen/Laatz 2013: 297). Allerdings kommt es vor, dass bei einer Frage mehrere Antwortmöglichkeiten zugelassen sind. In diesem Fall kann eine dichotome Variable pro Antwortmöglichkeit gebildet werden. Jeder dieser Variablen wird dann beispielsweise der Wert 0 oder 1 zugeordnet werden. Auf diese Weise wird codiert, ob eine Antwortmöglichkeit angekreuzt wurde oder nicht (Multiple Dichotomien-Methode; vgl. ebd.). In einigen computerbasierten Analyseprogrammen wie SPSS (SPSS inc./IBM 2012) gibt es außerdem die Möglichkeit, Mehrfachantwortsets zu definieren.

2.2 Das qualitative Interview

Eine andere, häufig verwendete Erhebungsmethode in den Sozialwissenschaften ist das Interview. Dieses wird üblicherweise der qualitativen Forschungsmethodik zugeordnet, weshalb es im Rahmen dieses Beitrags als Beispiel für qualitative Befragungsmethoden ausgewählt wurde. Es existieren dabei unterschiedliche Interviewvarianten, wie etwa das narrative Interview, das ethnografische Interview, das rezeptive Interview, das problemzentrierte Interview, das fokussierte Interview, das episodische Interview, das themenzentrierte Interview, das personenzentrierte Interview, das systemische Interview, das halbstrukturierte Interview oder das Experteninterview (Mey/Mruck 2011: 423ff.). Die Interviewformen unterscheiden sich in ihrem Standardisierungs- und Strukturiertheitsgrad und sind teilweise leitfadenbasiert oder folgen vorformulierten Fragen. Des Weiteren können Interviews anhand der „evozierten Textsorte (Erzählung, Bericht, Argumentation, Sachdarstellung, Kenndaten, Meinungen, etc.) geordnet werden“ (ebd.: 428). Welches Verfahren im Einzelnen ausgewählt wird, ist abhängig von Forschungsinteresse und Anwendungsbereich.

← 160 | 161 →Üblicherweise wird ein Interview von einem Interviewer mit einer zu interviewenden Person durchgeführt. Interviews können synchron (face-to-face; telefonisch) oder asynchron (z.B. E-Mail-Interview) durchgeführt werden. Der Interviewer stellt die je nach gewählter Methode zugehörigen Fragen, die Antworten werden meist aufgezeichnet. Dies kann beispielsweise per Audioaufzeichnung, Videoaufzeichnung oder Mitschrift (Notizen/Protokoll) erfolgen (z.B. Konrad 2011). Die so gewonnenen Daten müssen danach entsprechend ausgewertet und ggf. codiert werden. Eine für die Quantifizierung von qualitativen Befragungsdaten gut geeignete Methode ist hier beispielsweise die qualitative Inhaltsanalyse (Mayring 2011: 602): „Sind mit diesen Verfahren Zuordnungen von Kategorien zum Textmaterial regelgeleitet vorgenommen worden, so lassen sie sich gegebenenfalls auch quantitativ […] weiterverarbeiten. Deshalb nimmt die qualitative Inhaltsanalyse im (wenig produktiven) Streit um qualitative oder quantitative Methoden eine gewissen Zwischenstellung ein“.

2.2.1 Itemformate

Typisch für qualitative Befragungsformen sind offene Antwortformate. Bei der mündlichen Befragung können, je nach Strukturiertheits- und Standardisiertheitsgrad der gewählten Interviewform, die befragten Personen demnach mehr oder weniger frei auf die durch den Interviewer gestellten Fragen antworten. Denkbare Varianten von Item- bzw. Antwortformaten sind dabei eine vollständig offene Antwort, das Auswählen verschiedener mündlich vorgegebener Antwortmöglichkeiten, oder aber auch diverse Zwischenformen.

2.2.2 Kategorisierung und Codierung qualitativer Interviews

Die Antworten im Rahmen eines mündlichen Interviews werden häufig als Ton- oder Videomitschnitt festgehalten, welcher dann vor der Auswertung transkribiert wird. Die Transkription sollte dabei regelgeleitet erfolgen (vgl. auch Konrad 2011: 47). Ziel der Auswertung ist meist eine Verdichtung des Textes bzw. der darin enthaltenen Aussagen. Dabei kann auch die Auswertung von Interviews mehr oder weniger standardisiert erfolgen (z.B. Schmidt-Atzert/Amelang 2012: 325). Da die Auswertung von offenen Antworten im Rahmen eines Interviews häufig kompliziert und mit größerem Aufwand verbunden ist, werden oft Kategorien festgelegt, anhand derer ein Interview systematisch ausgewertet wird. Eine solche Kategorisierung ermöglicht eine Vergleichbarkeit der Antworten, beispielsweise von unterschiedlichen Gruppen oder zu unterschiedlichen Zeitpunkten (vgl. Konrad 2011: 50). Die Kategorisierung kann sowohl vor als auch nach der Durchführung des Interviews erfolgen, und stellt oft einen separaten Auswertungsschritt dar.

← 161 | 162 →Eine häufig angewandte Auswertungsmethode ist die Inhaltsanalyse, die sich in Verfahren zur Zusammenfassung, Explikation, und Strukturierung unterteilen lässt (z.B. Konrad 2011: 47f.). Beispielsweise bei der unter 2.2 bereits kurz angesprochenen qualitativen Inhaltsanalyse von Mayring (z.B. 2008, 2011) „geht es darum, diese Grundformen des Interpretierens von Text mit inhaltsanalytischen Regeln beschreibbar und überprüfbar werden zu lassen“ (Mayring 2011: 602). Von besonderer Relevanz für die Inhaltsanalyse ist dabei das Kategoriensystem: „Kategorien stellen die Auswertungsaspekte in Kurzform dar […]. Die Kategorien müssen jedoch in der Inhaltsanalyse genau definiert und mit inhaltsanalytischen Regeln muss die Zuordnung zum Text festgelegt werden […]. Dies geschieht in der Regel theoriegeleitet, bei deduktiven Kategorienanwendungen explizit durch die vorab festgelegte Definition der Kategorien, bei induktiver Kategorienbildung durch die Gruppierung der induktiven Kategorien zu Hauptkategorien“ (ebd.: 603). Wird etwa die Vorkommenshäufigkeit solcher Kategorien analysiert, dann kann auch eine quantitative Datenanalyse erfolgen.

Ein relevanter Auswertungsschritt ist dementsprechend die Festlegung von Analyse- und Kodiereinheit (vgl. Konrad 2011: 49). Dabei muss festgelegt werden, welche Textstücke genau auf ihre Einordnung in eine Kategorie, bzw. auf das Vorhandensein und ggf. die Ausprägung des interessierenden Merkmals hin überprüft werden sollen. Konrad (2011: 49) nennt bezüglich der Analyse des Materials drei Aufgaben des/der Forschers/in: die Definition von Kategorien, die Anführung von Ankerbeispielen, und die Festlegung von Kodierregeln. Basierend auf der so erfolgten Auswertung und Codierung des Interviews folgt dann die Interpretation der Ergebnisse. Ein weiterer, dem vorgeschalteter Schritt kann jedoch auch in der statistischen Auswertung und der dazu notwendigen Quantifizierung der Daten liegen.

2.2.3 Quantifizierung qualitativer Daten

Eine Quantifizierung qualitativer Daten bedeutet, dass die „statistische Weiterverarbeitung es erforderlich macht, dass sie in numerische Variablen übersetzt werden“ (Kempf 2010: 1). Zweck einer solchen Quantifizierung ist es häufig, das Gemeinsame über mehrere Interviews hinweg herauszuarbeiten. Zu diesem Zweck erfolgt üblicherweise vor der Quantifizierung die oben bereits erwähnte Kategorisierung zur Verdichtung der Informationen. Die weiteren Auswertungen und die Quantifizierung der Daten erfolgen bei Interviews meist basierend auf einer Transkription. Um das oben verwendete Beispiel der wahrgenommenen muttersprachlichen Kompetenz wieder aufzugreifen, könnte beispielsweise ← 162 | 163 →zunächst einmal von Interesse sein, welche sprachlichen Teilkompetenzen oder welche sprachlichen Handlungen von den Befragten überhaupt wahrgenommen und als wichtig für die allgemeine muttersprachliche Kompetenz erachtet werden. Aufgrund von diesbezüglichen Aussagen können dann Kategorien gebildet werden, wie beispielsweise „Verstehen von Gesprochenem“, „Lesen von Tageszeitungen“, „Sprechen“, etc. Denkbar ist natürlich auch eine Festlegung der Kategorien auf theoretischer Basis bereits vor der Durchführung des Interviews.

Wurden die Kategorien festgelegt, kann nun zunächst einfach gezählt werden, wie häufig eine bestimmte Kategorie insgesamt gewählt wurde. Hier besteht die Quantifizierung der Daten also in der Erhebung der Häufigkeiten. Dies ist bereits eine wichtige Information, kann sie doch dem/der Forscher/in einen Eindruck vermitteln, ob die gewählten Kategorien für die Befragten tatsächlich von Belang sind und welche der Kategorien bzw. welche der sprachlichen Teilkompetenzen die größte oder geringste Relevanz aufweisen. Ferner können, basierend auf diesen Ergebnissen, die Kategorien auch überarbeitet, ergänzt oder adaptiert und dann erneut ausgezählt werden.

Diese relativ basalen Informationen können bereits von inhaltlicher Relevanz sein. Bezogen auf das Sprachkompetenz-Beispiel wären möglicherweise didaktische Implikationen für die Gestaltung des muttersprachlichen Unterrichts denkbar, etwa wenn durch die Häufigkeit der Nennungen der einzelnen wahrgenommenen Sprachkompetenzen ersichtlich wird, dass eigentlich sprachlich hoch relevante Teilkompetenzen von den Befragten gar nicht als relevant wahrgenommen werden und deren expliziterer Einbezug in den Unterricht daher möglicherweise sinnvoll wäre.

Neben der Erhebung von einfachen Häufigkeiten ist es, je nach Merkmal, auch möglich, die gewählten Kategorien weiter zu unterteilen. Oft ist dies sinnvoll, wenn neben dem bloßen Vorkommen außerdem der Ausprägungsgrad eines Merkmals interessiert. Bezogen auf das Beispiel wäre hier eine Abstufung des interessierenden Merkmals, etwa der sprachlichen Teilkompetenz „wahrgenommenes Hörverstehen“, in unterschiedliche Kompetenzstufen1 denkbar. In diesem Fall würden für eine Quantifizierung der Daten den unterschiedlichen Kompetenzstufen einer sprachlichen Teilkompetenz unterschiedliche Zahlen zugeordnet, beispielsweise der niedrigsten Stufe die ← 163 | 164 →Zahl 1 und der höchsten die Zahl 6. Auf diese Art und Weise kann die im Interview enthaltene Information verdichtet, quantifiziert und statistisch ausgewertet werden.

2.2.4 Das Skalenniveau

Sind qualitative Daten quantifiziert, können prinzipiell, je nach Skalenniveau, die gleichen Auswertungsmethoden herangezogen werden wie bei Daten, die anhand quantitativer Methoden gewonnen wurden. Welche statistischen Auswertungsmethoden genau gewählt werden können und sollten, hängt zum einen mit der Art der Forschungsfrage und der damit einhergehenden Hypothese zusammen (z.B. Zusammenhangshypothese oder Unterschiedshypothese). Zum anderen legt das Skalenniveau der Daten fest, welche Verfahren überhaupt zulässig sind. So setzen viele Verfahren der deskriptiven Statistik sowie der Inferenzstatistik mindestens Intervallskalenniveau voraus. Sind beispielsweise bei der Kategorisierung mehrere Abstufungen gewählt worden, anhand derer eine mehr oder weniger starke Ausprägung des gemessenen Merkmals codiert wird, kann hier, genauso wie bei den anhand quantitativer Methoden erhobenen Daten, zumindest von einem Ordinalskalenniveau ausgegangen werden. Im Prinzip ist auch eine Einordnung auf Intervallskalenniveau möglich, nämlich dann, wenn theoretisch davon ausgegangen wird, dass die einzelnen Abstufungen des Merkmals die gleichen Abstände besitzen. Auf die Frage, welche Analyseverfahren für welche Skalenniveaus zulässig sind, wird im folgenden Teil des Kapitels näher eingegangen.

3. Computerbasierte Datenanalyse am Beispiel von SPSS

In diesem Teil des Kapitels soll am Beispiel des Analyseprogramms SPSS (IBM SPSS Statistics, derzeit Version 22; SPSS inc./IBM 2014) auf die computerbasierte Auswertung empirischer Daten eingegangen werden. Prinzipiell sind alle beschriebenen Analysen jedoch auch mit anderen Programmen wie beispielsweise der Open-Source-Software R (http://www.r-project.org) durchführbar. Bei SPSS handelt es sich um eine der gängigsten Statistik- und Datenanalyse-Software (z.B. Janssen/Laatz 2013). SPSS ist ein proprietäres Programm und prinzipiell für unterschiedliche Betriebssysteme wie Windows, Linux oder MacOS erhältlich. Das Programm ist modular aufgebaut; zusätzlich zur Basissoftware, welche die gängigsten statistischen Auswertungsverfahren enthält, existieren spezielle Softwaremodule, die jedoch für das vorliegende Kapitel nicht von Relevanz sind. In SPSS können die Befehle entweder über Dropdown-Menüs oder aber per Syntax eingegeben werden. Im vorliegenden Kapitel wird ausschließlich auf die Verwendung der Menüs eingegangen, zur Verwendung von Syntax wird an ← 164 | 165 →dieser Stelle auf entsprechende Fachliteratur (z.B. Brosius 2013, Janssen/Laatz 2013) verwiesen.

3.1 Grundlagen

Die Verwendung von SPSS setzt für den größten Teil der Analysemethoden eine Quantifizierung aller Daten voraus. Das bedeutet, um SPSS für eine gemeinsame Auswertung der anhand von qualitativen und quantitativen Erhebungsmethoden gewonnenen Daten nutzen zu können, müssen – wie oben beschrieben – allen Merkmalen, Merkmalsausprägungen und Kategorien Zahlen zugeordnet werden. Sind die Daten einmal erhoben und quantifiziert, müssen sie zunächst in die SPSS-Datenmatrix eingegeben und gegebenenfalls für die Analyse vorbereitet werden. Das Programm verfügt dazu über zwei unterschiedliche Ansichten: die Variablenansicht und die Datenansicht (Abb. 1). Üblicherweise werden bei der Erstellung der Datenmatrix zunächst in der Variablenansicht alle Variablen definiert sowie deren Eigenschaften festgelegt. Hier können unter anderem der Name der Variablen, der Variablentyp (beispielsweise numerisch oder String), das Variablenlabel, sowie Wertelabels (d.h. welche Ausprägung einer Variablen wurde mit welcher Zahl codiert?) festgelegt werden. Pro Frage (Fragebogen) bzw. Kategorie (Interview) wird eine Variable definiert. Ist diese Definition der Datenmaske erfolgt, werden im nächsten Schritt die Daten in der Datenansicht eingegeben. Dort stellt jede Spalte eine der zuvor definierten Variablen dar, und jede Zeile einen Fall, das heißt beispielsweise eine befragte Person. In den einzelnen Zellen sind somit die Probandenrohwerte abgetragen, d.h. jeweils die Antwort einer einzelnen Person auf ein einzelnes Item.

Ist die Dateneingabe erfolgt, ist es oft notwendig, vor der Durchführung der geplanten Analysen die Daten weiter aufzubereiten. Das beinhaltet häufig die Umcodierung von bereits eingegebenen Daten. Eine solche Umcodierung könnte etwa dann notwendig sein, wenn eine Frage im Fragebogen nicht so formuliert wurde, dass eine stärkere Zustimmung zu einer Aussage auch tatsächlich mit einer höheren Ausprägung des Merkmals einhergeht, d.h. wenn zur Erfassung eines Merkmals sowohl positiv als auch negativ formulierte Items eingesetzt wurden. Ein weiterer Grund für eine Umcodierung kann die Entscheidung sein, aus theoretischen Gründen bestimmte Variablenausprägungen zusammenzufassen und diesen den gleichen Zahlenwert zuzuordnen (Beispiel: Festlegung bestimmter Altersgruppen, Zusammenfassen von Berufsgruppen, Sprachgruppen etc.). Eine solche Umcodierung kann in SPSS jederzeit relativ unproblematisch über das Menü Transformieren und eines der Untermenüs Umcodieren erfolgen. Eine weitere, häufig notwendige Maßnahme vor weiteren Datenanalysen ist das Berechnen von neuen Variablen. Dies kann etwa dann notwendig werden, wenn aus unterschiedlichen Items, die das gleiche Konstrukt erfassen sollen (beispielsweise die muttersprachliche Lesekompetenz), ein Gesamttestwert gebildet werden soll. Dies kann über den Menüpunkt Transformieren und das Untermenü Variable berechnen erfolgen. Dort können aus bestehenden Variablen neue errechnet werden, wie beispielsweise ein Gesamttestwert mittels einer einfachen Addition derjenigen Variablen, die zu diesem Wert beitragen sollen. Die neue Variable erscheint nach Abschluss der Berechnung in der Datenmatrix und kann für weitere Analysen verwendet werden.

← 165 | 166 →Abb. 1: Datenstruktur in SPSS (Datenansicht; Screenshot); Daten entnommen aus dem SPSS Beispieldatensatz „GSS93“.

images

In SPSS erfolgen die Angaben sämtlicher durchgeführter Aktionen sowie die Darstellung der Analyseergebnisse im sogenannten Ausgabefenster. Dieses wird automatisch vom Programm erstellt und geöffnet, etwa wenn eine Datei zum ersten Mal in der Sitzung geöffnet oder eine neue Datei gespeichert wird. Der Inhalt des Ausgabefensters muss separat gespeichert werden und kann in unterschiedliche Formate exportiert werden. Ist die Datenaufbereitung abgeschlossen, können die ← 166 | 167 →ersten Auswertungen erfolgen. Welche Verfahren jeweils anzuwenden sind, ist abhängig von Fragestellung und Hypothese (z.B. Unterschiedshypothese, Zusammenhangshypothese), dem Skalenniveau der Daten, sowie der Stichprobengröße (n).

3.2 Datenauswertung

3.2.1 Erste Auswertungsschritte

In einem ersten Schritt werden üblicherweise die Häufigkeitsverteilungen sowie die deskriptiven Statistiken der interessierenden Variablen betrachtet. Hierzu zählen Maße der zentralen Tendenz (Mittelwert/arithmetisches Mittel, Median, Modalwert) und Dispersionsmaße (Varianz, Standardabweichung, Minimum, Maximum, Range).

Häufigkeiten bzw. Häufigkeitsverteilungen sowie unterschiedliche dazugehörige Diagramme können in SPSS über den Menüpunkt Analysieren und dort über die Untermenüs Deskriptive Statistiken und Häufigkeiten angefordert werden. Am Ergebnis ist beispielsweise abzulesen, wie häufig welche Antwort bezüglich eines Items gewählt wurde, oder wie häufig eine bestimmte Gruppe in der Stichprobe vertreten ist (z.B. Männer, Frauen; siehe Tabelle 1).

Die Analyse der deskriptiven Statistiken erfolgt über die Menüpunkte Analysieren – Deskriptive Statistiken – deskriptive Statistik (Tabelle 2), oder aber über Analysieren – Deskriptive Statistiken – Explorative Datenanalyse. Des Weiteren existiert auch im Rahmen der meisten inferenzstatistischen Auswertungsverfahren in SPSS die Möglichkeit, diese Kennwerte mit ausgeben zu lassen. Mithilfe der deskriptiven Statistiken ist es möglich, erste Kenntnisse über die Verteilung der Daten zu erlangen. So lässt sich eine Aussage darüber machen, ob die Verteilung eher breit- oder schmalgipflig ist (Kurtosis), ob sie beispielsweise linksschief und rechtssteil ist (Schiefe) oder symmetrisch. Die Verteilungsform ist von großer Relevanz, da sie Einfluss auf weitere Auswertungen haben kann. Ist die Varianz beispielsweise sehr klein, da die getesteten Personen sich im Hinblick auf das gemessene Merkmal kaum unterscheiden, dann kann dies u.a. zu einer niedrigeren Korrelation mit anderen Variablen führen (Varianzeinschränkung; z.B. Schmidt-Atzert/Amelang 2012: 10).

Tabelle 1: Häufigkeiten der Variablen ͈Geschlecht“ (Ausprägungen: männlish/weiblich)

images

← 167 | 168 →Tabelle 2: Deskriptive Statistiken der Variablen ͈muttersprachliche Kompetenz“ und ͈wahrgenommene muttersprachliche Kompetenz”

images

1 Max. Went = 50 Punkte

2 Angenommene Intervallskalierung Merkmals

Wie bereits erwähnt, setzen außerdem viele der gängigen Analyseverfahren eine Normalverteilung (NV) der Daten voraus. Die Normalverteilung (Abb. 2) zeichnet sich dadurch aus, dass sich die Daten symmetrisch und glockenförmig verteilen. Des Weiteren sind in dem Bereich +/- 1 Standardabweichung vom Mittelwert ca. 68% der Messwerte zu finden, und +/-2 Standardabweichungen vom Mittelwert ca. 95,5% (z.B. Rasch et al. 2006: 32).

In SPSS können Daten daraufhin überprüft werden, ob sie hinsichtlich ihrer Verteilung statistisch signifikant von einer Normalverteilung abweichen. Dies erfolgt mithilfe eines sogenannten statistischen Tests. Für statistische Analysen gilt allgemein Folgendes:

Abb. 2: Normalverteilung.

images

← 168 | 169 →Ziel in der „Inferenzstatistik“ (oder auch „schließenden Statistik“) ist das Ziehen von Rückschlüssen von Stichprobendaten auf eine entsprechende (unbekannte, da nicht komplett erhobene) Population. Bezogen auf unser Beispiel könnte etwa von Interesse sein, ob sich Männer und Frauen hinsichtlich der Wahrnehmung ihrer muttersprachlichen Kompetenz unterscheiden (Unterschiedshypothese). Ferner wird angenommen, dass die Frauen ihre Kompetenz signifikant höher einschätzen als es bei den Männern der Fall ist. Es handelt sich hier also um eine gerichtete Hypothese, da Annahmen bezüglich der Richtung des Unterschieds getätigt werden. Existieren solche Annahmen hingegen nicht, handelt es sich um eine ungerichtete Hypothese.

Als nächstes wird diese wissenschaftliche Hypothese in eine sogenannte statistische Hypothese überführt (Bortz/Schuster 2010: 98). Die Nullhypothese (H0) postuliert dabei, dass in der Population kein Unterschied zwischen den beiden Mittelwerten der beiden Gruppen (genauer: zwischen den Populationsmittelwerten, bezeichnet als µ1 und µ2) existiert. Dies wird formal ausgedrückt als µ1= µ2. Die sogenannte Alternativhypothese (H1) hingegen drückt aus, dass ein Unterschied zwischen den beiden Populationsmittelwerten existiert (gerichtet: µ1< µ2 oder µ1<µ2; ungerichtet: µ1≠µ2). Es wird nun –möglichst basierend auf einer repräsentativen Stichproben– mithilfe statistischer Tests überprüft, welche der beiden Hypothesen bestätigt bzw. zurückgewiesen werden soll. Dies geschieht, indem „die Vereinbarkeit der Nullhypothese mit der Empirie“ überprüft wird (ebd.: 99).

Die Überprüfung statistischer Hypothesen erfolgt mithilfe der Berechnung einer sogenannten Prüfgröße (z.B. p, F, T je nach angenommener Verteilung der Daten; gewonnen aus den empirisch erhobenen Stichprobendaten), die mit einem sog. „kritischen Wert“ abgeglichen werden. Der jeweils zu verwendende kritische Wert kann anhand spezieller Tabellen (z.B. in Rasch et al. 2006: 194ff.) abgelesen werden. Üblicherweise gilt: Überschreitet die Prüfgröße den kritischen Wert, ist von einer statistischen Signifikanz auszugehen, die Nullhypothese (H0) wird verworfen und die Alternativhypothese (H1) angenommen. Der in SPSS mit „Signifikanz“ bezeichnete Wert gibt die Wahrscheinlichkeit an, mit der ein Fehler begangen wird, wenn die Nullhypothese verworfen wird. Konventionell wird bei einem Signifikanz-Wert kleiner als 0,05 von einem statistisch relevanten Ergebnis ausgegangen, da so davon ausgegangen werden kann, dass in maximal 5% der Fälle ein Fehler gemacht wird, wenn die H0 verworfen und die H1 angenommen wird.2

← 169 | 170 →Die Überprüfung von Daten auf Normalverteilung erfolgt nun in SPSS über das Menü Analysieren -Deskriptive Statistiken - Explorative Datenanalyse. In dem dann geöffneten Auswahlfeld muss nach der Auswahl der zu analysierenden Variablen der Button Diagramme angeklickt, und dann ein Häkchen bei Normalverteilungsdiagramm mit Test gesetzt werden. Die Ergebnisausgabe beinhaltet dann neben den deskriptiven Statistiken auch Tests auf Normalverteilung: den Kolmogorov-Smirnoff-Test, sowie den Shapiro-Wilks-Test bei n<50. Für die schnelle Interpretation ist hier vor allem der Wert in der Tabellenspalte Signifikanz von Interesse: Ist dieser kleiner als 0,05, dann weicht die Verteilung signifikant von der Normalverteilung ab. Anders ausgedrückt: Die Nullhypothese, dass die Daten nicht von einer Normalverteilung abweichen, wird zurückgewiesen und somit die Alternativhypothese H1 angenommen. Bezüglich der Interpretation der übrigen von SPSS ausgegebenen Werte wird aus Platzgründen auf entsprechende Standardwerke (z.B. Janssen/Laatz 2013) verwiesen. Sind die Daten nicht normalverteilt, können teilweise sogenannte nichtparametrische Tests zum Einsatz kommen, auf die an dieser Stelle jedoch nicht näher eingegangen werden soll.

3.2.2 Überprüfung von Zusammenhangshypothesen

Häufig beinhalten wissenschaftliche Fragestellungen die Frage nach dem Zusammenhang zwischen zwei Variablen. Eine auf unser Beispiel bezogene Fragestellung wäre etwa „Existiert ein (statistisch signifikanter) Zusammenhang zwischen der wahrgenommenen und der (per Test erfassten) tatsächlichen muttersprachlichen Kompetenz?“. Eines der zur Bearbeitung solcher Fragestellungen am häufigsten eingesetzten Analyseverfahren ist die Korrelation. Hier ist zunächst zu unterscheiden zwischen der bivariaten und der multiplen Korrelation: Erstere betrachtet den Zusammenhang zwischen zwei (intervallskalierten) Variablen, letztere den simultanen Zusammenhang von einer Variablen mit mehreren anderen. Des Weiteren existieren, je nach Skalenniveau der in die Analyse einbezogenen Daten, unterschiedliche Korrelationskoeffizienten. Sind die Daten mindestens auf Intervallskalenniveau und in der Grundgesamtheit normalverteilt, dann wird üblicherweise der Pearson Produkt-Moment-Korrelationskoeffizient (r) verwendet. Sind diese Voraussetzungen nicht gegeben, kann ein Rangkorrelationskoeffizient (s) verwendet ← 170 | 171 →werden. Bei SPSS stehen hier für ordinalskalierte Variablen der Spearman-Koeffizient (s) sowie Kendall’s Tau-b (Tb) zur Verfügung (z.B. Brosius 2013).

Korrelationskoeffizienten können generell Werte zwischen 1 und −1 annehmen. Dabei gilt: Je näher sich der Wert an Null befindet, desto geringer ist der (lineare) Zusammenhang (z.B. Bortz/Schuster 2010: 125). Dementsprechend bedeutet ein Wert von Null, dass kein linearer Zusammenhang zwischen den Variablen besteht. Je näher der Wert hingegen an 1 oder -1 liegt, desto größer ist der lineare Zusammenhang zwischen zwei Variablen (r = 1 bzw. r = −1: perfekter linearer Zusammenhang).

Ein positiver Korrelationskoeffizient lässt sich dabei inhaltlich so interpretieren, dass größere Werte auf der einen Variablen systematisch mit größeren Werten auf der anderen Variablen einhergehen („je mehr desto mehr“; zur Herleitung und Berechnung des Korrelationskoeffizienten siehe z.B. Rasch et al. 2006: 125ff.). Bezogen auf unser Beispiel könnte ein positiver Koeffizient von r = 0,7 etwa bedeuten, dass eine hohe wahrgenommene muttersprachliche Kompetenz relativ systematisch mit einer hohen getesteten muttersprachlichen Kompetenz einhergeht. Ein negativer Koeffizient bedeutet hingegen, dass ein hoher Wert auf der einen Variablen systematisch mit einem niedrigen Wert auf der anderen Variablen einhergeht („je mehr desto weniger“). Bei der inhaltlichen Interpretation von Korrelationen ist zu beachten, dass diese nicht kausal interpretiert werden dürfen, da keine Aussage über die Richtung eines Zusammenhangs gemacht werden kann. Es wird lediglich ausgesagt, dass ein mehr oder weniger starker linearer Zusammenhang zwischen zwei Variablen existiert bzw. nicht existiert. Bezüglich der Interpretation gibt z.B. Brosius (1998) als Orientierungshilfe an, dass Koeffizienten zwischen r = 0 und r = 0,2 als sehr schwache Korrelation, r = 0,2 und r = 0,4 als schwache Korrelation, zwischen r = 0,4 und r = 0,6 als mittlere, und darüber hinaus als starke bzw. sehr starke Korrelation zu interpretieren sind.

Ein erster Eindruck bezüglich der Stärke des linearen Zusammenhangs kann außerdem über die Erstellung eines Streudiagramms (Abb. 3) gewonnen werden. Dort werden für jede Person bzw. für jeden Fall anhand eines Punktes die Werte der beiden erfassten Variablen auf der x- und y- Achse eines Koordinatensystems abgetragen. Ein perfekter Zusammenhang würde sich nun dadurch zeigen, dass alle Punkte perfekt auf einer 90°-Geraden liegen, deren Richtung wiederum anzeigt, ob es sich dabei um einen positiven, oder um einen negativen Zusammenhang handelt (Gerade von unten links nach oben rechts: positiver Zusammenhang; von oben links nach unten rechts: negativer Zusammenhang). Je näher die Punkte nun um diese Gerade streuen, desto größer ist der lineare Zusammenhang. Ein solches Diagramm kann in SPSS beispielsweise über ← 171 | 172 →den Menüpunkt Diagramme –veraltete Dialogfelder – Streu-/Punkt-Diagramm erstellt werden.

Abb. 3: Beispiel Streudiagramm, Darstellung des Zusammenhangs zwischen tatsächlicher und wahrgenommener muttersprachlicher Kompetenz (fiktive Daten).

images

Die Berechnung der Korrelationskoeffizienten an sich erfolgt in SPSS über die Menüpunkte Analysieren – Korrelation – bivariate Korrelation. In dem dann geöffneten Dialogfeld können die interessierenden Variablen sowie die zu verwendenden Korrelationskoeffizienten gewählt werden. Prinzipiell ist es möglich, gleichzeitig die Korrelationen zwischen mehreren Variablen berechnen zu lassen. Es sollte jedoch bedacht werden, dass bei einer größeren Anzahl von Variablen die im Ausgabefenster erstellte Korrelationstabelle schnell unübersichtlich wird.

Im Ausgabefenster wird dann eine Tabelle (Korrelationstabelle, siehe Tabelle 3) erzeugt, welche die bivariate Korrelation jeder Variablen mit jeder anderen gewählten Variablen anzeigt. In den daraus resultierenden Zellen wird jeweils die Größe des Korrelationskoeffizienten als Maß für die Stärke des Zusammenhangs zweier Variablen angegeben, der Signifikanz-Wert p, sowie die Anzahl der zur ← 172 | 173 →Berechnung verwendeten Fälle. Auch hier gibt der Signifikanz-Wert Auskunft darüber, ob ein Zusammenhang statistisch signifikant ist: Ist dieser Wert kleiner als 0,05 (p < 0,05), dann wird die Null-Hypothese „Es besteht kein (statistisch signifikanter) Zusammenhang“ zurückgewiesen und die H1 „Es besteht ein (statistisch signifikanter) Zusammenhang“ angenommen.

Tabelle 3: Korrelationen zwischen den Variablen ͈muttersprachliche Kompetenz“ und ͈wahrgenommene muttersprachliche Kompetens“

images

*. Die Korrelation ist auf dem Niveau von 0,05 (2-seitig) signifikant.

**. Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) significant.

N = Anzahl der Personen

Neben der bivariaten Korrelation existieren noch weitere Möglichkeiten, Zusammenhänge zwischen Daten zu untersuchen. Möchte man beispielsweise überprüfen, ob es einen Zusammenhang zwischen zwei nominalskalierten Variablen (oder auch zwischen einer nominal- und einer ordinalskalierten Variablen) gibt, so kann dies mittels einer Kreuztabelle und dem Chi²-Test geschehen. Dabei wird abgeglichen, ob die beobachteten Häufigkeiten in den Zellen von den unter Unabhängigkeit der Daten (d.h. unter der Annahme, dass kein Zusammenhang existiert) erwarteten Häufigkeiten signifikant abweichen. Für eine detailliertere Darstellung und Interpretation der Kreuztabelle wird auf Janssen/Laatz (2013) oder Brosius (2013) verwiesen.

Die Erstellung der Kreuztabelle erfolgt in SPSS über die Menüpunkte deskriptive Statistiken – Kreuztabellen. Im folgenden Dialogfenster kann nun unter anderem festgelegt werden, welche Variablen in den Zeilen und welche in den Spalten der Tabelle erscheinen sollen. Des Weiteren kann unter Verwendung des Buttons „Statistiken“ gewählt werden, welche Zusammenhangskoeffizienten (je nach Skalierung der Variablen) mit ausgegeben werden sollen. Neben dem Chi²-Test und dem Korrelationskoeffizienten handelt es sich dabei beispielsweise um den Kontingenzkoeffizienten für nominalskalierte Variablen oder den bereits erwähnten Kendall’s Tau-b-Koeffizienten für ordinalskalierte Variablen. Der Chi²-Test gibt zwar an, ob ein Zusammenhang ← 173 | 174 →signifikant ist, jedoch sagt er nichts über dessen Stärke aus. Daher sollte einer der genannten Koeffizienten mit hinzugezogen werden. Der in der Ergebnistabelle mit ausgegebene Signifikanz-Wert der Koeffizienten ist wie üblich zu interpretieren.

Ein weiteres gängiges Analyseverfahren zum Betrachten von Zusammenhängen ist die (multiple) lineare Regression, die hier jedoch aus Platzgründen nur knapp dargestellt werden soll. In der sozialwissenschaftlichen Forschung gehört sie zu den am häufigsten verwendeten Analysemethoden (z.B. Bortz/Schuster 2010) und wird üblicherweise verwendet, um den Zusammenhang zwischen einer abhängigen Variablen (Kriteriumsvariable) mit mehreren unabhängigen Variablen (Prädiktorvariablen) sowie deren jeweiligen Anteil (Regressionsgewicht b bzw. standardisiertes Regressionsgewicht Beta) am Gesamtzusammenhang zu untersuchen. Statistisch gesehen handelt es sich auch bei der bivariaten Korrelation um eine bivariate lineare Regression.

Möchte man eine multiple lineare Regression in SPSS berechnen, erfolgt dies über die Menüpunkte AnalysierenRegression – linear. Im Ergebnisfenster werden dann unter anderem die Regressionskonstante a sowie die nicht-standardisierten und standardisierten Regressionsgewichte (b/Beta) ausgegeben. Des Weiteren erfolgen Angaben zur jeweiligen Irrtumswahrscheinlichkeit („Signifikanz“). Auch hier gilt: Ist dieser Signifikanzwert kleiner als 0,05, so kann davon ausgegangen werden, dass die jeweilige Prädiktorvariable unter Berücksichtigung der übrigen ins Modell aufgenommenen Variablen signifikant zur Vorhersage bzw. zur Erklärung der Kriteriumsvariablen beiträgt. Das Regressionsgewicht wiederum gibt Auskunft über die relative Wichtigkeit der gewählten Prädiktorvariablen im Rahmen des gewählten Modells. Das Regressionsgewicht (standardisiert/unstandardisiert) kann sowohl positiv als auch negativ sein. Auch hier gilt: Je näher der Wert an Null liegt, desto geringer ist der Zusammenhang.

Bezogen auf unser Beispiel könnte etwa von Interesse sein, die muttersprachliche Kompetenz (abhängige Variable oder Kriterium) mithilfe der unabhängigen Variablen (auch: Prädiktoren) „Alter in Jahren“ und „Aufenthaltsdauer im Herkunftsland (in Jahren) vor der Migration“ zu erklären. Für die Variable „Alter“ ergibt sich kein signifikantes positives Regressionsgewicht (p<0,05), für die Variable „Aufenthaltsdauer im Herkunftsland“ hingegen schon. In diesem Fall trägt also nur die Variable „Aufenthaltsdauer im Herkunftsland“ signifikant zur Erklärung der Unterschiedlichkeit von Personen (Varianz) bezüglich der muttersprachlichen Kompetenz bei, und es gilt: je länger der Aufenthalt im Herkunftsland vor der Migration, desto besser die muttersprachliche Kompetenz (unter Kontrolle des Alters).

← 174 | 175 →Wichtig ist außerdem zu beachten, dass sich die Regressionsgewichte je nach im Modell aufgenommenen Variablen ändern können. Dies ist darauf zurückzuführen, dass bei der Berechnung der linearen Regression die Zusammenhänge zwischen zwei Prädiktorvariablen „herauspartialisiert“, d.h. herausgerechnet werden (dazu sowie zur Darstellung der Regressionsgleichung sowie der weitergehenden Interpretation siehe auch z.B. Rasch et al. 2006: 146ff; Bortz/Schuster 2010). Neben den Regressionsgewichten wird im Ergebnisfenster außerdem Auskunft darüber gegeben, wie gut das Gesamt-Modell „passt“, d.h. wie gut die gewählten Prädiktorvariablen dazu beitragen, das Kriterium zu „erklären“ oder „vorherzusagen“.

Ziel ist, mithilfe der gewählten unabhängigen Variablen möglichst viel der Varianz der Kriteriumsvariablen (d.h. der Unterschiedlichkeit der Personen hinsichtlich dieses Merkmals) zu erklären. Dazu wird der sogenannte Determinationskoeffizient R² herangezogen. Dieser gibt Auskunft darüber, welcher Anteil der Kriteriumsvarianz in einem Regressionsmodell insgesamt erklärt werden kann. R² liegt zwischen 0 und 1, wobei 1 bedeuten würde, dass die Varianz der Kriteriumsvariablen perfekt anhand der Prädiktorvariablen erklärt werden kann. So könnte beispielsweise, bezogen auf unser Beispiel, ein R² von 0,4 so interpretiert werden, dass mithilfe der gewählten Prädiktorvariablen 40% der Kriteriumsvarianz erklärt werden kann, d.h. diese Variablen sind gemeinsam für 40% der Unterschiedlichkeit der Personen bezüglich des interessierenden Merkmals „verantwortlich“.3 Bezüglich der Interpretation aller weiteren im Ergebnisfenster dargestellten Werte sowie bezüglich der Berechnung und Interpretation der multiplen linearen Regression wird auf die oben bereits genannten Standardwerke verwiesen.

3.2.3 Überprüfung von Unterschiedshypothesen

Häufig beinhalten Forschungsfragen auch die Betrachtung von Gruppenunterschieden. Meist handelt es sich dabei um die Frage, ob sich zwei oder mehr Gruppen (im Mittel) statistisch signifikant hinsichtlich eines bestimmten Merkmals voneinander unterscheiden. Bezogen auf das oben verwendete Beispiel könnte etwa von Interesse sein, ob sich Jungen und Mädchen signifikant hinsichtlich ihrer wahrgenommenen muttersprachlichen Kompetenz unterscheiden.

← 175 | 176 →Ein sehr häufig für die Untersuchung von Gruppenunterschieden herangezogenes inferenzstatistisches Verfahren ist der T-Test. Dieser setzt Intervallskalenniveau und eine Normalverteilung der Daten voraus, ist jedoch gegenüber Verletzungen dieser Voraussetzungen gegenüber relativ robust (Bortz/Schuster 2010) und auch bereits für kleinere Stichproben geeignet. Der T-Test ist für den Vergleich zweier Gruppenmittelwerte geeignet; je nach Messdesign verwendet man den T-Test für unabhängige oder für abhängige Gruppen (bzw. Stichproben). Ersterer ist zur Betrachtung von sich gegenseitig ausschließenden Gruppen geeignet (wie z.B. Jungen und Mädchen), letzterer beispielsweise für die Betrachtung ein- und derselben Gruppe zu zwei Messzeitpunkten, beispielsweise vor und nach einer Intervention wie etwa einem Sprachtraining.

In SPSS wird der T-Test über die Menüpunkte Analysieren – Mittelwerte vergleichen –T-Test für unabhängige/abhängige Stichproben durchgeführt. Im folgenden Dialogfenster kann dann zunächst die Gruppierungsvariable (beispielsweise „Geschlecht“, unterteilt in die beiden Gruppen „Männer“ und „Frauen“) ausgewählt werden. Dabei ist zu beachten, dass unter dem Button Gruppen definieren die verwendete Codierung angegeben werden muss (beispielsweise 1 und 2 für den Fall, dass die beiden Ausprägungen der Variablen „Geschlecht“ anhand dieser Zahlenwerte codiert wurden). Im Feld Testvariablen werden diejenigen Variablen angegeben, die bezüglich eines möglichen Gruppenunterschieds betrachtet werden sollen.

Im Ergebnisfenster werden zunächst einige Gruppenstatistiken wie die Gruppenmittelwerte angegeben. In der zweiten Ergebnistabelle wird außerdem zuerst ein Test auf Varianzgleichheit (Levene-Test) der beiden Gruppen ausgegeben. Sind die Varianzen nicht gleich, ist der zum Levene-Test zugehörige Signifikanz-Wert kleiner als 0,05. Je nachdem ob die Varianzen gleich sind oder nicht, muss das Ergebnis des T-Tests in einer unterschiedlichen Zeile („Varianzen sind gleich“, bzw. „Varianzen sind nicht gleich“) abgelesen werden. Auch für den T-Test gilt: Ist der zugehörige Signifikanz-Wert kleiner 0,05, so unterscheiden sich die Gruppen statistisch signifikant. Ferner werden noch die mittlere Differenz der Gruppen, der dazugehörige Standardfehler sowie das Konfidenzintervall der Differenz angegeben.

Soll hingegen überprüft werden, ob sich mehrere Gruppen signifikant voneinander unterscheiden, und wenn ja, welche genau (bezogen auf unser Beispiel könnte etwa ein Vergleich unterschiedlicher Sprachgruppen bezüglich ihrer fremdsprachlichen Kompetenzen interessieren), dann kann diese Fragestellung anhand einer Varianzanalyse (sog. ANOVA: Analysis of Variance) bearbeitet werden. Aufgrund der Komplexität der Analysen kann die Varianzanalyse hier lediglich rudimentär dargestellt werden; bezüglich mathematischer Grundlagen ← 176 | 177 →und einer weitergehenden Ergebnisinterpretation wird auf die entsprechende Fachliteratur (z.B. Bortz/Schuster 2010; Janssen/Laatz 2013) verwiesen. mithilfe der einfaktoriellen Varianzanalyse kann beispielsweise untersucht werden, ob sich Gruppen (in SPSS bezeichnet als Faktor) hinsichtlich eines Merkmals (abhängige Variable) unterscheiden. Dazu wird in einem ersten Schritt zunächst untersucht, ob über alle Gruppen hinweg ein Unterschied zu finden ist.

In SPSS ist die Varianzanalyse unter den Menüpunkten Mittelwerte vergleichen – einfaktorielle ANOVA zu finden. Im folgenden Dialogfenster muss nun angegeben werden, welche Variable die zu betrachtenden Gruppen codiert und beinhaltet (Faktor), und welche Variablen auf Gruppenunterschiede hin untersucht werden sollen (abhängige Variable). Im Ausgabefenster ist nun die Tabelle „einfaktorielle ANOVA“ einzusehen. Diese beinhaltet neben Angaben zu den Quadratsummen innerhalb und zwischen den Gruppen und der Prüfgröße (dazu z.B. Bortz/Schuster, 2010) auch einen dazugehörigen Signifikanzwert, der zu interpretieren ist. Ist dieser Wert signifikant, dann ist dies ein Hinweis darauf, dass über alle Gruppen hinweg ein statistisch signifikanter Unterschied zu finden ist.

Um welche Gruppen genau es sich dabei handelt, wird erst im Anschluss mithilfe sogenannter Post-hoc-Tests analysiert. Je nachdem ob Varianzgleichheit angenommen wird oder nicht (ein Test auf Varianzhomogenität ist zu finden unter dem Button „Optionen“) und in Abhängigkeit davon, ob die Stichprobenumfänge gleich sind, existieren unter dem Button Post hoc verschiedene Auswahlmöglichkeiten. In der Ergebnis-Tabelle Mehrfachvergleiche ist dann einzusehen, zwischen welchen der Gruppen genau sich statistisch signifikante Unterschiede finden. Neben dem dafür relevanten Signifikanzwert finden sich in der Tabelle außerdem Angaben zur mittleren Differenz der Gruppen, Standardfehler und Konfidenzintervall.

3.2.4 Weitere Analysen

Neben den im Rahmen des vorliegenden Kapitels dargestellten Verfahren kann mithilfe von SPSS noch eine Vielzahl weiterer Analysen durchgeführt werden. Diese beinhalten beispielsweise unter dem Punkt „Skalierung“ die Möglichkeit, die Reliabilität von Skalen zu berechnen. Auch können Analysen im Rahmen des Allgemeinen Linearen Modells oder Verfahren zur Dimensionsreduzierung wie die explorative Faktorenanalyse durchgeführt werden. Eine ausführliche Beschreibung aller weiteren, in SPSS möglichen Analysen inklusive der Interpretation von Ergebnisoutputs findet sich etwa bei Janssen/Laatz (2013) und Brosius (2013).

← 177 | 178 →Insgesamt wird deutlich, dass eine gemeinsame Analyse quantitativer und qualitativer Daten mithilfe computerbasierter Auswertungsprogramme wie SPSS möglich ist. Dies erfordert jedoch eine vorausgehende Quantifizierung der qualitativen Daten. Das dazu notwendige Vorgehen wurde im Rahmen des Kapitels dargestellt. Ist dies erfolgt, können für alle Daten, unabhängig davon, ob diese mit qualitativen oder quantitativen Befragungsmethoden gewonnen wurden, prinzipiell die gleichen Analyseverfahren angewandt werden. Dies ermöglicht eine gemeinsame Interpretation der Daten und führt zu einer simultanen Verwendbarkeit qualitativer und quantitativer Befragungsmethoden.

Literatur

Bortz, Jürgen / Schuster, Christoph (2010). Statistik für Human- und Sozialwissenschaftler. 7. Aufl. Berlin Heidelberg: Springer.

Borg, Ingwer / Stauffenbiel, Thomas (1997). Theorien und Methoden der Skalierung. Eine Einführung. Methoden der Psychologie, Band 11. 3. Aufl. Bern: Huber.

Breuer, Franz (2010). Wissenschaftstheoretische Grundlagen qualitativer Methodik in der Psychologie. In: Mey, Günter / Mruck, Katja (Hrsg.). Handbuch Qualitative Forschung in der Psychologie. Wiesbaden: VS Verlag für Sozialwissenschaften, 35-45.

Broda, Stephan (2006). Marktforschungs-Praxis. Konzepte, Methoden, Erfahrungen. Wiesbaden: Betriebswirtschaftlicher Verlag Dr. Th. Gabler/GWV Fachverlage.

Brosius, Felix (1998). SPSS 8. Professionelle Statistik unter Windows. Mitp-Verlag.

Brosius, Felix (2013). SPSS 21 (mit Professional). Mitp-Verlag.

Bühner, Markus (2006). Einführung in die Test- und Fragebogenkonstruktion. 2. Aufl. München: Pearson Studium.

Flick, Uwe (2011). Triangulation. Eine Einführung. 3. Aufl. Reihe Qualitative Sozialforschung, Band 12. Wiesbaden: VS Verlag für Sozialwissenschaften.

Gläser-Zikuda, Michaela / Seidel, Tina / Rohlfs, Carsten / Gröschner, Alexander / Ziegelbauer, Sascha (2012). Mixed Methods in der empirischen Bildungsforschung – eine Einführung in die Thematik. In: Gläser-Zikuda, Michaela / Seidel, Tina / Rohlfs, Carsten / Gröschner, Alexander / Ziegelbauer, Sascha (Hrsg.). Mixed Methods in der empirischen Bildungsforschung. Münster: Waxmann, 7-14.

← 178 | 179 →Janssen, Jürgen / Laatz, Wilfried (2013). Statistische Datenanalyse mit SPSS. Eine anwendungsorientierte Einführung in das Basissystem und das Modul Exakte Tests. 8. Aufl. Berlin, Heidelberg: Springer.

Jonkisz, Ewa / Moosbrugger, Helfried / Brand, Holger (2011). Planung und Entwicklung von Tests und Fragebogen. In: Moosbrugger, Helfried / Kelava, Augustin (Hrsg.). Testtheorie und Fragebogenkonstruktion. Berlin, Heidelberg: Springer, 27-74.

Kelle, Udo (2008). Die Integration qualitativer und quantitativer Methoden in der empirischen Sozialforschung. 2. Aufl. Wiesbaden: VS Verlag für Sozialwissenschaften.

Kempf, Wilhelm (2010). Diskussionsbeiträge der Projektgruppe Friedensforschung Konstanz, Nr. 65. Berlin: Regener. Online: http://nbn-resolving.de/urn:nbn:de:bsz:352-opus-121212 [10.3.2014].

Konrad, Klaus (2011). Mündliche und schriftliche Befragung – Ein Lehrbuch. Forschung, Statistik und Methoden, Band 4. 7. Aufl. Landau: Verlag Empirische Pädagogik.

Mayring, Philipp (2008). Qualitative Inhaltsanalyse. Grundlagen und Techniken 10. Aufl.. Weinheim: Beltz.

Mayring, Philipp (2011). Qualitative Inhaltsanalyse. In: Mey, Günter / Mruck, Katja (Hrsg.). Handbuch Qualitative Forschung in der Psychologie. Wiesbaden: VS Verlag für Sozialwissenschaften, 601-613.

Messick, Samuel (1989). Validity. In: Linn, Robert L. (Hrsg.). Educational Measurement. 3. Aufl. New York: Macmillan.

Mey, Günter / Mruck, Katja (2011). Interviews. In: Mey, Günter / Mruck, Katja (Hrsg.). Handbuch Qualitative Forschung in der Psychologie. Wiesbaden: VS Verlag für Sozialwissenschaften, 423-436.

Muthén, Linda K. / Muthén, Bengt O. (1998-2012). Mplus User’s Guide. 7. Aufl. Los Angeles, C.A.: Muthén & Muthén.

The R Foundation for Statistical Computing (2014). „R“. Online: http://www.r-project.org [10.3.2014].

Rasch, Björn / Friese, Malte / Hofmann, Wilhelm / Naumann, Ewald (2006). Quantitative Methoden. Einführung in die Statistik. Heidelberg: Springer.

Rost, Jürgen (1996). Testtheorie, Testkonstruktion. Bern: Verlag Hans Huber.

Schmidt-Atzert, Lothar / Amelang, Manfred (2012). Psychologische Diagnostik. Berlin, Heidelberg: Springer.

← 179 | 180 →Settinieri, Julia (2014). Forschst Du noch, oder triangulierst Du schon? In: Elsner, Daniela / Viebrock, Britta (Hrsg.). Triangulation in der Fremdsprachenforschung. Frankfurt/Main: Lang, 17-35.

SPSS inc./IBM (2013). IBM SPSS Statistics 21. Online: http://www-01.ibm.com/software/de/analytics/spss/ [10.3.2014].

Strauss, Anselm / Corbin, Juliet (1996). Grounded Theory: Grundlagen qualitativer Sozialforschung. Weinheim: Beltz.

______________________

1 Hier sind dabei nicht empirisch gebildete Kompetenzstufen im Rahmen einer Kompetenzmodellierung gemeint, sondern eine Einordnung von Antworten in theoretisch angenommene Fähigkeitsniveaus.

2 Im Rahmen des Hypothesentestens wird von zwei möglichen Fehlerarten ausgegangen: „Ein Fehler 1. Art wird begangen, wenn eine richtige Nullhypothese zugunsten der Alternativhypothese abgelehnt wird. Ein Fehler 2. Art wird begangen, wenn eine falsche Nullhypothese beibehalten wird“ (Bortz/Schuster 2010: 100). Die Fehler werden auch als alpha- und beta-Fehler bezeichnet.

3 Weiterführende Analysen im Hinblick auf eine Überprüfung von Kausalitäten und/oder Mediationseffekten sowie die Modellierung latenter Konstrukte können unter Anwendung fortgeschrittener statistischer Verfahren wie beispielsweise Strukturgleichungsmodellen mithilfe der Software „MPlus“ (Muthén/Muthén 1998-2012) durchgeführt werden.