Show Less
Open access

Chatbots

Eine linguistische Analyse

Series:

Netaya Lotze

Die korpuslinguistische sowie konversationsanalytische Studie thematisiert die Mensch–Maschine-Interaktion mit Chatbots. Diese Dialogsysteme sind auch heute noch störungsanfällig und eine Kommunikation ist nur unter äußerst limitierten Bedingungen möglich. Welche Implikationen dies für das Interaktionsverhalten der UserInnen hat, untersucht die Autorin vor dem Hintergrund der Diskussion um künstliche Intelligenz. Chatbots sind im Web bereits weit verbreitet und ihr Dialog-Design dient als Vorbild für moderne Assistenzsysteme. Da in Zukunft künstliche Intelligenzen eine immer größere Rolle spielen werden, legt diese Auseinandersetzung im Hinblick auf interaktives Alignment und Computer-Talk einen Grundstein zur linguistischen Erforschung von Dialogsystemen.

Show Summary Details
Open access

2. Vier theoretische Ansätze zur Analyse der HCI

← 84 | 85 →

2.  Vier theoretische Ansätze zur Analyse der HCI

Wie menschliche Wesen mit freiem Willen und der Möglichkeit zur spontanen Veränderung ihrer ursprünglichen Dialogziele mit deterministischen Automaten natürlichsprachlich interagieren, ist aus linguistischer Perspektive schwer zu fassen. Zahlreiche Variablen beeinflussen jede konkrete Dialogsequenz. So sind UserInnen-Eingaben abhängig vom Kontext der jeweiligen Anwendung, von Vorannahmen und der Expertise der UserInnen (vgl. Krämer 2008, Fischer im Druck), vom UserInnentyp (vgl. Fischer 2006), von erlernten Frames und Skripts (vgl. Fillmore 1976, Sacks et al. 1992) und von kognitiven Perzeptions- und Produktionsprozessen (vgl. Pickering & Garrod 2004). Außerdem spielt es eine wichtige Rolle, ob die Interaktion im WWW chat-basiert oder medial mündlich über ein Sprachausgabe- und Spracherkennungsmodul erfolgt. Zudem werden Dialoge mit artifiziellen Agenten restringiert durch die begrenzten Möglichkeiten der jeweiligen Systemarchitektur und des konkreten Dialog-Designs. Unter all diesen Prämissen abzustecken, wie sich Menschen im Dialog mit mechanistischen Agenten verhalten, bleibt eine Herausforderung für die Linguistik. Ihr kommt die Aufgabe zu, Dialogtranskripte (Logfiles mit oder ohne Metadaten) mit ihren Methoden zu evaluieren und so erstens Erkenntnisse über menschliches Sprachverhalten in einem sehr speziellen situativen Kontext zu gewinnen und in einem zweiten Schritt dieses Wissen nutzbar zu machen für innovative Dialogdesigns. Denn je antizipierbarer UserInnen-Äußerungen in einem bestimmten Anwendungskontext sind, desto leichter lassen sich robuste Dialoge implementieren. „Furthermore, system designers need to know how interaction can be improved to make it more pleasurable, to recover from errors more gracefully and to anticipate speakers’ strategies and inferences. This includes knowledge about the effects their design decisions may have on potential users in order to take these decisions in a maximally informed way“ (Fischer 2010: 2352).

Dabei stellt sich die Frage, in welchem Maße das UserInnen-Verhalten Architektur und Dialog-Design des Systems widerspiegelt. Bei sehr limitierten Dialog-Desings, die der Navigation über eine Menüabfrage nachempfunden sind (vgl. Twipsy), ist die Dialogführung so eng, dass das UserInnen-Verhalten im wörtlichen Sinne vorprogrammiert ist. UserInnen von Chatbots und ECAs haben hingegen mehr Spielraum. Dieses Spannungsfeld zwischen reaktivem Verhalten zum Dialog-Design und proaktiven innovativen Eingaben gilt es genauer zu definieren. ← 85 | 86 →

2.1  Linguistische und interdisziplinäre Forschungsansätze

Um möglichst viele Ideen zur Antizipierbarkeit von Dialogverläufen für die Überlegungen zur UserInnen-Steuerung nutzbar zu machen, wurden für die Studie diverse Ansätze miteinbezogen, die sich aus äußerst unterschiedlichen Perspektiven mit Kommunikation und Interaktion beschäftigen. Denn sowohl Dialoge unter Menschen als auch mit artifiziellen Agenten können auf unterschiedlichen Ebenen analysiert werden.

„When we speak about discourse or conversational knowledge, we can talk about a number of different levels. At the level of plans and intentions, we can describe a conversation in terms of the high-level goals and plans of the participants. At the level of focus, we can describe a conversation in terms of center of attentional focus. We might call these intentional or attentional models deep discourse structure. At the level of speech acts, we can model the speech act type of each utterance. Or we can model sociolinguistic facts about conversation structure such how participants might expect one type of conversational units to be responsed to by another (adjacency pairs)“ (Jurafsky et al. 1997).64

Grundsätzlich muss unterschieden werden zwischen einer Ebene der Performanz und einer Ebene der Kognition. Auf der kognitiven Ebene sind Prozesse der Sprachproduktion und Perzeption zum besseren Verständnis von Dialogen unter Menschen von Interesse. Auch Vorannahmen über das System, emotionale Aspekte und Technikexpertise spielen eine Rolle. Der menschlichen Kognition steht die KI des Systems gegenüber. Hier liegt der Fokus auf einer Systemarchitektur, die zur logischen Verarbeitung von natürlichsprachlichem Input und zur Generierung des entsprechenden Outputs befähigt. Logisch kohärente Systembeiträge zu erzeugen, ist Ziel dieser Überlegungen. Auf der Ebene der Performanz können strukturelle Besonderheiten der HCI diskutiert werden. Bei den UserInnen sollen konkrete Formulierungen evoziert und die Sprache des Systems so angemessen wie möglich für den entsprechenden Anwendungskontext gestaltet werden. Hierfür sind die Erkenntnisse der Konversationsanalyse besonders relevant. An der Oberfläche des Dialogs können vergleichsweise leicht Veränderungen durch die entsprechende Wortwahl in den Systembeiträgen und die richtigen Schlüsselwortkombinationen vorgenommen werden. Auf diese Art kann jedoch immer nur die Illusion von kohärenten Sequenzen erzeugt werden.

Drei Zugänge wurden aus der Gesprächsforschung zur Mensch-Mensch-Kommunikation in die Untersuchung eingebunden: ← 86 | 87 →

  • Das psycholinguistische Modell zum Konzept Alignment (vgl. u. a. Pickering & Garrod 2004, Branigan et al. 2000, Szmrecsanyi 2005):

    Der vorbewusste Teil der kognitiven Dialog-Verarbeitung wird von Pickering und Garrod (2004) im interaktiven Alignment-Modell als einfacher Priming- Mechanismus gefasst. Für die HHC haben zahlreiche Versuche gezeigt, dass Menschen dazu tendieren, sprachliche Strukturen ihres Gegenübers zu kopieren. Alignment scheint für die HCI insofern interessant, weil ein genaueres Verständnis der Bedingungen für dieses Dialogverhalten Gesprächsbeiträge antizipierbarer machen könnte.

    Mithilfe des interaktiven Alignment-Ansatzes soll untersucht werden, ob und in welcher Form UserInnen vorbewusste Mechanismen aus der HHC auf die HCI übertragen.
  • Teilgebiete der klassischen Konversationsanalyse (Coversation Analysis, CA; vgl. Sacks, Schegloff, Jefferson 1992):

    Seit den 1960er Jahren hat die CA die grundsätzlichen strukturellen Parameter von Dialogen definiert (Turns, TCUs, Adjazenzpaare, Gesprächsrahmensequenzen, Komplettierungen etc.). Das strukturelle Grundgerüst eines Dialogs kann in ihrer Systematik beschrieben werden. Diese Parameter sind quantifizierbar, so dass Dialoge unterschiedlicher thematischer Ausrichtung strukturell vergleichbar werden. Ziel der Untersuchung ist es, strukturelle Unterschiede zwischen HCI und HHC herauszuarbeiten. Außerdem werden in der CA Überlegungen zur Conditional Relevance, der bedingten Erwartbarkeit von Folge-Äußerungen und zu ritualisierten Paarsequenzen, angestellt (z. B. Gruß – Gegengruß in der Eröffnungsphase eines Dialogs). Hier gilt es, die kritischen Punkte zu definieren, an denen Dialoge antizipierbar werden, und die Leistungsfähigkeit moderner Systeme in Bezug auf diese Routinen zu evaluieren. Die CA stellt auch eine differenzierte Methode zur qualitativen Analyse von funktionalen Aspekten der Dialog-Beiträge zu Verfügung, die zusätzlich zur quantitativen Korpusstudie immer dann bemüht wird, wenn sprachliche Phänomene diskutiert werden, die nicht ohne weiteres quantifizierbar sind. Mittels der CA sollen strukturelle und funktionale Aspekte der HCI untersucht werden.
  • Überlegungen zu Kohärenz und Kohäsion (vgl. Givón 1983, Tidge 1997, Linke et al. 2004, Brinker 2010, Özsarigöl 2010) unter der grundsätzlichen Fragestellung, wie sich Kohärenz im Dialogverlauf für die HCI formalisieren lässt (Allen et al. 1978):

    Logische Kohärenz, semantische Kontiguität sowie thematische Progression sind auf der Folie der Lebenswelt als Interpretationsrahmen sinnstiftend und unerlässlich, wenn Handlungsziele und kommunikative Ziele in der HCI erreicht werden sollen. Inwiefern sich diese Aspekte strukturell in Form von Kohäsionsmitteln auch in der HCI manifestieren, soll mit quantitativen und qualitativen Methoden erhoben werden.

Mittels der oben beschriebenen Ansätze können kognitive, strukturelle, funktionale und logisch-semantische Aspekte der HCI beschrieben werden. Das Ergebnis soll im nächsten Schritt interpretiert werden mit Bezug auf eine seit den ← 87 | 88 → 1980er Jahren geführte Debatte, die in Informationswissenschaften und Linguistik gleichermaßen prominent ist:

  • Die Diskussion um Computer-Talk (CT) als strukturell oder funktional erfassbares Register im Sprachgebrauch der UserInnen (Zoeppritz 1985, Krause et al. 1992, Fischer 2006, im Druck):

    Der Diskurs um CT als Register soll aufgenommen und weitergeführt werden, indem die klassischen Argumente anhand neuer, diachroner Sprachdaten überprüft werden. So können eventuelle Entwicklungstendenzen ausgemacht werden. Inwiefern die These von einem strukturellen oder funktionalen CT aus linguistischer Perspektive haltbar ist, soll in den Kapiteln 2.5 und 4.4 diskutiert werden.

Zahlreiche psychologische und soziologische Studien zum NutzerInnen-Verhalten im Dialog mit artifiziellen Agenten haben einige interessante Ergebnisse erbracht, die Aufschluss geben über situative Kontexte von HCI:

  • Überlegungen zu Auswirkungen des anthropomorphen Designs auf die UserInnenperzeption und die Akzeptanz von Bots (vgl. z. B. Uncanny Valley, Mori 1982)
  • Überlegungen zur Usability von anwendungsorientierten Systemen (Dahms et al. 2005)
  • Überlegungen zu sozialen Wirkungen virtueller Helfer (Krämer 2008)

Soziale oder psychologische Parameter nehmen Einfluss auf die konkrete Dialogsituation und sind bei der linguistischen Analyse von UserInnen-Sprache unbedingt zu berücksichtigen.

Alle hier vorgestellten linguistischen, informationswissenschaftlichen, psychologischen und soziologischen Ansätze nähern sich der Analyse und Implementierung von HCI-Dialogen aus unterschiedlichen Richtungen und vertreten unterschiedliche Auffassungen über die Beschaffenheit und die Ziele von HCI. Dabei steht die Frage nach der Möglichkeit und Notwendigkeit von anthropomorphem Dialog-Design im Mittelpunkt der Diskussion. So wie ein Avatar menschenähnlich gestaltet sein kann, kann auch ein Dialog mit einem Bot anthropomorph gestaltet werden, indem versucht wird, menschliche Kommunikation so gut wie möglich zu imitieren. Das Ziel solcher Anstrengungen wären die sog. Star-Trek-Dialoge als ideale Simulation menschlicher Kommunikation. Wie in Kapitel 1 bereits angesprochen, ist Star-Trek-Kommunikation allerdings nicht für alle ForscherInnen-Gruppen im Bereich der HCI das erklärte Ziel. Unabhängig davon, dass derzeitige Systeme nicht in der Lage sind, die Illusion von menschlicher Kommunikation über längere Dialogsequenzen aufrechtzuerhalten, gehen vor allem Usability-ExpertInnen davon aus, dass ein System keine Star-Trek-Dialoge führen können muss, um bereichsspezifisch zuverlässig zu funktionieren. Eine bot-basierte E-Learning-Anwendung ← 88 | 89 → muss bspw. den LernerInnen Feedback geben können, braucht aber nicht unbedingt eine Small-Talk-Funktion, und ein sprachgesteuerter Fahrkartenautomat kann mit einer Menü-Abfrage arbeiten, obwohl lange Aufzählungen untypisch für natürlichsprachliche, konzeptionell mündliche Kommunikation sind.

Um HCI analysieren zu können, ist es also zunächst notwendig festzuhalten, dass einem konkreten Dialog-Design sehr unterschiedliche grundsätzliche Entscheidungen zu Grunde liegen können. Entsprechend empfiehlt es sich, systematisch zwischen Ansätzen zu unterscheiden, die von Interesse sind, wenn man ein anthropomorphes Dialog-Design anstrebt, und solchen, bei denen die bereichsspezifische robuste Nutzbarkeit im Vordergrund steht. Das gilt sowohl für Überlegungen zur Entwicklung von Systemen als auch für die Untersuchung bereits bestehender Systeme.

Ist anthropomorphes Dialog-Design das Ziel, so wird davon ausgegangen, dass ideale Systeme sich als soziable Assistenten unter Menschen integrieren können sollten (Companion-Systeme) und von Menschen intuitiv genutzt werden sollten. Dies wäre am ehesten möglich, wenn die HCI einer HHC so nahe wie möglich käme. Das System würde dem Menschen folglich angepasst. Das Ziel der EntwicklerInnen besteht dann darin, dass sich HCI und HHC möglichst ähnlich werden. Die grundsätzlichen linguistischen Forschungsfragen, deren Beantwortung als Vehikel für anthropomorphe Dialog-Designs fungiert, lauten:

  • Was macht HHC kohärent und wie lässt sich Dialog-Kohärenz formalisieren?
  • Inwiefern sind Redebeiträge antizipierbar?
  • Welche Wissensbasis muss als Hintergrundwissen zur Verfügung stehen?
  • Welche vorbewussten Mechanismen und bewussten Strategien beeinflussen die UserInnen?
  • Welche sprachlichen Indikatoren für die o. g. Aspekte findet man in HCI-Dialogen?

Hier liegt die große Herausforderung für die Linguistik im Bereich der Mensch-Maschine-Interaktion.

Diesem Anspruch steht ein grundsätzlich anderes Verständnis von innovativer Technologie entgegen, bei dem der Werkzeug-Charakter auch bei Dialog-Systemen im Vordergrund steht. Man baut auf die Anpassungs- und Lernfähigkeit der UserInnen und geht davon aus, dass diese Strategien entwickeln, sich auf Dialog-Designs einzustellen und so einen neuen sprachlichen Kode zur Interaktion mit dem System erwerben. Dafür genügen oftmals bereits einfache Befehle und Schlüsselwörter. Der Mensch passt sich demnach dem System an. HCI und HHC unterscheiden sich folglich strukturell und / oder ← 89 | 90 → funktional. Die grundsätzlichen linguistischen Forschungsfragen unter dieser Prämisse lauten:

  • Worin bestehen die Unterschiede zwischen HHC und HCI?
  • Als was ist HCI im Gesamtsystem einer Sprache definiert?

Beide Perspektiven eröffnen Möglichkeiten, zeigen aber auch Probleme und Grenzen auf, die in den folgenden Kapiteln diskutiert werden sollen. Zur Gliederung und Abgrenzung der verschiedenen linguistischen und interdisziplinären Ansätze voneinander, wird eine Kategorisierung nach der Zielsetzung des Dialog-Designs vorgeschlagen:

Tabelle 2: Forschungsansätze zur HCI

Dialog-Design mit Werkzeug-CharakterAnthropomorphes Dialog-Design
Computer-Talk (CT)

  • Kann CT als strukturelle oder funktionale Varietät angenommen werden?
  • Ist die Annahme von CT sinnvoll für ein benutzerInnenfreundliches Design?
Konversationsanalyse (CA)

  • Können Parameter der bedingten Erwartbarkeit (Conditional Relevance) von UserInnen-Äußerungen zu menschenähnlichen Dialogen verhelfen?
  • Können Sprachroutinen oder bereichsspezifische Skripte definiert werden?
Linguistik / InformationswissenschaftLinguistik / Soziologie
Usability

  • Was ist benutzerInnen-freundliches Dialog-Design?
  • Welches System bringt welche Variablen mit sich?
Alignment

  • Welche Rolle spielen vermeintlich vorbewusste Priming-Mechanismen für das Verhalten der UserInnen?
  • Können solche Mechanismen für ein innovatives Dialogdesign genutzt werden?
  • Welche Rolle spielen dabei Zerfallseffekte im Sinne einer Vergessenskurve? ← 90 | 91 →
Informationswissenschaft / PsychologieLinguistik / Psychologie
Soziale Wechselwirkungen

  • Welche UserInnen bringen welche Variablen mit (Alter, Geschlecht, Technikexpertise, UserInnen-Typ, Bewusstsein für Bot-Kommunikation)?
  • Welche sozialen Wirkungen werden von Dialogagenten hervorgerufen (vgl. „Uncanny-Vally“)?
Kohärenz

  • Wie können Kohäsionsmittel an der Textoberfläche zu einem anthropomorphen Dialog-Design beitragen?
  • Wie können inkohärente Sequenzen aufgespürt werden (Kohärenz-Parsing)?
  • Kann ein aussagenlogisches Kalkül zur Generierung von wirklicher Dialog-Kohärenz genutzt werden?
  • Welche Wissensbasis wird dafür benötigt?
Psychologie / SoziologieLinguistik

Die vorliegende Studie versucht all diese Ansätze auf Phänomene der HCI zu beziehen und für Analysen und Entwicklungen in diesem Bereich nutzbar zu machen. Dabei ist klar, dass auch die verschiedenen Ansätze aus den beiden Theoriegruppen (Bot als Werkzeug vs. Bot als GesprächspartnerIn), jeweils gruppen-immanent nicht widerspruchsfrei miteinander verbunden werden können. Modelle wie die klassische Konversationsanalyse und das interaktive Alignment-Modell können nicht systematisch zusammen gedacht werden, da ihnen ganz unterschiedliche Auffassungen von Dialog und Sprachverarbeitung zu Grunde liegen, die in den folgenden Kapiteln differenziert dargestellt werden sollen. Allerdings bringen die o. g. unterschiedlichen Ansätze jeweils interessante Gedanken in die Diskussion um anthropomorphes Dialog-Design ein, die weiterverfolgt und miteinander in Verbindung gesetzt werden sollten. KonstrukteurInnen von Chatbots und ECAs bedienen sich schon lange bei unterschiedlichen Expertisen, um ihre Systeme zu entwickeln. Eine systematische Reflexion dieses technologiehistorischen Topos‘ sowie eine kohärente Verknüpfung der Theorien aus linguistischer Perspektive fehlen bislang. Welche Faktoren haben unter welchen Bedingungen Einfluss auf HCI-Dialoge und welche theoretischen Modelle stellen welche Analysewerkzeuge zur Verfügung? Der theoretische Beitrag dieser Arbeit soll eben in dieser Verknüpfung verschiedener Ansätze liegen und in ihrer Nutzbarmachung sowohl für linguistische Analysen in der HCI als auch für die Implementierung innovativer Systeme.

Die vier linguistischen bzw. linguistisch-interdisziplinären Ansätze aus der Konversationsanalyse, aus der Psycholinguistik zu Alignment, zur Dialog-Kohärenz und zum Computer-Talk sollen in den Kapiteln 2.2 bis 2.5 dargestellt ← 91 | 92 → werden, die soziologischen und psychologischen Aspekte wurden bereits in Kapitel 1 angesprochen und bilden den situativen Rahmen, der in jede Dialog-Analyse miteinbezogen werden muss. Auf der Grundlage der jeweiligen Theorie werden in den Kapiteln 2.2 bis 2.5 Hypothesen für die korpus-basierte Analyse abgeleitet und die zur Überprüfung der Hypothesen erhobenen Untersuchungsparameter vorgestellt. Die kompletten Tag-Sets sowie Definitionen und Beispiele zu allen Untersuchungsparametern finden sich in Kapitel 3.

2.2  Konversationsanalyse in der HCI

Um Dialoge besser maschinell verarbeiten zu können, ist es wichtig, ihren strukturellen Aufbau genau zu verstehen. Sprachliches Verhalten, das regelhaft, routiniert oder konventionalisiert abläuft, lässt sich leichter von einem System verarbeiten als völlig spontane Äußerungen. Indem menschliche Dialoge gegliedert und in einzelne funktionale Einheiten unterteilt werden, wird in der Konversationsanalyse (Conversational Analysis, Conversation Analysis, CA) die Grundlage für eine systematische empirische Untersuchung von Dialogen geschaffen. Besonders interessant für die maschinelle Dialogverarbeitung ist der Zugang der CA deshalb, weil hier die Ebene der Performanz im Vordergrund steht. „Conversation analysis has […] concentrated on the observable, on aspects that leave their traces in the sequential organisation of talk“ (Fischer 2006: 10; vgl. Sacks et al. 1992). Funktionale, psychologische oder soziale Aspekte werden an strukturellen Indikatoren festgemacht, die theoretisch von einem sophistizierten Parser verarbeitet werden könnten. Garfinkel (1972: 321) geht davon aus, dass allgemeines Verstehen „necessarily an operational structure“ aufweist. Eine Reflexion auf die kognitiven Voraussetzungen, die zur Produktion von Dialogbeiträgen führen, findet in der CA nur rudimentär statt.

Auch in der HCI verwenden UserInnen normierte Dialogstrukturen, wie Hutchby (2001) zeigt. Mit Hilfe der CA können also HHC-Dialoge in Teilen operationalisiert werden, um als Vorlage für HCI-Designs zu dienen. Die Methoden der CA können im nächsten Schritt dann auch auf HCI-Dialoge angewandt werden, um diese auszuwerten und zu evaluieren. Darüber hinaus können einige Grundprinzipien der CA als einfache Regel direkt in Dialogsysteme implementiert werden, was auch bereits geschieht (vgl. z. B. Kopp et al. 2004). Gerade für gesteuerte Dialog-Designs mit enger UserInnen-Führung sind routinierte oder konventionalisierte Dialogverläufe von besonderem Interesse, da es hier relevant ist, die nächste UserInnen-Äußerung so exakt wie möglich zu antizipieren.

Ein gutes Beispiel sind musterhafte Begrüßungs- und Verabschiedungssequenzen der Form „Gruß-Gegengruß“, die bei der Programmierung von Bots ← 92 | 93 → und ECAs grundsätzlich Beachtung finden.65 Grüßt das System, so ist der Gegengruß der UserInnen kontextbedingt erwartbar. Dies hängt allerdings von bestimmten Konditionen ab: Übertragen die UserInnen ihr Verhalten aus der HHC auf die HCI? Wie ist der Kontext der Anwendung? Welche Variablen spielen seitens der UserInnen eine Rolle (Vorannhamen, Expertise, UserInnen-Typ)? Hier ist es wichtig, besser zu verstehen, unter welchen Bedingungen UserInnen ihr Verhalten aus der HHC auf die HCI übertragen und inwiefern überhaupt von einer „Übertragung“ gesprochen werden sollte. So kann man die Konditionen definieren, unter denen das Muster „Gruß-Gegengruß“ aus der HHC greift (Conditional Relevance). Während die bedingte Erwartbarkeit für eine gesteuerte UserInnen-Führung ein besonders attraktives Konzept ist, wird für offenere Dialog-Designs eine erweiterte Mustererkennung mit Hilfe der CA angestrebt. Bspw. könnten bei einer Adjazenzellipse (s. u.) in der UserInnen-Eingabe vom Parser zusätzliche Informationen im vorangegangenen System-Beitrag gesucht werden.

In der CA werden Gespräche als Einheit begriffen und auch entsprechend ausgewertet. Die Redebeiträge der Interagierenden werden nicht als isolierte Äußerungen verstanden, sondern vielmehr als in vielerlei Hinsicht miteinander verbunden. Dies erschwert maschinelles Parsing zunächst. Doch im besseren Verständnis der zugrundeliegenden Interaktionsregeln liegt auch eine Chance für verbesserte Parser.

Die konkrete Ausgestaltung einer Äußerung wird in der CA als nicht primär verstanden, sondern hängt ab vom unmittelbaren Kotext und dem jeweiligen räumlichen, zeitlichen und sozialen Kontext, in dem sie getätigt wird. Dialoge werden also auch in diesem System niemals als voraussetzungsfrei verstanden. SprecherInnen einer natürlichen Sprachgemeinschaft haben intuitiven Zugriff auf kontextspezifische Protokolle, da diese von frühester Kindheit an erlernt wurden (vgl. z. B. Tomasello 2002). Die CA stellt Analysemodelle zur Verfügung, um solche kontextsensitiven Protokolle genauer definieren und auf diese Art und Weise analysieren zu können, was SprecherInnen produzieren und warum HörerInnen verstehen, was ihr Gegenüber sagt. Common Ground ist eine Größe, die aus diesem System nicht wegzudenken ist (vgl. Kapitel 2.1). Über geteiltes Wissen und Vorannahmen über die Welt hinaus geht die CA allerdings auch davon aus, dass Individuen im Zuge ihrer Interaktion Strukturen dynamisch und ← 93 | 94 → intersubjektiv etablieren und sich an ihnen bei der Planung ihrer Äußerungen orientieren (vgl. Giddens 1984, vgl. Kapitel 2.4).

Die CA stimmt also mit der soziolinguistischen Grundannahme überein, dass eine intrinsische und kausale Beziehung zwischen Sprache und dem sozialen Kontext besteht, in dem diese produziert wird. Welchen Einfluss unterschiedliche Kontext-Variablen auf die Antizipierbarkeit von Dialogen haben, wird innerhalb der Forschungsgemeinde heute verschieden bewertet. Liddicoat (2007: 11) z. B. spricht sich gegen die Vorhersehbarkeit von Dialogen aus. Was in der Vergangenheit oft als Muster angesehen wurde, sei zu stark kontextabhängig, um als regelhaft im engeren Sinne betrachtet zu werden. Brinker und Sager (1989) setzen die Existenz sprachlicher Routinen zwar voraus, thematisieren aber die Möglichkeit der Modifikation, Reformulierung und Suspendierung von Normen. Und auch Schegloff betont in seinen späteren Schriften die Variabilität von Gesprächssituationen, welche die Vergleichbarkeit erschwere (vgl. z. B. Schegloff 1993: 99).

Das Studium einer Menge von Einzelfällen führt zwar bis zu einem gewissen Grad zur Erkenntnis über systematische Gemeinsamkeiten, doch was sich als systematisch abzeichnet, wird trotzdem von den Bedingungen des jeweiligen Einzelfalls beeinflusst. Definiert man unter diesen Prämissen Muster und Routinen im menschlichen Dialog, handelt es sich dabei nicht um strikte Regeln, sondern vielmehr um mehrheitlich beobachtbare Tendenzen. D. h. auch für die HCI können nur erwartbare Tendenzen für das UserInnenverhalten antizipiert werden. Je kontrollierbarer der situative Kontext und der vom Bot generierte Kotext sind, desto wahrscheinlicher wird die Prognose. Es kann angenommen werden, dass Dialoge mit deterministischen Systemen zu einem höheren Grad vorhersagbar sein müssten als Dialoge unter nicht-deterministischen Menschen. Denn Dialogagenten können nur eine endliche Menge von Gesprächsbeiträgen ausgeben, so dass UserInnen nur einen begrenzten Output vorfinden, auf den sie ihre Gesprächsbeiträge beziehen können.

Methodisch wird in der CA vorausgesetzt, dass jede linguistische Untersuchung auf empirischen Sprachdaten (Transkripten, Logfiles, Korpora) basieren sollte, die in einem natürlichen Setting aufgezeichnet wurden.66 Analysen erfolgen meist qualitativ sowohl auf der Mikro- als auch auf der Makroebene des Dialogs, können aber auch quantifizierbare Aspekte enthalten. Gerade auf der strukturellen Mikroebene ist die Wahrscheinlichkeit hoch, dass für die HCI ← 94 | 95 → operationable Abfolgetendenzen und erweiterte Muster von Gesprächsbeiträgen gefunden werden können.

Vor dem Hintergrund von Common Ground in Form von enzyklopädischem und pragmatischem Wissen sowie Self- und Partner-Modeling während der Interaktion können einige konkrete Beobachtungen an der Mikrostruktur von Dialogen gemacht werden, die eine gewisse Regelhaftigkeit erkennen lassen. Im Folgenden werden die für die empirische Analyse relevanten und korpuslinguistisch erhebbaren, strukturellen Basisprinzipien der CA vorgestellt und ihre Anwendungsmöglichkeiten in der HCI-Forschung diskutiert. Der Fokus liegt dabei auf maschinell erkennbaren Mustern der Turn-Allokation (z. B. Adjazenzellipsen) und sprachlichen Routinen im Gesprächsrahmen (z. B. Gruß-Gegengruß). In jedem Unterkapitel wird so ein Untersuchungsparameter der Korpusstudie vorgestellt.

2.2.1  Turn-Konstruktion und Turn-Allokation

Als strukturelle Basiseinheit kann der Turn (dt. Gesprächsschritt) angesehen werden (vgl. Sacks et al. 1992), der einen Gesprächsbeitrag bis zum SprecherInnen-Wechsel bezeichnet. Gesprächsschritte können unterschiedlich komplex aufgebaut sein. Es gibt initiierende und respondierende bzw. non-resondierende Gesprächsschritte (Brinker & Sager 1989: 71) sowie reaktivierende Gesprächsschritte. Die Turns weisen eine besondere Binnenstruktur auf: Sie bestehen aus sog. Turn-Constructional-Units (TCUs). Diese werden über ihre Möglichkeit zur Komplettierung als abgeschlossene Einheiten definiert. Die Punkte, an denen eine TCU als komplett betrachtet werden kann, werden als Transition-Relevance-Places (TRPs) bezeichnet. Ein Beispiel für diese Definitionsgrundlage findet sich u. a. bei Lerner (1991: C124A/C244A).

(1) D: They haftuh run programs for them to rehabilitate them tuh- to deal with the new materials. And if they ca:n’t,

(2) A: They’re out.

(3) (.)

(4) D: Mm hm,

Dass A Sprecherin Ds begonnene TCU komplettieren kann, spricht dafür, dass die TCU etwas in sich Abgeschlossenes darstellt. Im vorliegenden Beispiel bildet die Syntax des If-Satzes den Rahmen für eine Einheit, die erst dann als komplett zu betrachten ist, wenn der Nebensatz und der Hauptsatz formuliert sind. Wann eine Struktur als komplett bezeichnet werden kann, ist bis heute nicht ← 95 | 96 → vollständig geklärt.67 Vielmehr können allein Möglichkeiten unter bestimmten Einschränkungen diskutiert werden, denn GesprächsteilnehmerInnen können nicht wissen, wie ein Turn enden wird, sondern nur wie er enden könnte (vgl. Liddicoat 2007: 60). Dieses grundsätzliche Definitionsproblem der CA illus­triert plastisch, innerhalb welch enger Parameter Antizipation von Gesprächsbeiträgen lediglich möglich ist – in der HHC wie in der HCI. Empirisch können Komplettierungen allerdings immer wieder nachgewiesen werden und werden als Argument für die Antizipierbarkeit von Dialogbeiträgen ins Feld geführt(vgl. z. B. Bock & Levelt 1994; Garrett 1980).

Für eine KI sind solche Strukturen jedoch immer noch besonders schwer zu parsen, weil der einzelne Turn nicht alle notwendigen Informationen enthält. Die Generierung von Komplettierungen ist auch schwer, da nie eindeutig klar ist, wie komplettiert werden muss. Bei speziellen Konstruktionen, wie z. B. Konstruktionen mit „wenn, dann“, könnte je nach Interaktionssituation so genau antizipiert werden, dass die begonnene Struktur leicht vom Gegenüber vervollständigt werden könnte (s. o.).

Einzelne Komplettierungen konnten im Korpus für die HCI beobachtet werden (s. Kapitel 4). Im nächsten Schritt ist zu überlegen, wie dieses erlernte Gesprächsverhalten der UserInnen für ein anthropomorpheres HCI-Design genutzt werden kann.

2.2.2  Turn-Taking

Der Turn kann als Basiseinheit von HCI-Dialogen grundsätzlich in Analogie zur HHC angenommen werden. Für die Face-to-Face-Kommunikation in der HHC wurden zwei grundsätzliche Wege beschrieben, wie an jedem TRP die nächste Gesprächsteilnehmerin zum Turn kommen kann. Entweder wählt SprecherIn 1 SprecherIn 2 durch eindeutige Adressierung ihres Turns mittels diverser sprachlicher Mittel aus oder SprecherIn 2 ergreift selbst das Wort. Zwischen diesen beiden Möglichkeiten kann nicht immer äquivalent gewählt werden, vielmehr wird die Struktur des Turn-Takings von der Konstruktion der TCUs vorgegeben. Sacks et al. (1974: 704) formulieren eine Reihe von Regeln, welche die Turn-Konstruktion und die Turn-Allokation zueinander in Verbindung setzten. Wie ein Turn konkret formuliert ist, hat Auswirkungen auf das Turn-Taking-Verhalten ← 96 | 97 → der Interagierenden da er Gliederungssignale, Kontaktfunktionen und Schlusssignale enthalten kann (Liddicoat 2007: 68). Unter Anwendung der Konstruktions- und Allokationsregeln können Gespräche von SprecherInnen kooperativ aufgebaut werden. „The components, and the rules which relate them, are not static invariable constructs for organizing talk, but rather are deployable resources which can be used to claim or demonstrate understanding and to organize partizipation“ (Liddicoat 2007: 78).

In Bezug auf die HCI kann man nicht von einem Turn-Taking-System im Sinne der CA sprechen. Vor allem in der computervermittelten, medial schriftlichen HCI ist ein Aushandeln des Turn-Takings bislang nicht möglich. Demnach treten an die Stelle von Turn-Taking-Konventionen strikt begrenzte Regeln für die Allokation durch das Posting per Enter bzw. die Ausgabe des Texts durch das System. Gesplittete Postings seitens der UserInnen sind selten (s. Kapitel 4) und Übertragungstechnologien Keystroke-per-Keystroke werden in Bot-Anwendungen vermieden, um das Parsing nicht zusätzlich zu erschweren. In der medial mündlichen, telefonbasierten HCI wird Barge-In68 de facto meist vermieden.

Gerade für die HCI gilt aber, dass jeder Turn des Bots eindeutig eine Reaktion der UserInnen fordern sollte. Dabei müssen sich Dialog-DesignerInnen auch des Umstands bewusst sein, dass ein eindeutig adressierter Turn andere Wirkungen hervorruft als ein offen gestalteter. Je nach Einsatzbereich des Bots z. B. als persönliche Kundenberatung im 1:1-Gespräch oder als Werbe-Bot in einem Mehrparteien-Chat-Raum, wo andere Konventionen für die Sprachhandlungskoordination gelten, ist dies mehr oder weniger relevant. Sogar eine Verabschiedung durch den Bot evoziert im besten Fall noch die weitere Navigation der UserInnen auf der Website, die dann zwar nicht sprachlich erfolgt, aber am multimodalen Interface durch Anklicken eines Buttons. Inwiefern Sprachhandlungskoordination in den 1:1-Chats aus unterschiedlichen Anwendungskontexten in den Untersuchungskorpora für die UserInnen eine Rolle spielt, muss im Rahmen der empirischen Untersuchung überprüft werden (s. Kapitel 4.1). ← 97 | 98 →

Je nach situativem Kontext und thematischem Inhalt können Turns länger oder kürzer ausfallen. „Turn size is not fixed, but varies“ (Liddicoat 2007: 71). Multi-TCU-Turns sind in der HHC an der Tagesordnung, werden aber in ihrer Länge durch interaktives Aushandeln begrenzt. Laut Sacks führen die Regeln zur Turn-Konstruktion und Allokation in natürlichen Dialogen zu einer limitierten Turn-Länge, da ein Wechsel an jedem TRP theoretisch möglich sei. Da also an jedem TRP die Möglichkeit zur Unterbrechung gegeben ist, bleiben besonders lange Turns in der HHC die Ausnahme. Ein ausgewogenes Verhältnis der Redebeiträge ist die Präferenz (mit einer Reihe kontextabhängiger Einschränkungen). In der HCI findet dieses Prinzip bislang zu wenig Beachtung. Da Barge-In-Techniken komplex in der Umsetzung sind, bringen Bots in der Regel ihre Turns komplett vor, ohne unterbrochen zu werden. Vor allem die schriftliche Kommunikation via Chat eröffnet Dialog-DesignerInnen die Möglichkeit, längere Zusammenhänge oder eine große Menge an Informationen in hochkomplexen Einzel-Turns zusammenzufassen und als einen in sich geschlossenen Text ausgeben zu lassen. Diese Texte sind als eingeschobener Monolog formuliert (Sacks et al. 1992, Barr & Keysar 2004) und in der chat-basierten HCI sehr häufig. Die UserInnen haben keine Möglichkeit, den „Redefluss“ des Systems zu unterbrechen und reagieren frustriert oder einsilbig (s. Kapitel 4.1, 4.4). So gilt Liddicoats Aussage für die HCI nicht: „In all cases, however, being able to produce more than one TCU in a turn is the result of interactional work, not the result of a right to produce more than one TCU“ (Liddicoat 2007: 74). In der HCI liegt der Verteilung des Rederechts vielmehr eine einfache Design-Entscheidung zugrunde, nämlich dass lange System-Turns erwünscht sind, weil sie wichtige Inhalte vermitteln, und lange UserInnen-Turns dagegen unerwünscht, weil sie schwer zu parsen sind. Gerade bei Info-Bots oder in E-Learning-Anwendungen legt es der situative Kontext nahe, dass das System längere Erläuterungen ausgibt. Regeln der Turn-Konstruktion und Allokation können also nur bedingt aus der HHC auf die HCI übertragen werden. Wie UserInnen in der Interaktion mit dem artifiziellen Gegenüber damit umgehen, zeigt die empirische Analyse der Felddaten (Kapitel 4.1).

2.2.3  Adjazenzpaare

Als kleinste pragmatische Einheit der Konversation gilt in der CA der Account. Unter Account wird jede kommunikative Handlung zum Hervorbringen, Sichern oder Wiederherstellen von Sinn subsumiert. Manche Accounts machen bestimmte Aktionen als Folgeaktionen relevant und damit antizipierbar. Diese Relation zwischen Aktionen ist die Basis von Adjazenzpaaren. Auf ← 98 | 99 → der Mikro-Ebene der Interaktion kann auch beobachtet werden, dass benachbarte Turns strukturell eng miteinander verbunden sind. In der synchronen Kommunikation ist es möglich, bspw. auf Fragen aufwandsökonomisch kurz zu antworten. Allein die unmittelbare zeitliche Nähe von Äußerung A (Frage) und Äußerung B (Antwort) ermöglicht ein solches Gesprächsverhalten. Solche vor dem Hintergrund des vorangegangenen Kotextes operationable Ellipsen werden entsprechend als Adjazenzellipsen bezeichnet. Diese Strukturen finden sich in der Face-to-Face-Kommunikation und in der medial schriftlichen Kommunikation, sofern diese kozeptionell mündlich ist.

Der Definition von Sacks und Schegloff (1992) nach, bestehen Adjazenzpaare aus zwei Turns von zwei SprecherInnen, die in ihrer minimalen Form direkt aufeinander folgen, die geordnet sind und die nach unterschiedlichen Paar-Typen differenziert werden können. Dabei stellt die direkte Adjazenz den Regelfall dar, wobei indirekte Adjazenz (z. B. bei eingebetteten Strukturen) jedoch auch möglich ist. Der erste Teil einer Paarsequenz wird als first pair part (FPP) bezeichnet, der zweite Teil als second pair part (SPP). Manche Sprechakte sind in der Regel erste und manche zweite Teile. So geht z. B. einer Antwort prototypisch eine Frage voraus. U. a. folgende Typen von Adjazenzstrukturen werden in der CA nach semantisch-pragmatischen Kriterien unterschieden:

  • Frage – Antwort
  • Frage – Antwort – Feedback
  • Gruß – Gegengruß
  • Aufforderung – Antwort
  • Erzählen – Akzeptieren (z. B. Einladung – Annehmen/Ablehnen)

Der erste Teil initiiert die Aktion, die einen zweiten Teil relevant macht. „ […] adjacency pairs have a normative force in organizing conversation in that adjacency pairs set up expectations about how talk will proceed and if these are not met, then the talk is seen as being problematic“ (Liddicoat 2007: 107, vgl. auch Heritage 1984). Nicht auf jedes FPP folgt direkt ein SPP. In sog. „expanding sequences“ vgl. (Liddicoat 2007: 126) wird die Paarsequenz manchmal noch erweitert. Eine mögliche Realisation des FPPs als „attention-getting token“ (vgl. Liddicoat 2007: 126) ruft nicht unbedingt eine sprachliche Reaktion als SPP hervor, sondern erregt eben bestenfalls die Aufmerksamkeit des Gegenübers. Geschieht dies nicht sofort, kann das zu Reihungen von FPPs führen.

(1) A: Hey!

(2) A: Hey, B!

(3) (B schaut von seinem Buch auf.) ← 99 | 100 →

In der HCI werden solche Attention-Getting Tokens manchmal verwendet, um überhaupt das Interesse potentieller UserInnen für das System zu wecken. So macht bspw. der ECA Max der Universität Bielefeld durch Audio-Äußerungen wie „Spiel mit mir!“ oder „Sprich mit mir!“ im Nixdorf Museum in Paderborn auf sich aufmerksam. Bei der Implementierung dieses Verhaltens wurde nicht beachtet, dass erwachsene Menschen Attention-Getting Tokens nicht in Endlosschleife äußern, sofern keine Reaktion erfolgt. Dieses Verhalten erinnert allenfalls an kleine Kinder oder wirkt schlicht unnatürlich. Zwei bis maximal drei Wiederholungen sollten nicht überschritten werden.

Die Struktur der Adjazenzpaare steht in enger Verbindung mit dem Turn-Taking-System, da hier ein SprecherInnen-Wechsel immer relevant ist. Für SPPs gilt, dass theo-retisch immer unterschiedliche Realisationen möglich sind, was die Antizipierbarkeit von SPPs deutlich erschwert. Einfache Behauptungen, sog. Assessments, z. B. fordern eine negative oder positive Evaluation (Heritage 1985). Ihre Folgesequenzen sind daher nur schwer zu antizipieren. Sie sollten in HCI-Designs nicht isoliert verwendet werden, sondern z. B. eher in Kombination mit einer Frage etc., es sei denn die Reaktionen seitens der UserInnen ist für die weitere Entwicklung des Dialogs von nachgeordneter Bedeutung (vgl. Nonsense-Kommunikation bei Unterhaltungsbots).

2.2.4  Der Gesprächsrahmen

Um Dialoge robuster zu gestalten, sollten entweder stark konventionalisierte Sequenzen initiiert oder einfache Entscheidungsfragen gestellt werden. Als am höchsten konventionalisiert können wohl die Grußfloskeln angesehen werden. Brinker und Sager (1989) benennen diese als rituelle Phasen der Eröffnung und Beendigung oder als rituellen Rahmen. Stark ritualisierte Ausdrücke können als sprachliche Routinen auftreten. Eine Routine ist ein zu einem hohen Grad feststehender Ausdruck. Solche Konversationsmuster wie „vielen Dank“ oder „wie geht’s“ sind konstitutiv für alltagssprachlichen Dialog. 70 % der Wortformen im London-Lund-Spachkorpus sind Teil einer solchen Kombination (vgl. Aijmer 1996, Altenberg 1990). In HCI-Anwendungen funktioniert das zuverlässige Parsing solcher Routinen bei den meisten Bots schon vergleichsweise gut. Eine informelle Begrüßung durch den Bot provoziert in den meisten Fällen eine ebenfalls informelle Floskel auf Seiten der UserIn, die der Bot im nächsten Zug parsen können muss. Hier lohnt es sich, eine umfangreiche Datenbank für Begrüßungen anzulegen, wie sie in vielen hochentwickelten Bots bereits realisiert ist (vgl. z. B. System Max, Kopp et al. 2005, s. a. Kapitel 1.3). ← 100 | 101 →

(1) Bot: Hallo!

(2) UserIn: Hallo! / Hey! / Tach! / Moin! / Was geht? / Ciao!

(Makro für das Parsing möglicher UserInnen-Turns)

Dabei sind die meisten Routinen stabil, einige jedoch werden „on the fly“ gebildet, d. h. eine Gesprächsteilnehmerin führt eine bestimmte Formulierung mit einer bestimmten Interpretation ein und diese wird für die Dauer des Dialogs zur Routine, weil sie für die aktuelle Konversation zweckmäßig ist (vgl. Pickering & Garrod 2004: 181). In der anglophonen Literatur wird dieser Prozess unter den Begriff „Routinization“ gefasst (vgl. Pickering & Garrod 2004: 181). „Routinization on the fly“ (vgl. Pickering & Garrod 2004: 181) ist zu unterscheiden von in einer Sprachgemeinschaft vollständig konventionalisierten Dialogroutinen (vgl. Frozen Expressions). Für die HCI wäre ein Tool, das solche im Gespräch „on the fly“ routinisierten Ausdrücke oder Sequenzen aufspürt und markiert äußerst hilfreich, da so ein dynamisches Lexikon an die aktuelle Interaktionsszene angepasst werden könnte oder bestimmte Restriktionen für Adjazenzstrukturen gelten würden (z. B. eine bestimmte UserIn kommentiert Dank grundsätzlich mit „Keine große Sache!“).

2.2.5  Die Gesprächsmitte

Auch in der Kernphase des Dialogs finden sich rituelle Sequenzen, die bis zu einem gewissen Grad antizipierbar sind. Handelt es sich bspw. um ein institutionalisiertes Gespräch, so sind bestimmte Abläufe obligatorisch (vgl. Verkaufsgespräch).

(1) P: ein kopfsalat

(2) M: ein kopfsalat. (4.0) so (.) außerdem?

(3) P: drei zitronen

(Schlobinski 1997: 13)

Rituelle oder institutionalisierte Gespräche eignen sich grundsätzlich eher für HCI-Designs, da die Gesprächsschritte klarer definiert sind und die SprecherInnen sich teilweise bestimmter feststehender Ausdrücke bedienen. Je nach Anwendungskontext kann in solchen Fällen ein entsprechend konkretes Gesprächsprotokoll zur UserInnen-Führung implementiert werden (Skript). In ritualisierter Form liegen oft Äußerungen vor, die positive Beziehungsarbeit leisten sollen. Adäquate Reaktionen auf solche Höflichkeitsfloskeln können ohne großen Aufwand in ein System implementiert werden. Wesentlich problematischer ist hier die Antizipation des UserInnenverhaltens gegenüber einem Bot. Werden erlernte Formen der Höflichkeit auf das System übertragen und wenn ja, in welchem Maße? Goffmann prägte 1967 den Begriff des „Face“ als „positive ← 101 | 102 → social value a person effectively claims for himself“ (Goffmann 1967: 5), das es in der sozialen Interaktion zu bewahren gilt („face saving strategies“). Er legte damit den Grundstein für eine Theorie der sprachlichen Höflichkeit, die der CA nahesteht. Die Modelle zur sprachlichen Höflichkeit erfuhren seitdem eine Entwicklung und Ausdifferenzierung (vgl. Brown & Levinson 1987, Locher & Watts 2005, Spencer-Oatey 2005). Die im Verlauf dieses Forschungsdiskurses diskutierten Konzepte Höflichkeit, Face, Rapport Management oder Relational Work bilden unterschiedliche Perspektiven auf ein extrem komplexes Netz sozialer und individueller Variablen ab, die das Höflichkeitsempfinden eines kulturell geprägten Individuums in der Kommunikation mit einem Gegenüber beeinflussen. Inwiefern UserInnen dieses Verhalten auf die Interaktion mit einem deterministischen System übertragen, wird in Kapitel 2.5 und 4.4 genauer erörtert.

Bedingt antizipierbar sind auch einige Frage-Antwort-Sequenzen. Fragen können bestimmte Antworten projizieren. So wird bspw. bei Question-Tags im Englischen Zustimmung erwartet. Question-Tags oder Gesprächspartikeln („ne?“, „gell?“) könnten einfach in HCI-Dialoge implementiert werden, was zu vorhersehbareren SPPs auf Seiten der UserInnen führen würde. Entscheidungsfragen und Ja/Nein-Fragen haben generell leicht antizipierbare SPPs. Für ein robustes Dialog-Design sind sie in der HCI daher unerlässlich. Gerade in E-Learning-Anwendungen, wenn ein virtueller Tutor die Möglichkeit hat, Fragen zu stellen, und richtige und falsche Antworten vorhergesagt und unterschieden werden können, ist es möglich, funktionierende Dialog-Skripts zu schreiben. Adjazenzstrukturen können in Unterrichtssituationen auch als Triplets organisiert sein: Frage-Antwort-Feedback. Solche Triplets führen zu zwar lediglich system-initiativen, aber kohärenten und situativ angemessenen virtuellen Unterrichtsgesprächen69.

Die Struktur der Adjazenzpaare lässt sich auch in der Gesprächsmitte in der Regel besonders gut auf HCI-Designs mit enger UserInnen-Führung übertragen. Auf eine Frage folgt fast immer eine Antwort. Dieser Umstand reduziert die Anzahl möglicher Ausgaben seitens des Bots z. B. bei Entscheidungsfragen theoretisch auf nur zwei alternative Möglichkeiten. Eine enge UserInnenführung wird auf diese Art und Weise einfacher. Dialoge, die ausschließlich leicht antizipierbare Antworten evozieren sollen, werden aber – je nach Anwendungskontext – auch schnell als uninteressant und sehr künstlich empfunden. Um ← 102 | 103 → HCI-Anwendungen mit Hilfe der Erkenntnisse aus der CA abwechslungsreich, natürlich und gleichzeitig möglichst robust gestalten zu können, bedarf es gezielter Studien in diesem Bereich. Kleine Tricks im Dialog-Design wie bspw. Rückfragen per Question-Tag (s. o.) können bereits auf dem heutigen Stand der meisten kommerziell genutzten Bots leicht implementiert werden, ohne die System-Architektur zu ändern.

2.2.6  Störungen und Repair

Im Rahmen dieser Studie soll das UserInnen-Verhalten in Relation zu unterschiedlichen System-Designs in der Breite dargestellt werden; d. h., es werden sowohl störungsfreie Sequenzen als auch Sequenzen mit Störungen untersucht. Störungen der Interaktion sind in der HCI besonders häufig, da Parser auf allen linguistischen Ebenen störungsanfällig sind. In der HCI-Forschung wurden in der Vergangenheit vor allem Funktionsfehler der Systeme aus technischer Perspektive und Störungsmanagement der UserInnen aus linguistischer Perspektive untersucht. Fischer (2006) hat ein umfassendes Spektrum an Repair-Strategien der UserInnen herausgearbeitet. Die vorliegende Studie baut darauf auf und versucht diesen Aspekt des UserInnen-Verhaltens in ein Gesamtbild der HCI zu integrieren, das störungsfreie Sequenzen miteinbezieht. Denn auch an den Stellen, wo es nicht zu Repair kommt, kann man interessantes UserInnenverhalten beobachten, das Denkanstöße für neue Wege in der HCI liefern kann. Diese Sequenzen sind, obwohl sie von den UserInnen akzeptiert werden, trotzdem noch weit entfernt von „Star-Trek-Kommuikation“ (s. Kapitel 4.5). Außerdem soll im Vergleich der unterschiedlichen untersuchten Systeme herausgearbeitet werden, welche Systemvariablen, welche Art von Störung evozieren.

Fischer (2006) findet in HCI-Dialogen (nicht überraschend) vor allem Strategien des Self-Repairs (Sacks et al. 1992) der UserInnen, die hier kurz skizziert und im Rahmen der qualitativen Analyse überprüft werden sollen (s. Kapitel 4.1). Da die meisten Bots weder auf Common Ground zurückgreifen, noch zuverlässig Schlüsse aus Prämissen ziehen können, ist eine explizite Verständigung über eine Störung zur Klärung des Problems nicht möglich. Trotzdem verfolgen UserInnen Repair-Strategien wie bspw. Grounding zur Wiederherstellung von Common Ground, obwohl sie wissen, dass das System nicht auf die gleichen Ressourcen zurückgreifen kann wie ein menschliches Gegenüber (vgl. Fischer 2006). Ein weiteres Schlüsselproblem für die UserInnen in der HCI liegt in der Wahl der richtigen Wortformen, die vom System erkannt werden und die Ausgabe des erwünschten Antwort-Turns auslösen. Dass Repair z. B. durch Synonyme etabliert werden soll, zeigt laut Fischer (2006), dass UserInnen offenbar davon ausgehen, ← 103 | 104 → dass Bots über interne Lexika verfügten, die hinsichtlich ihrer Bandbreite mit mentalen Lexika von menschlichen GesprächspartnerInnen verglichen werden könnten. Diese Information ist wichtig, wenn Makros für innovative Parser angelegt werden sollen. Der komplexe Repair-Apparat für die HHC (Sacks et al. 1992) steht in Verbindung zu tiefgreifenden soziologischen und psychologischen Überlegungen, die nicht ohne Weiteres auf die HCI übertragen werden können. Fischer (2006, 2010) findet allerdings in Self-Repair-Strategien wichtige Hinweise auf bewusste kognitive Annahmen der UserInnen über das System und verweist aus diesem Grund auf die Relevanz des Forschungsfelds für die HCI-Forschung. Sie spricht sich dafür aus, UserInnen-Daten in Situationen zu erheben, in denen funktionale Strategien offener gezeigt werden als im übrigen Dialogverlauf, was bei Repair der Fall ist (vgl. Schlegloff et al. 1977, Frohlich et al. 1994). Problematisch an Repair-Studien in der HCI ist, dass Modelle über UserInnenverhalten aus Daten abgeleitet werden, die nur Gültigkeit für gestörte Kommunikation haben. Bei Störungen handelt es sich jedoch immer um eine Ausnahmesituation, in der die regulären Mechanismen des Dialogs nicht mehr greifen. Dass UserInnen aber defizitäre Dialogsequenzen oft über lange Passagen akzeptieren ohne Repair einzuleiten, könnte darauf hinweisen, dass sie das Erreichen eines allgemeinen Dialogziels tendenziell höher bewerten als die interne Kohärenz des Dialogs auf der Mikroebene (s. Kapitel 4.3). Auch in HHC-Dialogen kann eine solche Tendenz beobachtet werden. Cicourel formulierte 1973 das sog. Et-Cetera-Prinzip der Handlungsbeurteilung als typisches kommunikatives Verfahren. Dabei fügten GesprächspartnerInnen defizitäre Beiträge einvernehmlich in einen angemessenen Handlungskontext ein oder ergänzten fehlende Informationen aus ihrem Weltwissen. Auch wenn Dialogsystemen bislang für solche Operationen die Informationsgrundlage fehlt, liegt in diesem erlernten, kollektiven, menschlichen Verhalten eine Chance für die Akzeptanz von Bots. Da UserInnen in der HHC mit defizitären Äußerungen umzugehen gelernt haben, wenden sie das Et-Cetera-Prinzip u. U. auch auf defizitäre, inkohärente oder quasi-kohärente Ausgaben des Systems an. Aus diesen Annahmen und Erwartungen leitet sich ein „dialogisches Ökonomieprinzip“ (Brinker & Sager 1989: 134) ab: Ein Gespräch wird so lange weitergeführt wie die Diskrepanzen für die Interagierenden nicht signifikant sind. In diesem Kontext ist für die HCI von Interesse, wann der Schwellenwert für inakzeptable Interaktion bei NutzerInnen erreicht ist. An welchen Punkten kommt es zu Dialogabbrüchen? Welche Faktoren führen zu Frustrationen seitens der UserInnen (vgl. Kapitel 4.3)? ← 104 | 105 →

2.2.7  CA-basierte HCI-Forschung

Im Bereich der HCI-Forschung wurden in der Vergangenheit bereits einige Studien mit Methoden der CA durchgeführt, um dialogische Korpora auszuwerten. Dass eine Übertragung der Erkenntnisse aus der CA, die an HHC-Dialogen entwickelt wurde, auf die HCI überhaupt möglich ist, kann darauf zurückgeführt werden, dass unterschiedliche UserInnen-Gruppen (vgl. Fischer 2006) die gleiche Tendenz zeigen, nämlich das System als soziales Gegenüber zu behandeln (vgl. Krämer 2008) und damit das Inventar an konventionalisierten Strukturen aus der HHC zumindest teilweise auf die HCI zu übertragen (vgl. u. a. Takeuchi & Naito 1995, Graesser et al. 2000, Blens et al. 2003, Bernsen & Dybkjaer 2004). Sobald vom System ein gewisser Grad an anthropomorphem Verhalten vorgegeben ist, neigen UserInnen unabhängig vom jeweiligen UserInnen-Typ dazu, erlernte Strategien aus der HHC auf die HCI anzuwenden, was auch die vorliegende Studie in vielen Punkten belegt (vgl. Kapitel 4). Wooffitt et al. untersuchten bereits 1997 UserInnenverhalten in Bezug auf zentrale Konversationsoperationen wie Turn-Taking, Gesprächsrahmenstrukturen, Repair etc. in einem Wizard-Of-Oz-Szenario. Die AutorInnen kommen zu dem Schluss, dass „the human participant will still be doing the things that humans do when they interact. That is, the full range of culturally available sense-making procedures will be brought to bear on any occasion, even if the other party to the interaction is a computer“ (Wooffitt et al. 1997: 166). Dies steht im Gegensatz zu Zoeppritz’ (1985) Hypothese von einem vereinfachten Computer-Talk, den UserInnen dem System gegenüber bemühten (vgl. Kapitel 2.5). Bis heute bleibt umstritten, in welchem Maße Erkenntnisse über die Kommunikation unter Menschen auf die Interaktion mit artifiziellen Systemen übertragbar sind, denn die Akzeptanz der UserInnen gegenüber dem System hängt von zahlreichen Faktoren ab (vgl. Kapitel 1). Allgemein scheint aber die Beschäftigung mit HHC und CA Dialog-DesignerInnen für Mechanismen zu sensibilisieren, die menschlichem Interaktionsverhalten zu Grunde liegen und die den Verlauf einer Konversation maßgeblich beeinflussen können.

Um HCI-Anwendungen zu funktionierenden natürlichsprachlichen Interfaces weiterzuentwickeln, werden seit einigen Jahren regelmäßig CA-basierte Untersuchungen durchgeführt. Bereits seit den 1990er Jahren versucht die HCI-Community immer stärker CA-Modelle ins Design von Dialogsystemen einfließen zu lassen. Institutionalisierte HHC-Dialoge aus verschiedenen Bereichen des täglichen Lebens (Verkaufs- oder Beratungsgespräche, Bahnhofs- oder Flugplatzinformation) werden analysiert, um virtuelle Anwendungen für die jeweiligen Bereiche mit natürlichsprachlichen Gesprächsprotokollen auszustatten. Erste Versuche, ein Dialogsystem zu implementieren, das menschliches ← 105 | 106 → Gesprächsverhalten so gut wie möglich simuliert, wurden im SUNDIAL-Projekt der Europäischen Kommission schon in den frühen 1990er Jahren unternommen (vgl. Hutchby & Wooffitt 1998). Es handelte sich hierbei um eine automatische Telefonauskunft für Flughäfen. Ziel des Unternehmens war es, das sprachliche und interaktive Verhalten des Bodenpersonals an Telefonhotlines von Airlines über ein System mit Sprachausgabe nachzuahmen. Dazu wurde zunächst von britischen WissenschaftlerInnen ein großes Korpus mit herkömmlichen Beratungsgesprächen der Fluggesellschaft British Airways nach Kriterien der CA evaluiert, um auf der Grundlage früherer Daten das Gesprächsverhalten zukünftiger Kunden besser antizipieren zu können und um darauf abgestimmt die programmierte Reaktion eines Dialogsystems natürlicher wirken zu lassen; rein intuitiv war das nämlich nicht gelungen. Das SUNDIAL-Projekt zeigt in den Anfängen, dass Dialoge im Service-Bereich auch in Bezug auf komplexe Gesprächsstrategien oft große Gemeinsamkeiten aufweisen. Wenn man dieses Wissen in Form von Interaktionsregeln und Dialog-Skripts oder unter Rückgriff auf Dialog-Datenbanken für Bots zugänglich machen kann, sind funktionierende Service-Bots mit natürlichsprachlichem Interface bereichsspezifisch möglich.

Umgekehrt werden HCI und HRI-Dialoge auch von SprachwissenschaftlerInnen nach CA-Kriterien evaluiert (vgl. z. B. Fischer 2006, Vollmer et al. 2009), um eine besseres Verständnis des sprachlichen Userinnen-Verhaltens zu entwickeln. Dabei richtet sich im zweiten Schritt das Interesse auch wieder auf innovative Dialog-Designs für neue artifizielle Agenten. Die Mustererkennung und Generierung wurde in modernen Systemen bereits um Interaktionsregeln, Sprechakt-Parser, routinierte und konventionalisierte Paarsequenzen und Dialog-Skripts erweitert (vgl. u. a. Agentin REA von Cassell, Agent Max von Kopp & Wachsmuth).

2.2.8  Untersuchungsparameter aus der CA als Grundlage für die Korpusanalyse

Für die konkrete Analyse des Untersuchungskorpus’ von HCI-Dialogen müssen für eine quantitative Studie stringent operationalisierbare Untersuchungsparameter nach Erkenntnissen der CA entwickelt werden.

  • Gliederung der Dialoge in Turns und TCUs
  • Bestimmen der Rahmenstrukturen
  • Bestimmen von Adjazenzstrukturen
  • Klassifizierung der Accounts nach SWBD-DAMSL (s. Kapitel 3)
  • Störungen und Repair
  • Rolle des Mediums ← 106 | 107 →

Die grundsätzliche Gliederung der Dialoge in Turns und TCUs stellt den ersten Schritt dar. Adjazenzstrukturen werden unterschieden und Accounts werden klassifiziert. Dabei liegt ein besonderes Augenmerk auf Gesprächsrahmen und ritualisierten Sequenzen sowie den Besonderheiten der medial schriftlichen Interaktion. Die Ergebnisse der quantitativen Analyse finden sich in Kapitel 4.1 und sollen gewissermaßen das Skelett der untersuchten HCI-Dialoge abbilden. Da die in 2.1 benannten unterschiedlichen linguistischen Modelle, die zur Untersuchung von HCI in dieser Arbeit herangezogen werden, Überschneidungspunkte aufweisen, werden einige CA-Untersuchungs-parameter erst in späteren Kapiteln in einen übergeordneten Kontext eingeordnet. Die Untersuchungs- Parameter sind zwar der CA zuzuordnen, bekommen aber im Kontext anderer Modelle besondere Bedeutung für die HCI und werden daher im entsprechenden Zusammenhang erst an späterer Stelle erläutert.

2.3  Interaktives Alignment in der HCI

Im aktuellen psycholinguistischen Forschungsdiskurs um dialogische Kommunikation hat in den letzten Jahren ein Paradigmenwechsel stattgefunden (Günthner 2014: 132). Sprachliche Interaktion wird nicht länger als Wechselspiel separat verarbeiteter Äußerungen angesehen, sondern als eng miteinander verbundene pragmatische, soziale und kognitive „joint actions“ der InteraktionspartnerInnen (Clark 1996). SprecherIn und HörerIn können also in der Interaktionsituation als ein gemeinsames System interpretiert werden. Um zu verstehen, wie Sprachhandlungskoordination und kognitive Verarbeitungsprozesse im Dialog ineinandergreifen, muss eine tragfähige Modellvorstellung dieser „interaction engine“ (Levinson 2006: 39) entwickelt werden. Ein solches Modell der kognitiven Dialogverarbeitung wäre selbstverständlich auch für die HCI von besonderem Interesse, denn im Idealfall könnte eine künstliche Intelligenz nach dem Vorbild kognitiver Prozesse der Dialogverarbeitung gestaltet werden.

Die Psycholinguisten Pickering und Garrod (2004) gehen mit ihrem interaktiven Alignment-Modell noch einen Schritt weiter, indem sie versuchen, die Interaktion einer Dyade an sich in einem mechanistischen Modell zu fassen. Ausgehend von einfachen Konstruktionsübernahmen auf z. B. Ebene der Lexik oder Syntax der Interaktion bauen die GesprächsteilnehmerInnen vergleichbare Konzepte über die Interaktionssituation auf. Aus einem geteilten Repertoire von sprachlichen Konstruktionen auf der Ebene der Performanz werden gemeinsame kognitive Repräsentationen abgeleitet, die zu einem gemeinsamen Verständnis der Interaktionssituation führen, das dynamisch im Dialog aufgebaut werden kann und keinerlei Vorwissens bedarf. Dieser Prozess der wechselseitigen ← 107 | 108 → Angleichung der kognitiven Repräsentationen wird als Alignment bezeichnet. „Linguistic alignment, also called entrainment, convergence or synchronization, refers to the process in which a speaker re-uses linguistic structures previously presented by another speaker“ (Fischer im Druck: 45). In natürlicher Kommunikation zeigen GesprächsteilnehmerInnen also die Tendenz, Wortformen und Konstruktionen des Gegenübers für ihre eigenen Äußerungen zu übernehmen (to align). Alignment findet dabei auf unterschiedlichen Ebenen der Interaktion statt.

„When speaking in dialogue, for instance, speakers and listeners rapidly begin to converge on the same vocabulary (Brennan & Clark 1996), they tend to use similar syntactic structures (Bock 1986), they adapt the rate and other features of their speech to one another (Giles & Coupland 1991) and they mimic the other’s gestures and body posture (Kimbara 2006). That said, they align much of their behavior“ (Buschmeier & Kopp 2010).

Teilweise konnten diese Verhaltensweisen auch bei Menschen beobachtet werden, die mit einem artifiziellen Agenten interagierten (u. a. Branigan et al. 2000, 2010; Fischer 2006, im Druck). Die Funktion dieses UserInnen-Verhaltens als vorbewusstes Alignment oder bewuste Simplifizierungsstrategie ist allerdings umstritten. Ein differenzierteres Verständnis dieses Verhaltens könnte helfen, UserInnen-Eingaben zu antizipieren und zu manipulieren, indem bestimmte Formulierungen oder ein bestimmter Wortschatz vom System implizit vorgegeben werden könnte, ohne dass in unnatürlichen Metadialogen über den zulässigen Sprachgebrauch direkte Instruktionen gegeben werden müssten. Dialoge würden dadurch vorhersagbarer. Außerdem würde die Interaktion mit einem Bot, der selbst in der Lage ist, Alignment-Verhalten zu spiegeln, wahrscheinlich als natürlicher wahrgenommen. Das interaktive Alignment-Modell ist als Vorbild für die maschinelle Dialogverarbeitung auch aus unterschiedlichen weiteren Gründen interessant.

a) Da geteiltes Wissen vollständig aus dem Kotext abgeleitet wird, kommt es ohne Weltwissen und expliziten Common Ground aus. Für die HCI bedeutet das, dass auf umfangreiche Datenbanken mit Weltwissen und geteiltem Wissen idealerweise verzichtet werden könnte.

b) Pickering und Garrod (2004) gehen davon aus, dass dem interaktiven Alignment Lower-Level-Priming-Mechanismen zugrunde liegen; d. h. es kann als einfacher Mechanismus gefasst sowie ggf. operationalisiert und in ein System implementiert werden.

c) Als Lower-Level-Priming läuft es weitestgehend als vorbewusster Prozess ab. Es wäre also möglich, dass UserInnen dieses Verhalten aus der HHC auf die HCI übertragen (vgl. Hutchby 2001), und zwar als „mindless behavior“ (Reeves & Nass, 1996; Nass & Moon, 2000; Nass & Brave, 2005). Die Relevanz von Intentionalität und Spontaneität kann auf dieser Ebene des Lower-Level-Primings nicht diskutiert werden, da solche ← 108 | 109 → bewussten Handlungskonzepte durch höhere Kognition gesteuert werden. Folglich ist lediglich der vorbewusste Aspekt der Interaktion operationalisierbar für deterministische Systeme.

d) Mithilfe einfacher Repetitionen auf der Performanzebene könnte durch den natürlichen, kognitiven Ableitungsprozess kohärente Dialogprogression gefördert werden.

Ob das interaktive Alignment-Modell eine adäquate Beschreibung kognitiver Dialogverarbeitung darstellt, gilt als umstritten (vgl. u. a. Schober 2004, Pear 2004, Ferreira 2004, Schegloff 2004). Zusätzlich ist nicht eindeutig geklärt, in welchem Maße UserInnen Alignment-Verhalten auf die HCI übertragen (Fischer 2006, 2010, im Druck; Branigan et al. 2010). Doch für Überlegungen zur Konstruktion innovativer Agenten scheint das interaktive Alignment-Modell eine einfache Vorlage für eine robuste Architektur zu liefern, die sich in einen ECA implementieren lässt. Erste technische Umsetzungen solcher Überlegungen sind in den letzten Jahren bereits mehrfach versucht worden (z. B. Isard, Brockmann, Oberlander 2006; Purver, Cann, Kempson 2006; Walker, Stent, Mairesse, Prasad 2007; de Jong, Theune, Hofs 2008).

Im Folgenden soll das interaktive Alignment-Modell dargestellt und seine Bedeutung für die HCI-Forschung sowohl in Bezug auf das UserInnen-Verhalten als auch auf innovative Systemarchitekturen diskutiert werden.

2.3.1  Konstruktionsübernahmen auf der Ebene der Performanz und Alignment auf der Ebene der Kognition

Während in der CA konkrete sprachliche Strukturen im Dialog aus soziolinguistischer Perspektive mit Fokus auf dem situativen Kontext beschrieben werden (Language as Product), versucht die kognitive Linguistik die Prozesse der Sprachproduktion und Perzeption im Dialog zu erklären (Language as Action, vgl. Clark 1992), die diesen Strukturen zugrunde liegen. Wird also das Konzept des Alignments diskutiert, muss klar sein, dass es sich dabei um eine Modellvorstellung zur Erklärung eines kognitiven Phänomens handelt, das seinen empirischen Ausdruck in persistenten Äußerungen findet. Für die Analyse von HCI-Dialogen sind beide Ebenen gleichermaßen relevant: Einerseits kann mit Modellen der kognitiven Sprachverarbeitung das UserInnen-Verhalten interpretiert werden und innovative Systeme können von integrierten Verarbeitungsmodellen profitieren. Andererseits müssen sprachliche Muster an der Oberfläche des Dialogs genau definiert werden, um von einem Parser als Pattern erkannt werden zu können. Mit korpuslinguistischen Methoden ist nur das Produkt von Alignment-Prozessen messbar, also die wiederkehrende Struktur im Dialog. Mit Bezug auf Szmrecsanyis (2005) korpus-basierte Analysen zu Alignment in der ← 109 | 110 → HHC soll in dieser Arbeit der Begriff Persistenz verwendet werden. Von Persistenz spricht man, wenn eine Struktur mindestens einen SprecherInnen- und / oder Turn-Wechsel überdauert. Ausgehend von der persistenten Struktur im Korpus kann aus zwei Gründen nur dann auf Alignment-Prozesse im Gehirn geschlossen werden, wenn man ein gewisses Maß an Spekulation in Kauf nimmt: a) Zwischen den empirischen Sprachdaten im Korpus und psycholinguistischen Modellen klafft grundsätzlich eine Erklärungslücke (vgl. Kapitel 2.1) und b) außer Alignment kommen auch andere Modelle in Frage, um persistente Strukturen in Dialogen zu erklären (s. u.). Alle Deutungen, die über die Persistenzen auf der Performanzebene hinausgehen, können sich mehr oder weniger kohärent an die korpus-basierte Datenlage anschließen, überschreiten die Grenzen einer Korpusanalyse jedoch.

Im Folgenden soll zunächst das Phänomen persistenter Strukturen innerhalb einer Dyade in der HHC genauer beschrieben werden. Im Anschluss werden dann unterschiedliche Ansätze zur Erklärung solcher Konstruktionsübernahmen diskutiert.

2.3.1.1  Die Ebene der Performanz: Persistenzen

„Das Prinzip der Wiederaufnahme ist […] für Texte und Gespräche konstitutiv“ (Brinker 2001: 74), denn Dialoge ohne Wiederaufnahmen wirken inkohärent und rein additiv. Ihnen fehlt der „rote Faden“. Das Prinzip der Adjazenzpaare bildet die Folie, auf der Strukturen wechselseitig übernommen und interaktiv ausgehandelt werden. Dies gilt auf den Ebenen der Phonetik, Morphologie, Syntax und Lexik. Auch komplexe semantische Konzepte können interaktiv ausgehandelt werden. Die SprecherInnen schaffen sich auf diese Art und Weise ihr gemeinsames Repertoire an im Dialog definierten Bedeutungen und Strukturen. Vehikel für solche Aushandlungsprozesse ist die Übernahme von Lexemen und / oder Konstruktionen. Wird z. B. auf der Ebene der Lexik ein bestimmter Terminus eingeführt, so ist es wahrscheinlicher, dass er vom Gegenüber aufgenommen wird, als dass ein Synonym oder eine Paraphrase folgt.

(1) P: ein kopfsalat

(2) M: ein kopfsalat. (4.0) so (.) außerdem?

(Verkauf-17, Schlobinski 1997: 14)

Auch syntaktische Strukturen können bei (teilweise) abweichender Lexik übernommen werden.

(1) B: ach das ist dir wurscht

(2) A: und das ist mir völlig gleichgültig

(Brinker 2001: 74)
← 110 | 111 →

Durch den Ausdruck von A wird die syntaktische Struktur des Kopulasatzes von B gespiegelt. Brinker bezeichnet die persistente Struktur als Repetition: „Zwei aufeinander folgende Gesprächsschritte sind dadurch miteinander verbunden, dass der Folgeschritt die syntaktische Struktur des Vorgängerschritts ganz oder teilweise bewahrt, sie sozusagen wiederholt (also als Form der Wiederaufnahme durch Repetition)“ (Brinker 2001: 74, vgl. auch Rath 1979: 143f, Lappé 1983: 164f).

Brinker interpretiert die Funktion von Konstruktionsübernahmen als starkes Bestätigungssignal. „Insgesamt können wir feststellen, dass Konstruktionsübernahmen zumeist eine Bestätigungsfunktion haben; sie signalisieren noch intensiver als die entsprechenden Hörersignale70 (wie „genau“, „richtig“, „ja“, „stimmt“, „eben“ usw. oder nonverbal als Kopfnicken usw.), dass der Sprecher mit dem vorausgehenden Gesprächsschritt inhaltlich völlig übereinstimmt“ (Brinker 2001: 75). Dass aber über die Interpretation als HörerInnen-Signal hinaus ein wesentlich weiterer Begriff von Konstruktionsübernahmen angesetzt werden muss, zeigt die wissenschaftliche Diskussion seit den 1970er Jahren.

Das empirische Phänomen der Konstruktionsübernahme wurde mehrfach in verschiedenen Theorien beschrieben. Bereits bei Skinner wird Persistenz thematisiert: „a verbal response of a given form sometimes seems to pass easily from one type of operant to another“ (Skinner 1957: 188). Schegloff, Jefferson und Sacks 1992 thematisieren sog. Repeats als Konstruktionsübernahmen im Dialog. Dabei werden sowohl persistente Konstruktionen zu eigenen Äußerungen als auch zu Äußerungen des Gegenübers betrachtet. Für Persistenzen mit SprecherInnen-Wechsel findet sich auch der Terminus „Allo-Repetition“ (vgl. Tannen 2007). Eine starke Tendenz zum strukturellen Parallelismus wurde z. B. auch von Weiner und Labov (1983) in Bezug auf Aktiv- und Passiv-Konstruktionen im Dialog beobachtet. Auch die Computerlinguisten Purandare und Litman (2008) finden persistente Strukturen als primären Indikator für Dialogkohärenz: „Interestingly, we noticed that some of the most frequent lexical patterns in our data are those for which w1 = w2, e.g. hi-hi, bye-bye, school-school, tax-tax, music-music, read-read etc., which suggests that adjacent turns in our dialogs often show the same lexical content“ (Purandare & Litman 2008: 2).

Grundsätzlich kann unterschieden werden zwischen Persistenzen als:

  • genauen Kopien
  • phonologischen, morphologischen oder syntaktischen Derivaten ← 111 | 112 →

Es wird also teilweise auch dann von Persistenz gesprochen, wenn es sich bei der parallelen Struktur nicht um genau die gleiche Variable handelt, sondern um eine Variante. Dieser Umstand führt dazu, dass die quantitative Erhebung von persistenten Strukturen problematisch ist, da Ähnlichkeitsgrade auf den unterschiedlichen linguistischen Ebenen nicht ausreichend definiert sind (vgl. Bateman 2006, Fischer im Druck: 48). Methodisch können diese nur über Hilfskategorien erfasst weden. So führt Szmrecsanyi (2005) eine Unterscheidung zwischen Alpha-Persistenz und Beta-Persistenz ein, um unterschiedliche Ähnlichkeitsgrade abstufen zu können.

Alpha-Persitenz bedeutet: Ein/e SprecherIn wurde einer Struktur Z ausgesetzt und reproduziert sie.

Matt’ll find this out, and, I mean, we’ll get involved in it

(vgl. Szmrecsanyi 2005: 5)

Beta-Persistenz bedeutet: Ein/e SprecherIn wurde einer Struktur Z ausgesetzt, die parallel zu einer der Varianten von Z ist, und produziert eine Variante von Z, die parallel zu Z ist.

You go look, and every horse’s hoof is shaped different. It doesn’t matter. Every horse is gonna have [statt “has” oder “will have”, N. L.] a little different shape

(vgl. Szmrecsanyi 2005: 5)

Im ersten Beispiel zeigt sich die Alpha-Persistenz in der Beibehaltung der reduzierten Markierung des „will“-Futurs. Beide Formen sind also strukturell und funktional identisch. Bei der Beta-Persistenz folgt auf das Vollverb „go“ im ersten Teil die Klitisierung „gonna“ mit „go“ als Hilfsverb zur analytischen Form des „going-to“-Futurs. Diese beiden Formen differieren strukturell auf unterschiedlichen Ebenen (Vollverb vs. Hilfsverb, freistehend vs. Klitisierung). Dennoch kann unter kognitiven Gesichtspunkten das Vollverb „go“ als Prime für „gonna“ interpretiert werden. Die Unterscheidung zwischen Alpha- und Beta-Persistenz stellt eine sinnvolle Erweiterung des Begriffs von persistenten Strukturen dar. Eine Abstufung von Ähnlichkeitsgraden in einem Kontinuum von der genauen Kopie bis zur vollständigen Abweichung müsste feinkörnig auf unterschiedlichen Ebenen vorgenommen werden und wäre extrem schwer zu definieren. Für die vorliegende Studie wurde daher die stufenweise Unterscheidung zwischen Alpha- und Beta-Persistenz übernommen und für zwei Ebenen festgelegt: die Ebene der Lexik (morphologische Derivate) und die der Syntax (syntaktische Derivate in Bezug auf Form oder Funktion, s. Kapitel 3).71 ← 112 | 113 →

Konstruktionsübernahmen können darüber hinaus in Auto- oder Allo-Repetitionen differenziert werden. Warum SprecherInnen aber dazu neigen, bereits Geäußertes zu wiederholen, ist nicht eindeutig geklärt. Im Rahmen der CA wurden Persistenzen interpretiert

a) mit Fokus auf die strukturelle Beschaffenheit als „non-sentential turns” (vgl. Sacks et al. 1974, Schegloff 1996) oder pragmatisch als sprachliche Routinen, vor allem „how are you”-Routinen (Jefferson 1980; Sacks 1975).

b) mit Fokus auf die Verarbeitung als „monitoring during overlapping speech” (vgl. Schegloff 2000, 2001) oder als gemeinsame Konstruktionen („joint constructions”, vgl. Lerner 1991, 1996; Sacks et al 1992: 44–47).

So wurden bereits Prozesse des Monitorings sowie des interaktiven Aufbaus eines gemeinsamen Inventars an Konstruktionen angedacht. Aus diesen ersten Interpretationen konnten im nächsten Schritt psycholinguistische Modelle abgeleitet werden.

2.3.1.2  Die kognitive Ebene: Serielle Verarbeitung oder Alignment

Den psycholinguistischen Erklärungsansätzen liegen unterschiedliche Theorien zu Grunde. Dabei wurde Sprachverarbeitung anfangs als Verbal Behavior verstanden (Skinner 1957), später als serielle Verarbeitung unter Voraussetzung einer strikten Trennung von Produktion und Perzeption (vgl. z. B. Levelt 1989) oder interaktiv, indem Perzeptionsprozesse die Produktion beeinflussen können (vgl. z. B. Dell et al. 1999). Autonome Transmissionsmodelle wie bei Levelt (1989) gehen von separater Sprachperzeption und Produktion aus. SenderIn A und EmpfängerIn B einer Nachricht bilden ein jeweils abgeschlossenes System, dessen einzige Schnittstelle die phonetisch messbaren Frequenzen der Äußerung sind. Einziger Link zwischen A und B wäre unter dieser Perspektive die Information aus der Äußerung selbst (Cherry 1956). Eine Verarbeitung auf unterschiedlichen Ebenen der sprachlichen Repräsentation wird angenommen:

  • Phonetische Repräsentation
  • Phonologische Repräsentation
  • Lexikalische Repräsentation
  • Syntaktische Repräsentation
  • Semantische Repräsentation
  • Konzepte von der Interaktionssituation

Doch kann man bei getrennter Verarbeitung nichts darüber aussagen, ob Kodierung und Dekodierung über die gleichen Ebenen laufen oder ob Produzieren und Perzipieren u. U. zwei völlig unterschiedlichen Mechanismen folgt. ← 113 | 114 → Pickering und Garrod (2004) stellen die separate Verarbeitung, wie folgt, auf unterschiedlichen Ebenen im Modell dar.

Abbildung 14: Autonomes Transmissionsmodell

img14

Da Studien wie z. B. Branigan et al. (2000) auf eine Form des „Cross-Speaker-Primings” oder „Comprehension-to-Production-Primings” hindeuten, ist es wahrscheinlicher, dass Produktions- und Perzeptionsprozesse im Dialog gekoppelt vorliegen (vgl. auch Garrod 1999). Vor diesem Hintergrund wäre ein autonomes Transmissionsmodell nicht mehr adäquat, sondern eher ein Modell, das ein verbindendes Element zwischen Perzeption und Produktion berücksichtigt. Innerhalb der kognitiven Linguistik werden zwei Prozesse diskutiert, welche die Lücke zwischen SprecherIn und HörerIn überbrücken sollen: Alignment und Partner-Modeling. Beim sog. Partner-Modeling, Other-Modeling oder Mental-State- Modeling (Johnson-Laird 1983, Sanford & Garrod 1981, Zwaan & Radvansky 1998) handelt es sich um die Vorstellung, dass die Interagierenden während des gesamten Dialogs jeweils ihr eigenes Modell des mentalen Status‘ des Gegenübers mitrechnen. Alignment dagegen wird je nach theoretischer Einbettung in den Gesamtkontext des einen oder anderen Modells definiert als einfaches Lower-Level-Priming (Branigan et al. 2000, Pickering & Garrod 2004), als Epiphänomen ← 114 | 115 → der regulären Leistung des Arbeitsgedächtnisses (Kaschak 2003), oder als „parsing-directed grammar formalism“ (Kempson 2004)72. Alignment und Partner-Modeling müssen aber nicht als alternative Modelle verstanden werden, sondern können einander ergänzen. „These two processes are proposed to influence each other, but the exact nature of their interaction, as well as the exact nature of alignment and the contents and circumstances of partner modelling are still open issues” (Fischer 2010: 2353, vgl. Branigan et al. 2010).

2.3.2  Das interaktive Alignment-Modell

Pickering und Garrods Modell der geteilten Repräsentationen steht in der Tradition interaktiver Modelle der Dialogverarbeitung (vgl. Dell et al. 1999, Pickering et al. 2000). Bereits 1987 argumentierten Brown und Dell unter Bezugnahme auf ihre methodisch umstrittene Studie, dass sich Äußerungen auf gemeinsame Repräsentationen von Sprecherin und Hörerin bezögen und nicht auf die Sprecherin allein rekurrierten. Pickering und Garrod (2004) setzen diese Annahme in den Kontext ihres interaktiven Alignment-Modells und können innerhalb des Modells zeigen, welche vorbewussten Mechanismen zu solchen gemeinsamen Repräsentationen führen. Als mechanistisches Modell gleicht es in seiner Argumentation teilweise behavioristischen Überlegungen, wie Pear (2004) kritisiert, ist aber als Modellvorstellung eines kognitiven Prozesses selbstverständlich nicht als behavioristisch im engeren Sinne einzustufen.

Im Gegensatz zu autonomen Transmissionsmodellen gründet das interaktive Alignment-Modell auf der Annahme, dass GesprächspartnerInnen ihre linguistischen Repräsentationen einander angleichen, wobei sich diese automatische Anpassung während des Dialogverlaufs dynamisch vollzieht und immer wieder neu ausgehandelt werden muss. Eine solche Angleichung der kognitiven Prozesse bei DialogpartnerInnen erfolgt auch bei Pickering und Garrod auf den unterschiedlichen sprachlichen Repräsentationsebenen: phonologische Repräsentationen, lexikalische Repräsentationen, syntaktische Repräsentationen, semantische Repräsentationen und situative Konzepte. Doch sind die Ebenen der Repräsentation bei Produktion und Perzeption im interaktiven Alignment-Modell jeweils miteinander verbunden. „[…] in dialogue the linguistic representations employed by the interlocutors become aligned at many levels, as a result of a largely automatic process” (Pickering & Garrod 2004: 169). Statt autonomer Transmission schlagen Pickering und Garrod auf allen Ebenen der ← 115 | 116 → Repräsentation multiple Links zwischen den GesprächsteilnehmerInnen vor, die als bidirektionale Channels für Priming-Mechanismen auf der jeweiligen Ebene fungieren. Beim Formulieren einer Äußerung scheinen SprecherInnen immer von dem beeinflusst zu sein, was sie gerade gehört haben. Umgekehrt sind die ZuhörerInnen beim Zuhören eingeschränkt durch das, was geäußert wird. Produktion und Perzeption werden so zu einem auf unterschiedlichen Ebenen vernetzten System. Pickering und Garrods Verständnis von Dialog weicht daher grundsätzlich ab von einer traditionellen Auffassung von jeweils isoliertem Sender und isoliertem Empfänger als klar voneinander trennbaren Systemen. Die GesprächsteilnehmerInnen verschachteln Produktion und Perzeption eng miteinander. Diese Prozesse sind daher nach Meinung Pickerings und Garrods durch Alignment-Channels miteinander verknüpft. Unter Alignment versteht man entsprechend die Angleichung von Strukturen auf unterschiedlichen Levels der kognitiven Verarbeitung von Sprache.

Die von Pickering und Garrod ins Auge gefassten Vorgänge sind vorbewusst und damit automatisch, d. h., sie liegen zeitlich vor komplexeren Prozessen der bewussten Interpretation (t < 600ms, vgl. Pickering & Garrod 2004). Allein in diesen Bereich kann Alignment in Form von Lower-Level-Priming als treibende Kraft verstanden werden. Über Faktoren der bewussten Interpretation sagt das interaktive Alignment-Modell nichts aus. Seine Mechanismen müssen also sowohl zeitlich als auch logisch Überlegungen zur sozialen Zielorientiertheit oder Intentionalität von Äußerungen vorgeordnet sein. Dass SprecherInnen je nach Interaktionssituation auch völlig bewusst persistente Strukturen produzieren können, wurde vor allem in Studien zu sog. Simplified Registers nachgewiesen werden (vgl. Fischer im Druck). Soche strategischen Sprachhandlungen (bspw. zur adressatInnen-orientierten Simplifizierung) wären dem vorbewussten Alignment nachgeodnet und über Partnermodelle vermittelt (vgl. Fischer im Druck). Diese auf der kognitiven Ebene zeitliche Staffelung ist ausschlaggebend für den Geltungsbereich (Extension) des Begriffs Alignment in dieser Arbeit. Unter Alignment werden ausschließlich die Anpassungsprozesse während einer Interaktion verstanden, die vorbewusst ablaufen. Ob eine sprachliche Konstruktionsübernahme auf der Ebene der Performanz, kognitiv auf einen vorbewussten oder einen bewussten Prozess zurückzuführen ist, bleibt notwendig eine spekulative Überlegung.

Welche neurophysiologischen Prozesse beim vorbewussten Alignment im Detail ablaufen, vermag das Modell nicht zu erklären. Vielmehr definiert es Alignment zwischen den GesprächspartnerInnen auf unterschiedlichen Ebenen der linguistischen Verarbeitung als kognitives Kommunikationsziel und zeigt ← 116 | 117 → interaktive Mechanismen auf, die zu diesem Ziel führen. Pickering und Garrod gehen nun davon aus, dass Alignment von Syntax und Lexik auch zu Alignment von Semantik und Pragmatik auf der Ebene der Repräsentationen führe, was schließlich eine Anpassung der Situationsmodelle zur Folge habe. Eine Dyade sei nur dann im Gleichgewicht, wenn das, was A äußert, mit dem aktuellen semantischen und pragmatischen Modell der Situation von B übereinstimme (vgl. Garrod & Clark 1993). Pickering und Garrod fassen diese Überlegungen zum interaktiven Alignment-Modell grafisch wie folgt:

Abbildung 15: Das interaktive Alignment-Modell (nach Pickering und Garrod 2004)

img15

In der grafischen Darstellung stehen die horizontalen Linien für die sog. Alignment-Channels, über die Priming stattfindet; d. h., A tätigt eine Äußerung, die für B als Prime fungiert. B übernimmt daraufhin für die adjazente Äußerung Referenz, Lexik und Syntax von A. „Priming is itself a conservative mechanism that alters the accessibility but not the form or content of the associated mental representations. […] Priming does not change the repertoire; rather, it promotes alignment by favouring one particular model and its associated referring expressions” (Healey 2004: 201). Die Channels funktionieren direkt und automatisch, so ← 117 | 118 → dass der gesamte Prozess als vorbewusst angesehen werden kann. „There is no intervening “decision box” where the listener makes a decision about how to respond to the “signal”” (Pickering & Garrod 2004: 177). Folglich können Pickering und Garrod von einem „basic interactive alignment process, which is automatic and largely unconscious” (Pickering & Garrod 2004: 177) sprechen. Pear (2004: 206) zieht die Parallele zwischen Pickering und Garrods „channels of alignment” und Skinners (1959) „properties of verbal stimuli”.73 Priming ist hier allerdings nicht nur als einfacher Verhaltensmechanismus zu verstehen, da es Alignment und damit auch höhere Kognition auslöst. Durch den automatischen Priming-Prozess kommt es nämlich zu Alignment auf der jeweiligen Repräsentationsebene. So führt z. B. syntaktisches Priming zu syntaktischem Alignment usw. Branigan et al. (2000) finden Hinweise darauf, dass der Prozess als bidirektional verstanden werden kann. Da Produktion und Perzeption parallel und verknüpft ablaufen (vgl. z. B. Calvert et al. 1997, Liberman & Whalen 2000, MacKay 1987), können Strukturen, die gerade noch perzipiert worden sind, direkt und mit geringem kognitiven Aufwand für die Produktion verwendet werden. Umgekehrt gilt dies auch für gerade produzierte Strukturen bei der Perzeption. Auch für den Bereich der Syntax können empirische Belege erbracht werden (Branigan et al. 2000, Potter & Lombardi 1998, Bock 1986, Pickering & Branigan 1998).74 Eine umfassende Theorie, wie Priming auf den unterschiedlichen Levels genau funktioniert, liegt jedoch bislang nicht vor.

Beeinflusst durch den situativen Kontext und eventuell durch vorausgegangene Dialogsequenzen, haben die Interagierenden die gleichen oder sehr ähnliche Repräsentation auf allen Levels. Dieser Umstand schafft eine sehr gute Grundlage, nicht nur für ähnliche Assoziationen, sondern auch für ähnliche sprachliche Repräsentationen und somit für übereinstimmende Performanz. Wenn also auf der Performanzebene Persistenz beobachtet werden kann, dann liegt für Pickering und Garrod die Vermutung nahe, dass auch die zu Grunde liegenden sprachlichen Repräsentationen einander angeglichen seien. Die GesprächspartnerInnen als interagierende Dyade müssten demnach im Sinne der Systemischen ← 118 | 119 → Theorie als kombiniertes System behandelt werden (vgl. Kapitel 2.1). Da sie die Interagierenden eines Dialogs als ein solches Gesamtsystem begreifen, konstatieren Pickering und Garrod plakativ: „[…] we predict that it should be more-or-less as easy to complete someone else’s sentence as one’s own […]” (Pickering & Garrod 2004: 186).

Die bidirektionale Verlinkung der verschiedenen Repräsentationsebenen über Alignment-Channels wurde vielfach kritisiert. Einige ForscherInnen-Gruppen geben zu bedenken, dass Pickering und Garrods Modell eine übersimplifizierte Darstellung sei und dass man die unterschiedlichen Alignment-Prozesse auf den verschiedenen Ebenen separat betrachten müsse (vgl. Markman et. al. 2004: 203). Strukturelle Übereinstimmungen auf den Ebenen der syntaktischen und der phonologischen Repräsentation halten Markmann et al. für weniger problematisch, während sie eine direkte Verlinkung der Situationsmodelle zweier Interagierender für unmöglich halten. „This notation […] is a convenient shorthand, but people cannot directly access each other’s mental states” (Markman et. al. 2004: 203). Markmann et al. äußern berechtigte Kritik an der eher unglücklichen Darstellung der alignten Situationsmodelle anhand einer direkten Verknüpfung durch einen Alignment-Channel zwischen den Interagierenden auf der obersten Repräsentationsebene. Die Situationsmodelle werden über direkte Alignment-Prozesse im Gespräch neu angepasst, dadurch werden sie einander ähnlich, jedoch niemals identisch. Dies leistet nicht eine direkte Verlinkung zwischen zwei Situationsmodellen, sondern die übrigen Ebenen (Lexeme, Syntax) wirken hier konstitutiv. Alignt werden außerdem nicht die kompletten situativen Modelle im Sinne von identischem Weltwissen, sondern nur einige strukturelle Aspekte, wie z. B. die Gliederung des Maze-Game-Rasters als Felderinhalte oder als Gitterlinien. Die grafische Darstellung bei Pickering und Garrod ist dennoch irreführend. Mit Bezug auf die Versuche von Goldinger (1998) zur Phonetik, wurde eine grundsätzliche Diskussion zur Vergleichbarkeit von ähnlichen Repräsentationen geführt. „Representational alignment requires that two or more entities be identical in some way“ (Krauss & Prado 2004: 202). Allerdings ist es bspw. offensichtlich, dass Sprachdaten von unterschiedlichen SprecherInnen auf der Ebene der Phonetik niemals vollständig übereinstimmen. Pickering und Garrod wenden ein, dass Alignment unterschiedliche Grade haben könne. Und auch Krauss und Prado vermissen zu Recht eine Regel, nach der diese Grade definiert sein könnten. „In a continuously variable system, what degree of similarity constitutes an imitation?” (Krauss & Prado 2004: 203). Bei all diesen Überlegungen bleibt zu bedenken, dass allein die Repräsentationen auf den jeweiligen Levels parallel und ähnlich sein müssen, nicht die Prozesse, die zu ihnen geführt haben und auch ← 119 | 120 → nicht die Prozesse, die wiederum von Ihnen ausgelöst werden. Lässt man die bewussten Anteile der kognitiven Verarbeitung von sprachlichen Ausdrücken außer Acht, ist deren intentionaler Charakter als Bezugnahme eines denkenden Bewusstseins auf einen in der Aussage kodierten Sachverhalt nicht erfassbar (vgl. Searle 2006). Folglich ist eine ausschließlich vorbewusste Verarbeitung von Dialogbeiträgen nicht möglich. Wenn also die vorbewussten Repräsentationen von A und B tatsächlich vergleichbar sind, sind es die entsprechenden bewussten und intentionalen Äußerungen, die schließlich den Dialog bilden, noch lange nicht. Von alignten Repräsentationen kann also nicht direkt auf die Komplettierung von Äußerungen geschlossen werden, da so der Zwischenschritt einer bewussten, intentionalen Aussage übersprungen wird. Diese kann von A und B nicht völlig übereinstimmend gedacht werden, da unterschiedliche Bewusstseine die Äußerung mit Bezug auf erlerntes Wissen etc. auf unterschiedliche Weise intentional denken.

In den vergangenen Jahren sahen sich Pickering und Garrod immer wieder dem Vorwurf ausgesetzt, das interaktive Alignment-Modell sei übersimplifiziert und unspezifisch (vgl. u. a. Cutting 2004: 194). Hauptkritikpunkte sind die parallele Architektur von Produktion und Perzeption und die gleichartigen, direkten Priming-Channels auf allen Ebenen der linguistischen Repräsentation. „[…] we specifically criticize […] their notion of alignment being implemented through priming” (Schiller & de Ruiten 2004: 207). So unterscheiden Pickering und Garrod weder qualitativ zwischen einfachem, vorbewusstem Priming und lernbasiertem Priming, das kein direkter Mechanismus, sondern sehr komplex ist (Warren & Raynen 2004: 211; Schiller & de Ruiten 2004: 207). Ungeachtet der Diskussion um die Beschaffenheit der Alignment-Channels als einfache Priming-Mechanismen erscheint es grundsätzlich fraglich, ob man solche Verbindungen annehmen sollte.

Alignment-Channels sind u. U. vergleichbar einem wesentlich allgemeineren automatischen Perzeptions-Imitations-Link (Bargh & Chartrand 1999, Dijksterhuis & Bargh 2001), der vielleicht als Erklärung dafür herangezogen werden kann, warum Imitation eine so große Rolle für die soziale Interaktion spielt. Neurowissenschaftlich betrachtet legt die Nachweisbarkeit von Spiegelneuronen Imitationsprozesse allgemein nahe. In die Steuerung von Imitation und Sprache sind die gleichen Areale im Gehirn involviert (Brodmann’s Areas 44 & 45; vgl. Iacoboni et al. 1999, Rizzolatti & Arbib 1998), was natürlich die Einbeziehung von Imitation in sprachliches Verhalten als Interpretation zulässt. Auch könnten Mimikry-Effekte im Bereich der Mimik und Gestik als eine Form von Alignment gedeutet werden (Bargh & Chartrand 1999). Solange jedoch die derzeitigen ← 120 | 121 → bildgebenden Verfahren eine genauere Beobachtung der Vorgänge während der Sprachproduktion und Perzeption nicht zulassen, bleiben Aussagen in diesem Bereich eher spekulativ.

Allgemein kann man sagen, dass Pickering und Garrods mechanistische Erklärung zu kurz greift. Ausgehend von einer derart vereinfachten Darstellung wird es schwierig werden, Vorhersagen für Dialogstrukturen in neuen experimentellen, oder alltäglichen Kontexten zu treffen. Abschließend bleibt die genauere Spezifizierung der Priming-Mechanismen und ihrer Rolle für Produktion und Perzeption als Desideratum. „However, the theory is not truly “mechanistic.” A full account requires both representations and processes bringing those representations into harmony” (Goldinger & Azuma 2004: 199). Weder durch Theorien, die von vollständig bewussten Abläufen ausgehen, noch durch voll automatische Modelle können auf der Performanz-Ebene nachweisbare Persistenz-Phänomene erklärt werden. „We argue for the inclusion of less automatic, though not completely conscious and deliberate, processes to explain such phenomena” (Krauss & Prado 2004: 202).

Für die HCI ist Kritik an Priming-Mechanismen interessant, weil sie auch immer eine Kritik an rein deterministischen Abläufen ist. Je wichtiger bewusste Prozesse für die Sprachverarbeitung im Dialog sind, desto schwieriger wird die technische Umsetzung.

2.3.2.1  Impliziter Common Ground

Pickering und Garrod teilen die Auffassung von Zwaan und Radvansky (1998), dass die Basis für einen erfolgreichen Dialog im Alignment der Situationsmodelle zweier Interagierender liege.75 Bei Situationsmodellen handelt es sich um eine in der kognitiven Psychologie gängige Modellvorstellung von der Struktur der Repräsentation eines situativen Kontexts im Gehirn eines Individuums, das diesen Kontext denkt. „A situation model is a multi-dimensional representation of the situation under discussion” (Johnson-Laird 1983, Sanford & Garrod 1981, Zwaan &Radvansky 1998). „Such models are assumed to capture what people are “thinking about” while they understand a text” (Pickering & Garrod 2004: 172). Alignment auf der Ebene der situativen Modelle erfolgt über Alignment auf allen anderen Ebenen der linguistischen Repräsentation. ← 121 | 122 →

Ausgangspunkt dieser Argumentation ist ein Experiment von Garrod und Anderson (1987). Es handelt sich dabei um Beobachtungen während eines kooperativen Spiels (Maze-Game), bei dem die SpielerInnen gegenseitig die jeweilige Position ihrer Spielsteine innerhalb eines Spielbrettrasters mit Zeilen und Spalten beschreiben müssen, da die Position der einen für die andere verdeckt bleibt (vgl. „Schiffe versenken“).

(1) B: … Tell me where you are?

(2) A: Ehm : Oh God (laughs)

(3) B: (laughs)

(4) A: Right : two along from the bottom one up :

(5) B: Two along from the bottom, which side?

(6) A: The left : going from left to right in the second box.

(7) B: You’re in the second box.

(8) A: One up (1 sec.) I take it we’ve got identical mazes?

(9) B: Yeah well : right, starting from the left, you’re one along :

(Garrod & Anderson 1987)

Die Äußerungen der ProbandInnen in den Transkripten der Tasks erscheinen zunächst ungrammatisch und unverständlich, wenn man den Kontext der Interaktionssituation als Spiel außer Acht lässt. Als „joint activity“ (Clark 1996, Clark & Wilkes-Gibbs 1986) betrachtet kann die Interaktion unter diesem Aspekt mit einem „game of cooperation“ (Lewis 1969) verglichen werden, bei dem beide DialogpartnerInnen gewinnen, wenn die Kommunikation gelingt und niemand gewinnen kann, wenn sie scheitert. Aus diesem Grund finden die GesprächsteilnehmerInnen eine gemeinsame Sprache für die Interaktion im Spiel mit geteilten Begriffen (box, bottom) und gemeinsamen Verweisrelationen (one along, two along). So ist z. B. zu beobachten, dass einige ProbandInnen-Paare sich darauf einigen, Kästchen im Raster abzuzählen. Andere Paare zählen die Linien zwischen den Kästchen und kommen entsprechend zu anderen Zahlenwerten. Hätten sie sich nicht auf eine gemeinsame Strategie geeinigt, wäre die Kommunikation gescheitert. Pickering und Garrod sehen in diesem Umstand einen Hinweis auf ein Alignment der strukturellen Aspekte der Situationsmodelle der GesprächspartnerInnen. Unter strukturellen Aspekten des Situationsmodells wird eine bestimmte Perspektive auf die Organisation des Rasters verstanden. Die ProbandInnen könnten in Bezug auf ihre Position lügen (inhaltliche Dimension), aber sie nutzten trotzdem entweder ein figürliches oder ein lineares Modell (strukturelle Dimension).

Die auf der Performanzebene beobachtete Koordination von Äußerungen, die als adjazente, elliptische Ausdrücke ineinander greifen, kann unter verschiedenen psycholinguistischen Perspektiven als Produkt ganz unterschiedlicher ← 122 | 123 → Prozesse gedeutet werden (vgl. Clark 1985, Garrod & Anderson 1987, Branigan et al. 2000). Pickering und Garrod gehen von aufeinander abgestimmten Situationsmodellen (Kognition) als Voraussetzung für koordiniertes Dialogverhalten (Performanz) aus. „Specifically, alignment occurs at a particular level when interlocutors have the same representation at that level. Dialogue is a coordinated behaviour” (Pickering & Garrod 2004: 172).

Obgleich eine präzise Definition der strukturellen Aspekte von situativen Modellen leider fehlt, grenzen Pickering und Garrod ihre Hypothese über alignte Situationsmodelle deutlich von Mental-State-Hypothesen ab. Zu DialogpartnerIn As eigener Repräsentation eines situativen Kontexts kommt also nicht noch ein zusätzliches Modell über die Vorstellungen von DialogpartnerIn B hinzu. Vielmehr entwickeln A und B über ihre Interaktion Situationsmodelle mit gleichen strukturellen Eigenschaften. Laut Pickering und Garrod (2004) wird dieses Alignment von Situationsmodellen durch einen einfachen und ressourcenfreien Priming-Mechanismus erreicht. Der gleiche Mechanismus produziert Alignment auf anderen Ebenen der linguistischen Repräsentation (Phonologie, Lexik und Syntax). Alignment auf einer Ebene führt zu Alignment auf den anderen Ebenen, da Zwischenverbindungen in Form von Alignment-Channels zwischen den Levels bestehen. Ein vollständiges Alignment der situativen Modelle ist für eine erfolgreiche Gesprächsführung weder möglich, noch nötig oder sinnvoll. Es muss zwar Einigkeit darüber bestehen, was eigentlich Gegenstand der Diskussion ist (vgl. Sacks 1987), doch müssen unterschiedliche GesprächspartnerInnen selbstverständlich verschiedene Standpunkte vertreten können (vgl. Schober 2004).

Einfache Priming-Mechanismen gelten jedoch als verarbeitungsökonomischer als Partner-Modeling, bei dem gleichzeitig zwei Modelle unterhalten werden müssen: die eigene Repräsentation und die Vorstellung über das Modell des Gegenübers (vgl. Brennan 2010). Die Vorstellung zweier über einfaches Priming alignter Situationsmodelle als Basis erfolgreicher Kommunikation erscheint zunächst elegant, da so durch primitive Mechanismen mit einem Minimum an Energieaufwand ein Maximum an struktureller Übereinstimmung erzielt werden kann, was zu einer effizienten Kommunikation führt.76 Ob die vorgenommene Kategorisierung jedoch vom Maze-Game ohne Weiteres auf komplexere situative Kontexte übertragbar ist, erscheint fraglich.

Die Vorstellung von alignten Situationsmodellen steht in Konflikt zu Kommunikationstheorien, die geteiltes Wissen als Common Ground voraussetzen ← 123 | 124 → (Clark & Schaefer 1989). Allerdings stellen solche Theorien, die sprachliche Aushandlungsprozesse als Vehikel zum Herstellen und Sichern von Common Ground interpretieren (Grounding), das prominente Paradigma im aktuellen wissenschaftlichen Diskurs dar (Clark & Marshall 1981, Clark & Schaefer 1989, vgl. auch Stalnaker 2002). Sie besagen, dass erst die Etablierung von Common Ground zu einem erfolgreichen Dialog führe (Clark & Wilkes-Gibbs 1986). Um eine solche gemeinsame Basis zu schaffen, müsse jede Gesprächsteilnehmerin ein sog. Mental-State-Modell der jeweils anderen entwickeln (s. Kapitel 2.3). Im Falle einer Störung des Dialogs könne dann explizit auf den Common Ground zurückgegriffen und sich auf eine gemeinsame Ausgangsbasis verständigt werden. Explizites Grounding sei die prominente Repair-Strategie. Die Voraussetzung für Other-Repair bildet im Rahmen dieses Ansatzes Partner-Modeling.

Pickering und Garrod widersprechen der Auffassung von explizitem Common Ground und Partner-Modeling bzw. Self-Monitoring und propagieren dagegen Alignment, das von der niedrigsten zur höchsten Ebene aufgebaut werde, als wahrscheinlicher, da es viel direkter sei und ein „much more automatic process” (Pickering & Garrod 2004: 178). Durch Anpassungsprozesse auf den jeweiligen Repräsentationsebenen werde ein sog. impliziter Common Ground etabliert, der sich als Anpassung der situativen Modelle der DialogpartnerInnen manifestiere. Der implizite Common Ground könne als Regelfall angesehen werden. „In fact, the better aligned speaker and listener are, the closer such an implicit common ground will be to the full common ground, and the less effort need be exerted to support successful communication” (Pickering & Garrod 2004: 179). So könne bei Störungen des Dialogs direkt auf impliziten Common Ground zurückgegriffen werden, um Other- oder Self-Repair implizit einzuleiten. Pickering und Garrod fassen Self-Monitoring als Alignment mit sich selbst, in dem Sinne, dass auf diese Art und Weise eigene Repräsentationen evaluiert werden. „In other words, monitoring is a by-product of a language processing system that is sufficiently flexible to allow comprehension and production to occur to some extent simultaneously in dialogue” (Pickering & Garrod 2004: 184). Die gleichen Alignment-Channels übernehmen die Aufgabe des Self-Monitorings, die auch zur Anpassung an das Gegenüber dienen. Anders perspektiviert kann Self-Monitoring ferner als Abstimmung der eigenen Äußerung auf den impliziten Common Ground verstanden werden, während Zuhören als Abgleich der Äußerung des Gegenübers mit dem impliziten Common Ground zu verstehen ist.

Elaboriertere Strategien wie Partner-Modeling (z. B. beim Grounding) werden laut Pickering und Garrod erst dann bemüht, wenn das einfache Alignment völlig versagt und es bereits zu einer Störung des Dialogs gekommen ist. So stellen ← 124 | 125 → sie den Rückgriff auf vollständigen Common Ground als Repair-Strategie bei offenkundigem Misalignment vor, wenn interaktives Repair bereits versagt hat. Diese Leistungen höherer Kognition könnten dann als Mental-State-Modelle bezeichnet werden. Über Alignment werde nur impliziter Common Ground eta­bliert, vollständiger Common Ground werde nur dann erreicht, wenn es kognitiv notwendig sei, bewusst zu re-analysieren.

Dieser Argumentation wurde vorgeworfen, sie sei paradox. Denn wenn man nur dann ein Modell der Gesprächspartnerin brauche, wenn das Alignment versage, woher wisse man dann, dass das Alignment versagt habe? Man hatte ja vorher kein Modell des Gegenübers, mit dem man den neuen Zustand hätte vergleichen können (Schober 2004). Begrifflich liegt das Paradoxon auf der Hand; als natürlicher Prozess ist die Erklärung von Pickering und Garrod jedoch trotzdem vorstellbar. Die Interagierenden bemerken nicht explizit, dass ihr Alignment defizitär ist, sondern es kommt vielmehr zu einem einfachen Missverständnis, das man sich modellhaft als unspezifische Fehlermeldung vorstellen könnte. Darauf folgt die Re-Analyse auf einer höheren kognitiven Ebene. Störungsanfällige Dialoge kommen folglich nicht ohne expliziten Common Ground aus.

Die Annahme eines impliziten Common Grounds wurde auch in Bezug auf verschiedene weitere Aspekte kritisiert. So sei auf der Ebene der situativen Modelle Alignment immer nur partiell möglich, weil gemeinsame Konzepte nie als direkte Kopien vorliegen könnten und immer sprachlich vermittelt seien (Branigan 2004). Ferner seien allgemeine Priming-Mechanismen als Motor für Alignment im Bereich der Semantik und Pragmatik unwahrscheinlich (Branigan 2004, Barr & Keysar 2004, Warren & Raynen 2004) und es sei neurowissenschaftlich gar nicht erwiesen, ob die Verarbeitung als impliziter Common Ground energieökonomischer sei als Partner-Modeling und vollständiger Common Ground (Schober 1998b, 2004). Dagegen sei die Möglichkeit zur Perspektivübernahme als Partner-Modeling immanent wichtig für die Dialogführung bei der Auswahl von Deiktika und beim Turn-Taking (Fussel & Kraut 2004). So trüge das Alignment-Modell gut für diese strukturelle Ebene der Dialogverarbeitung (Lexik, Syntax), aber eben nicht für abstraktere Konzepte (vgl. Branigan 2004).

Daraus leitet sich ab, dass das interaktive Alignment-Modell auch nur eingeschränkt auf die HCI übertragen werden kann. Aus dem Kontext abgeleiteter impliziter Common Ground kann vollständigen Common Ground, der in Form von Grounding auch explizit gemacht werden kann, nicht ersetzen. Das interaktive Alignment-Modell kommt bei Störungen im Dialog nicht ohne vollständigen Common Ground aus. Wahrscheinlich wird dieser sogar sehr häufig hergestellt. In der störungsanfälligen HCI kann letztlich wohl kaum auf Common ← 125 | 126 → Ground und Partner-Modeling verzichtet werden (Branigan et al. 2010), zumal modellhafte Vorstellungen der UserInnen über den Bot ihre Sprachhandlungen bestimmen (vgl. Fischer 2006, im Druck). Heutigen Bots fehlen jedoch weitestgehend Wissensbasen, die umfangreich genug sind, um die nötigen Ressourcen bereitzustellen. Was als Vorteil des interaktiven Alignment-Modells vermutet wurde, nämlich der Verzicht auf vollständigen Common Ground, schleicht sich durch die Hintertür als Problem wieder ein, da von den KritikerInnen zu Recht bezweifelt wird, dass alignte SprecherInnen über lange Passagen ohne vollständigen Common Ground und Grounding-Strategien auskommen – vor allem nicht, wenn eine/r der GesprächsteilnehmerInnen ein Bot ist.

Gerade bei einer Dialogverarbeitung mit implizitem Common Ground würde das Problem des Wissensgefälles zwischen Bot und Mensch emergent. Impliziter Common Ground umfasst immer nur Wissen, das direkt aus dem Dialog abgeleitet werden kann. Beide Interagierenden verfügen also auch über reiche Ressourcen nicht geteilten Wissens. Bestehen große Unterschiede in Bezug auf das Weltwissen der GesprächspartnerInnen, kann impliziter Common Ground nicht ohne Irritationen dynamisch im Dialog entwickelt werden, sondern es bedarf expliziten Groundings. Hierin zeigt sich ein grundsätzliches Problem des Implicit-Common-Ground-Ansatzes für die HCI, da Mensch und Maschine die Interaktionssituation auf der Grundlage völlig unterschiedlicher Wissensbasen interpretieren. Dies führt zusätzlich dazu, dass UserInnen versuchen, die Asymmetrie durch eine bewusste Anpassung an den limitierten Wortschatz des Systems zu kompensieren (vgl. Fischer im Druck). Die dabei produzierten Persistenzen könnten dann nicht mehr als vorbewusstes Alignment interpretiert werden und wären auch nicht mehr Teil eines deterministischen Gesamtsystems.

Schegloff (2004: 207) betont die Einbettung der einzelnen Turns in den Gesamtkontext einer Interaktionssituation, um zu zeigen, dass Pickering und Garrod eine beträchtliche Zahl von Variablen vernachlässigen, die Einfluss auf einen Dialog haben:

„For most humans on the planet since the species developed „language,” the overwhelmingly most common ecological niche for its use has been (1) the turn at talk, (2) as part of a coherent sequence of turns, (3) through which a course or trajectory of action is jointly pursued by some or all of the participants (not necessarily cooperatively, but jointly), (4) in an episode of interaction, (5) between two or more persons, (6) organized into two or more parties, (7) the occasion of interaction being composed of one or more such episodes. […]The mechanisms of production and comprehension being addressed by Pickering & Garrod need to be understood in this context. It is this context that is missing from Pickering & Garrod’s treatment” (Schegloff 2004: 207). ← 126 | 127 →

Der situative Kontext bringt zahlreiche soziale Implikationen mit sich, die nicht in einem einfachen deterministischen Modell als Automatismen fassbar sind. So handelt es sich bei den Interagierenden um Personen mit Intentionalität und Spontaneität, die vor dem Hintergrund bestimmter sozialer Verhältnisse kommunizieren. Das komplexe Netz an Informationen, in das die Interagierenden beide wenigstens teilweise Einblick haben müssen, um vollständigen Common Ground herstellen zu können, kann zum heutigen Zeitpunkt nicht in einen Bot implementiert werden.

Dialogverarbeitung mit Hilfe von Konstruktionsübernahmen ist also nicht kontextfrei und kommt nicht ohne expliziten Common Ground und Rekurrenz auf Weltwissen aus. Der eingangs benannte Punkt a) aus der Liste von Aspekten des interaktiven Alignment-Modells, die es für die HCI besonders interessant machen, nämlich dass es kontextfrei funktioniere, muss also zurückgewiesen werden. Hier sind Ansätze, die große Datenbanken mit semantischen und pragmatischen Wissensrepräsentationen hinterlegen und mit Partnermodellen arbeiten, vielversprechender als Alignment-Generatoren. Indem Punkt a) zurückgewiesen wird, muss auch Punkt c), die Frage nach Dialogkohärenz, zurückgewiesen werden. Denn ohne vollständigen Common Ground sind in der HCI keine kohärenten Dialoge möglich. Alignment auf der Ebene der Lexik und der Syntax dagegen ist als grundsätzlicher Mechanismus des sprachlichen Handelns aber eindeutig nachweisbar. Auf der Strukturebene kann also auch in der HCI mit Alignment gerechnet werden. Welche Funktion dieses Verhalten in der HCI erfüllt, muss im Einzelfall entschieden werden. Wenn Menschen Alignment-Verhalten auch vorbewusst auf die HCI übertragen (vgl. Kapitel 4), sollten Bots auf der Ebene der Performanz mit diesem Verhalten umgehen können und es eventuell auch simulieren. Der Anwendungsbereich für ein Alignment-Modell in der HCI liegt also eindeutig im Bereich der sprachlichen Strukturen als lexikalische oder syntaktische Persistenzen, die tatsächlich mechanistisch erzeugt werden können, und nicht im Bereich der geteilten situativen Konzepte. Aus diesem Grund soll im Folgenden der Fokus auf lexikalischem und syntaktischem Alignment liegen.

2.3.2.2  Lexikalisches Alignment

Lexikalisches Alignment kann wie folgt definiert werden: Auf der Folie einer Theorie der Referenz nach signifié und signifiant (Saussure 1967–1974) kann davon ausgegangen werden, dass SprecherIn A mit einem Lexem L (signifié) auf einen Begriffsumfang BU (signifiant) referiert. Übernimmt SprecherIn B nun die Relation [L ist Zeichen für BU] von SprecherIn A, so liegt lexikalisches Alignment ← 127 | 128 → vor. Referenzrelationen sind innerhalb einer Sprachgemeinschaft stark konventionalisiert, jedoch besteht häufig die Möglichkeit, Synonyme oder semantisch nur leicht abweichend konnotierte Lexeme für das fragliche Lexem L einzusetzen. Im Dialog scheint dies aber nicht der empirischen Praxis zu entsprechen. Vielmehr scheinen Begriffsumfänge ausgehandelt und innerhalb der Dyade neu bestimmt zu werden. Gebraucht A Lexem L für BU und nicht ein entsprechendes Synonym, wird auch B L gebrauchen. Gebraucht A L mit einer besonderen Konnotation, so wird B diesen besonderen BU übernehmen. Empirische Hinweise auf lexikalisches Alignment finden z. B. Garrod und Anderson (1987), Garrod und Clark (1993), Garrod und Doherty (1994), Brennan und Clark (1996) Clark und Wilkes-Gibbs (1986) sowie Wilkes-Gibbs und Clark (1992). Modellcharakter für verschiedene Studien hat ein Experiment von Levelt und Kelter (1982). Diese untersuchten die Reaktionen von ProbandInnen auf die zunächst bedeutungsgleichen Fragen „What time do you close?” und „At what time do you close?”. Sowohl für das Englische als auch für das Niederländische waren die Antworten immer kongruent:

(1) A: What time do you close?

(2) B: Five o’clock

(1) A: At what time do you close?

(2) B: At five o’clock

Pickering und Garrod (2004: 174) führen dieses Beispiel als exemplarischen Fall an, den man sowohl als lexikalisches oder als syntaktisches Alignment interpretieren könne. Einerseits kann man von einer Persistenz des Lexems „at“ (vs. Null-Lexem) sprechen, mit Fokus auf die Syntax kann man andererseits sagen, dass die phrasale Kategorie der Präpositionalphrase wiederholt wird. Das Kopfprinzip spricht allerdings für eine Interpretation als syntaktisches Phänomen, das in Sprachen mit der entsprechenden Kasusmarkierung auch offensichtlich wird.

Pickering und Garrod sind nicht der Meinung, dass höher frequente Wörter öfter persistent realisiert werden. Statt der Häufigkeit sei die „accessibility with respect to the dialogue context” (Pickering & Garrod 2004: 184) der ausschlaggebende Faktor, der zu Persistenz und damit zu Alignment führe. Die Auswahl der Lexeme im vorangegangenen Kontext, insbesondere des Vorgänger-Turns, beeinflusst also die Wortwahl im aktuellen Turn. Über längere Sequenzen kann auf diese Weise eine Menge immer wiederkehrender Wortformen etabliert werden. Darin liegt eine Chance für vereinfachtes Parsing in der HCI. Für eine Menge besonders persistenter Wörter mit individuell ausgehandelten Bedeutungen innerhalb eines Dialoges schlagen Pickering und Garrod den Terminus „Dialogue-Lexicon“ vor. Mit einem Parser und einem Zwischenspeicher könnte man ← 128 | 129 → dynamisch ein solches Lexikon im Dialog entwickeln und hinterlegen (vielleicht als semantisches Netz mit Assoziationen), um individuell auf die jeweilige Userin abgestimmte Wörter im weiteren Dialogverlauf höher priorisiert zu parsen und auszugeben.

2.3.2.3  Syntaktisches Alignment

Auf der nächsttieferen Ebene siedeln Pickering und Garrod in ihrem interaktiven Alignment-Modell das syntaktische Alignment an. Von syntaktischem Alignment spricht man dann, wenn anstelle eines einfachen Lexems L eine komplexe Phrase P von A eingeführt und von B übernommen wird. „As it is obvious, there is a strong syntactic priming effect such that speakers/writers prefer to use the primed syntactic structure” (Gries 2005: 373). Branigan et al. (2000) fanden interessante Belege für die Persistenz indirekter Objekte im Englischen entweder als Nominalphrase oder als Präpositionalphrase. Schon Bock (1986) zeigte, dass DialogpartnerInnen dazu neigen, syntaktische Strukturen zu wiederholen, wobei nicht-syntaktische Erklärungen ausgeschlossen werden können (Bock 1989; Bock & Loebell 1990; Bock et al. 1992; vgl. auch Hartsuiker & Westenberg 2000; Pickering & Branigan 1998; Potter & Lombardi 1998; Smith & Wheeldon 2001; Pickering & Branigan 1999).

Allgemein muss aber festgehalten werden, dass syntaktisches und lexikalisches Alignment in empirischer Interaktion häufig gleichzeitig vorliegen und schwer voneinander getrennt untersucht werden können. In einigen Studien wurde versucht, dieses Problem durch entsprechende experimentelle Settings und Stimuli zu umgehen. So können bspw. Branigan et al. (2000) syntaktisches Alignment sowohl isoliert als auch in Kombination mit lexikalischer Persistenz nachweisen. Auf den Stimulus the nun giving the book to the clown konnte sie in einer Bildbeschreibungs-Task für die nächste Abbildung als Respons sowohl the cowboy giving the banana to the burglar <lex. + synt.> als auch the cowboy handing the banana to the burglar <synt.> nachweisen. Die syntaktische Struktur Nominalphrase + Partizip kann also durch entsprechende Stimuli geprimed werden. Besteht die Möglichkeit zur gleichzeitigen lexikalischen Persistenz, wird der Effekt verstärkt. Auch Nominalphrasen mit integriertem Relativsatz können syntaktisch geprimed werden:

(1) Stimulus: the goat that ist red

(2) Respons: the sheep that is red

(3) Nicht jedoch: the red sheep

Welche Rolle die semantische Nähe zwischen Stimulus und Respons für syntaktisches Alignment spielt, ist bislang nicht hinreichend geklärt. Ferner stellt sich ← 129 | 130 → auch hier das Problem einer systematischen Hierarchisierung von Ähnlichkeit auf den unterschiedlichen Repräsentationsebenen (Lexik, Syntax, Semantik).

Priming-Effekte konnten auch außerhalb von Dialogen z. B. in Experimenten zur Erinnerung an syntaktische Strukturen festgestellt werden (Lombardi & Potter 1992, Potter & Lombardi 1990, 1998). Werden semantisch ähnliche Wörter als Prime bei einer Satz-erinnerungsaufgabe gegeben, die eine andere Argumentstruktur aufweisen als das Ausgangswort, wird der lexikalische Prime übernommen und die Syntax angepasst.

Ob syntaktisches Priming auch für die HCI nachgewiesen werden kann, ist nicht hinreichend geklärt. Seine technische Umsetzung ist jedoch wesentlich anspruchsvoller als die des lexikalischen Alignments in Form eines Dialog-Lexikons für priorisiertes Parsing, da sie robustes Syntax-Parsing (NLP, Natural Language Processing) voraussetzt.

Wie bereits erwähnt, kann Alignment auch ebenenübergreifend auftreten, so dass bspw. lexikalisches und syntaktisches Alignment zusammen vorliegen. Zu solchen Effekten kommt es nicht zufällig, sondern die unterschiedlichen Ebenen der Repräsentation sind miteinander verknüpft. So wird z. B. syntaktisches Alignment dann eingeleitet, wenn mehrere lexikalische Kategorien bereits alignt sind. Beim Verb to give z. B. wird dessen Argumentstruktur; d. h. eine mögliche Verknüpfung mit den syntaktischen Kategorien Nominalphrase und Präpositionalphrase grundsätzlich direkt mitaktiviert. Dabei werden gleichzeitig die entsprechenden Konnektionen gestärkt und es lässt sich das allgemeine Prinzip ableiten, dass Ko-Aktivierung zu Assoziation führt. Je enger nun die assoziative Verbindung auf dem einen Level ist (z. B. semantisch), desto wahrscheinlicher wird Alignment auf einem anderen Level (z. B. syntaktisch).

2.3.3  Distanz-Frequenz-Effekte

Ein weiterer Aspekt im wissenschaftlichen Diskurs um Alignment ist die zeitliche Nähe zum Prime, mit der eine persistente Struktur produziert wird. Für die kognitiv-linguistische Modellierung ist es von Interesse, wie sich Persistenzpaare im Hinblick auf ihre Distanz verhalten. Löst Priming nur direkte Persistenz-Effekte im nächsten Turn aus oder kann es längere Sequenzen überdauern? Seit Ende der 1990er Jahr wurden einige Studien durchgeführt, um diesen Abstand in Form von Zeitmessungen im oralen Dialog oder als räumliche Distanz im Text (Anzahl der Wortformen zwischen Prime und Persistenz) quantitativ zu analysieren. Die Ergebnisse werden als „Recency-Frequency-Effekte“ (Distanz-Frequenz-Effekte) bezeichnet. Smith und Wheeldon (2001) führten bspw. Online-Studien durch, in deren Rahmen die zeitliche Distanz von Persistenzen ← 130 | 131 → untersucht wurde. Sowohl Levelt und Kelter (1982) als auch Branigan et al. (2000) bezeichneten Persistenzen in oralen und getippten Dialogen als kurzlebig, während andere Studien persistente Strukturen auch über größere Intervalle nachweisen konnten (Bock & Griffin 2000; Pickering et al. 2000). Dieser vermeintliche Gegensatz wird aufgelöst von Szmrecsanyi (2005) und Gries (2005), die hinsichtlich unterschiedlicher linguistischer Phänomene (Will-Future vs. Going-to-Future, Dativobjekt vs. Präpositionalobjekt) in korpus-basierten Studien eine Zerfallskurve für Persistenzen nachweisen konnten, die Szmrecsanyi als „Forgetting-Function“ (Vergessenskurve) bezeichnet. Bei geringer Distanz zum Prime finden sich zahlreiche Persistenzen, bei größerer Distanz nur noch vereinzelte. Die Kurve verläuft also logarithmisch und nähert sich damit einer Vergessenskurve nach Ebbinghaus (1985) an.77

Abbildung 16: Distanz-Frequenz-Effekte in der HHC (Szmrecsanyi 2005: 127)

img16

„TEXTDIST (Distanz) was measured in the ln of the number of interjacent words between PREVIOUS (Prime) and CURRENT (Persistenz) and is a proxy for recency of use of an alternating variable. This variable was modelled logarithmically and not, for instance, in a linear fashion because many psycholinguistic priming phenomena have been shown to decay in this way” (Szmrecsanyi 2005: 120, Anmerkungen N. L.).

Ob für Menschen, die mit einem artifiziellen Dialogagenten interagieren, eine vergleichbare Vergessenskurve für Primes aus dem System-Output angesetzt werden kann, ist zu überprüfen. Es könnte angenommen werden, dass Primes in der HCI einen Turn-Wechsel nicht überdauern, da zu viele Störungen und abrupte Themenwechsel als Distraktoren wirken. ← 131 | 132 →

Je weiter Strukturen in einem Dialog also (zeitlich oder räumlich) voneinander entfernt sind, desto unwahrscheinlicher ist Alignnment. Reitter (2006) kann zeigen, dass sowohl Frequenz- als auch Distanz-Effekte als Indikator für Alignment angesehen werden können. Er bietet eine Kalkulation an, die beide Variablen miteinbezieht und anhand derer berechnet werden kann, wann Alignment emergent wird. Diese Kalkulation verwenden Buschmeier, Kopp und Bergmann (2010) in ihrem Alignment-Generator SPUDprime (s. u.).

2.3.4  Alignment in der HCI

Sofern das Konzept Alignment also für die HCI nutzbar gemacht werden soll, stellen sich zunächst zwei grundsätzliche Fragen:

a) Gibt es in der HCI empirische Belege für ein Verhalten der UserInnen, das gemäß dem interaktiven Alignment-Modell interpretiert werden kann?

b) Sollte das der Fall sein, wie kann ein alignment-verarbeitendes Modell in ein artifizielles System implementiert werden?

Das interaktive Alignment-Modell ist allgemein genug gehalten, um auf verschiedene Formen der Interaktion übertragbar zu sein. Innerhalb eines Kontinuums der Dialogizität, das von Monolog mit HörerInnen-Feedback bis zu einer eng alignten Face-to-Face-Kommunikation von zwei Menschen mit anteilig gleichwertigen Redebeiträgen reicht, ist Alignment überall in diesem Spektrum vorstellbar. „Just as there is a “dialogic continuum” defining different kinds of interactive activities, we argue that there is a continuum of processing and that alignment will be observed even under non-interactive circumstances” (Barr & Keysar 2004: 189). Unterschiede in Bezug auf die Stärke des Alignments sind dabei wahrscheinlich. Bei Monologen oder schriftlicher Korrespondenz sehen Pickering und Garrod Probleme in Bezug auf Alignment. Die Repräsentationen von A und B können schnell divergieren oder niemals alignen. „It is only when regular feedback occurs that the interlocutors can control the alignment process” (Pickering & Garrod 2004: 177). Wie sich diese Überlegungen auf computervermittelte quasi-synchrone medial schriftliche, aber konzeptionell mündliche Kommunikation übertragen lassen, ist bislang nicht eindeutig geklärt (vgl. Branigan et al. 2003, Pearson et al. 2006, Branigan et al. 2010, Cowan et al. 2011). Für die HRI findet Fischer Belege, die auf eine bewusste Produktion von Persistenzen als Simplifizierungsstrategie hindeuten und weniger auf eine vorbewusste Übertragung von Verhaltesweisen aus der HHC (vgl. Fischer im Druck). In Kapitel 4 dieser Arbeit wird diskutiert, inwiefern vorbewusstes Alignment für die chat-basierte HCI eine Rolle spielt. Unter der Prämisse eines Dialogkontinuums, kann Alignment wahrscheinlich für die HCI (auch für die computervermittelte HCI) nur dann prognostiziert ← 132 | 133 → werden, wenn die Interaktionsszene von der Userin als soziale Dialogsituation im weitesten Sinne eingestuft wird (vgl. Fischer im Druck: 229). Das bedeutet, dass dem Bot sublim anthropomorphe bzw. soziable Eigenschaften attribuiert werden müssen, bevor Alignment-Mechanismen greifen können. Auch Shintel und Nusbaum diskutieren Vorannahmen über die Dialogpartnerin als mögliche einflussreiche Variable auf Alignment. „Expectation effects suggest that alignment may not be a result of a direct, automatic, causal link between the activation of a representation in one interlocutor and the activation of an objectively matching representation in the other interlocutor. Rather, the process is mediated by listeners’ expectations” (Shintel & Nusbaum 2004: 210). Damit liefern sie für den Bereich der HCI das starke Argument, dass aus psychologischer Perspektive die Annahme äußerst wahrscheinlich ist, dass UserInnen-Erwartungen den sprachlichen Umgang mit einem Bot modifizieren. Nicht-strategisches Alignment als wirklich vorbewusster Prozess, sofern man diesen stringent nachweisen könnte, könnte hier als Indikator dafür angesehen werden, dass dem virtuellen Charakter überhaupt Qualitäten als GesprächspartnerIn zugeschrieben werden. „For example, alignment at the level of articulation, where inter-locutors converge on each other’s speaking style, may be mediated by interlocutors’ stereotypic expectations about the other interlocutor’s accent and speech rate, resulting in subjective but not objective alignment” (Shintel & Nusbaum 2004: 210, vgl. auch Thakerar et al. 1982).

Automatische Aspekte sozialer Interaktion allgemein konnten bereits in vielen nicht-sprachlichen Bereichen der HCI beobachtet werden: Mimikry-Effekte (Bernieri & Rosenthal, 1991; Bavelas, Black, Lemery & Mullet, 1986; Canamero 2002, Vollmer et al. 2009) oder die automatische Aktivierung von Stereotypen (Geschlechterstereotype, Bargh, et al. 1996). Solches Verhalten erklären einige PsychologInnen mit einem sog. automatischen Perzeption-Verhaltens-Link (Bargh & Chartrand 1999; Bargh et al. 1996; Dijksterhuis & Bargh 2001; Dijksterhuis & Van Knippenberg 1998), über welchen auch sprachliches Priming laufen könnte. Im Bereich der HCI ist die Zuschreibung anthropomorpher Gesprächseigenschaften aber nicht immer gegeben, so dass Menschen in Abhängigkeit vom System-Design und vom UserInnen-Typ, den Bot als mehr oder weniger soziabel einstufen. Ob diese Variablen der Systeme und die Reaktionen der UserInnen in Korrelation zueinander stehen, ist bislang nicht hinreichend geklärt.

Seit 2004 wurden verschiedene Untersuchungen zu Alignment in der HCI mit unterschiedlichem Fokus unternommen, die Fischer (2010) wie folgt zusammenfasst:

„Also with respect to alignment in HCI, several different hypotheses on the relationship between alignment and partner modelling have been investigated (Branigan and Pearson, ← 133 | 134 → 2006); some studies have shown that speakers align more with computers because of low suspected capabilities of the system, and that they align less to computers than to humans because alignment is related to politeness and display of community membership (Branigan and Pearson, 2006). Others have suspected mindless transfer (Reeves and Nass, 1996; Nass and Moon, 2000; Nass and Brave, 2005), and again others suggest partner modelling to be prior, determining the range and limits of alignment (Fischer 2006, im Druck)” (Fischer 2010: 2351).

Die verschiedenen Studien kommen also zu unterschiedlichen Ergebnissen. Bis heute ist nicht eindeutig geklärt, ob, wie und in welchem Maße UserInnen Alignment-Verhalten auf die HCI übertragen. Außerdem ist nicht klar, ob Konstruktuionsübernahmen überhaupt vorbewusste kognitive Prozesse zugrunde liegen (in der HCI genauso wie in der HHC) und wenn ja, wie man zwischen vorbewusstem Verhalten und strategischem Handeln unterscheidet. Denn auf der Grundlage empirischer Sprachdaten ist es nicht möglich, diese Unterscheidung vorzunehmen. Da zudem HCI-Situationen je nach System und Anwendungsbereich sehr unterschiedlich sein können, ist nicht verwunderlich, dass unterschiedliche Studien zu sehr verschieden Ergebnissen kommen. Die vorliegende vergleichende Studie zur Interaktion mit unterschiedlichen Systemen kann zur Klärung dieses Teilaspekts beitragen.

Wenn auf Grund von persistenten Strukturen in Äußerungen angenommen werden kann, dass Menschen Alignment-Prozesse vorbewusst auf die HCI übertragen, wäre im nächsten Schritt ein System wünschenswert, das mit diesem Phänomen umgehen kann. Persistenzen müssten einerseits überhaupt erkannt werden, andererseits müssten persistente Redebeiträge des Systems generiert werden. Obgleich es deterministisch und einfach gehalten ist, kann das interaktive Alignment-Modell nicht komplett in ein System integriert werden. Immanente Probleme sprechen dagegen. Denn mit Hilfe des Modells lässt sich nicht die gesamte zur Dialogverarbeitung benötigte Kognition des Systems abbilden, da zusätzlich auf allgemeinere Wissensbasen als Grundlage für Common Ground zurückgegriffen werden muss. Außerdem kann auch bei sophistizierter Systemarchitektur keine parallele Dyade „UserIn-Bot“ angenommen werden. Die Verarbeitungsmechanismen sind zu verschieden. Auf kognitiver Ebene kann nur das Alignment der Userin durch eine innovative Technologie unterstützt werden. Dem Bot müssen eigene Verarbeitungsroutinen zur Erzeugung von Persistenz implementiert werden, die sich an der Ebene der Performanz (nicht der Kognition) orientieren. Diese könnten z. B. persistente Strukturen (Syntax und Lexik) parsen und sie als dynamisches Dialoglexikon speichern, aus dem in festgelegten Abständen unter Berücksichtigung von Distanz-Frequenz-Effekten selbst auf beiden sprachlichen Levels persistente Strukturen generiert werden. ← 134 | 135 → Die Architektur müsste einen einfachen Parsing-Persistenz-Ausgabe-Mechanismus umfassen (vgl. priming/activation based model of language micro-plannig, Buschmeier, Kopp & Bergmann 2010), der in seiner Direktheit von Input und Output (Stimulus und Respons) aber eher an Skinner als an Pickering und Garrod erinnert. Eine Architektur, die sich zusätzlich an Verarbeitungshierarchien im Arbeitsgedächtnis orientiert, ist ebenfalls vorstellbar. Eine solche Technologie würde zu Dialogen führen, die mehr Persistenzen aufweisen. Ob das zu engerem Alignment seitens der UserInnen führen würde, bleibt zu überprüfen. Idealerweise würden die Dialoge als natürlicher empfunden. Kohärenter würden sie dadurch nicht, da eine Referenz auf geteiltes Wissen in Form von Common Ground nur auf der Performanzebene suggeriert würde, aber nicht tatsächlich durch semantische Kontiguität und Referenzen etabliert würde.

Versuche, alignment-fähige ECAs zu entwickeln, wurden bereits unternommen. Leider liegt bislang kein robust funktionierendes System vor, das bereits in einer breiteren Studie positiv evaluiert wurde. Isard, Brockmann und Oberlander (2006) präsentieren einen Massive-Over-Generation-Ansatz, bei dem korpusbasiert eine große Zahl alternativer Sätze generiert und mit einer UserInnen-Äußerung abgeglichen wird. Purver, Cann und Kempson (2006) leiten ihre Architektur aus dem Dynamic-Syntax-Ansatz ab, der für Parsing und Generierung die gleichen Mechanismen nutzt (vgl. Alignment-Channels). Erweitert wird das System durch eine Datenbank der bislang geparsten und generierten semantischen Bäume und der Transformationsprozesse zu deren Erstellung. Diese werden dann wiederverwendet (vgl. Arbeitsgedächtnis). Beide Systeme wurden noch nicht an menschlichen UserInnen erprobt.

Walker, Stent, Mairesse und Prasad (2007) dagegen konnten ihr System SPaRKy in einem interaktiven Setting evaluieren. Auch SPaRKy nutzt einen Over-Generation-Mechanismus, um die Dialog-Performanz an seine UserInnen individuell anzupassen, indem er Textfetzen der UserInnen sammelt, in einem internen Ranking ordnet und aus früheren Dialogen mit ihnen eine große Zahl von Sätzen generiert. Leider ist diese Prozedur zu zeitaufwendig, um Dialoge in Echtzeit garantieren zu können.

De Jong, Theune und Hofs (2008) haben einen virtuellen Fremdenführer entwickelt, der seine Beiträge per einfacher Analyse und Zuordnung von hinterlegten Prompts dem sprachlichen Register seiner UserInnen in Bezug auf Höflichkeit und Formalität anpasst. Lexikalisches und syntaktisches Alignment entstünde auf diese Art und Weise automatisch. Das ist vorstellbar, da in diesem Bereich viele Strukturen in ritualisierter Form vorliegen und Adjazenzpaare mit gespiegelten Strukturen floskelhaften Charakter haben. ← 135 | 136 →

Beide Ansätze modellieren Alignment nicht strukturell, sondern konzentrieren sich auf einfache Konstruktionsübernahme. „In conclusion, current speech and gesture generation approaches cannot be used to model user-adaptation and alignment phenomena, either because they are not yet able to produce a sufficient range of behavioural variety to allow for unrestricted adaptation or they do not account for all the necessary generation levels (meaning, structure, form)” (Buschmeier, Kopp & Bergmann 2010: 92). Buschmeier, Kopp und Bergmann (2010) unternehmen selbst einen äußerst interessanten Versuch, tatsächlich eine Form von flexiblen Priming-Mechanismen in einen ECA zu implementieren, die nicht allein auf der Performanz-, sondern auch auf der Repräsentationsebene ansetzen. Der Microplanner SPUDlite (Stone 2002) und dessen Erweiterung SPUDprime (Buschmeier, Kopp & Bergmann 2010) setzen mit dem kontext-freien Tree-Rewriting-Grammar-Formalismus TAGLET auf der Ebene an, auf der Bedeutung in sprachliche Form umgesetzt wird. „ […] it can account for many alignment effects found in human communication, which do not only manifest in an utterance’s surface form, but also in activation of underlying linguistic representations” (Buschmeier, Kopp & Bergmann 2010: 93). Dies wird erreicht, indem Kurzzeit- und Langzeit-Aktivierung anhand der Kalkulation von Reitter (2006) zu Distanz-Frequenz-Effekten in das System integriert werden. So kann Alignment mit dem Gegenüber und Self-Alignment erzeugt werden. Verschiedene Priming-Konditionen werden unterschieden. Bei lexikalischem Alignment wird z. B. das Wort „Gebäude“ im Ausgangssatz „Es gibt zwei Gebäude.“ durch „Kirchen“ ersetzt, sofern vorher der Prime „Ich würde gerne eine Kirche sehen.“ geäußert wurde. Bei syntaktischem Alignment reagiert das System auf die syntaktische Form des Primes und generiert eine passende Aussage mit gespiegelter syntaktischer Struktur.

  • Prime: Die Kirche hat oben ein Fenster und unten eine Tür.
  • Syntaktische Repräsentation: ADV NP und ADV NP
  • Alignte Struktur: Es gibt rechts eine Kirche und links eine Kirche.

Außerdem ist der Alignment-Generator verbunden mit einem Modul zur Kontrolle von Gesten, die auf der Grundlage von Wahrscheinlichkeiten auf bestimmte syntaktische Strukturen projiziert werden, um die sprachliche Ausgabe adäquat gestisch zu unterstreichen. Beide Subsysteme wurden in den ECA Billy, einen Terminkalenderassistenten, integriert. Eine Evaluation erfolgte nur mit virtuellen UserInnen, die aus älteren Dialog-Transkripten generiert wurden. Zu welchem Grad auf diese Art kohärente Dialoge entstehen, berichten Buschmeier und Kopp nicht. Ob die Akzeptanz gegenüber einem Agenten bei realen UserInnen ← 136 | 137 → durch den Einsatz von SPUDprime steigt, müssen Experimente mit echten Versuchspersonen zeigen.

Bei den UserInnen kann so die Illusion evoziert werden, sie und das System „sprächen die gleiche Sprache“ (vgl. Buschmeier, Kopp & Bergmann 2010). Wirklich interaktives Alignment zwischen UserIn und Bot kann nicht generiert werden, da auf kognitiver Ebene streng genommen immer nur die Userin alignt.

2.3.5  Untersuchungsparameter und Hypothesen mit Bezug zum interaktiven Alignment-Modell als Grundlage für die Korpusanalyse

Im folgenden Abschnitt sollen aus dem theoretischen Ansatz Hypothesen abgeleitet und die zu ihrer Überprüfung notwendigen Untersuchungsparameter vorgestellt werden. Eine ausführliche Diskussion der Untersuchungsparameter und der Annotation erfolgt in Kapitel 3.

Szmrecsanyi (2005) zeigt Richtlinien auf, inwiefern Phänomene, die auf Alignment zurückführbar sind, in korpusbasierten Ansätzen untersucht werden können. „(naturalistic) data derived from diverse corpora can match (experimental) psycholinguistic data“ (Szmrecsanyi 2005: 139). Beobachtbar im Korpus ist dabei nicht das Phänomen Alignment als kognitiver Prozess, sondern bestimmte Ausdrücke, die SprecherInnenwechsel und / oder mehrere Turns überdauern, als sprachliches Produkt Persistenz. In der vorliegenden Studie soll die Verteilung der Persistenzen in den Untersuchungskorpora zu den unterschiedlichen Systemen und im Vergleichskorpus zur HHC analysiert werden. Dabei sollen nicht Variationsraten mit vermeintlich alternativen Formulierungen berechnet werden (vgl. Szmrecsanyi 2005), sondern das einfache Auftreten der Persistenzen soll unter Berücksichtigung des jeweiligen Kotexts analysiert werden. Die einzige Ausnahme stellt die zusätzliche Erhebung von sog. Non-Persistenzen (vgl. Pickering & Garrod 2004) bei hochgradig ritualisierten Sequenzen dar. Ein Beispiel für eine offensichtliche Non-Persistenz wäre es, wenn eine Userin ein System, von dem sie gesiezt wird, im Gegenzug duzt.78

Erhoben werden im Korpus ausschließlich lexikalische und syntaktische Persistenzen, weil diese am klarsten definiert sind. Zusätzlich wird unterschieden zwischen Alpha- und Beta-Persistenz (Szmrecsanyi 2005) und Auto- und ← 137 | 138 → Allo-Repetition (Tannen 2007). Auto-Repetitionen können auch turn-immanent vorliegen.79

Ein persistentes Element in einem Systembeitrag kann selbstverständlich nicht als Alignment interpretiert werden. Es handelt sich hierbei vielmehr um ein Artefakt, das durch Schlüsselworterkennung und entsprechendes Dialog-Design hervorgerufen wird. Da der Mechanismus Strukturen hervorbringt, die Persistenzen in der HHC ähnlich sehen, soll dafür im Folgenden der Terminus Quasi-Persistenz für die entsprechende Wortform oder Phrase verwendet werden. Der Begriff Quasi-Alignment soll entsprechend den zu Grunde liegenden Mechanismus bezeichnen. Reales Alignment des Systems kann es nicht geben, da die Grundvoraussetzungen von Mensch und Maschine zu unterschiedlich sind. Auch wenn das System über einen Alignment-Generator verfügt, täuscht dieser allenfalls Alignment vor (ggf. Quasi-Alignment).

Folgende Arten von Persistenzen wurden also erhoben:80

a) Allo-Repetitionen in Bezug auf Lexix (Alpha-, Beta-, Non-Alignment) und Syntax (Alpha, Beta) als Persistenzen der UserInnen und Quasi-Persistenzen der Systeme

b) Auto-Repetitionen („Self-Alignment“) in Bezug auf Lexix (Alpha, Beta) und Syntax (Alpha, Beta) als Persistenzen der UserInnen und Quasi-Persistenzen der Systeme

In allen fünf Korpora sollen die Auftretenshäufigkeiten dieser Parameter verglichen werden. Zusätzlich soll eine Analyse der Distanz-Frequenz-Effekte für die unterschiedlichen Korpora im Vergleich erfolgen.

Folgende Hypothesen werden aufgestellt, um falsifiziert zu werden:

  • H0A1: Die o. g. Untersuchungsparameter liegen in den HCI-Korpora nicht vor.
  • H0A2a: Lexikalische Persistenz ist in den Teilkorpora UserIn und System im jeweiligen Gesamtkorpus gleich verteilt auf die Dialoge.
  • H0A2b: Syntaktische Persistenz ist in den Teilkorpora UserIn und System im jeweiligen Gesamtkorpus gleich verteilt auf die Dialoge.
  • H0A3a: Lexikalische und syntaktische Persistenz sind im Teilkorpus UserIn je gleich verteilt auf die Dialoge.
  • H0A3b: Lexikalische und syntaktische Persistenz sind im Teilkorpus System je gleich verteilt auf die Dialoge.
  • H0A4: Es besteht kein Unterschied zwischen den einzelnen HCI-Korpora und dem Vergleichskorpus (HHC) in Bezug auf die o. g. Parameter. ← 138 | 139 →
  • H0A5a: Es können keine Distanz-Frequenz-Effekte beobachtet werden.
  • H0A5b: Die Vergessenskurve verläuft für die HCI-Korpora linear.
  • H0A6: Es bestehen keine Zusammenhänge zu anderen Untersuchungsparametern (CA, CT, Kohärenz)

Hypothese 1 ist unwahrscheinlich, da Persistenzen in der HCI bereits mehrfach nachgewiesen wurden (vgl. Branigan et al. 2003, Pearson et al. 2006, Branigan et al. 2010, Cowan et al. 2010, 2011).

Die Hypothesen 2 und 3 beziehen sich auf die Verteilung der Persistenzen auf die Einzeldialoge. Bei Beibehaltung der Nullhypothese wären die Persistenzen innerhalb eines Korpus gleich verteilt – auf die Interagierenden (UserIn / System) oder über die linguistische Beschreibungsebenen (Lexik / Syntax). Von einer Gleichverteilung in 2 könnte man darauf schließen, dass Quasi-Alignment des Systems reaktives Alignment der UserInnen auslöst. In 3 könnte ein Zusammenhang zwischen dem Auftreten von lexikalischen und syntaktischen Persistenzen festgestellt werden. Legt man das interaktive Alignment-Modell auch für die HCI zu Grunde, könnte bei Beibehaltung der Nullhypothese auf die Aktivierung der Alignment-Channels bei UserInnen in der HCI geschlosssen werden. Diese verlinken die Interagierenden (2) und die Repräsentationsebenen (3). Wahrscheinlicher ist ein abweichendes Verhältnis zwischen UserIn und System, das nachgewiesen werden soll.

Komplexer wird der Zusammenhang, den Hypothese 4 impliziert. Sie fokussiert den Vergleich zwischen den Systemen. Da die Korpora von Dialogen mit unterschiedlich alten und unterschiedlich sophistizierten Systemen stammen, könnte vermutet werden, dass mit technischen Innovationen ein höheres Maß an wahrgenommener Natürlichkeit der Interaktionsszene erreicht wird und UserInnen anthropomorphe Eigenschaften an das System attribuieren, was dann zu vermehrtem Alignment führen würde. Dieser Zusammenhang könnte auf der Grundlage von Korrespondenzen zwischen Systemeigenschaften und der Häufigkeit von Persistenzen in den UserInnen-Turns angenommen werden. Außerdem schließen sich auch Spekulationen über Entwicklungstendenzen an. Hypothese 4 soll auch Auskunft geben über graduelle Unterschiede zwischen HCI und HHC in Bezug auf Alignment. Die Hypothese bezieht sich auf die Diskussion um die Übertragbarkeit des Phänomens Alignment von der HHC auf die HCI. In diesem Kontext dient Hypothese 5 auch der Überprüfung der These von Branigan, Pickering, Pearson und McLean (2010), dass Alignment in der HCI häufiger sei als in der HHC.

Hypothese 5 bezieht sich auf Distanz-Frequenz-Effekte. Wenn trotz untersuchter medial schriftlicher Interaktion in den Untersuchungskorpora ähnliche ← 139 | 140 → Effekte beobachtet werden können, wie in der oralen HHC, stärkt dies die Annahme eines robusten vorbewussten Verarbeitungsmechanismus.

An Hypothese 6 schließt sich eine Reihe von Subhypothesen an, die in diesem Zusammenhang getestet werden müssten, was den Rahmen dieser Arbeit überschreitet. Es soll aber auf der Grundlage der Erhebung der relativen Häufigkeiten der Untersuchungsparameter aus CA, Alignment, Kohärenz und CT ein Vergleich gewagt und eine Zusammenführung der verschiedenen Theorien versucht werden (s. Kapitel 4.5).

Dabei muss unterschieden werden zwischen Alignment als Indikator für vorbewusstes und natürliches menschliches Dialogverhalten, das Menschen, ohne es zu reflektieren (mindlessly), aus der HHC übertragen (Reeves and Nass, 1996; Nass and Moon, 2000; Nass and Brave, 2005) und der bewussten, strategischen Produktion von Persistenzen als Merkmal für CT. Pickering & Garrod (2004) prognostizieren auf der Grundlage der Mindlessness-Hypothese Alignment in ähnlichem Maße für die HCI wie für die HHC.

„Thus, we can consider the interesting case of human-computer interaction, where people may or may not align with computers’ utterances. If the conscious ascription of a mental state is necessary for alignment, then people will only align if they perform such ascriptions. But if people behave toward computers as “social agents,” whatever they consciously believe about their mental states, then we predict unimpaired alignment will occur with computers, just as many other aspects of social behavior do” (Pickering & Garrod 2004: 188).

Interaktives Alignment ist jedoch höchst wahrscheinlich auch in der HHC nicht der alleinige Motor sozialer Interaktion. Es gibt Evidenz, dass kulturelle Prägung, Weltwissen, Vorannahmen und Präsuppositionen über die Interaktionssituation sowie Gedächtnisheuristiken und Partner-Modeling-Prozesse in unterschiedlichen Gesprächssituationen Einfluss nehmen und nicht allein als Repair-Funktion eingesetzt werden.

„A complete account, we believe, will require a hybrid model in which alignment or imitation derives from both the kinds of automatic pro-cesses they describe and processes that are more directed or reflective. Hybrid models of this sort may be less tidy (although not necessarily less mechanistic) than the one Pickering & Garrod propose, but they do seem necessary to capture the subtlety and richness of dialogic phenomena” (Krauss & Prado 2004: 203).

Obgleich Pickering und Garrod viele Gedanken und Modellvorstellungen aus der Tradition übernommen haben, ist das interaktive Alignment-Modell in der vorliegenden Form innovativ. Die Vorteile eines alignment-basierten Ansatzes liegen wohl in erster Linie in wahrscheinlichen ökonomischen Verarbeitungsprozessen, in der verbesserten kommunikativen Leistung durch ein geteiltes ← 140 | 141 → Vokabular und in der sozialen Funktion von Alignment. „Interlocutors sharing a vocabulary feel connected, as they speak the same language” (Buschmeier, Kopp & Bergmann 2010: 91). Ob von persistenten Tokens in einem Forschungskorpus auf strukturelles Alignment auf kognitiver Ebene geschlossen werden kann, bleibt spekulativ. Eine solche Erklärungslücke zwischen Empirie und Theorie ist aber unumgänglich. So hat Pickering und Garrods Modell (, wenn überhaupt,) seine Gültigkeit nur innerhalb der engen Grenzen des vorbewussten Verarbeitungszeitraums. Sein rein mechanistischer Fokus wird durch die Einbettung in ein übergeordnetes Netzwerk stark relativiert. Mit Sicherheit bleiben die konkreten Mechanismen unterspezifiziert und der strikte Parallelismus von Perzeption und Produktion ist angreifbar, doch gerade dieser extremen Vereinfachung liegt eine innovative Perspektive auf Dialog zu Grunde, die in Zukunft nutzbar gemacht werden kann – sei es durch Erweiterungen des Modells von psycholinguistischer Seite, sei es als Anstoß einer neuen Diskussion zur Perspektivübernahme in der Erwerbsforschung oder sei es für die Implementierung als Dialogmanager-Komponente in der HCI.

2.4  Kohärenz und Kohäsion

Kohärente Dialoge können nur geführt werden, wenn die GesprächspartnerInnen einander wirklich verstehen. Das setzt neben umfangreichen mentalen Lexika sowie Grammatik- und Pragmatikwissen auch voraus, dass sie kognitiv auf die gleichen logischen Verknüpfungen zurückgreifen. Zwischen sprachlichen Formen und kommunizierten Bedeutungen müssen übereinstimmende Verweisrelationen angenommen werden. Hinzu kommen ein geteiltes Weltwissen und kulturell ähnlich geprägte Assoziationen. „Verweiszusammenhänge gehen auf grammatisch geregelte Beziehungen zwischen Elementen eines sprachlich organisierten Wissensvorrats zurück“ (Habermas 1993b: 190). Erst wenn alle diese Bedingungen erfüllt sind, kann kohärente Kommunikation stattfinden.

Artifizielle Agenten sind nur rudimentär mit den o. g. Parametern ausgestattet. Obwohl ECA-Dialoge an der Textoberfläche über eine Reihe von Turn-Wechseln hinweg kohärent wirken können, sind sie es in ihrer logischen Architektur nicht. Aus diesem Grund sind sie sehr störungsanfällig und werden von UserInnen als frustrierend empfunden und im schlimmsten Fall abgebrochen.

(1) Max: Ich habe mehrere Lieblingsfilme. Zum Beispiel Terminator mag ich ganz gerne. Und was ist deiner?

(2) UserIn: och, so verschiedene

(3) Max: Dein Lieblingsfilm ist also och so verschiedene?

(Max-Korpus 1767–1799)
← 141 | 142 →

Die Schlüsselworterkennung und das ELIZA-Prinzip schaffen zwar die Illusion von kohärenzstiftenden Wiederaufnahmen, doch sie sind häufig nicht zielführend, wie das Beispiel des ECAs Max (Kopp & Wachsmuth 2004) zeigt. Durch Wiederaufnahme des Themas „Lieblingsfilm“ durch das Pronomen „deiner“ in Form einer anaphorischen Referenz suggeriert das System zwar, ein Konzept von Textkohärenz zu haben, scheitert dann aber an einer unerwarteten Antwort, für die kein separates Erkennungsmuster hinterlegt wurde. Gerade wenn der thematische Fokus weiter gefasst und die UserInnen-Führung locker gehalten ist, werden Dialoge schwer antizipierbar und den Bots fehlt das Inhalts- und Regelwissen, um adäquate Antworten ausgeben zu können. Selbst hochentwickelte ECAs sind an diesem Punkt noch sehr fehleranfällig.

So zeichnen sich HCI-Dialoge durch eine „bruchstückhafte Äußerungsstruktur aus […], die wenig kohärent / kohäsiv ist, sich nicht über mehrere Turns erstreckt und von deutlich erkennbaren sprachlichen Routinen seitens des Bots geprägt ist“ (Schwarz 2013: 2).81 Zwischen den einzelnen Turns bestehen keine angemessenen Verknüpfungsrelationen und es kommt häufig zum Abbruch im Gesprächsfluss. Zusätzliche Probleme entstehen durch Ambiguitäten, die nicht kontextsensitiv verarbeitet werden können, so dass es oftmals zu unangemessenen Interpretationen kommt. Allgemein sind die meisten Systeme bislang nicht in der Lage inferentielle Schlüsse zu ziehen. Im Chatbot Alice (Wallace et al. 2000) wird dieses Defizit im Vergleich zur menschlichen Kognition sogar humoristisch aufgegriffen.

(1) ALICE: Wenn Menschen einen Satz mit „also“ beginnen, bedeutet das entweder, daß sie etwas schließen oder sich aufregen. Was trifft auf Dich zu?

(Gesellensetter 2004: 22)

Elegant wird hier versucht, einem Missverständnis vorzubeugen, das durch die mangelnde Fähigkeit zu entstehen droht, eine Schlussfolgerung nachzuvollziehen. Als Schlüsselwort dient „also“, das sowohl Konnektivum als auch Modalpartikel sein kann. Solche Relationen zwischen sprachlichen Elementen an der Textoberfläche und der internen Logik einer Argumentation sind extrem schwer exakt zu definieren. Um die interne logische Leistungsfähigkeit der Systeme zu verbessern und mehr sprachliche Mittel auszuschöpfen, die den Eindruck eines kohäsiven Textes vermitteln, muss in der HCI-Forschung ein tieferes Verständnis der linguistischen Theorie zur Kohärenz und Kohäsion erlangt werden. In diesem Kapitel sollen die Grundbegriffe eines textlinguistischen Kohärenzbegriffs ← 142 | 143 → in Verbindung zu pragmatischen Ansätzen gesetzt und die Möglichkeiten ihrer Anwendung in der HCI diskutiert werden.

2.4.1  Zum Kohärenzbegriff

Kohärenz in Texten sowie in gesprochenen und getippten Dialogen unter Menschen ist ein vielschichtiges logisches Konstrukt, das sich auf unterschiedlichen linguistischen Ebenen manifestiert. Webster’s Dictionary definiert Kohärenz als „the quality of being logically integrated, consistent, and intelligible”. Die Begriffe Kohärenz und Kohäsion bilden zusammen ein Konzept, das den strukturellen und inhaltlichen Zusammenhang von Textelementen klassifiziert und RezipientInnen einen Text überhaupt erst als zusammenhängend erkennen lässt (vgl. Tidge 1997, Linke et al. 2004, Brinker 2010, Özsarigöl 2010). Diese „Textkonstituenz“ (Halliday & Hasan 1976) entsteht durch Verknüpfungsrelationen auf unterschiedlichen linguistischen, aussagenlogischen und kognitiv-assoziativen Ebenen. Kohäsionsmittel sind sprachliche Formen, die auf unterschiedliche Weise auf kohärenzschaffende kognitive Operationen verweisen oder intratextuelle Bezüge herstellen (Anapher, Katapher). Es kann also eine Oberflächen- und eine Tiefenstruktur der Verknüpfung angenommen werden (Linke et al. 2004; Brinker 2010). Die Begriffe werden nicht im Sinne Chomskys verwendet, sondern bezeichnen vielmehr lexikalische oder syntaktische Kohäsionsmittel an der Oberfläche und semantische und logische Konzepte in der Tiefe. Dabei ist die Terminologie in verschiedenen theoretischen Paradigmen unterschiedlich und die Metapher von Oberfläche und Tiefe umstritten. Für die Argumentation in dieser Arbeit ist die Unterscheidung der o. g. Termini allerdings hilfreich und soll in der Systematik von Linke et al. (2004) übernommen werden. Es wird also von einer Tiefenstruktur ausgegangen, die Kohärenz stiftet, sowie von einer Oberflächenstruktur, die Marker für eine Textkohäsion aufweist, welche ihrerseits auf die kohärente Tiefenstruktur verweisen. Auch die strikte Trennung der Konzepte Kohärenz und Kohäsion gilt als umstritten (vgl. z. B. Brinker 2010: 16f). In Bezug auf die HCI bietet sich allerdings eine modellhafte Unterscheidung an zwischen der Textoberfläche mit Kohäsionsmitteln, die im Dialog-Design ausgewählt werden und der Tiefenstruktur mit logisch kohärenter Aussagenfolge, die durch KI-Regeln als Teil der Systemarchitektur festgelegt werden. ← 143 | 144 →

Abbildung 17: Kohärenzstruktur in Systemarchitektur und Dialog-Design

img17

Indizien für Kohärenz an der Oberfläche sprachlicher Äußerungen sind also zurückzuführen auf logische Verknüpfungen von Aussagen und komplexe kognitive Konzepte zur intersubjektiven Definition von Begriffen in der Tiefe. Sprachliche Kohärenzmarker im Text finden sich auf lexikalischer, syntaktischer sowie semantischer Ebene und sind schwer zu kategorisieren. Zusätzlich verweisen sie häufig in einer komplexen Form auf pragmatische Zusammenhänge unter bestimmten situativen Bedingungen, die in ihrer Gesamtheit nicht formalisiert werden können. Diese Relationen sind ihrerseits ebenfalls nicht leicht zu definieren.

Doch in diesem Geflecht aus signifiés, signifiants, aussagenlogischen Verknüpfungen, pragmatischen Implikationen und situativen Bedingungen wird der „rote Faden“ in einem Text oder Dialog entwickelt, der gleichsam das Rückgrat jeder menschlichen Kommunikation darstellt. Unterschiedliche Ansätze aus Textlinguistik, CA und kognitiver Linguistik (Sprachproduktion) beschäftigen sich von jeher aus verschiedenen Blickwinkeln mit Kohärenz. Dabei liegt der Fokus auf der Analyse von textimmanenten und übergeordneten Strukturen, z. B. bei der Untersuchung der Akzeptabilität von geschrieben Texten oder Dialogsequenzen hinsichtlich ihrer Kohärenz (z. B. Hobbs 1979; Redeker 1990; Givón 1995). Informationswissenschaftliche Zugänge streben dagegen eine Synthese von theoretischem Modell und praktischer Anwendung an und beschäftigen sich mit Fragen nach der Angemessenheit von Antworten in der HCI, der adäquaten Realisation von Verweisen oder der linearen Anordnung von TCUs in einem Turn. Kohärenz wird hier verstanden als „Constraint“ für das Gesprächsverhalten von Interagierenden bei der Produktion von Sprechakten oder der Formulierung einer bestimmten sprachlichen Form. ← 144 | 145 →

2.4.2  Informationswissenschaftliche Zugänge zu Kohärenz in Dialogen

Grundsätzlich muss unterschieden werden zwischen Herangehensweisen, die über Schlüsselwörter eine Quasi-Kohärenz an der Dialogoberfläche schaffen und solchen, die sich um die logische Generierung von kohärenten Verknüpfungen in der Tiefenstruktur bemühen. So stellten bereits die repetitiven Rückfragen ELIZAs einen ersten Versuch dar, die Illusion von Textkohärenz an der Oberfläche zu schaffen (Weizenbaum 1966). Durch aussagenlogische Kalküle für Sprechakte oder psycholinguistische Ansätze wie Self- und Partner-Modeling oder Zielorientierung (vgl. OSCAR, Allen et al. 1978; REA, Cassell et al. 2002, MAX, Wachsmuth, Kopp et al. 2001) sollen wirklich kohärente Strukturen erzeugt werden.

Doch inkohärente Dialogverläufe sind das notorische Problem von Interaktionen mit Chatbots und ECAs. Situative Bedingungen im Sinne von Weltwissen und gemeinsame Vorannahmen im Sinne eines Common Grounds können bislang nur rudimentär in Bots implementiert werden. Doch bereits für eine exakte Interpretation einer wörtlichen Bedeutung ist implizites Wissen zur ihren Akzeptabilitätsbedingungen im jeweiligen Kontext nötig. „Es ist ein implizites Wissen, das nicht in endlich vielen Propositionen dargestellt werden kann; es ist ein holistisch strukturiertes Wissen, dessen Elemente aufeinander verweisen“ (Habermas 1993: 451). Verweisrelationen von sprachlichen Markern zu kognitiven Konzepten konnten in ihrer Komplexität und Vielfalt nicht ausreichend beschrieben und operationalisiert werden, um sie formal fassen zu können. Kreative Äußerungen der UserInnen sind häufig und werden teilweise zusätzlich vom System evoziert, können aber nicht verarbeitet werden.

Aussagenlogische Kalküle hingegen können zwar berechnet werden, sind aber für die Kommunikation in Echtzeit in den meisten Fällen zu komplex. Außerdem ist ihre Übersetzung in natürliche Sprache keineswegs trivial. Einige ECAs nutzen für basale Formen der Sprechakterkennung und Verarbeitung einen stark vereinfachten „Austin-Grice-Strawson-Searle-Ansatz“ (vgl. Allen et al. 1978), Weltmodelle, Plankonstruktion und Planerkennung. „From speech act theory we know the notion of ‘uptake’ (Austin 1962), being the dependency of a successful performance of an illocutionary act on the reaction of the addressee” (Beun & van Eijk 2007: 367). Das funktioniert allerdings nur bei ritualisierten, restringierten Anwendungsbereichen (z. B. spezielle Fragetypen evozieren spezielle Antworttypen).

Auch grundsätzliche Organisationsstrukturen aus der CA finden Anwendung in Dialogsystemen, wenn es darum geht, die Interaktion mit dem Agenten ← 145 | 146 → kohärenter wirken zu lassen. „In Conversation Analysis, for instance, the fundamental pairs of conversational organisation are sequences called ‘adjacency pairs’: a question is followed by an answer, a greeting by a counter-greeting, et cetera (e.g., Levinson 1983)“ (Beun & van Eijk 2007: 367). In modernen Bots findet man in der Regel eine Mischform aus Schlüsselworterkennung, Sprechakterkennung, CA-Regeln (z. B. Paarsequenzen, Turn-Taking), plan-basierter Zielorientierung sowie Self- und Partner-Modeling.

Inspiriert durch Natural Language Processing (NLP) und die Notwendigkeit der Weiterentwicklung von Dialogagenten werden fortgeschrittene Ansätze zur automatischen Generierung von Kohärenz im Systemoutput verfolgt (z. B. Asher & Lascarides 1998; Beun 2001; Hulstijn et al. 2005; Gatt & van Deemter 2006; Kibble & Power 2004; Piwek 2006). Auch funktionale Theorien zur Textorganisation finden in der Texttechnologie Beachtung (z. B. Mann & Thompson 1988; Grosz, Joshi & Weinstein 1995).

Analyse und Generierung von Textkohärenz ist nicht nur interessant für innovative ECAs, sondern wird in unterschiedlichen technischen Bereichen angewendet. So ist es ein erklärtes Ziel der KI-Forschung seit ihren Anfängen, Maschinen zu entwickeln, die logische Schlüsse ziehen können, die wiederum als Grundgerüst für kohärente Texte dienen sollen (Scott & de Souza 1990; Kibble & Power 2004). Für automatische Zusammenfassungen (Barzilay, Elhadad & McKeown 2002) benötigt man Kohärenz-Modelle genauso wie für Software, mit der automatische Textbewertungen vorgenommen werden können sollen (Higgins et al. 2004). Ein anderer Ansatz wird mit der statistischen Modellierung von Textkohärenz verfolgt (Soricut & Marcu 2006; Barzilay & Lapata 2005; Lapata & Barzilay 2005). Barzilay und Lapata (2005) oder Ferrucci (2010) modellieren Text-Kohärenz als Ranking-Problem und versuchen auf diese Art z. B. die akzeptabelste Anordnung innerhalb einer Menge von gegebenen Sätzen zu finden. Statistische und stochastische Modelle sind äußerst erfolgreich, doch noch zu langsam, um in kommerziellen Bots zuverlässig zu funktionieren. Dagegen scheitern Ansätze mit starker KI an der fehlenden Flexibilität stringenter Argumentationskalküle in der Tiefenstruktur, die natürliche Konversation nicht hinreichend abbilden.

Statistische Modelle analysieren Indikatoren für Kohärenz an der Oberfläche. Hier liegt das Problem in einer defizitären Beschreibung der fraglichen Merkmale im Text, denn Kohärenz wird nicht nur durch lexikalische Wiederaufnahme und semantische Nähe von Schlüsselwörtern erzeugt, sondern durch eine Reihe von Elementen, die sich auf unterschiedlichen linguistischen Ebenen nachweisen lassen. Die klassische Textlinguistik hat diese Marker für Textkohäsion ← 146 | 147 → differenziert beschrieben. In ihrer Gesamtheit könnten sie als breitere Datenbasis für eine genauere statistische Auswertung dienen, die zur Unterscheidung von kohärentem und inkohärentem Text beitragen würde. So könnten auch inkohärente Dialogsequenzen aufgespürt werden, die auf den Ebenen der lexikalischen Persistenzen und der semantischen Felder nicht von kohärentem Text zu unterscheiden sind. Im Folgenden sollen diese Oberflächenphänomene und ihre Verweisrelationen beschrieben und diskutiert werden, inwiefern sie automatisch analysiert werden könnten.

2.4.3  Oberflächenstruktur und Kohäsionsmarker

Linke et al. (2004: 245ff) unterscheiden sprachlich manifestierte und nicht sprachlich manifestierte Faktoren, die zur Kohärenz eines Textes beitragen. Während die nicht sprachlich manifestierten Faktoren nur referenziell erschlossen werden können, sind die sprachlich manifestierten Elemente an der Textoberfläche gut auffindbar. „Gut beschreibbare und leicht erkennbare Verknüpfungsrelationen an der Textoberfläche sind etwa Wiederaufnahmerelationen, bspw. (partielle) Rekurrenzen […] und Substitutionen“ (vgl. Schwarz 2013: 13). Sie setzen voraus, dass die ReferentInnen identisch sind, und werden als explizite Wiederaufnahmen bezeichnet (Referenzidentität, Brinker 2010: 33).

  • Unter Rekurrenz verstehen Linke et al. (2004) die Wiederaufnahme von Lexemen oder Phrasen, wie sie bereits im Kapitel zum interaktiven Alignment als lexikalische Persistenz beschrieben wurde. Dabei kann es sich um die exakte Wiederholung einer Wortform oder Phrase handeln (vgl. auch Purandare & Litman 2008) oder um eine flektierte Form. Rekurrenz wird als Oberbegriff gebraucht und schließt auch Proformen ein. In dieser Arbeit wird ein engerer Begriffsumfang angesetzt und der Terminus Persistenz (Alpha- und Beta-) verwendet (vgl. Kapitel 2.3).
  • Kriterium für die Substitution ist die semantische Nähe zweier Formen z. B. als Syno-, Hypero-oder Hyponym (vgl. auch Purandare & Litman 2008).
  • Auch Proformen (Adverben, Pronomina und Demonstrativpronomina) in anaphorischem oder kataphorischem Gebrauch gelten als Wiederaufnahmen. Sie markieren zusätzlich intratextuelle Referenz auf eine Bezugsform (Nomen, Phrase, Satz) und verfügen über eine „starke textverknüpfende Kraft“ (Brinker 2010:31). Dabei ist die anaphorische Referenz wesentlich häufiger.
  • Ebenfalls als Wiederaufnahme wird der elliptische Anschluss verstanden (Brinker 2010: 33). Besonders für Adjazenzellipsen in oraler oder konzeptionell mündlicher Kommunikation gilt, dass sie auf an früherer Stelle Erwähntes verweisen, allerdings nicht, indem die fragliche Form wiederholt, sondern indem sie als bekannt vorausgesetzt und daher weggelassen wird (vgl. Sacks et al. 1992).
  • Einen komplexen Referenzraum eröffnen Deiktika, die sowohl intra- als auch extratextuell verweisen können. Prototypisch referieren sie auf „die Sprechaktteilnehmer ← 147 | 148 → und weitere Mitglieder der Sprechsituation, die Nachricht sowie Ort und Zeit des Sprechaktes“ (Lehmann 2012)82. Auf Grund ihrer starken Tendenz zum extratextuellen Gebrauch werden Deiktika nicht überall in der Literatur den Kohäsionsmitteln zugerechnet, sondern Deixis wird als eigenständiges Konzept verstanden (vgl. z. B. Dirven & Verspoor 1998: 200).83
  • Konnektiva können sehr unterschiedlich gebraucht werden – vor allem in der (konzeptionell) mündlichen Kommunikation. Zum einen drücken sie logische Verknüpfungen aus (kausal, konditional, adversativ etc.), zum anderen haben sie eine gliedernde Funktion im Text. Dabei kann bei gleicher Form die Bedeutung je nach Kontext variieren.
  • Als metakommunikative Verknüpfungen sind Verweise innerhalb des Textes zu verstehen. Man findet sie mehrheitlich in geschriebenen Texten. Typisch sind Anapher und Katapher. Merkmale der geschrieben Sprache finden sich in HCI-Dialogen immer dort, wo vom Bot lange Erklärungen als Infofunktion ausgegeben werden und die EntwicklerInnen diese nicht konzeptionell mündlich gestaltet haben.
  • Definitartikel zeigen an, dass das Referenzobjekt bereits genannt wurde, während Indefinitartikel verwendet werden, um eine neue Information einzuführen.

Diese Phänomene an der Textoberfläche, die „die Herstellung von Kohärenz und Kohäsion nicht unwesentlich unterstützen und steuern“, fungieren als „Trägerstruktur für thematische Zusammenhänge“ Brinker (2010: 40f). Aus diesem Grund eignen sie sich gut als Schlüsselwörter für einen Kohärenzparser oder um in einem innovativen Dialog-Design die Illusion von Kohärenz zu erzeugen. Sie sind in ihrer Gesamtheit noch nicht in ECAs implementiert worden und bergen daher ein gewisses Potenzial für Weiterentwicklungen. Allerdings „sind die sprachlichen Informationen der Textoberfläche oft nicht ausreichend, um ein kohärentes Verständnis zu garantieren“, denn ein Textverständnis im Sinne einer wirklich kohärenten Verknüpfung von Inhalten ist „letztendlich ein kognitiver Prozess“, der die eingangs erwähnten Parameter miteinbezieht, auf die der Bot keinen Zugriff hat (Linke et al. 2004: 256). Ohne semantische und thematische Kontiguität kann kein kohärenter Text entstehen. Daher müssen Ansätze für eine verbesserte Systemarchitektur auf dieser Ebene diskutiert werden. ← 148 | 149 →

2.4.4  Die Tiefenstruktur: Kontiguität, Präsuppositionen, Frame und Skript, Thema und Rhema

Kohärenz wird „mainly as a mental phenomenon“ (Rickheit & Strohner 1992; Gernsbacher & Givón 1995) definiert. So finden sich an der Textoberfläche nur Indizien für komplexe Prozesse der Textperzeption gemäß einer Tiefenstruktur. Menschen können bei der Verarbeitung von Verweisrelationen auf ein Hintergrundwissen zurückgreifen, das einem Bot nicht zu Verfügung steht. Dieses wird zur semantischen Verarbeitung von Texten eingesetzt, wobei die semantischen Relationen und Assoziationen sehr komplex sein können. Im Gegensatz zur Referenzidentität bei expliziter Wiederaufnahme an der Oberfläche kann sich semantische Referenz auf verschiedene Referenten beziehen und doch einen „roten Faden“ aufweisen. Brinker bezeichnet diese als implizite Wiederaufnahme. Die Beziehungsverhältnisse zwischen den unterschiedlichen semantisch verknüpften Elementen werden als Kontiguität bezeichnet (Brinker 2010: 33f). Den Zwischenraum zwischen einem aufnehmenden und aufgenommenen Ausdruck nennt Brinker begriffliche Nähe bzw. eine inhaltliche Berührung und führt als einfaches Beispiel eine Partonym-Relation an. Die Relationen sind entweder logisch, ontologisch oder sozio-kulturell definiert. Die logischen und ontologischen Relationen können theoretisch regelbasiert in einen Bot implementiert werden, während die sozio-kulturellen meist sehr komplex und je nach Kontext variabel sind, so dass es schwerfallen dürfte, sie zu operationalisieren.

Im System nach Brinker 2010 sind neben sprachimmanenten auch sprach­transzendente Verweisrelationen, die über das Sprachsystem hinausgehen, von großer Bedeutung für das Textverständnis. Diese semantischen Referenzrelationen umfassen die Aspekte der inhaltlichen Information, der Indexikalität, der Intentionalität, der Relevanz und der Validität.

  • Die Einbeziehung von Weltwissen und geteiltem situativen Wissen in die Interpretation des Textes ist besonders wichtig für den Informationsgehalt einer Äußerung. Ohne diesen enormen Verweisraum ist thematisch freie Kommunikation nicht möglich. Für die Interaktion mit dem Bot müssen bereichsspezifische Lebenswelten und begrenztes enzyklopädisches Wissen definiert werden.
  • Gesprächsbeiträge sind indexikalisch in Bezug auf Personen und den situativen Kontext. Sie müssen situationsgemäß verständlich sein und adressatInnen-gemäß formuliert werden (Brinker & Sager 1989: 131). Das setzt eine Vorstellung von der eigenen Perspektive auf die Situation und die Fähigkeit zur Perspektivübernahme voraus (Partner-Modeling, Johnson-Laird 1983; Sanford & Garrod 1981; Zwaan & Radvansky 1998, vgl. auch Beun & van Eijk 2007).
  • Semantische Kohärenzrelationen verfügen zusätzlich über eine intentionale Seite (vgl. u. a. Redeker 1990; Sanders et al. 1992; Bateman & Rondhuis 1997). Kennt man ← 149 | 150 → die Intention, mit der eine Aussage getroffen wurde, versteht man ihre Kohärenzrelation zu anderen Aussagen im gleichen Kontext. Die Problematik für deterministische Systeme liegt hier in der Unfähigkeit, sich frei Ziele zu setzten und diese dynamisch zu ändern. Moderne ECAs sind zwar meist goal-directed konstruiert, doch ist diese starre Zielorientierung nicht mit variabler menschlicher Intentionalität zu vergleichen und führt oftmals gerade zu inkohärenten Gesprächsbeiträgen. Denn de facto manifestiert sich Goal-Directedness im Dialog dadurch, dass bei UserInnen-Beiträgen, die nicht geparst werden konnten, unter bestimmten Bedingungen eine Antwort ausgegeben wird, die sich unabhängig vom vorausgegangenen Turn am vordefinierten Dialogziel orientiert. So kommt es zu einem abrupten Themenwechsel, der besonders inkohärent und artifiziell wirkt. Sofern die UserInnen anthropomorphe Eigenschaften an das System attribuieren, interpretieren sie diese Sprünge als Desinteresse seitens des Bots. Für dieses Problem müssen dringend Lösungsansätze gefunden werden.
  • Eine mögliche Chance liegt in einem weiteren Aspekt der semantischen Kohärenzrelation, nämlich der Relevanz einer Äußerung an der jeweiligen Stelle im Gesamttext oder in der Dialogsituation (vgl. Grice 1975). Eine Aussage kann mehr oder weniger relevant für den gegebenen Kontext sein. Irrelevante Äußerungen werden als inkohärent eingestuft. In einem System könnte man Relevanzhierarchien für Äußerungen in Abhängigkeit vom geparsten UserInnen-Turn oder vom implementierten Goal definieren.
  • Die Validität von Äußerungen ist wichtig für einen kohärenten Dialog, denn wenn der Informationsgehalt einer Aussage nicht glaubwürdig ist, ergeben sich andere Implikationen für die Weiterführung der Interaktion. Dieser Aspekt der semantischen Referenzrelation ist in der HCI unproblematischer als in der HHC, da Bots in der Regel nicht lügen. Ansonsten wäre ihr Einsatz als Assistenzsystem nicht sinnvoll und eine erfolgreiche Usability nicht gegeben. Dieser Umstand ist den UserInnen durchaus bewusst und sie bringen dem System in der Regel Vertrauen entgegen. Ein Lügenbot wäre eine interessante Variante, aber nur in den wenigsten Bereichen sinnvoll einsetzbar.

Interagierende setzen ihren Aussagen Präsuppositionen voraus; d. h., sie haben bestimmte Annahmen über ein geteiltes Wissen, das sie beim Gegenüber voraussetzen können. Um eine Aussage verstehen zu können, muss sie mit dem geteilten Wissen in eine logische Verbindung gesetzt werden. So kann eine Bedeutung aus dem Kontext abgeleitet werden, auch ohne dass alle eigentlich dazu notwendigen Informationen explizit gemacht wurden. „Über die sprachliche Information hinausgehend ziehen Hörer und Leser weiter gehende Schlüsse, so genannte Inferenzen“ (Rickheit et al. 2002: 393). Geteiltes Wissen im Sinne eines Common Grounds bildet den Hintergrund für erfolgreiche Inferenz (Stalnaker 2002).

Linke et al. (2004) unterscheiden zusammenfassend zwischen zeichengebundenen und pragmatischen Präsuppositionen: zeichengebundene sind „an den materiell gegebenen Text gebunden“, pragmatische dagegen sind unabhängig vom ← 150 | 151 → Text und ergeben sich aus pragmatischen Implikationen im situativen Kontext. Bei dem o. g. Beispiel von Beun und van Eijk handelt es sich um einen Versuch, pragmatische Präsuppositionen zu implementieren und so inferentielles Schließen zu operationalisieren (Beun & van Eijk 2007; Prakken 2005). Modelle dieser Art haben einen sehr engen Fokus und funktionieren unter exakt definierten Bedingungen. Für den Einsatz in Bots sind sie zu speziell und zu wenig variabel. Für eine natürliche Kommunikation muss Common Ground in Form von Weltwissen, am besten unter Berücksichtigung einer gemeinsamen sozio-kulturellen Prägung, vorliegen. Im Modell werden als Common Ground nur einzelne Präsuppositionen definiert. Ein Bot bräuchte mindestens eine bereichsspezifische Wissensbasis, aus der bestimmte Präsuppositionen für die Interaktion mit UserInnen abgeleitet werden könnten.

Die psychologische Frame-und-Skript-Theorie setzt da an, wo Textkohärenz vorliegt, ohne dass sie an sprachlichen Mitteln festgemacht werden muss (Fillmore 1976). Es wird davon ausgegangen, dass Menschen auf ein Hintergrundwissen zurückgreifen können, das bereichsspezifisch gegliedert ist und strukturiert zur Verfügung steht. Konventionalisiertes Bedeutungswissen manifestiert sich in „statischen Wissenskomplexen“ (Linke et al.: 2004: 265) und gibt den Rahmen für sprachliche Handlungen vor. Solche Frames werden von bestimmten Schlüsselwörtern im Dialog ausgelöst und können zur semantischen Analyse von Texten beitragen (Fillmore 1976). Als Skript ist das prozessuale Wissen zu einem Frame zu verstehen. Bestimmte sozio-kulturelle Bereiche erfordern entsprechende Abläufe. So folgen z. B. Verkaufsgespräche einem allgemeinen Skript oder Protokoll (vgl. Schlobinski 1982), das eine gewisse Ordnung für den Gesprächsverlauf vorgibt, ohne dass diese explizit gemacht werden muss (vgl. Kapitel 2.2).

Einige ECAs arbeiten bereits mit Frames und Skripts für ihre jeweiligen Anwendungsgebiete. Da ihr Einsatz allerdings meist nur in einem bestimmten Bereich erfolgt, ist die Zahl der bekannten Frames gering. Aber bereits eine Unterscheidung zwischen Info- und Small-Talk-Modus, den selbst die einfachsten Bots kennen, stellt einen ersten Versuch dar, Frames und Skripts zu implementieren. Hier liegt die Chance für eine Weiterentwicklung zu mehr Flexibilität in der Ausdifferenzierung für verschiedene Anwendungsbereiche.

Unbestritten relevant für die Textkohärenz ist das inhärente Thema der Interaktion, auf das sich beide GesprächpartnerInnen beziehen sollten. „Themen fungieren als eine Struktur, an der sich die Teilnehmer/innen mit ihren Beiträgen orientieren können. Sie werden zum Fokus gemeinsamer Aufmerksamkeit und ← 151 | 152 → dienen als kognitive Schemata, um Gespräche planen, durchführen, verstehen, speichern und reproduzieren zu können.“84

Zur Entfaltung des Themas werden alle unterschiedlichen Ebenen genutzt (Oberflächenphänomene, semantische Referenzrelationen, Sprechakte und Argumentstruktur, sozio-kulturelle Rahmenbedingungen, CA-Strukturen). Allgemein unterscheidet man zwischen dem Thema (das, worüber etwas ausgesagt wird) und dem Rhema (das, was über das Thema ausgesagt wird). Die Relationen zwischen Thema und Rhema als propositionalem Komplex führen zur „Entfaltung des Inhaltskerns“ durch die „thematische Progression“ (Brinker 2010:21; vgl. auch Topic Continuity, Givón 1983; van Dijk 1985). In HCI-Dialogen kann die thematische Progression erst kohärent fortschreiten, wenn alle anderen Parameter auf den unterschiedlichen Ebenen erfolgreich implementiert wurden und zusammenarbeiten. Außersprachliche Faktoren werden in der Theorie nicht einheitlich beschrieben und sind kaum fassbar für ein deterministisches System, das nicht auf Weltwissen zurückgreifen kann, folglich keinen Common Ground annehmen und nur sehr bedingt Präsuppositionen voraussetzen kann und somit kein Bewusstsein für eine Lebenswelt (Habermas 1993b: 199) hat, in der die Interaktion stattfindet.

2.4.5  Untersuchungsparameter und Hypothesen mit Bezug zum Konzept der Kohärenz und Kohäsion als Grundlage für die Korpusanalyse

Zur Untersuchung und Auswertung der o. g. Phänomene wird methodisch ein Mischansatz verfolgt. Quantifizierbare Phänomene werden im Untersuchungskorpus erfasst und ausgewertet (z. B. Kohäsionsmarker als Indizien für Kohärenz an der Textoberfläche). Die qualitative Analyse wird anhand von ausgewählten Beispiel-Sequenzen vorgenommen,85 da diese Methode den semantischen und pragmatischen Untersuchungsparametern gerechter wird. Auch bestimmte Oberflächenphänomene lassen sich in ihrem Kontext qualitativ besser erfassen. Die qualitative Auswertung orientiert sich an Leitfragen (Kapitel 4.3). In- und quasi-kohärente Turns werden sowohl quantitativ als auch qualitativ erhoben und in Kapitel 4.3 interpretiert und diskutiert. ← 152 | 153 →

Tabelle 3: Untersuchungsparameter Kohäsion und Kohärenz

Quantitative AnalyseQualitative Analyse
Oberfläche
  • Wiederaufnahmen / Persistenzen (vgl. Kapitel 2.3: lexikalisches und syntaktisches Alignment, Auswertung Kapitel 4.2)
  • Proformen
  • Adjazenzellipsen
  • Konnektiva
  • Anapher / Katapher
  • Deixis
  • Artikel
Tiefe
  • Inkohärenter Turn
  • Quasiokohärenter Turn
  • Signal-Non-Understanding (SWBD-DAMSL, explizites Signal, dass Vorgänger-Turn nicht verstanden wurde)
  • Semantische Referenz und Kontiguitätsverhältnisse
  • Präsupposition und Inferenz
  • Frame & Skript
  • Thema

Folgende Hypothesen wurden für eine quantitative Auswertung formuliert. Dabei wird besonderer Bezug genommen auf Persistenzen im Rahmen einer Theorie des interaktiven Alignments.

Störungen des Dialogs: Inkohärenzen / Quasi-Kohärenzen

H0K1: Die Verteilung der Inkohärenzen, Quasi-Kohärenzen und Signal-Non-Understanding ist für UserIn und System in den Untersuchungskorpora gleich.

In- und Quasi-Kohärenz sowie Signal-Non-Understanding finden sich wahrscheinlich ausschließlich auf der Seite des Systems und sind Indikatoren für Störungen beim Parsing. Daher ist zu erwarten, dass sie häufiger in den Agenten-Korpora als im HHC-Korpus vorliegen. Inkohärenz, Quasi-Kohärenz und Signal-Non-Understanding sind dagegen am häufigsten im ältesten Korpus (Twipsy) und am seltensten im jüngsten Korpus (Elbot) zu erwarten.

Kohäsionsmarker

H0K2: Die Verteilung der Kohäsionsmarker ist für UserIn und System in den Untersuchungskorpora gleich.

Unterschiede zwischen UserIn und System in Bezug auf die Verwendung von Kohäsionsmarkern sind wahrscheinlich. Erwartet wird ein stärkerer Gebrauch von Kohäsionsmarkern seitens der UserInnen. Weiterhin ist anzunehmen, dass sich Kohäsionsmarker weniger häufig in den Agenten-Korpora finden als im HHC-Vergleichskorpus.

Die Auswertung der Analyse findet sich in Kapitel 4.3 und theorienübergreifende Aspekte werden in Kapitel 4.5 diskutiert. ← 153 | 154 →

2.5  Computer-Talk

Unterschiedliche Design-Ansätze in der HCI verfolgen verschiedene Zielsetzungen: Entweder versuchen sie die HHC so gut wie möglich zu imitieren (Star-Trek-Kommunikation) oder HCI mit besonderen Charakteristika als eigenständige Form der Interaktion zu etablieren (Usability). Die in 2.3 und 2.4 thematisierten Ansätze zielen darauf ab, Computer mit Hilfe von sozio- oder psycholinguistischen Modellen funktionsfähig zu machen für natürlichere Interaktion. Diesem Bestreben steht die Beobachtung entgegen, dass Menschen mit artifiziellen GesprächspartnerInnen gar nicht genauso interagieren wie mit Menschen, sondern vielmehr eine spezielle UserInnen-Sprache gebrauchen. „A number of early systematic studies show that the way people talk in human-computer interaction differs in many respects from the way they talk to each other” (Fischer 2006: 1). Sollte sich also auch für die Interaktion mit modernen Systemen in einer breiten Feldstudie eine vereinfachte UserInnen-Sprache beobachten lassen, schließt sich die Frage an, ob völlig natürliche Kommunikation mittelfristig das Ziel technischer Weiterentwicklungen sein sollte, oder ob sich ein vereinfachter Sprachgebrauch zwischen Mensch und Maschine etablieren kann. Dazu müssen die strukturellen und funktionalen Charakteristika einer solchen UserInnen-Sprache genau herausgearbeitet werden. Welche Strukturen charakterisieren die HCI wirklich (Performanz) und welche funktionalen Prozesse (bot-gerichte UserInnen-Strategien oder gedankenlose Übertragung von Verhaltesweisen aus der HHC) stehen dahinter? Zoeppritz konstatierte mit Bezug auf die strukturellen Auffälligkeiten in der HCI 1985 die Existenz eines Computer-Talks (CT). Unter diesen Begriff fallen „several instances of deviant or odd formulations that looked as if they were intended to be particularly suitable to use with a computer as the partner of communication“ (Zoeppritz 1985: 1).

2.5.1  Computer-Talk als strukturelles oder funktionales Register?

Der Ausdruck Computer-Talk ist an Sprachregister wie Foreigner-Talk oder Baby-Talk angelehnt (vgl. Kritzenberger 1992), da Zoeppritz von der Annahme ausgeht, dass diese Abweichungen von unmarkiertem Gesprächsverhalten auf ein „adressatenspezifisches Register“ zurückzuführen seien (Zoeppritz 1985: 117). Diesem Gedanken folgten viele internationale Studien mit unterschiedlichen Ergebnissen (Richards & Underwood 1984; Morel 1989; Amalberti et al. 1993; Johnstone et al. 1994; Hitzenberger & Womser-Hacker 1995; Porzel & Baudis 2004; vgl. Fischer 2006, s. auch Kapitel 4.4). Auf der Basis einer breit angelegten Untersuchung deutschsprachiger HCI-Korpora formulieren Krause, ← 154 | 155 → Hitzenberger und Womser-Hacker 1992, dass die Charakteristika von CT in systematischer Form vorlägen und dass CT damit als sich strukturell manifestierendes Register einzustufen sei. 2006 führte Fischer umfassende Untersuchungen zu CT bei deutschen SprecherInnen durch und fand die Annahme von Krause, Hitzenberger und Womser-Hacker nicht bestätigt, da sich CT nicht eindeutig an bestimmten sprachlichen Strukturen festmachen ließe. Vielmehr seien die zu Grunde liegenden, äußerst diversen UserInnen-Strategien und Vorannahmen über das System maßgeblich für funktionale Aspekte in der Dialogführung. CT könne in vielerlei Hinsicht in Analogie zu interkultureller Kommunikation analysiert werden und sei abhängig vom UserInnen-Typ (Fischer 2006). Fischer (im Druck) führt dann den Begriff der Robot Directed Speech (RDS)86 ein.

Im Folgenden sollen die Argumentationen von Krause, Hitzenberger und Womser-Hacker sowie von Fischer als exemplarisch für den Diskurs um deutschsprachigen CT vorgestellt werden, da sie das Phänomen auf unterschiedlichen Ebenen (Performanz und Kognition) diskutieren. Der Versuch einer Definition von CT ist aus linguistischer Perspektive grundlegend für weitere theoretische Überlegungen. „It is theoretically very interesting to ask what computer Talk (CT) actually is” (Fischer 2006: 6). Außerdem ist mit dem Bestreben, die Charakteristika von CT ausfindig zu machen und regelhaft zu formulieren, selbstverständlich auch ein Forschungsinteresse zur Verbesserung neuer Technologien verbunden. „It would thus be much more preferable for the system designer to know the underlying processes that guide the users’ linguistic behaviour and to be able to predict their behaviour in order to design the most suitable system, and maybe even a system that people like to talk to” (Fischer 2006: 5f).

2.5.1.1  Strukturelle Aspekte eines CTs

Eine besonders frühe und umfassende explorative Studie zu Charakteristika eines CTs stellen die DICOS-Experimente von Krause, Hitzenberger und Womser-Hacker dar (Krause & Hitzenberger 1992). Diese sollen hier genauer beschieben werden, da sie eine der wenigen Untersuchungen deutschsprachiger Interaktionen ← 155 | 156 → mit einem Sprach-Interface darstellt, in deren Rahmen strukturelle Charakteristika eines CTs beschrieben werden, die sich mit korpuslinguistischen Methoden überprüfen lassen. Außerdem entsprechen die pragmatischen Voraussetzungen (Bahnauskunft, Bibliotheksauskunft) den Help-Desk-Szenarios der in dieser Studie untersuchten Interaktionen.

Um ein im Sinne eines CTs abweichendes Dialogverhalten der UserInnen zu untersuchen, wurden im Rahmen der DICOS-Experimente sowohl Tests zur medial mündlichen als auch zur medial schriftlichen HCI durchgeführt – beides in Abgrenzung zu entsprechenden HHC-Settings. Die Testreihe wurde als „Hidden-Operator-Simulation“ (Hitzenberger 1992: 62), also als Wizard-of-Oz-Szenario in als Auskunfts-Task unterschiedlichen experimentellen Settings durchgeführt: a) als offenkundige HHC, b) verdeckt als flüssige HCI, b) verdeckt als HCI mit Störungen bz. Fehlermeldungen und c) verdeckt als HCI mit Parsing-Restriktionen (vgl. Hitzenberger 1992: 72f). Folgende strukturellen Indikatoren eines CTs wurden angenommen: „Anstieg der Abweichungen vom normalen Sprachgebrauch, einschließlich abweichender Koordinationsstrukturen, Anstieg der Überspezifikationen, Rückgang im Partikelgebrauch, Rückgang der Höflichkeitsindikatoren, Rückgang der Dialograhmenelemente, Rückgang partnerorientierter Dialogsignale, Anstieg formalsprachlicher Zeichen und Abkürzungen, Modifizierungen bei den syntaktischen Strukturmustern“ (Womser-Hacker 1992: 98). Für die medial mündlichen Eingaben kommen noch folgende Annahmen hinzu: „Abbrüche begonnener Konstruktionen, Verbesserungen, identische Wiederholungen eines Wortes oder Satzteiles, Wiederholung von Teilen in erweiterter Form, Nachträge bzw. Ausklammerungen“ (Womser-Hacker 1992: 98).

Die Verwendung unterschiedlicher Wortformen (lexikalische Vielfalt) nimmt bei der Kommunikation mit dem System (Variablen 2–4) im Vergleich zur Kommunikation mit einem Menschen (Variable 1) immer weiter ab. Ähnliches lässt sich für die Veränderungen hinsichtlich der Satzstrukturen beobachten. Im Gegensatz zu zwischenmenschlicher Kommunikation, wird der Satzaufbau in der HCI wesentlich seltener variiert. Auch der Gebrauch von Dialograhmenelementen, Partikeln und Höflichkeitsindikatoren in der Interaktion mit den vier Systemvarianten nimmt ab. Die Vorannahmen für die orale HCI bestätigen sich in den Versuchen. Zum Teil lassen sich diese Abweichungen zwar sowohl auf den Eingabekanal als auch auf die Beschränkungen der jeweiligen Systemvariable zurückführen, es ist jedoch besonders auffällig, dass alle Modifikationen von zwischenmenschlicher Kommunikation bereits bei Systemvariable 2 auftreten, also jener Variante, die der HHC entspricht. So folgert Kritzenberger: Die bloße Vorstellung mit einem System zu kommunizieren, führe also bei den UserInnen ← 156 | 157 → bereits dazu, dass sie von ihrem Sprachverhalten abwichen (vgl. Kritzenberger 1992: 155).

Die AutorInnen deuten die Ergebnisse der Studie als Belege für die Annahme, bei CT handele es sich um ein strukturelles Register. Unter einem sprachlichen Register verstehen sie eine Sublanguage (Harris 1982) als Teilmenge der Gesamtsprache mit Überschneidungen zur Standardsprache (Lstd), die ihrerseits Teilmenge der Gesamtsprache ist. Sprachregister basieren auf Differenzierungen von situativen Faktoren, die mit sprachlichen Differenzierungen korrelieren. Erste Überlegungen zur HCI als Subset zu Lstd sind in den 1980er Jahren verbunden mit der Vorstellung, das Subset (Befehle in Programmiersprache) müsse wie eine Fremdsprache erlernt werden. Krause setzt sich für die natürlichsprachliche Interaktion mit artifiziellen Systemen ein (Krause & Hitzenberger 1992). Statt ein Subset zu erlernen, solle spontan in einer Sublanguage kommuniziert werden können als angemessenes Register in der Verwendungssituation HCI. Sprachregistermerkmale können die Grenzen der Standardsprache Lstd überschreiten und quantitativer Natur sein (vgl. Mächtigkeitsgrammatik, Kuhlen 1990). Eine Vereinfachung in einem Bereich hat eine Verkomplizierung in einem anderen Bereich zur Folge (vgl. Equilibriumsprinzip, Labov 1971). In der HCI finden sich beide Tendenzen: „Simplification“ als strukturelle oder semantische Vereinfachung sowie „Clarification“ als eine Ausweitung der Oberflächenstruktur. Als Beispiel kann der Anstieg an Regelgenauigkeit und ein Rückgang an „Expressiveness“ (weniger emotive Handlungen gegenüber dem Computer) angeführt werden. Krause fasst drei Grundtendenzen eines eines Registers in Abgrenzung von Lstd zusammen (Krause & Hitzenberger 1992):

  • Bestimmte Charakteristika des Standards fehlen.
  • Bestimmte Strukturen kommen hinzu.
  • Bestimmte Strukturen treten mit veränderter Wahrscheinlichkeit auf.

Dadurch wird das Register CT im theoretischen Diskurs der 1990er nicht als vereinfachtes System zum Bezugssystem der Lstd definiert, sondern als alternatives System. Dabei wird eine regelhafte Grundstruktur angenommen. So sind z. B. Bateman und Paris 1990 in einer frühen Publikation der Meinung, UserInnen-Verhalten sei anhand solcher Parameter vorhersagbar. Als Ergebnis der Studie definieren Womser-Hacker und Hitzenberger (1992: 56), was das Register ausmache.

  • Vermehrt Unterschiede zum Standard (Lstd)
  • Modifikation syntaktischer Konstruktionen
  • Steigende Anzahl von Überspezifikationen
  • Steigende Anzahl von formaler Codierung ← 157 | 158 →
  • Abnehmende Anzahl von Rahmenelementen im Dialog
  • Abnehmende Anzahl von Höflichkeitsfloskeln
  • Abnehmende Anzahl von partner-orientierten Dialogsignalen
  • Abnehmende Anzahl von Partikeln

Krause (1992) deutet diese Parameter als Indikatoren für einen sog. „metaphorischen Sprachgebrauch“ dem System gegenüber, wobei er die UserInnen-Sprache als Metapher auf die eigentlich ausgeführten Befehle in Programmiersprache versteht (vgl. Desktop-Metapher). Er geht davon aus, dass UserInnen annehmen würden, das System könne formallogische Ausdrücke eher verarbeiten als natürlichsprachliche. So könne man den hohen Grad an Abstraktion erklären, den einige Äußerungen aufwiesen. Krause führt verschiedene Beispiele aus den Untersuchungskorpora an:

a) UserIn: Welche Deutschnote in Quarta hat wie viele Schüler?

b) UserIn: Wieviele Schüler repetieren 1 Klasse?

System: Nicht verstanden



UserIn: Wieviele Schüler repetieren 2 Klassen?

System: 25



UserIn: Wieviele Schüler repetieren 1 Klassen?

System: 99



(Krause 1992: 159f)

Beiden Beispielen liegt der Versuch einer Perspektivübernahme zu Grunde. Die UserInnen versuchen nach eigenen Aussagen in einer Befragung im Nachgang des Experiments, sich die Arbeitsweise eines Systems vorzustellen und modifizieren ihre Formulierungen dahingehend, dass Notenwerten Schülerzahlen zugeordnet und „Klassen“ als kategorielle Bestimmung unveränderlich wie eine Maßeinheit gebraucht werden.87 Krause vermutet daraufhin, dass BenutzerInnen im Umgang mit Systemen nicht ihre Sprachfähigkeiten veränderten und anpassten, „sondern […] das Sprachsystem als Ganzes [verlassen und so] einen Handlungsstandpunkt außerhalb der Dialogregeln zwischenmenschlicher Kommunikation“ einnähmen (Krause & Hitzenberger 1992: 161). NutzerInnen orientierten sich also nicht an der unzureichenden Sprachfähigkeit des Systems (vgl. Foreigner- oder Baby-Talk), sondern an Spekulationen über die angenommenen Systemroutinen (vgl. Krause & Hitzenberger 1992: 161). Äußerungen im Register CT seien also definiert durch ihre metaphorische Art, auf vermeintliche ← 158 | 159 → Systemprozesse zu verweisen. Sie dienten häufig als Repair-Strategien. „Der Benutzer weiß […] [, dass es bei Kommunikation mit einem natürlichsprachlichen Interface] nicht um Sprachbeherrschung im Sinne der menschlichen Kommunikation geht“ (Krause & Hitzenberger 1992: 166). Währenddessen lasse man sich zwar entsprechend eigener Vorannahmen über die Maschine auf die scheinbare Natürlichkeit der Kommunikation ein, sei sich aber bei auftretenden Störungen bewusst, dass es sich dabei nicht um Probleme des Sprachverstehens im kognitiven Sinne handele, sondern um einen Fehler der Sprachverarbeitung als Systemprozess (vgl. Krause & Hitzenberger 1992: 167). Entsprechend schlussfolgert er, dass CT „metaphorischer Gebrauch von Sprache“ sei (Krause & Hitzenberger 1992: 167). Über längere Dialogsequenzen bewegten sich UserInnen zwar in vereinfachten Registern, die Ähnlichkeit zu Foreigner- oder Baby-Talk aufwiesen, jedoch würden diese Sprachregister verlassen, sobald Störungen aufträten, und der metaphorische Sprachgebrauch würde bemüht (vgl. Krause & Hitzenberger 1992: 167). Fischer (im Druck) beobachtet beinahe 20 Jahre später in ihren Experimenten zur HRI im Gegensatz zu Krause zahlreiche Hinweise auf Simplfizierungsstrategien im Sinne einer Robot Directed Speech (RDS) und kaum metaphorischen Sprachgebrauch im Sinne eines CTs. In der vorliegenden Arbeit wird der Terminus Computer Talk vor dem Hintergrund der Diskussion seit den 1980er Jahren beibehalten, da er auf die chat-basierte HCI noch sinnvoll angewandt werden kann (s. Kapitel 4.4) – allerdings unter Berücksichtigung einer Verschiebung des Begriffsumfang auf derzeitige HCI-spezifische, von Lstd abweichende Phänomene.

Empirisch konnten zwar Tendenzen struktureller Veränderungen beobachtet werden (vgl. Womser-Hacker 1992), die auf ein Sprachregister CT hindeuten, diese sind aber nicht ausgeprägt genug, um das Register exakt definieren zu können. Krause selbst thematisiert darüber hinaus einige methodische Schwierigkeiten88 und formuliert vorsichtig, dass die beschriebenen Merkmale eines CTs keinesfalls den Anspruch auf Allgemeingültigkeit hätten (vgl. Krause & Hitzenberger 1992: 157). Bis heute konnten keine verbindlichen Charakteristika eines CTs erhoben werden, da sich die HCI besonders durch ihre Heterogenität ← 159 | 160 → auszeichnet (vgl. Fischer im Druck: 274). Auf der Ebene der Modellbildung hat sich herausgestellt, dass die der HCI zu Grunde liegenden Zusammenhänge nicht so direkt zu fassen sind, wie es die Register-Hypothese nahelegt. Es ist mehrfach nachgewiesen worden, dass menschliches Sprachverhalten gegenüber natürlichsprachlichen Interfaces keineswegs einheitlich verläuft. Zahlreiche UserInnen- und Systemvariablen beeinflussen die moderne HCI – teils als kognitive, psychische oder soziale Phänomene, teils als technische Restriktionen. Der Anspruch der intuitiven Nutzbarkeit von Systemen hat auch die UserInnen-Erwartungen verändert. Die Hypothese von HCI als einem sprachlichen in sich geschlossenen Register scheint vor diesem Hintergrund heutzutage gegenüber modernen Systemen fraglich. Inwiefern in chat-basierterer HCI Charakteristika eines CTs zu beobachten sind, bleibt zu überprüfen.

2.5.1.1.1  Die Register-Hypothese im Kontext internationaler Studien zu strukturellen Indikatoren für CT

Als Reaktion auf die Annahme eines CTs (Zoeppritz 1985) wurden international zahlreiche Studien durchgeführt mit dem Ziel, die Merkmale eines CTs zu definieren. Die prominenten Forschungsergebnisse dieser Zeit kommen allerdings vielfach zu widersprüchliche Ergebnissen in Bezug auf dieselben Untersuchungsparameter. Ein einheitlicher Merkmalskatalog eines strukturellen Registers CT konnte nicht formuliert werden. Vor allem Höflichkeit, lexikalische Vielfalt, Variabilität, Simplifizierung, Überspezifizierung und Dialogstruktur wurden in unterschiedlichen experimentellen Settings untersucht. Fischer (2006: 3f) vergleicht die Ergebnisse und stellt fest, dass sich kein einheitliches Bild abzeichnet.

  • Höflichkeit: Während Morel (1989) weniger sprachliche Merkmale für Höflichkeit in der HCI findet und Johnstone et al. (1994) erklären, weniger implizites Grounding führe zu weniger Orientierung an Höflichkeit, sehen Richards und Underwood (1984a) keinen Höflichkeitsunterschied zwischen HHC und HCI, solange das System höflich sei. Und Ward und Heeman (2000) bekräftigen die letztere These, indem sie genauso viel please und thank you und höfliche Verabschiedungen in HHC- und HCI-Korpora finden. Fischer (2006) findet für das Deutsche zwar weniger bitte, hält aber in Bezug auf Begrüßungs- und Verabschiedungsroutinen fest: „What can be found, however, is that speakers indeed attend to politeness.“ (Fischer 2006: 67).
  • Lexikalische Vielfalt: Amalberti et al. (1993: 558) gehen davon aus, dass naive UserInnen in der HCI eine größere Anzahl von Wortformen gebrauchen als in der HHC. Die Zahl der Wortformen (Tokens) nehme aber mit wachsender Expertise ab. Johnstone et al. (1994) und Oviatt (1995) dagegen zählen zwar eine geringere Anzahl von Lemmata in der HCI, allerdings seien die Äußerungen der UserInnen jeweils länger als ein durchschnittlicher Turn in der HHC. ← 160 | 161 →
  • Lexikalische und syntaktische Variabilität: Amalberti et al. (1993: 558) finden keinen Unterschied zwischen der HHC und der HCI in Bezug auf Variabilität. Hitzenberger und Womser-Hacker (1995: 59), Gustafson (2002: 69), Falzon (1988) gehen dagegen von einem restringierten Lexikon und weniger syntaktischen Konstruktionen (Phrasen) aus. Krause und Hitzenberger (1992) konstatieren ebenfalls eine Abnahme an Variation von der HHC zur HCI. Richards und Underwood (1984) zählen allgemein weniger Vokabeln, während Gieselmann und Waibel (2005) eine große Bandbreite an syntaktischen Konstruktionen und eine große Vielfalt an lexikalischen Einheiten beobachten.
  • Simplifizierung: Krause (1992: 48–50) stellt viele Vereinfachungen in der Sprache der UserInnen im Vergleich zu untersuchten HHC-Dialogen fest und postuliert ein Subset zur Norm von Lstd. So findet er bspw. keine Determinatoren, Konjunktionen und Präpositionen, dafür aber viele Ellipsen, die zu einem Telegrammstil führen. Womser-Hacker (1992) und Gustafson (2002) sprechen vorsichtiger von einfacher Syntax und von weniger Variation in der Syntax. In Bezug auf orale Kommunikation mit einem Bot können Richards und Underwood (1984) bestimmte Simplifikationsstrategien ausmachen. Darunter fallen z. B. langsames Sprechen und weniger ambige Pronomina.
  • Überspezifizierung: Krause (1992) nimmt zusätzlich zu einem Trend zur sprachlichen Vereinfachung auch die gegenläufige Tendenz zur Überspezifizierung an (vgl. auch Zoeppritz 1985), d. h. zusätzliche Determinatoren, Konjunktionen, Präpositionen und Präpositionalphrasen. Womser-Hacker (1992) und Hitzenberger und Womser-Hacker (1995) können diese Hypothese statistisch nicht belegen.
  • Dialogstruktur: Amalberti et al. (1993) halten weniger Konnektiva, mehr Bitten um Wiederholung und eine gesteigerte Aufmerksamkeit auf Grounding für die Struktur der Dialoge in der HCI für charakteristisch. Diese These steht in direktem Kon­trast zu Johnstone (1994). Krause und Hitzenberger (1992) und Hitzenberger und Womser-Hacker (1995) finden allgemein weniger Partikeln und Konnektiva. Oviatt (1995) bemerkt ein Fehlen von Struktur allgemein in der HCI. Porzel und Baudis (2004) dagegen meinen, die UserInnen hielten an alltagssprachlichen Strukturen fest. Jönsson (1996) stellt fest, dass weniger Bezug auf Kontextinformationen genommen, aber dennoch früher Erörtertes als gesichert wahrgenommen werde.

Fischer (2006) versucht zu erklären, warum die Ergebnisse so unterschiedlich sind. Ein Grund könnte in der Vermischung von oralen oder schriftlichen Sprachdaten liegen „and several studies have shown that there are differences on the basis of the input modality (e.g. Womser-Hacker 1992)” (Fischer 2006: 4). Die Ergebnisse bezögen sich dann eher auf Phänomene, die in Zusammenhang mit dem Eingabekanal stünden und weniger zu tun hätten mit mentalen Modellen der UserInnen oder Restriktionen durch die Systemarchitektur an sich. Kanalphänomene können Einfluss auf die Interaktion haben und müssen daher von der Diskussion um CT als Register getrennt betrachtet werden, da Merkmale eines Registers trotz unterschiedlicher Kanäle nachweisbar sein müssten. ← 161 | 162 → Außerdem wirken sich die jeweiligen pragmatischen Bedingungen der untersuchten Interaktionssituation stark auf die Ergebnisse der Analyse aus.

Unabhängig von Kanalphänomenen muss auf Grund der widersprüchlichen Datenbasis in Betracht gezogen werden, dass CT strukturell nicht eindeutig nachgewiesen werden kann. „CT is not a single homogeneous variety, or that […] the linguistic choices made by the speakers cannot be predicted on the basis […] that they are talking to an artificial communication partner“ (Fischer 2006: 67). Ein weiteres grundsätzliches Problem liegt in der modellhaften Vorstellung vom Register CT als einer statischen Größe, deren Merkmale sich in strukturellen Besonderheiten der UserInnen-Sprache manifestieren. Interaktive Effekte werden nicht direkt thematisiert oder in ein Interaktionsmodell eingebunden. Fischer (im Druck) untersucht diese interaktiven Aspekte (z. B. Alignment) im Verhältnis zu Parametern eines CTs und leitet daraus ein funktionales Modell der HRI ab.

2.5.1.2  Funktionale Aspekte eines CTs

Vor dem Hintergrund der widersprüchlichen Ergebnisse der Untersuchungen zu strukturellen Merkmalen eines CTs, stellt Fischer (2006) die Überlegung an, dass CT sich wegen des Einflusses unterschiedlicher Variablen nicht einheitlich auf der Performanzebene manifestiere, sondern dass allein die Prozesse definiert werden könnten, die dem Verhalten der UserInnen zu Grunde lägen. Sie stützt ihre Theorie auf Untersuchungsergebnisse zu verschiedenen linguistischen Phänomenen aus unterschiedlichen experimentellen Settings (HCI, HRI und Wizard-of-Oz).

2.5.1.2.1  Indikatoren für bewusste Userinnen-Strategien auf der Basis von kognitiven Modellen

Fischer (2006) analysiert mit qualitativen Methoden der CA Gliederungselemente, Lexem-Auswahl und Diskurspartikeln sowie Grounding-Strategien und sprachliche Höflichkeit. Dabei beschränkt sie sich auf orale Kommunikation, um Kanalvariablen auszuschließen. Untersucht werden vor allem UserInnen- Reaktionen auf Störungen, da diese u. U. Auskunft geben können über eventuelle kognitive Konzepte. „The frequent miscommunication of HCI and HRI thus provide the analyst with useful tools into speakers’ conceptualizations of their recipient (cf. Fischer, 2006). We can thus use interaction as a glimpse into cognition (cf. Drew, 2005)” (Fischer 2010: 2350). Daher geht Fischers Ansatz über Ansätze hinaus, die in ihrer Argumentation allein auf der Ebene der Performanz ansetzen. ← 162 | 163 →

Auf struktureller Ebene kann auch sie keine einheitlichen Ergebnisse berichten, jedoch beobachtet sie userInnen-übergreifende funktionale Trends, wie bspw. eine gewisse Tendenz zur AdressatInnen-Orientierung und zur Simplifizierung in Bezug auf UserInnen-Strategien. Fischer (2006) definiert CT aus diesem Grund als funktionale Varietät und präzisiert den Gedanken der funktionalen situativen Angemessenheit im Rahmen ihrer Theorie zu Simplified Registers (2014). In Analogie zu Child Directed Speech und Foreigner Directed Speech fasst sie Robot Directed Speech als Simplified Register, wobei sie auf Grund der Heterogenität einen weiten Registerbegriff ansetzt, der als Ausgangspunkt für weitere Überlegungen und genauere Beschreibungen dienen soll (vgl. Fischer im Druck: 261). Dabei liegt ihr Fokus nicht auf dem Systemcharakter von sprachlichen Strukturen, sondern auf systematisch erfassbaren kognitiven Prozessen. Eine prominente Rolle in den Untersuchungen Fischers spielen die Vorannahmen der UserInnen über den Bot, auf deren Grundlage Partnermodelle89 kon­struiert werden (Fischer 2006, im Druck). Diese bilden die Basis für Äußerungen mit einem entsprechenden „Recipient-Design90 (Sacks et al. 1992), mittels dessen UserInnen-Beiträge adressatInnen-gerecht formuliert werden können. Es beruht einerseits auf Annahmen über die Funktionen des Bots (Parsing und Antwortgenerierung) und andererseits auf Hypothesen über die adäquate Sprache in diesem speziellen Kontext (vgl. Fischer 2006, im Druck). Vorannahmen und Partnermodelle sind bei Fischer (2006, 2014) konstitutiv für UserInnen-Strategien, denn UserInnen können den Bot entweder als ebenbürtiges, anthropomorphes Gegenüber modellieren oder als Maschine mit sehr eingeschränkten Sprachverarbeitungsmechanismen. Unterschiedliche Grade der Anthropomorphisierung sind hierbei vorstellbar. Am häufigsten werden „Computers as notoriously bad at natural language” eingestuft. „[…] they [die UserInnen, Anm. d. Verf.] attend to the fact that the system could have limited linguistic capabilities“ ← 163 | 164 → (Fischer 2006: 80). Diese Annahme muss nicht einmal konkret auf Sprache bezogen sein. Demnach wäre ein Bot „[…] a communication partner that is somehow restricted” (Fischer 2006: 80). In den extremsten Ausprägungen könnte einerseits angenommen werden, Bots seien Werkzeuge und könnten als solche benutzt werden, oder andererseits, sie seien humanoide Wesen und müssten entsprechend behandelt werden (vgl. Fischer 2006: 161). Es kann aber auch sein, dass die Userin vergleichsweise wenig über Dialogagenten weiß und diese damit in ihrer Wahrnehmung etwas sind, für das sie noch über kein handlungsfähiges Konzept verfügt (vgl. Fischer 2006: 88ff). Besonders relevant für die Interaktion mit dem System ist aber, dass die Userin die Interaktionssituation als sozial wahrnimmt (Fischer im Druck: 229). In einer Gesellschaft werden bestimmte stereotype Vorstellungen und Klischees tradiert. Diese sind allerdings nicht universell, sondern gruppenspezifisch. Sprachsysteme stehen also bspw. innerhalb der einen Sozietät im Ruf, nicht gut zu funktionieren, während sie innerhalb der anderen Sozietät als erstrebenswertes, robust funktionsfähiges, unentbehrliches technisches Hilfsmittel überhöht werden. Fischer beobachtet, dass sich UserInnen in der Regel auf eine angenommene Limitiertheit des Gegenübers bereits dialoginitial einstellen und die eigene Sprache durch der Situation vermeintlich angemessene Vereinfachungen anpassen (vgl. Fischer im Druck).

Diese Anpassung kann in der HCI nur einseitig erfolgen, da auch in modernen ECAs UserInnen-Modelle bislang nur in sehr basaler Form in Bots implementiert werden können. Gleichwie HCI-Dialoge nicht auf geteiltes Wissen in Form von Common Ground aufbauen können, ist derzeit paralleles Partner-Modeling, das im Verlauf des Dialogs wechselseitig dynamisch verändert wird, kein Bestandteil der HCI. Dennoch scheint einseitiges Partner-Modeling die Voraussetzung für Simplifizierungsstrategien der UserInnen zu sein, die ihrerseits konstitutiv für die HCI sind (vgl. Fischer im Druck: 232).

Zusätzlich zum Partner-Modeling werden auch Hypothesen über die Dialogsituation aufgestellt (situative Modelle, Pickering & Garrod 2004), z. B. über einen kontext-spezifisch adäquaten Sprachgebrauch oder zur Art und Weise, in welcher der Maschine die zu erfüllende Aufgabe präsentiert werden soll (vgl. Fischer 2006: 96ff). Fischer (2006) sieht in der Individualität der mentalen Modelle einen Grund für die Heterogenität der Forschungsergebnisse im Bereich der CT-Forschung. Unterschiedliche Variablen haben Einfluss auf die Ausbildung von Vorannahmen. Dies sind einerseits Variablen seitens der UserInnen wie Technik-Expertise, Alter oder UserInnen-Typ sowie individuelle Erfahrungen. Die Variable Gender hatte in Experimenten zur HRI keine Auswirkungen auf die Interaktion (vgl Fischer im Druck: 210). Hinzu kommen Variablen seitens des ← 164 | 165 → Systems wie der Grad der Anthropomorphisierung in der grafischen Darstellung und im Dialog-Design sowie Restriktionen der Systemarchitektur. UserInnenvariablen und Systemvariablen spielen zusammen beim Aufbau mentaler Modelle über den Bot und den situativen Kontext. Auf diesem theoretischen Fundament können initiale Dialogsequenzen der HCI angemessen analysiert werden (vgl. Fischer 2006). Soll die Analyse aber über Dialoganfänge hinausgehen, muss eine weitere wichtige Variable hinzukommen – nämlich die der interaktiven Anpassung, die sich entweder vorbewusst in Alignment manifestiert (vgl. Branigan et al. 2003, 2010) oder in bewussten UserInnen-Strategien (Fischer 2006, im Druck; Pearson et al. 2006; Cowan et al. 2010, 2011). Hinzu kommen Veränderungen im Common Ground durch Grounding auf den Kotext und Aushandeln von Referenzrelationen im gemeinsamen Verweisraum der Interaktionssituation. Im fortscheitenden Dialog werden also schließlich Vorannahmen in differenzierte Partnermodelle (Fischer im Druck: 232) oder alignte Situationsmodelle (Pickering & Garrod 2004) überführt. Dies gilt für die HHC, aber u. U. teilweise auch für die UserInnen in der HCI. Ob dieser Prozess automatisch ist (Pickering & Garrod 2004, Branigan et al. 2010), ihm ein „mindless transfer“ zu Grunde liegt (Reeves & Nass 1996, Nass & Moon 2000, Nass & Brave 2005) oder er als bewusstes Partner-Modeling abläuft (Fischer 2006, im Druck), ist umstritten.

Im Hinblick auf die o. g. Untersuchungsparameter analysiert wurden vor allem Dialoganfänge bei Instruktions-Tasks gegenüber Robotern mit besonderem Fokus auf Repair-Strategien. In Bezug auf Framing-Elemente findet Fischer (2006) in ihren Experimenten die Studien von Krause und Hitzenberger (1992) sowie Hitzenberger und Womser-Hacker (1995) nicht bestätigt. Einige SprecherInnen gebrauchten sogar besonders viele Framing-Elemente, was als Strategie gedeutet werden kann, um Dialogsequenzen für das System zu gliedern. Fischer findet allerdings Bestätigung für Krause und Hitzenberger (1992) und Womser-Hacker und Hitzenberger (1995), dass in der HCI weniger Diskurspartikeln verwendet werden als in der HHC.91 Die Partikeln müssen aber in HCI und HHC nicht die gleichen Funktionen erfüllen. Es wird angenommen, dass Diskurs­partikeln in der HHC gebraucht werden, um eine gemeinsame Basis auszuloten und den weiteren Dialogverlauf auszuhandeln. Auch Konzepte wie Respekt und Höflichkeit können über Diskurspartikeln ausgedrückt werden. In der HCI gingen die UserInnen laut Fischer davon aus, dass ein solches Verhalten dem Bot gegenüber nicht sinnvoll sei, und äußerten weniger Partikeln. Einige Partikeln wurden ausschließlich in Selbstgesprächen geäußert. Die abweichende ← 165 | 166 → pragmatische Verwendung von Diskurspartikeln kann als Argument dafür angeführt werden, dass Verhaltensweisen aus der HHC nicht komplett gedankenlos auf die HCI übertragen werden.

Ähnliche Zusammenhänge interpretiert Fischer (2006) anhand ihrer Experiment-Daten in Bezug auf Grounding. Für die HHC wird Grounding definiert als „reaching the mutual belief that B has understood A well enough for current purposes“(Clark & Schäfer 1989: 265). Fischer findet zahlreiche Belege für Grounding-Strategien in der HCI. „Speakers consequently devote quite some effort to making themselves understood” (Fischer 2006: 56). Sie haben offensichtlich ein Interesse daran, dass das System sie versteht. Amalberti et al. (1993: 559) finden in der HCI sogar mehr Rückversicherungen als in der HHC. Fischer (2006) sieht darin ein Zeichen, dass UserInnen-Strategien in der HHC und in der HCI nicht die gleiche Zielsetzung zu Grunde liegen muss. Sprechakte in der HCI hätten vielmehr den Charakter eines Werkzeugs, da Sprache dazu benutzt werde, die gewünschten Prozesse im System hervorzurufen. Die UserInnen sind sich ihrer eigenen Äußerungen durchaus bewusst und interpretieren diese auch bei auftretenden Kommunikationsfehlern als Quelle des Fehlers, um daraufhin ihr Sprachverhalten zu ändern und auf diese Weise ihr Handlungsziel zu erreichen (Fischer 2006: 75ff). Damit widerspricht Fischer dem Mindlessness-Argument von Nass et. al. Nass und verschiedene Mitarbeiter argumentieren zwischen 1996 und 2005, dass Menschen Computer als soziale InteraktionspartnerInnen wahrnähmen und sie mit Menschen „gleichsetzten” (to equate). Menschen attribuierten Persönlichkeit, Alter, Geschlecht und Ethnizität auf die künstlichen Interagierenden. Sie transferierten „mindlessly“ menschliches Verhalten auf Computer (Nass & Moon 2000), was sich in folgenden Verhaltensweisen zeige:

  • overuse of social categories (gender, ethnicity)
  • automatic application of social rules (overlearnig)
  • premature cognitive commitment with single exposure (respose to authority)
  • breadth and depth of social responses

Kategorielles Denken sei konstitutiv für menschliche Verstehensprozesse und in dieser Form evolutionär entwickelt. Unbekanntes müsse nach Stereotypen verarbeitet werden. Die vorbewusste Übertragung von sozialen Stereotypen auf artifizielle Agenten, sei eine notwendige Voraussetzung für Menschen, um mit den unbekannten Entitäten umgehen zu können. Fischer (2006) dagegen meint, die von Nass et al. beobachteten Verhaltensweisen seien mehr strategisch als gedankenlos. Sie habe beobachtet, dass UserInnen die unterschiedlichsten Versuche anstellten, Vorschläge machten oder Handlungen wiederholten und schließt daraus auf eine hohe „Awareness“ bei den UserInnen (Fischer 2006: 76). ← 166 | 167 →

2.5.1.2.2  CT als Simplified Register

Auf Grund der in Bezug auf die Sprachkompetenz der Interagierenden asymmetrischen Interaktionssituation und der beobachteten Tendenz zur adressatInnen-orientierten Simplifizierung wurde CT im Forschungsdikurs verglichen mit anderen Simplfied Registers wie Child Directed Speech (Baby-Talk, Motherese vgl. Vollmer et al 2009) und Foreigner Directed Speech (Foreigner Talk vgl. Kritzenberger 1992; Intercultural Communication vgl. Fischer 2006). Fischer (im Druck) findet tatsächlich Gemeinsamkeiten zwischen diesen Interaktionsformen in Bezug auf Conditional Relevance, Feedback und Alignment. Diese Interaktionsformen werden bestimmt durch die Modelle der UserInnen, Eltern oder MuttersprachlerInnen über den in irgendeiner Weise limitierten Sprachstand des Gegenübers. Daraus lassen sich einige vergleichbare Strategien ableiten (Fischer im Druck: 241), auch wenn sich die Interaktionsformen strukturell stark unterscheiden (ebd. 250). Besonders der Vergleich mit Foreigner Directed Speech trägt in Bezug auf CT vergleichsweise weit. Bei Foreigner Directed Speech handelt es sich um eine vereinfachte Sprechweise, die bei MuttersprachlerInnen einer Sprache gegenüber Nicht-MuttersprachlerInnen beobachtet wird. „A variety of language that is regarded by the speech community as primarily appropriate for adressing foreigners“ (Ferguson & De Bose 1977: 103). Dittmar gebraucht den Terminus „Fremdensprache“ und definiert diese als „Mischvarietät” beim Versuch der Anpassung an die Sprache der Nicht-MuttersprachlerInnen (Dittmar 1997: 217). Diese Interaktionsform kann sich sprachlich unterschiedlich manifestieren und in ihren verschiedenen Ausprägungen für das Gegenüber entweder hilfreich beim Erlernen der Zielsprache sein oder hinderlich (vgl. Fischer im Druck: 164). Vergleichbar mit der HCI ist die Interaktionssituation zwischen MuttersprachlerIn und Nicht-MuttersprachlerIn insofern, dass die Vorannahmen über die Sprachkompetenz des Gegenübers einen gewissen Raum an Spekulation zulassen und die dadurch entstehende Unsicherheit z. T. durch die Attribuierung von Stereotypen kompensiert wird. Fischers Hauptargument für diese These ist, dass UserInnen-Verhalten eher durch die eigene Einschätzungen als durch die tatsächlichen Einschränkungen der getesteten Systeme bestimmt würden, was sich z. B. in Form von Repair-Strategien zeige. „The linguistically restricted communication partner is thus the speakers’ own concept” (Fischer 2006: 81). Die UserInnen stellten sich auf das System ein, indem sie bewusst einen alternativen Sprachgebrauch wählten, der ihnen in Abstimmung auf ihre Vorannahmen adäquat erschiene. Die wirklichen Sprachfunktionen des Systems seien dabei unbekannt. So könnte die Situation in Analogie zu Dialogsituationen mit ← 167 | 168 → Nicht-MuttersprachlerInnen verstanden werden, über deren Sprachkenntnisse man nichts oder nicht viel wisse.92

Besonders deutlich zeigen sich Vorannahmen der UserInnen und der Prozess des Partner-Modelings in dialoginitialen Sequenzen und bei Störungen mit Repair (vgl. Fischer 2006: 19–24). Dass in Anfangssequenzen die Vorannahmen der UserInnen deren einziger Anhaltspunkt sind, ist naheliegend. Dass bei Störungen gleich in der Anfangssequenz Repair-Strategien bemüht werden, die sich allein auf Vorannahmen der UserInnen stützen können, ist die logische Konsequenz daraus. Es ist jedoch interessant zu untersuchen, wie sich Dialoge weiterentwickeln. Revidieren UserInnen ihre Vorannahmen? Verändern sie ihre Strategien? Welche Rolle spielt dabei der Output des Systems? Fischer selbst thematisiert die Entwicklungen, bezieht sie aber weniger in ihre grundsätzliche Argumentation ein (Fischer 2006: 56, 2014: 28). ← 168 | 169 →

2.5.1.3  UserInnen-Typen

Auf Basis ihrer Untersuchung von Gesprächsanfängen schlägt Fischer die Unterscheidung zweier UserInnen-Typen vor: dem PlayerIn- und dem Non-PlayerIn-Typ (Fischer 2006: 121ff). Bislang orientiert man sich bei der Systementwicklung allerdings eher an angenommenen Bedürfnissen imaginärer UserInnen. Fischers Unterscheidung ist aus empirischen Daten abgeleitet und kann gleich zu Beginn des Dialogs anhand linguistischer Merkmale getroffen werden. Ein dahingehend sensibles System, könnte so gleich zu Beginn des Dialogs in den PlayerIn- oder Non-PlayerIn-Modus schalten. Die Idee, anhand der initialen Sequenzen UserInnen-Typen zu ermitteln, bringt notwendig die gleichen Probleme mit sich, wie die Interpretation von UserInnen-Strategien anhand von Dialoganfängen. Für die technische Anwendbarkeit einer solchen Unterscheidung in Systemen mit userInnen-spezifischer Dialogführung, ist allerdings die Erkennung des richtigen Typus’ bereits in der Anfangssequenz von großer Bedeutung. Eine Evaluationskomponente müsste zusätzlich im weiteren Verlauf des Dialogs neu erheben, ob sich der ermittelte UserInnen-Typ bestätigt oder nicht. Ansonsten bewertet das System seine UserInnen ebenfalls nach Stereotypen und interaktive Aushandlungsprozesse werden bei Störungen u. U. dadurch eher gehemmt als unterstützt.

Sehr positiv an Fischers Unterscheidung zwischen PlayerIn und Non-PlayerIn ist, dass es sich dabei um offene Kategorien handelt, die auf funktionalen Kriterien gründen. Charakteristisch für den PlayerIn-Typus ist, dass er das System wie ein menschliches Gegenüber behandelt. Er lässt sich auf das metaphorische Spiel ein und spricht das System z. B. mit den Personalpronomina „du“ oder „Sie“ an, begrüßt es und/oder gibt Auskunft über das eigene Befinden, wenn das System danach fragt. Der Non-PlayerIn-Typ hingegen sieht den Bot als Werkzeug und benutzt ihn auch so: Er begrüßt ihn nicht, verwendet keine Personalpronomina in der Anrede und auch keine Höflichkeitsindikatoren. Beide Typen definieren sich also über die Konversationsstrategien, die sie aufgrund ihrer Vorannahmen über Computer anwenden. Damit werden ihre Äußerungen vorhersagbarer. Fischer schlägt vor, dass man bereits anhand des Verhaltens in der Eröffnungssequenz ableiten könne, welcher Kategorie die Userin angehöre. Reagiert sie auf die Systembegrüßung sei sie eine Playerin; ignoriere sie diese, sei sie eine Non-Playerin.

Ein System, das nach engeren Kriterien UserInnen-Typen unterscheidet, wurde von Horzyk und Tadeusiewicz entwickelt. Ihm liegen psychologische Modelle zur Bestimmung von Persönlichkeitsmerkmalen zu Grunde. Sie schlagen ein System vor, das sich direkt an der Persönlichkeit der Userin ausrichten soll (Horzyk, Dudke-Dyduch & Tadeusiewicz 2009: 55). Dazu implemtieren sie ← 169 | 170 → elf verschiedene UserInnen-Typen in die Systemarchitektur. Diese Typen sind bezeichnet als „Dominant, Maximalist, Inspiring, Discovering, Verififying, Systematic, Assurant, Harmonious, Empathic, Task-Oriented, Balancing“ (Horzyk, Dudke-Dyduch & Tadeusiewicz 2009: 59ff). Jeder dieser Kategorien sind dabei bestimmte persönliche Eigenschaften und Präferenzen sowie deren sprachliche Indikatoren zugeschrieben. Dem Ansatz liegt also das Verständnis zu Grunde, dass UserInnen-Strategien in Abhängigkeit vom UserInnen-Typ nicht nur funktional, sondern auch strukturell greifbar seien. Beim dominanten Charakter wird bspw. davon ausgegangen, dass er u. a. Personalpronomina wie „ich“, „mein“ oder Phrasen wie „meiner Meinung nach“, „ich wünsche“ und/oder „ich habe entschieden“ und viele Imperative gebrauche (Horzyk, Dudke-Dyduch & Tadeusiewicz 2009: 60). Das System erkennt diese Strukturen, ordnet sie dem entsprechenden UserInnen-Profil zu und wählt eine auf den Typus zugeschnittene Ausgabe aus. Erste Evaluationen haben gezeigt, dass Versuchspersonen, die das System testeten, zu 30 % zufriedener mit der Kommunikation waren, als die Kontrollgruppe, die ein System ohne diese Persönlichkeitserkennung benutzte (Horzyk, Dudke-Dyduch & Tadeusiewicz 2009: 62).

2.5.2  Von der Register-Hypothese zu einem interaktiven Modell der HCI

Die o. g. Studien haben wichtige Teilaspekte der HCI als Momentaufnahmen des damaligen technologiehistorischen Entwicklungsstands herausgearbeitet. HCI weicht in Bezug auf strukturelle und funktionale Elemente von der HHC ab, wobei die funktionale Ebene konstitutiv für das veränderte Verhalten der UserInnen ist. Vor allem dialog-initial spielen Vorannahmen eine elementare Rolle für die Wahl der Strategien. Eine Differenzierung von UserInnen-Typen scheint daher sinnvoll. Allerdings ist das Gesamtbild der Interaktionssituation HCI auf dem heutigen Forschungs- und Entwicklungsstand noch alles andere als klar. Eine an die hier diskutierten Ansätze anschließende Theorie muss also Folgendes leisten:

  • den Geltungsbereich auf komplette Dialoge erweitern
  • ein Verständnis für vorbewusstes, routiniertes und bewusstes UserInnen-Verhalten entwickeln
  • strukturelle und funktionale Aspekte miteinbeziehen
  • den soziolinguistischen Status der HCI definieren (z. B. als Register)

Fischer (2006: 74) selbst kritisiert das Konzept eines CTs als strukturelles Register auf Grund systematischer Probleme mit dem Register-Konzept und der uneindeutigen Datenlage. Als strukturelles Register könne man CT nicht fassen, da ← 170 | 171 → die Vorannahmen der UserInnen zu unterschiedlich und enorm schnell veränderlich seien. Denn nicht alle UserInnen verhielten sich gleich. Die sprachlichen Untersuchungskategorien zur Klassifizierung von CT als Register seien nicht homogen, da die einzelnen sprachlichen Elemente in unterschiedlichen Situationen unterschiedliche Funktionen haben könnten. Außerdem könnten UserInnen ihr Verhalten mit der Zeit ändern. Stattdessen könne userInnen-übergreifend eine Reihe von funktionalen Strategien beobachtet werden.

  • verschiedene Grounding-Strategien, sowohl dialog-initial als auch im weiteren Verlauf
  • keine direkte Unhöflichkeit
  • veränderliche Verhaltensweisen
  • interpersonelle Unterschiede

Besonderheiten der HCI seien also nur funktional konsistent zu fassen. Das Argument, typische Merkmale der HCI eher an UserInnen-Strategien als an konkreten sprachlichen Strukturen festzumachen, ist linguistisch schlüssig. Für die Programmierung innovativer Parser, wären allerdings klar definierte strukturelle Merkmale wesentlich leichter zu verarbeiten. Die o. g. Kriterien können sich sprachlich so unterschiedlich manifestieren, dass sie technisch nicht in jedem Fall erfassbar sind. Daher wäre es für die Weiterentwicklung innovativer Systeme vor dem Hintergrund eines engeren Geltungsbereichs u. U. doch wünschenswert, einzelne strukturelle Kriterien eines CTs definieren zu können, sofern diese nachgewiesen werden könnten.

Hervorzuheben ist die Forderung, dass sowohl dialog-initiale Sequenzen als auch weitere Dialogverläufe untersucht werden müssen, bevor über UserInnen-Verhalten und CT allgemein etwas ausgesagt werden kann. Die Analyse von Dialoganfängen ist zwar fruchtbar zur Evaluation der Vorannahmen der UserInnen (vgl. Fischer 2006: 27). Bei der Interpretation einer isolierten Untersuchung von Dialoganfängen besteht aber die Gefahr, dass ein Zerrbild in Bezug auf typische Interaktionsstrategien der UserInnenentsteht, da Dialog-Design und Systemarchitektur im weiteren Verlauf großen Eifluss auf deren Verhalten haben können. Doch auf welche Art und Weise genau diese Beeinflussung von statten geht, inwiefern sie als interaktiv bezeichnet und wie sie durch geschicktes Dialog-Design („Shaping“, Zoltan-Ford 1991) beeinflusst werden kann, ist vielleicht der wichtigste nächste Forschungsschritt. Experimente, welche die wechselseitige Beeinflussung und Anpassung überprüfen, werden schwer zu operationalisieren sein (vgl. Branigan et al. 2010). In Feldstudien kann man die Ebene der Performanz nachvollziehen, aber Überlegungen zur kognitiven Verarbeitung von HCI bleiben vergleichsweise vage. Erst durch ein besseres ← 171 | 172 → Verständnis der UserInnen-Kognition über längere Sequenzen kann wirklich etwas über Dialog-Strategien ausgesagt werden. Dialog-initial untersucht man in erster Linie psychologische Konzepte von Individuen über Bots. Auch zur Klassifikation der UserInnen-Typen scheinen Begrüßungssequenzen als Indikatoren nur bedingt sinnvoll, da es sich um hochgradig ritualisierte Sequenzen handelt. Bei geschicktem Dialog-Design werden die UserInnen-Reaktionen aus diesem Grund wahrscheinlich uniformer ausfallen. Auch hier wäre es interessant, die Ergebnisse aus den Begrüßungssequenzen mit dem weiteren Dialogverlauf zu vergleichen.

Um Hinweise auf die kognitive Ebene zu erhalten, untersucht Fischer Störungen im Dialog. Es werden gezielt Strategiewechsel der UserInnen provoziert.

(1) S003 bitte zum Objekt links fahren

(2) ROBOT Ich verstehe nicht

(3) S003 zur nächsten Ecke fahren

(4) ROBOT Ich verstehe nicht

(5) S003 mir fällt, nicht richtig was ein wenn ich ehrlich

(6) bin.

(7) ROBOT Ich sehe drei Kartons. Wohin soll ich fahren?

(8) S003 zu dem Karton links.

(Fischer 2006: 105)

Mentale Modelle seien allerdings keineswegs statisch, sondern könnten sich durch Aktion oder Veränderung des situativen Kontexts verändern, sodass das Ausgangsmodell modifiziert werde (vgl. Fischer 2006, vgl. auch Dutke 1994: 7). Dies kann dann zur Folge haben, dass UserInnen Äußerungen des Systems übernehmen, auch ohne dass es zuvor durch andere Formulierungen zu Störungen kam.

Bei Fischer (2006) finden sich einige weitere zukunftsweisende Grundgedanken zur interaktiven Verarbeitung von Dialogverläufen. Z. B. beobachtet sie, dass nicht alle UserInnen dialog-initial strukturierende Elemente gebrauchen. Im Laufe des Gesprächs nimmt die Zahl der strukturierenden Elemente aber zu, was als eine Art von Anpassungsprozess gedeutet werden kann. Fischer interpretiert ihre Beobachtungen: „[…] by looking at the peculiarities observable as strategies, we stop thinking of CT as a particular product, and turn instead to the process in which it is created – a negotiation process” (Fischer 2006: 78). Dass UserInnen, wenn auch nicht alle, sich durchaus an den sprachlichen Äußerungen des Systems orientieren und diese übernehmen, stellt Fischer an einer Vielzahl von Beispielen heraus (Fischer 2006: 105f). ← 172 | 173 →

(1) S011 bewege dich zur linken box

(2) ROBOT Action

(3) S011 bewege dich zur hinteren box

(4) ROBOT Action

(5) ROBOT Ich sehe drei Kartons. Wohin soll ich fahren?

(6) S011 bewege dich zum rechten Karton

(Fischer 2006: 107)

Obwohl der Roboter keine Probleme mit dem Wort „Box“ zu haben scheint, nimmt die Userin den vom Roboter genannten Begriff „Karton“ auf und verwendet ihn weiter. Diese Reaktion geht evtl. über einen strategischen Gebrauch von Persistenzen hinaus und könnte als Hinweis auf lexikalisches Alignment und damit auf einen vorbewussten interaktiven Prozess gedeutet werden. Fischers (2006) Definition von CT schließt den interaktiven Charakter von Dialogverläufen ein und geht grundsätzlich davon aus, dass HCI und HHC den gleichen Mechanismen folgen. „[…] human-computer communication is not a particular variety but is interactively achieved, locally managed, and constantly negotiated in the same way as conversation among humans is” (Fischer 2006: 6). Ob Aushandlungsprozesse in der HCI wirklich genauso ablaufen wie in der HHC müssen zukünftige Studien zeigen. All die Faktoren, die UserInnen-Verhalten beeinflussen (Vorannahmen, mentale Modelle, technische Restriktionen, Systemvariablen, interaktive Variablen, Alignment) müssen in einem interaktiven Modell, zusammengefasst werden, das auf Aushandlungs- und Anpassungsprozesse (bewusst oder vorbewusst) fokussiert. So können eventuell typische Dialogsituationen für vorbewusstes Priming, oder bewusstes Partner-Modeling abgesteckt werden. Je nach UserInnen-Typ und Interaktionssituation muss dann unterschieden werden, auf welchen Vorannahmen das Partner-Modeling gründet und ob es zu Anthropomorphisierung und natürlichem Sprachgebrauch oder zu CT führt.

2.5.3  Untersuchungsparameter und Hypothesen mit Bezug zur Diskussion um CT als Grundlage für die Korpusanalyse

Aus der Diskussion um CT können nicht ohne weiteres direkt Untersuchungsparameter für eine Korpusstudie abgeleitet werden. Strukturelle Merkmale eines CTs konnten nicht klar nachgewiesen werden und zur Untersuchung funktionaler Aspekte eignen sich eher Experimente oder kombinierte Korpusuntersuchungen mit Meta-Daten und UserInnen-Befragungen. Bei der zu Grunde liegenden Studie wurde zu Gunsten von ökologischer Validität auf der Grundlage von in keiner Weise manipulierten Logfiles auf jegliche Art von Zusatzinformation über die UserInnen verzichtet. Diskussionem über Vorannahmen und ← 173 | 174 → mentale Konzepte können auf dieser Basis nur sehr bedingt geführt werden. Um die Vorteile einer ökologisch validen Datenbasis auszunutzen, sollen aber trotzdem möglichst viele der diskutierten Merkmale eines CTs quantitativ erhoben werden. Die Korpora aus Logfiles von Dialogen mit unterschiedlich sophistizierten Systemen müssen dann sowohl untereinander verglichen werden als auch mit dem HHC-Korpus. Außerdem ist es interessant zu erheben, ob bestimmte Variablen in Kombination auftreten oder nicht. Ob die beobachteten strukturellen Phänomene als Indikatoren für funktionale Strategien interpretiert werden können, kann nur in einer qualitativen Analyse einzelner Dialogverläufe entschieden werden. In Kapitel 4.4 wird dargestellt, inwiefern die Ergebnisse der Korpusstudie einen Beitrag zur Diskussion um CT liefern können.

Folgende Parameter werden theoretisch aus der internationalen Diskussion um CT abgeleitet und quantitativ erhoben:

  • Lexikalische Vielfalt +/-

    (vgl. Falzon 1988, Amalberti et al. 1993, Johnstone et al. 1994, Oviatt 1995, Hitzenberger & Womser-Hacker 1995: 59, Gustafson 2002, Gieselmann & Waibel 2005)

H0CT1: Die Verteilung von Indikatoren für lexikalische Vielfalt ist in den HCI-Korpora und im HHC-Korpus gleich.

  • Syntaktische Komplexität +/-

    (Richards & Underwood 1984b, Krause 1992, Hitzenberger & Womser-Hacker 1995, Gustafson 2002)

H0CT2: Die Verteilung von Indikatoren für syntaktische Komplexität ist in den HCI-Korpora und im HHC-Korpus gleich.

Unter Lexikalische Vielfalt fallen auch Aspekte der Variabilität auf der lexikalischen Ebene. Syntaktische Komplexität ist als Größe schwer greifbar, da es oft schwer zu entscheiden ist, ob eine Struktur komplexer als die andere ist. Je nach Grammatikmodell werden die Interpretationen unterschiedlich ausfallen. Der Terminus Syntaktische Komplexität wird in dieser Studie nur als Sammelbegriff verwendet, unter dem eine Gruppe von Untersuchungsvariablen mit Bezug zur Syntax subsumiert wird (s. Kapitel 3).

Größere oder geringere Vielfalt bzw. Komplexität im Vergleich zum HHC-Korpus soll als gleichermaßen auffällig gelten (vgl. Krause 1992), aber nicht als Indikator für einen statischen CT im Sinne der Register-Hypothese weiterinterpretiert werden.

Folgende Variablen werden systematisch erfasst: ← 174 | 175 →

Tabelle 4: Tag-Set Lexikalische Vielfalt +/-

UserInSystem
Anzahl Wortformen gesamtWFWF’
Anzahl Types lexikalische KategorienTypes_LexKatTypes_LexKat’
Anzahl Types LemmataTypes_LemTypes_Lem’
Anzahl PartikelnPARTPART

Tabelle 5: Tag-Set Syntaktische Komplexität +/-

UserInSystem
Befehle[com][com]’
Ellipsen<ell><ell>’
Adjazenzellipsen<ella><ella>’
Anzahl Wortformen pro TurnWF/TurnWF/Turn’
Komplexe NPs (nach Anzahl der Knoten) <ngr1>

<ngr2>

<ngr3>

<ngr4>

<ngradja1>

<ngradja2>

<ngradja3>

<ngradja4>
<ngr1’>

<ngr2’>

<ngr3’>

<ngr4’>

<ngradja1’>

<ngradja2’>

<ngradja3’>

<ngradja4’>

Mit Bezug auf die unterschiedlichen Untersuchungsergebnisse von Krause, Hitzenberger, Womser-Hacker (1992) und Fischer (2006) wurden die folgenden Parameter erhoben.

Höflichkeit (in Gesprächsrahmen und in der Gesprächsmitte) +/-

H0CT3: Die Verteilung von Indikatoren für sprachliche Höflichkeit ist in den HCI-Korpora und im HHC-Korpus gleich.

Es handelt sich dabei um wichtige Aspekte für die Hauptargumentationslinien im CT-Diskurs. Ein systematischer Umgang mit diesen Phänomenen erfolgt in der Konversationsanalyse im Rahmen der Diskussion um Nähe-Distanz-Konzepte und den Begriff des „Faces“ (Brown & Levinson 1987, vgl. Kapitel 2.2). Ob dieser Begriff auf die HCI übertragen werden kann, ist fraglich, solange keine gleichberechtigte Interaktion zwischen Mensch und System etabliert ist. Das „Interface“ ← 175 | 176 → in seinem Charakter als „Face“ zu verstehen (Sproull et al. 1996) trägt immer nur bis zu einem gewissen Grad. Grundsätzlich stehen zwei Argumentationslinien im Gegensatz zu einander: Die eine geht zurück auf frühe Untersuchungen von Nass und unterschiedlichen MitarbeiterInnen: Menschen tendierten dazu, Konzepte aus der HHC auf die HCI zu übertragen. Je anthropomorpher ein Agent erscheine, desto wahrscheinlicher erfolge diese Übertragung der Strategien (vgl. Nass & Reeves 1996, Nass & Moon, 2000; Nass & Brave, 2005; vgl. Kapitel 1). „People treat computers […] like real people“ (Nass & Reeves 1996: 57). Dagegen steht die Argumentation von Johnstone et al. (1994, vgl. auch Krause 1992), dass CT sich gerade durch ein Fehlen von Höflichkeitsindikatoren und Grounding auszeichne. „People are polite and concerned with grounding only when they are talking to people; they feel no need to do this with computers“ (Johnstone et al. 1994: 400). Fischer findet sprachliche Höflichkeit in ihren Experimenten. „What can be found, however, is that speakers indeed attend to politeness” (Fischer 2006: 67). Allerdings kann sie eine große Zahl an Imperativen im Vergleich zur HHC nachweisen, was für einen weniger höflichen Sprachgebrauch spräche (vgl. Fischer 2006: 69ff). Außerdem ist in nicht manipulierten HCI-Daten ein weiteres Phänomen mit großer Häufigkeit zu beobachten: Das Beschimpfen des Systems (Flaming). Hinzu kommen weitere Strategien ohne ausfallende Sprache, mit denen die Funktionsweise des Systems getestet werden soll.

In Abhängigkeit von den definierten System- und UserInnen-Variablen muss in weiteren Studien untersucht werden, wann Menschen Höflichkeitskonzepte auf die HCI übertragen und wann nicht. Da dieses Phänomen in Zusammenhang mit der sozialen Wirkung der Agenten zu stehen scheint, können diachrone Untersuchungen mit unterschiedlich menschenähnlichen Systemen eventuell Klarheit in diesem Punkt schaffen.

Bei sprachlicher Höflichkeit handelt es sich um ein Konzept, das nicht leicht anhand bestimmter Wortformen zu quantifizieren ist. Im Rahmen der Korpusstudie sollen für System und UserIn folgende Untersuchungsparameter erhoben werden: Befehle, Dank, Bitten, Entschuldigungen, Test und Flaming. Darüberhi­naus erfolgt eine qualitative Analyse der Dialoge.

Darüberhinaus wurden als Dialograhmenelemente Begrüßungen, Verabschiedungen sowie Gesprächsabbrüche annotiert. Bei Rahmenelementen ist ein ausgeglichenes Verhältnis zwischen UserIn und System erstrebenswert. Begrüßung und Verabschiedung müssen als Adjazenzpaar auftreten. Erst dann ist gewährleistet, dass kein CT in irgendeiner Form vorliegt. Gesprächsabbrüche können dagegen als Anzeichen für CT interpretiert werden. ← 176 | 177 →

Die Ergebnisse der Erhebung zur strukturellen Beschaffenheit der Rahmensequenzen werden bereits in Kapitel 4.1 (CA) berichtet. In Kapitel 4.4 schließt sich die Auswertung der Ergebnisse im Kontext der Diskussion um CT an. Theorienübergreifende Aspekte werden in Kapitel 4.5 erörtert. Ein abschließendes Fazit zur Rolle von CT im Rahmen einer umfassenden Theorie der HCI wird in Kapitel 5.1 gezogen.

2.6  Zusammenfassung der theoretischen Grundlagen

Jeder theoretischen Überlegung zu HCI-Anwendungen liegt das Problem der Definition von HCI als System zu Grunde. Es muss ein Doppelcharakter der Interaktionssituation angenommen werden, einerseits als empirische Interaktion der Userin mit der Maschine und andererseits als Interpretation der Situation durch die Userin. Auch in der HHC spielen Präsuppositionen und Modelle der Interagierenden über das Gegenüber oder die Dialogsituation eine Rolle. Die diesbezüglich besondere Problematik der HCI liegt a) in der fehlenden Parallelität der Modelle (Nur die Userin interpretiert!) und b) in der mitunter enormen Differenz zwischen der UserInnen-Interpretation und der empirischen Interaktionsszene. Wenn die Userin erlernte Konzepte aus der HCI auf die HHC überträgt, fallen ihre subjektive Wahrnehmung und der tatsächliche Charakter der Situation auseinander. Zu welchem Grad das geschieht, ist userInnen-abhängig und individuell sehr verschieden. In diesem Umstand liegt begründet, warum HCI-Dialoge so unterschiedlich verlaufen. Es muss ein Kontinuum der Dialogizität angenommen werden, in dem HCI-Dialoge je nach UserInnen-Typ und System-Variablen als mehr oder weniger dialogisch eingestuft werden können (vgl. Clark 1989, Barr & Keysar 2004). Dabei muss beachtet werden, dass grundsätzlich zwei Ebenen bewertet werden: a) die Interaktion als Manipulation der Maschine und b) die Interpretation der Szene als Dialogsituation durch die Userin (Partnermodell, Situationsmodell). Wahrnehmung und Realität können somit derart auseinanderfallen, dass diese Differenz emergent wird für den weiteren Dialogverlauf. Technische Probleme des Systems und seine eingeschränkte Funktionsweise stehen in Konflikt zu den Erwartungen der Userin an das Gegenüber, sofern sie diese implizit aus ihren Erfahrungen aus der HHC ableitet. Zu Störungen in der HCI kommt es in der Regel aufgrund von folgenden Systembedingungen:

  • Das System ist deterministisch und kann mit spontanen Änderungen der UserInnen-Intention nicht umgehen.
  • Das System kann nicht auf geteiltes Wissen in Form von Common Ground zurückgreifen. Derzeitige kommerzielle Systeme sind nur sehr bedingt in der Lage, interne ← 177 | 178 → oder externe Datenbanken als eine Art von Weltwissen zu nutzen. Sebst wenn ausreichend große Datenbanken zur Verfügung stehen, ist deren strukturierte Auswertung immer noch nur bedingt möglich.
  • Das System ist nicht in der Lage, Partnermodelle zur Sicherung von Verstehensprozessen im Dialog zu nutzen. Alle Versuche, statische oder dynamische Partnermodelle in Systeme zu integrieren sind derzeit noch sehr basal.
  • Ohne solche Präsuppositionen kann das System nicht inferentiell schließen.

Aus diesen Gründen sind zunächst alle Ansätze, die ohne Common Ground auskommen und die mechanistisch operationabel sind, für die HCI attraktiv. Das trifft sowohl auf den Alignment-Ansatz (Pickering & Garrod 2004) als kognitives Dialogmodell als auch auf einige strukturelle Aspekte aus der CA auf der Ebene der Performanz zu. In der Textlinguistik wird zwischen Kohäsionsmarkern an der Textoberfläche und semantischen und metakommunikativen Referenzrelationen zur Sicherung von Kohärenz in einer Tiefenstruktur ausgegangen. Oberflächenphänomene können leicht in ein innovatives Dialog-Design aufgenommen werden, um die Illusion von Kohärenz zu erzeugen. Logische und sozio-kulturell geprägte Kohärenzrelationen könnten unter Berücksichtigung der in 2.4 beschriebenen Problematik eine neuartige Systemarchitektur bereichern. Eine erste Übertragung dieser Ideen findet im Diskurs um CT statt, der als hybrider Ansatz strukturelle und funktionale Aspekte zusammenführt. Auch wenn eine vollständige Synthese aus diesen Ansätzen nicht möglich ist, sollen im Folgenden alle Ideen zusammengestellt werden, die für ein innovatives Dialog-Design nutzbar gemacht werden können, und in Kontext zueinander gesetzt werden. Dabei ist es von besonderer Bedeutung zu beachten, dass eine Übertragung von Modellen aus der HHC auf die HCI nur da möglich ist, wo UserInnen die Tendenz zeigen, das System als soziales Gegenüber zu behandeln (vgl. Krämer 2008) bzw. die Interaktionssitiation als sozial einstufen (Fischer im Druck: 229). Die UserInnen-Perzeption stellt aber immer nur eine Ebene der Interaktionssituation dar, hängt von zahlreichen Faktoren ab und kann entsprechend unterschiedlich ausfallen.

Als performanzorientierter Ansatz liefert die CA das basale Beschreibungsinstrumentarium für Dialogstrukturen und eine erste tragfähige Definition der Voraussetzungen von Dialog unter Menschen bzw. Dialog überhaupt. Aus den Kategorien der Beschreibung können Tag-Sets für empirische linguistische Untersuchungen von HCI abgeleitet werden; ferner können sie in z. T. in formale Ausdrücke für innovative Systeme übersetzt werden. Darüber hinaus findet man differenzierte Darstellungen von Störungen im Dialog und zu Grunde liegenden Problemen in der Interaktionsszene, die teilweise auf die HCI übertragbar sind. Durch die etnomethodologische Auswertung von Dialogtranskripten können ← 178 | 179 → auch komplexere Phänomene erfasst werden, die sich nicht an einzelnen Wortformen festmachen lassen, oder funktionale Aspekte des UserInnen-Verhaltens, die sich strukturell unterschiedlich manifestieren.

Die quantifizierbaren Aspekte sind allerdings leichter umsetzbar für HCI, in besonderer Weise solche Operationen, die die Mikrostruktur von Dialogen, d. h. konkrete Turn-Strukturen und Turn-Wechsel, betreffen.

Adjazenzstrukturen mit syntaktischen und pragmatischen Constraints haben eine hohe Vorhersagbarkeit, solche mit semantischen Constraints sind in den meisten ECAs bereits eindeutig definiert (z. B. Frage-Antwort (- Feedback), Gruß-Gegengruß).

Solche Paarsequenzen oder Triplets gliedern den Dialog und machen ihn antizipierbar (70 % der Turns im London-Lund-Korpus folgen solchen Mustern). Institutionalisierte Gespräche sind auf Grund von Protokollen, über die die Abfolge der o. g. Muster zusätzlich festgelegt ist, noch vorhersagbarer. Den theortischen Hintergrund zu diesem Phänomen findet man in der Frame-und-Skript-Theorie (vgl. Fillmore 1976). Verschiedene Schlüsselwörter, die für bestimmte Frames stehen und bestimmte Skripte auslösen, würden die Flexibilität von Bots erhöhen, Gespräche mit unterschiedlichem thematischem Fokus pragmatisch adäquat zu führen.

Allgemein muss festgehalten werden, dass einfache Behauptungen (Assessments), die keine bestimmte Reaktion evozieren, zu vermeiden sind. Eindeutig vorhersagbar sind Antworten auf Entscheidungsfragen. Die Verwendung von Question-Tags (deutsch „ne?“, „gell?“) bspw. kann Assessments der Struktur nach in Entscheidungsfragen verwandeln. Da die o. g. Strukturen in den meisten Bots mehr oder weniger explizit beachtet werden, funktioniert das Prinzip des Chatbots überhaupt. Darüber hinaus könnten einige Ideen aus der CA Dialog-Designs noch zusätzlich verbessern, sollte sich empiririsch bestätigen, dass die jeweiligen Phänomene in der HCI eine Rolle spielen. So sollten bspw. Multi-TCU-Turns vermieden werden, da diese unvorhersagbare Reaktionen hervorrufen. Ob Multi-TCU-Turns des Systems aber auch Multi-TCU-Turns seitens der Userin triggern, bleibt zu überprüfen (s. Kapitel 4). Sollte sich diese Vermutung bestätigen, ist auf dem heutigen Stand der Technik unbedingt davon abzusehen, da Systeme die Multi-TCU-Turns der UserInnen nicht zuverlässig parsen können. Kollaboratives Komplettierten von TCUs (vgl. Lerner 1996) dagegen ist auch in der HCI möglich (z. B. bei Konstruktionen mit „wenn, dann“) und könnte die Illusion eines natürlichen Dialogs fördern. Sprachhandlungskoordination in der HCI muss als grundsätzlich verschieden vom Turn-Taking-System in der HHC verstanden werden, wo die Turn-Konstruktion Implikationen für ← 179 | 180 → die Turn-Allokation enthält. Sobald UserInnen hier ihr implizites Wissen aus der HHC auf die HCI übertragen, wird dies zum Problem für die Usability. Beruhigend für Dialog-DesignerInnen wäre es, wenn lückenhafte oder teilweise inkohärente Interaktionen von UserInnen nicht sofort abgebrochen würden, sondern das Et-Cetera-Prinzip (Cicourel 1973) zum Tragen käme. Die Frage nach einem Schwellenwert für inakzeptable Interaktion ist hier von besonderem Interesse (vgl. Kapitel 4). „Routinization on the fly“ könnte durch die Analyse von Persistenzen automatisch geparst bzw. vom System auch definiert werden. So würden gleichzeitig die Antizipierbarkeit und die Natürlichkeit erhöht. Marker für die epistemische Ebene von TCUs können bis zu einem bestimmten Grad definiert werden (z. B. Zweifel an eigener Aussage, Face-Saving), so dass adäquate Antwortbausteine formuliert werden bzw. Äußerungen übergangen werden können.

Das Analyse-Instrumentarium zur Strukturierung von Dialogen aus der CA ist auch bei der Untersuchung von Alignment in der HCI hilfreich, da persistente Strukturen im System der Adjazenzpaare (FPP/SPP) verstanden werden. Auch die Klassifizierung von Dialogbeiträgen in der Diskussion um CT bedient sich der Kategorien der CA.

Da Common Ground einen zentralen Aspekt des CA-Ansatzes darstellt, kann er nur bedingt für die HCI nutzbar gemacht werden. Grundsätzliche Überlegungen in der CA arbeiten das Problem des geteilten Wissens heraus (gesprächsorientiertes vs. enzyklopädisches Wissen) und zeigen damit die Grenzen derzeitiger Systeme auf. Auf kognitiver Ebene wurde Partner-Modeling als wichtiger Aspekt von HHC-Dialogen definiert (Johnson-Laird 1983, Sanford & Garrod 1981, Zwaan & Radvansky 1998). Dies schlägt sich konkret nieder in Teilaspekten der Kommunikation wie z. B. sprachlicher Höflichkeit im Kontext des Face-Begriffs (vgl. Goffman 1967; Brown & Levinson 1987, Locher & Watts 2005, Spencer- Oatey 2005). Ohne Partner-Modeling, Self-Monitoring und Common Ground kann sprachliche Höflichkeit im Sinne eines Faces nicht systematisch in einen Bot integriert werden, der sie dann kompetent und dynamisch anwendet. Stattdessen sind einfache Abfolge-Muster von höflichen Accounts robust implementierbar. Diese sind allerdings unflexibel und statisch. Allgemein gilt für die CA-Strukturen auf der Mikroebene des HCI-Dialogs, dass sie Antizipierbarkeit fördern und damit HCI-Dialoge robuster machen. Diese klaren Strukturen sind jedoch absolut nicht dynamisch veränderlich, aushandelbar oder spontan und führen so zu unnatürlichen und langweiligen Dialogen. Mehr Flexibilität würde durch ein Mehr an Dynamik erlangt, das jedoch ohne die Grundlage von geteiltem Wissen nur schwer etablierbar ist. Eine Möglichkeit, Dynamik ohne Common Ground zu implementieren, könnte Alignment in der HCI darstellen. ← 180 | 181 →

Nachweislich gleichen Menschen im Gespräch ihr Dialoglexikon einander an (Brennan & Clark 1996), benutzen die gleichen syntaktischen Strukturen (Bock 1986), passen Sprechgeschwindigkeit und Menge des Gesagten dem Gegenüber an (Giles, Coupland & Coupland 1991) und imitieren Körperhaltung und Gesten (Kimbara 2006). Dass Alignment auch in der HCI eine Rolle spielt, haben unterschiedliche Untersuchungen gezeigt (Branigan et al. 2000, 2010; Fischer 2010, Kopp 2010). Dabei sind die Ergebnisse allerdings nicht eindeutig, ob zu einem höheren oder einem niedrigeren Grad alignt wird als in der HHC (vgl. Kapitel 4). Außerdem ist umstritten, ob Persitenzen auf vorbewusstes Alignment oder auf Recepient-Design auf der Basis von Partnermodellen schließen lassen (vgl. Fischer 2010: 2351, im Druck).

Als psycholinguistischer Ansatz ist das interaktive Alignment-Modell für die HCI insofern von Interesse, da es mit allen Restriktionen des Bots umgehen kann bzw. sie ausklammert:

1. Es ist mechanistisch und wäre damit implementierbar.

2. Es fokussiert auf Lower-Level-Priming; d. h. auf vorbewusste Prozesse. Indem höhere Kognition aus dem Modell ausgeklammert wird, entfällt zwangsläufig die Debatte um Freiheit und Intentionaltät auf dieser Ebene der menschlichen Kognition. Also auch ein deterministisches System müsste zu solchen Priming-Mechanismen in der Lage sein.

3. Mit dem Verzicht auf Common Ground ist das Problem des geteilten Weltwissens als Dialoggrundlage ausgeklammert.

4. Durch den Verzicht auf Other-Modelling spielt die Frage nach Vorannahmen und sozialer Prägung der UserInnen auf dieser Ebene keine Rolle.

5. Interaktives Alignment unterstützt folgende Punkte, die für die HCI interessant und unter den o. g. Prämissen implementierbar wären:

a) einen einfachen Mechanismus zur wechselseitigen Kohäsion

b) die kreative Entwicklung von Dialogroutinen

c) Self-Monitoring während der Produktion

Kritik am Modell, die Implikationen für einen Alignment-orientierten Ansatz für die HCI hat, geht von folgenden Punkten aus:

a) Bislang konnten Persistenzen strukturell auf der Ebene der Lexik und der Syntax nachgewiesen werden (persistente Performanz). Ob sie Ergebnis eines vorbewussten Priming-Mechanismus oder einer bewussten Simplifizierungsstrategie sind, ist umstritten.

b) Alignte Situationsmodelle sind die Grundlage für persitente Strukturen auf der Performanzebene. Zu diesem Alignment der Situationsmodelle im Sinne eines impliziten Common Ground kann es in der HCI genauso wenig kommen wie zu explizitem Common Ground. ← 181 | 182 →

Dialogen ohne Wiederaufnahmen fehlt der „rote Faden“. Das Wiederaufnahme-Prinzip ist konstitutiv für Kohärenz. In der HHC wird Kohärenz durch Aushandlungsprozesse und geteilte situative Modelle geschaffen. Auch bei Pickering und Garrod wird expliziter Common Ground bemüht, sobald Alignment versagt. Allerdings können Bots weder situative Modelle mit Menschen teilen noch expliziten Common Ground als Repair-Strategie schaffen.

Das Hauptproblem des Alignment-Ansatzes für die HCI liegt in der Frage nach der Implementierbarkeit der verschiedenen Repräsentationsebenen im Dialog. Auf einen chat-basierten Bot können aber nur zwei der beschriebenen Ebenen angewendet werden: Alignment von lexikalischen und syntaktischen Repräsentationen manifestiert sich in Persistenzen auf der Ebene der Lexik und der Syntax im Sprachgebrauch der Userin bzw. im Output des Systems. In Bezug auf alle anderen Ebenen bleibt spekulativ, ob Alignment der Userin stattindet, auch wenn die Ebenen im Modell über Alignment-Channels miteinander verbunden sind. Der Bot kann aus persistenten Strukturen kein aligntes Situationsmodell ableiten. In der HHC spielt jedoch Alignment der situativen Modelle eine prominente Rolle. Da das interaktive Alignment-Modell impliziten und expliziten Common Ground benötigt, sobald Störungen in der Kommunikation auftreten, schleicht sich auch hier für die HCI das Problem des geteilten Wissens durch die Hintertür wieder ein. Der durch persistente Strukturen auf der Performanzebene entstandene „rote Faden“ rekurriert in der HCI nicht auf alignte Situationsmodelle und stellt damit eine Quasi-Kohärenz oder allenfalls Kohäsion an der Oberfläche dar, die zwar die Illusion von Natürlichkeit fördern und das Dialoglexikon antizipierbarer machen könnte, aber nicht das Problem von dynamischen Dialogen ohne geteiltes Wissen löst.

Dynamischere Dialoge können dennoch erreicht werden, indem dynamische Regeln zur Erkennung und Generierung von persistenten Strukturen auf der Ebene der Lexik und der Syntax in das System integriert werden. Dafür wird allerdings nicht das komplette interaktive Alignment-Modell mit Alignment-Channels benötigt, sondern vielmehr ein schlankerer Arbeitsspeicher mit Verfügbarkeitshierarchien. Bestehende Systeme konzentrieren sich auf einfache Konstruktionsübernahme. Bestrebungen im Bereich der Web Sciences konzen­trieren sich außerdem bereits auf die Nutzbarmachung von Web-Ressourcen als Basis für einen artifiziellen Common Ground (Watson, IBM). Um Agenten zur Generierung wirklich kohärenter Dialogsequenzen zu verhelfen, müssten grundsätzliche Erweiterungen der Systemarchitekturen vorgenommen werden. Neben dem Rückgriff auf eine breite Basis an enzyklopädischem Wissen, sind Indexikalität (Adressatenorientierung durch Partnermodelle und Präsuppositionen) und ← 182 | 183 → Intentionalität (frei variable, flexible Goal-Directedness) von großer Bedeutung. Linguistische Untersuchungen können vor allem auf der Performanzebene ansetzen und mit großer Genauigkeit zeigen, wo im Dialog und in welchem Maß (im Vergleich zu HHC) persistente Strukturen gebraucht werden (vgl. Kapitel 4), um Ansatzpunkte für ein innovatives Dialog-Design zu definieren, das persistentes Dialogverhalten fördert.

Wie Menschen tatsächlich mit Maschinen interagieren, wird seit den frühen 1990er Jahren untersucht und schlägt sich in der Debatte um CT nieder. Die an diesem Diskurs beteiligte Community bedient sich des Beschreibungsinstrumentariums der CA, geht jedoch immer wieder über die reine Beschreibungsebene hinaus und stellt Überlegungen an über die kognitiven Grundlagen (vgl. Fischer 2006, 2010, im Druck) oder die sozialen Wirkungen von CT (vgl. Krämer 2008). Seit der Prägung des Begriffs CT durch Zoeppritz (1985) und der Definition von CT als strukturellem Register in Form eines metaphorischen Sprachgebrauchs (Krause & Hitzenberger 1992) stellt sich der internationale Forschungshorizont als nicht eindeutig dar. Klar definierbare strukturelle Parameter eines CTs bleiben fraglich, da unterschiedliche Technologien mit in unterschiedlicher Weise beeinflussenden Variablen auf die HCI einwirken. Der CT-Diskurs umfasst einen Untersuchungszeitraum von knapp 20 Jahren, innerhalb dessen verschiedenste technische Innovationen die unterschiedlichsten sozialen Wirkungen hervorgerufen haben. Da CT als statische Größe nicht haltbar zu sein scheint, liegt ein dynamisches Modell von CT und damit von HCI als wechselseitige Interaktion nahe.

Fischer unternimmt erste Schritte in diese Richtung, indem sie CT als funktional (2006) und als Simplified Register (im Druck) definiert. Sie geht von bewussten UserInnen-Strategien aus, die das Dialogverhalten steuern in Abhängigkeit von Vorannahmen über den Bot und vom UserInnen-Typ. Dabei betont sie den Werkzeugcharakter der UserInnen-Sprache. Dies steht im Gegensatz zu vorbewusstem Alignment als Ursache für vorbewusstes UserInnen-Verhalten. Je nach HCI-Anwendung werden Strategien mehr oder weniger bewusst entwickelt. So folgen Begrüßung und Verabschiedung unwillkürlich aus der HHC übertragenen Protokollen, Repair-Strategien bei Störungen werden dagegen in den meisten Fällen bewusst gewählt. Daher sollte ein Kontinuum zwischen „Awareness“ (Strategien, vgl. Fischer 2006, im Druck) und „Mindlessness“ (Stereotypen, Vorannahmen, vgl. u. a. Nass et al.2000; Alignment, Pickering & Garrod 2004) angenommen werden können.

Nutzbar für innovative Systeme ist Fischers PlayerIn-vs.-Non-PlayerIn-Modell, allerdings nur für den Bereich der Dialoganfänge. Unveränderliche Vorannahmen ← 183 | 184 → über das Gegenüber ersetzen flexible Partnermodelle nicht. „The functional differences between human-to-human communication and human-computer interaction may thus be a result of a negotiation process” (Fischer 2006: 62). Aushandlungsprozesse und dynamisches Partner-Modeling sind wichtig für die Interaktion, wenn diese natürlich wirken soll. Somit wäre ein Modell der HCI erst angemessen, wenn es sowohl Vorannahmen und UserInnen-Typen in der dialoginitialen Phase als auch Aushandlungs-Prozesse in allen folgenden Phasen miteinbezieht – alles vor dem Hintergrund der restringierenden Systemvariablen und dem Fehlen von (wie auch immer definiertem) geteiltem Wissen. Dafür ist die Untersuchung kompletter, unverfälschter Dialoge unablässig, da nur so Aushandlungsprozesse im Dialog erfasst werden können.

Eine innovative Systemarchitektur müsste idealiter die bestehenden Ansätze in Verbindung bringen:

  • Dialoginitial (statisch): Wissen über und Erkennung von UserInnen-Typen + entsprechend modifizierte Turn-Banken
  • Dialogverlauf (dynamisch): Erkennung und Generierung von Kohäsionsmarkern, vor allem Persistenzen, auf der Performanzebene (Arbeitsspeicher mit Verfügbarkeitshierarchien), dynamisches Dialoglexikon, bei gleichzeitiger Einhaltung der Adjazenzmuster und Protokolle aus der CA, dynamisches Partner-Modeling und ggf. Modifizieren des UserInnen-Typs
  • Übergeordnet: Einbinden von enzyklopädischem Wissen aus dem Web und Dialogwissen (CA und Alignment) aus Datenbanken, flexible Goal-Directedness, Relevanzhierarchien für Turns in Bezug auf das Goal, Inferenz-Kalkül zur Ableitung von Schlüssen aus Präsuppositionen und Aussagen

Nicht alles kann von der Systemarchitektur geleistet werden, sondern dem Dialog-Design als konkrete Formulierung von Turns und TCUs (Shaping) kommt eine wichtige Bedeutung zu. So könnten z. B. durch geschickte Formulierungen (strategische oder vorbewusste) Persistenzen getriggert werden, wodurch Dialoge antizipierbarer würden.

„Finally, even though users’ behaviour may not always be predictable, users may be guided into producing only those utterances that the system will be able to process, using our understanding of general prag-matic mechanisms, such as alignment and recipient design. Thus, further analysis of alignment in the communication with artificial agents is vital because its reverse side is user guidance; that is, dialogue designers may exploit users’ alignment with their artificial communication partner to subtly guide them into using language in a way the computer or robot understands best; this strategy has been called shaping (Zoltan-Ford, 1991). Self-evidently, shaping could provide powerful means for dialogue design if we understood it better.).”

(Fischer 2010: 2352) ← 184 | 185 →

Durch die verschiedenen Ebenen der HCI als objektive Manipulation einer Maschine und subjektive Wahrnehmung von sozialer Interaktion, kommt dem Bot ein Zwischencharakter zwischen sozialem Gegenüber und Werkzeug zu. In der HCI-Forschung wird entweder die eine oder die andere Seite mehr betont, um unterschiedliche Argumentationen zu stützen. Manchmal wechselt die Perspektive innerhalb des gleichen Paradigmas, wenn widersprüchliche Daten in das gleiche Modell integriert werden sollen. Solange „Star-Trek-Dialoge“ technisch nicht realisierbar sind, wird sich die Definition von HCI in einem Kontinuum zwischen metaphorischer BenutzerInnen-Sprache bis zu alignter HHC bewegen. Die rasante technische Entwicklung in den letzten 20 Jahren zeigt deutlich, dass UserInnen-Expertise, Vorannahmen, Gewohnheiten und Technik-Akzeptanz zusammen mit der Entwicklung der Technologien im Wandel begriffen sind. Erst diachrone Studien mit einer hohen ökologischen Validität können darüber Auskunft geben, welche Aspekte der HCI sich im Laufe der Zeit verändern und welche die Entwicklungszyklen der jeweiligen Innovationen überdauern. Die folgenden Kapitel sollen die Methoden und Ergebnisse einer solchen Studie, die in den Jahren 2007–2010 an der Leibniz Universität Hannover durchgeführt wurde, vorstellen. ← 185 | 186 →


64 www.stanford.edu/~jurafsky/ws97/manual.august1.html (Zugriff 15.06.2016).

65 Die Regeln zur Steuerung von Gruß und Gegengruß sind allerdings in den meisten Systemen noch verbesserungswürdig.

66 Aus diesem Grund wurden auch die Untersuchungskorpora für diese Studie entsprechend zusammengestellt (Kapitel 3).

67 Sacks et al. diskutieren 1974 verschiedene Kriterien einer kompletten Struktur (intonatorisch oder syntaktisch). Ob und wenn ja, wie eine Struktur von realen SprecherInnen im empirischen Dialog wirklich komplettiert wird, kann nicht genau vorhergesagt werden.

68 Für die mündliche HCI via Telefon ist es von besonderer Bedeutung anhand intonatorischer und syntaktischer Merkmale feststellen zu können, ob ein empirischer UserInnen-Turn oder eine TCU komplett ist, da nur so vermieden werden kann, dass das System der Userin ins Wort fällt (to barge in). Umgekehrt gibt es Systeme, die Barge-In seitens der UserInnen zulassen und verarbeiten können. Es stellt eine grundsätzliche Design-Entscheidung in der telefon-basierten HCI dar, ob Barge-In zugelassen wird oder nicht.

69 Umgesetzt wurde ein solches Dialog-Design z. B. für das System „El Lingo“ in der E-Learning Umgebung „Linguistik-Tutorium“ (Lotze & Siever 2012) auf der Seite mediensprache.net.

70 vgl. auch Duncan (1974), Jefferson (1973), Henne & Rehbock (1982).

71 Definition und Beispiele aus den untersuchten Korpora finden sich in Kapitel 3 im Rahmen der Beschreibung der Untersuchungsparameter zur Annotation.

72 Einige ForscherInnen bestreiten die evidente Nachweisbarkeit eines Phänomens Alignment grundsätzlich (Ferreira 2004).

73 Ob es sich dabei um einen aktivierungsbasierten oder um einen lernbasierten Priming-Mechanismus handelt, wird bei Pickering und Garrod nicht klar. Dabei besteht allerdings ein eklatanter Unterschied zwischen einer elektrophysiolgischen Aktivierung und der Herausbildung neuer synaptischer Konnektionen, wobei jedoch eine persistente Aktivierung zur Etablierung neuer Konnektionen führt.

74 Eine Verlinkung dieser kognitiven Bereiche könnte auch als Erklärung für das in der CA diskutierte Phänomen der Komplettierung von Äußerungen nach SprecherInnenwechsel, gedeutet werden (vgl. Kapitel 2.3).

75 Empirische Belege für das Alignment von situativen Modellen kommen aus der Forschung zu Raum- und Zeitdeixis (Schober 1993, Zwaan & Radvansky 1998, Boroditsky 2000). Allgemeinere Arbeiten zu solchen Analogien unterstützen die These (Gentner & Markman 1997, Markman & Gentner 1993).

76 Entsprechend sieht sich die Theorie vor dem Hintergrund der verbreiteten Annahme, dass kognitive Prozesse nach energieökonomischen Prinzipien verliefen.

77 Die ebbinghaus’sche Kurve bildet den Grad des Vergessens über einen bestimmten Zeitraum ab. Ein Prime hat damit eine bestimmte Zerfallsrate.

78 An welchen Loci der Interaktion Non-Persistenzen überhaupt angesetzt werden können und wie sie in einem Spektrum von Non-, Beta- und Alpha-Persistenz interpretiert werden sollen, wird in Kapitel 3 beschrieben.

79 Pickering und Garrod erklären über Self-Alignment-Mechanismen Prozesse des Self-Monitorings. Diese Abstraktion geht weit über die Ebene der im Korpus beobachtbaren Phänomene hinaus.

80 Das vollständige Tag-Set mit Annotationskategorien und Beispielen findet sich in Kapitel 3.

81 Benjamin Schwarz, Masterarbeit (unveröffentlicht), 2013 eigereicht bei Schlobinski / Lotze.

82 www.christianlehmann.eu/ling/ling_theo/index.html (Zugriff 15.06.2016).

83 Im Sonderforschungsbereich Spatial Cognition der Universität Bremen beschäftigen sich WissenschaftlerInnen interdisziplinär mit diesem Konzept und versuchen es in Form von Ontologien mit natürlichsprachlichen Referenzmarkierungen für die HCI nutzbar zu machen.

84 www.psych.uni-goettingen.de/de/communication/forschung/themenkoordination-und-kohaerenz (Zugriff 13.03.2016).

85 Die Beispiele wurden 2013 im Rahmen einer Masterarbeit im Fach Functional and Applied Linguistcs an der LUH von Benjamin Schwarz ausgewählt.

86 Vgl. auch Child Directed Speech (CDS) und Foreigner Directed Speech (FDS). Neben einer Reihe prosodischer Aspekte wird CDS charakterisiert durch ein Subset zur Standardsprache an morphologischen und syntaktischen Strukturen, semantischer Konsistenz (Steretypen), und pragmatischer Redundanz (vgl. Fischer im Druck: 97). FDS enthält nicht nur Simplifizierungen, die eine Fossilierung des Lernprozesses des Gegenübers auslösen können, sondern auch viele Aspekte, die hilfreich für den Lernprosse sind (vgl. Fischer im Druck: 153).

87 Einschränkend muss allerdings angemerkt werden, dass es sich dabei um Repair-Strategien handelt.

88 Neben Problemen der linguistischen Differenziertheit der Studie (z. B. „Abnahme von Partikeln“ ohne weitere Subklassifikation) liegt eine grundsätzliche Schwierigkeit in der experimentell gesteuerten Erstellung der Untersuchungskorpora. Ob eine Analyse von unbearbeiteten Dialogtranskripten aus dem Feld, die gleichen Ergebnisse gebracht hätte, bleibt fraglich. Krause weist selbst darauf hin, dass die klassische Darstellung des Interfaces als Desktop-Metapher die ProbandInnen beeinflusst haben könnte. Untersuchungen mit anthropomorpheren Darstellungen wurden nicht durchgeführt.

89 Verhalten aufgrund von Vorannahmen ist ein vieldiskutierter Topos in der Psychologie (vgl. u. a. Dutke 1994: 1). Dabei wird davon ausgegangen, dass Menschen neue Situationen in Analogie zu ihren Erfahrungen bewerten. Diese Deutungsmodelle haben Hypothesencharakter und werden traditionell auf kognitiver Ebene als mentale Modelle vorgestellt. Diese sind individuell verschieden – zum einen, da sich das entsprechende Vorwissen von Mensch zu Mensch unterscheidet, zum anderen aber auch, da aus diesem Vorwissen das mentale Modell immer anders abgeleitet wird. Daher spielt Partner-Modeling in initialen Gesprächssequenzen oder bei einem Wechsel der GesprächspartnerInnen eine prominente Rolle.

90 vgl. auch Kapitel 2.3 „Partnermodell“ (Johnson-Laird 1983; Sanford & Garrod 1981; van Dijk & Kintsch 1985; Zwaan & Radvansky 1998.

91 Dies gilt aber nicht für alle Partikeln (vgl. Fischer 2006: 51).

92 Indem sie den Terminus Intercultural Communication wählt, erweitert sie den Begriffsumfang im Gegensatz zu Foreigner-Talk, denn nicht nur die Perspektive der Userin sei hierbei relevant, sondern die gesamte Interaktionssituation werde klassifiziert (vgl. Fischer 2006: 145). Intercultural Communication als linguistisches Untersuchungsgebiet befasst sich mit der Kommunikation zwischen KommunikationspartnerInnen verschiedener kultureller Hintergründe und ist ein extrem vielschichtiges Konzept (vgl. Fischer 2006: 145ff). Indem sie dieses in Analogie zur HCI setzt, wird implizit der Kulturbegriff auf artifizielle Entitäten bezogen. Kultur ist definiert durch zahlreiche Faktoren wie Sozialisation, Ideologie, die Ordnung des sozialen Lebens sowie die Sprache einer sozialen Gruppe – also durch gesellschaftliche Konventionen, die sich über viele Jahre entwickelt haben (Scollon & Scollon 2001: 140). All diese Faktoren werden nicht von Robotersozietäten oder Computerkulturen geteilt. Systeme sind zwar Teil unserer Kultur, sind aus ihr entstanden und evozieren soziale Wirkungen (vgl. Krämer 2008), sie bilden aber (noch) keine untereinander vernetzte Sozietät. Sie verfügen nur über sehr eingeschränktes Weltwissen, das sie in der Regel nicht miteinander teilen und können entsprechend keine Kultur ausbilden. Vielleicht zeichnet gerade diese Restriktion sie besonders aus und macht sie den UserInnen so fremd. Durch anthropomorphe Darstellungen wird dieser Umstand verschleiert. Kulturell gewachsen sind allein die Vorannahmen der UserInnen. So kann man auf Seiten der UserInnen sicher von kulturspezifischem Verhalten sprechen, das stereotype Vorstellungen über interkulturelle Bemühungen einschließt. Zu interkultureller Kommunikation führt dieses Verhalten allerdings nicht, da dem System kein Austausch auf dieser Ebene möglich ist. Bedenkt man diese Schwierigkeiten, sind die Termini Foreigner-Talk und Foreigner Directed Speech mit ihren engeren Begriffsumfängen treffender, um das UserInnen-Verhalten zu beschreiben (vgl. Kapitel 4.4).