Show Less
Open access

Chatbots

Eine linguistische Analyse

Series:

Netaya Lotze

Die korpuslinguistische sowie konversationsanalytische Studie thematisiert die Mensch–Maschine-Interaktion mit Chatbots. Diese Dialogsysteme sind auch heute noch störungsanfällig und eine Kommunikation ist nur unter äußerst limitierten Bedingungen möglich. Welche Implikationen dies für das Interaktionsverhalten der UserInnen hat, untersucht die Autorin vor dem Hintergrund der Diskussion um künstliche Intelligenz. Chatbots sind im Web bereits weit verbreitet und ihr Dialog-Design dient als Vorbild für moderne Assistenzsysteme. Da in Zukunft künstliche Intelligenzen eine immer größere Rolle spielen werden, legt diese Auseinandersetzung im Hinblick auf interaktives Alignment und Computer-Talk einen Grundstein zur linguistischen Erforschung von Dialogsystemen.

Show Summary Details
Open access

4. Ergebnisse der quantitativen und qualitativen korpusgestützen Analyse

← 232 | 233 →

4.  Ergebnisse der quantitativen und qualitativen korpusgestützen Analyse

Im folgenden Kapitel werden die Ergebnisse der quantitativen und qualitativen Auswertung dargestellt. Die Gliederung orientiert sich an den in Kapitel 2 vorgestellten Theorien, die zur Analyse von HCI-Dialogen nutzbar gemacht werden sollen: Sprachliche Muster und Routinen nach der Theorie der CA (4.1), Alignment als vorbewusster kognitiver Mechanismus (4.2), Kohärenz und Kohäsion im Dialog (4.3) sowie Hypothesen zum CT (4.4). In Kapitel 4.5 werden die Ergebnisse aus den unterschiedlichen Teilbereichen zusammengeführt und auf einander bezogen, um so das Fundament für ein Interaktionsmodell der HCI (Kapitel 5.1) zu legen.

4.1  Ergebnisse der Analyse nach Kriterien der CA

Die grundsätzliche Gliederung der untersuchen HCI-Dialoge in Turns und TCUs offenbart interessante Einblicke in die Dialogstruktur. Adjazenzstrukturen können mit Hilfe der CA strukturell ausgewertet werden. Eine funktionale Analyse der Accounts erfolgt über SWBD-DAMSL. Dabei können die HCI-Daten mit den Werten aus der Analyse der CMC-Dialoge der chat-basierten Bibliotheksinformation verglichen werden. Allgemein fällt dabei auf, dass die menschlichen Interagierenden (Bibliotheksauskunft und Bibliotheksmitglied) gut aufeinander abgestimmt kommunizieren. Die Werte zu Tokens, Wortformen, Turnlänge usw. liegen hier nahe bei einander. Bei UserIn und System im HCI-Dialog differieren die Werte stärker. Es zeichnen sich keine Verteilungen ab, die auf ausgewogene Interaktion schließen lassen. Dies soll hier im Detail für die strukturellen und funktionalen Aspekte gezeigt werden, die in Kapitel 2.2 zur CA diskutiert wurden:

die Gliederung der Dialoge in Turns und TCUs

Turn-Taking

Splitting von Turns

Muster bei Adjazenzstrukturen

im Gesprächsrahmen

in der Gesprächsmitte

häufigsten Funktionen der Accounts (nach SWBD-DAMSL, vgl. Kapitel 3)

typische Muster bei Repair

Einfluss des Mediums / Kanals ← 233 | 234 →

Die Auswertung der Indikatoren für sprachliche Höflichkeit und die Diskussion um Face-Work in der HCI erfolgt in Kapitel 4.4 zu CT.

Da die untersuchten Dialoge nicht gleich lang sind, werden Werte relativ auf die jeweilige Dialoglänge bezogen. Die Grundgesamtheit stellt also je nach linguistischer Betrachtungsebene der Untersuchung die Anzahl der Turns (Interaktionsstruktur), der TCUs (Syntax) oder der Accounts (Pragmatik) dar.

4.1.1  Die Gliederung der Dialoge in Turns und TCUs

Vergleicht man die Anzahl der Wortformen, die die artifiziellen und menschlichen Interagierenden durchschnittlich pro Turn gebrauchen, wird sichtbar, dass die Systeme deutlich mehr Wortformen verwenden als die menschlichen GesprächspartnerInnen.

Abbildung 18: Durchschnittliche Anzahl der Wortformen pro Turn

img35

So tippen die menschlichen Kommunizierenden im Info-Chat der Bibliothek im Durchschnitt unter 10 Wortformen pro Turn, wobei die Beiträge der Auskunft um nur 1,9 Wortformen länger sind als die der Bibliothekmitglieder. Die Auskunft postet also etwas längere Erklärungen.106 Für den gegebenen Anwendungskontext ← 234 | 235 → weisen sie ein natürliches Verhältnis auf, an dem sich die HCI-Dialoge orientieren sollten. Die Länge der Systembeiträge liegt i. d. R. weit über diesem Wert. So liegt Elbot bei 14,7 Wortformen pro Turn und die älteren Systeme Twipsy und Karlbot sogar bei ca. 30 Wortformen pro Turn. Die UserInnen reagieren bei allen Systemen mit durchschnittlich 3 Wortformen pro Turn, können also als extrem einsilbig beschrieben werden. Die in der chat-basierten HCI beobachtete durchschnittliche Turn-Länge der UserInnen liegt also noch unter den von Fischer (im Druck: 180) berichteten Ergebnissen aus der oralen HRI, wo die Länge der UserInnen-Äußerungen zwischen 4 und 5 Wortformen rangiert.

Mit 31,5 Wortformen pro Turn ist Karlbot das System mit den durchschnittlich längsten Ausgaben. Seine UserInnen tätigen dagegen Äußerungen von einer durchschnittlichen Länge von 3,7 Wortformen; das bedeutet eine Differenz von 27,8 Wortformen zwischen der Länge der UserInnen- und der System-Turns. Twipsy wechselt besonders knappe mit besonders weitschweifigen Ausgaben ab und kommt dadurch mit 18,7 Wortformen zu einem niedrigeren Wert für das arithmetische Mittel. Die Äußerungen der UserInnen sind mit 3 Wortformen ähnlich kurz. Bei Max wurde darauf geachtet, dass Redebeiträge eine Maximallänge nicht überschreiten, um im Dialog natürlicher zu wirken. Diese Design-Überlegung schlägt sich mit einem Wert von 8,5 Wortformen pro Turn nieder und liegt damit im Bereich der HHC-Werte. Leider reagieren Max’ UserInnen nicht mit ähnlich langen Turns, sondern verhalten sich genauso einsilbig wie die UserInnen der älteren Systeme. Dieser Umstand kann eventuell im Kontext der Theorie zu CT (Zoeppritz 1985) gemeinsam mit Tendenzen zur lexikalischen und syntaktischen Simplifizierung interpretiert werden (vgl. Kapitel 4.4) oder ist schlicht bedingt durch die Texteingabe über eine schwergängige Tastatur im Nixdorf Museum.

Betrachtet man zusätzlich zur Menge der Wortformen die Anzahl der TCUs pro Turn, stellt sich ein ähnliches Bild dar, obwohl die Werte UserIn / System nicht gleichermaßen stark abweichen. Dies bedeutet aber, dass die TCUs der Systeme syntaktisch deutlich komplexer sein müssen als die der UserInnen. ← 235 | 236 →

Abbildung 19: Durchschnittliche Anzahl der TCUs pro Turn

img36

Berücksichtigt man bei der Analyse einzelne Turnwechsel, kann man die Tendenz beobachten, dass UserInnen weniger eingeben, wenn der vorhergegangene System-Turn sehr lang war. Im arithmetischen Mittel schlägt sich diese Tendenz nicht nieder, kann aber für die einzelnen Adjazenzpaare in der qualitativen Untersuchung nachgewiesen werden.

(1) Karlbot: Guten Morgen! Willkommen bei der Kiwilogic.com AG. Mein Name ist Karl-Ludwig von Wendt und ich stehe Ihnen als erster virtueller Vorstandsprecher der Welt zu Verfügung. Fragen Sie mich einfach, was Sie über Kiwilogic und unsere Lingubots wissen möchten. Wenn Sie eine klassische Website-Navigation wünschen, klicken Sie auf das Windrosen-Symbol unten links.

(2) UserIn: support

(Karlbot-Korpus 1227–1287)

Besonders lange System-Turns können also besonders kurze UserInnen-Turns provozieren. Ist das im Rahmen einer bestimmten Anwendung erwünscht, kann man diesen Effekt nutzen (Menünavigation, extrem enge UserInnen-Führung). Sofern aber anthropomorphe Dialoge angestrebt werden, sollte ein ausgeglichenes Verhältnis zwischen UserIn und System in Bezug auf die Länge der Redebeiträge angestrebt werden. Denn in menschlicher Kommunikation konnten Anpassungsprozesse zwischen den Kommunizierenden in Bezug auf die quantitative Länge der Äußerungen nachgewiesen werden (vgl. Giles & Powesland ← 236 | 237 → 1975, Giles et al. 1991). Unterschiedliche soziale und kommunikative Faktoren beeinflussen die Aushandlungsprozesse zusätzlich, so dass nicht immer gleichlange Redebeiträge das Ergebnis sind. Unter statusgleichen GesprächspartnerInnen findet aber eine quantitative Anpassung statt. Soll ein Bot den Eindruck eines solchen Gegenübers evozieren, wäre es vor allem in Small-Talk-Anwendungen sinnvoll, diesen Anpassungsprozess zu simulieren, indem bei der Generierung der System-Turns die Länge des vorhergegangenen UserInnen-Turns als Richtwert gilt.

4.1.2  Turn-Taking und Splitting von Turns

Die HCI-Dialoge weisen in Bezug auf die Sprachhandlungskoordination eine klare Struktur auf. Die Systeme eröffnen den Dialog mit einer voreingestellten Begrüßung. Danach wechseln UserInnen- und System-Turns ab, ohne dass es zu Überschneidungen kommt, da die System-Beiträge erst ausgegeben werden, wenn die Userin ihren Beitrag gepostet hat. Das System Max ist in der Lage, längere Beiträge zu splitten. Trotzdem warten die UserInnen die Selbst-Komplettierung des Gesamt-Turns durch das System ab, bevor sie ihre eigene Eingabe tätigen. Turn-Taking im Sinne von Aushandeln des Rederechts spielt in der chat-basierten HCI keine Rolle. Im Mehrparteien-Chat kann Sprachhandlungskoordination bisweilen durch einander überschneidende Postings sehr unübersichtlich werden (vgl. Beißwenger 2007), ist aber im 1:1 Chat leicht nachvollziehbar. Im Vergleichskorpus, der chat-basierten Bibliotheksinformation, liegen einige Überschneidungen von Postings vor, so dass Turn-Wechsel nicht immer ganz klar sind. In den vorliegenden HCI-Dialogen stellt sich dieses Problem nicht.

Als abweichend fällt außerdem auf, dass das Splitten von Beiträgen in den HCI-Dialogen nur marginal nachgewiesen werden kann, während über 20 % der Beiträge der Bibliotheksauskunft und 15 % der Bibliotheksmitglieder in gesplitteter Form vorliegen. Bei diesem Umstand handelt es sich um einen Effekt des Mediums, der nicht auf die ebenfalls chat-basierte HCI übertragen wird. ← 237 | 238 →

Abbildung 20: Prozentualer Anteil der gesplitteten Turn an der Gesamtmenge der Turns

img37

Menschliche Chat-TeilnehmerInnen splitten ihre Beiträge, um Wartezeiten zu verkürzen und den Inhalt zu gliedern. Gesplittet wird nicht willkürlich, sondern zwischen separaten TCUs.

(1) Mitglied: Vielen Dank für die Auskünfte, sehr freundlich!

(2) Mitglied: Das war eine Menge, muss ich jetzt erstmal verarbeiten ;-)

(Bib-Korpus 87–110)

Aufgrund ihres hohen Grades an Eigenständigkeit, werden die Teile eines gesplitteten Turns in dieser Studie als separate Turns analysiert. Durch Verzögerungen beim Posting des zweiten Teils evozieren sie nämlich hier meist auch separate Reaktionen; d. h. das Gegenüber antwortet zuerst auf Teil 1 und dann auf Teil 2. Aus diesen Gründen scheint eine Zusammenführung der Teile für die Auswertung nicht sinnvoll.

In den HCI-Dialogen konnten bei Max zwei Splitting-Versuche seitens der UserInnen gezählt werden und bei Elbot ein Splitting-Versuch. Man könnte das Verhalten also dahingehend interpretieren, dass den UserInnen klar zu sein scheint, dass Splitting von Beiträgen das Parsing erschweren würde und sie es deshalb en Gros unterlassen. Wahrscheinlicher sind allerdings zwei andere Deutungen: Erstens sind die meisten UserInnen-Beiträge sehr kurz, so dass Splitting unsinnig wäre. Zweitens splitten die Systeme (außer Max) nicht, so dass damit eine implizite Konversationsregel für die chat-basierte HCI vorgegeben wird, die die UserInnen wahrscheinlich zwar nicht reflektieren, aber befolgen.

Splitting in chat-basierter HCI ist ein gutes Beispiel dafür, dass anthropomorpheres Dialogverhalten nicht immer die Usability eines Systems erhöht. ← 238 | 239 → Auf Splitting komplett zu verzichten, ist zwar ungewöhnlich für eine chat-basierte Anwendung, macht HCI-Dialoge aber bedeutend übersichtlicher und UserInnen-Verhalten antizipierbarer.

4.1.3  Der Gesprächsrahmen

Konventionalisierte Grußfloskeln sind besonders regelhaft in einer Gemeinschaft von SprecherInnen und somit gut operationalisierbar für artifizielle Dialog-Systeme. Seit Beginn der 2000er Jahr wurden Agenten mit immer größeren Makros für Grußfloskeln ausgestattet. Sprechakterkennung und Generierung mittels Konversationsregeln funktionieren in diesem Bereich mittlerweile sehr gut. Die diachronen Korpora spiegeln diese Entwicklung wider. Während bei Twipsy (2000) und Karlbot (2002) wechselseitige Begrüßungen und Verabschiedungen noch selten vorkommen, grüßen die UserInnen von Max (2004) und Elbot (2006) bereits häufiger, als die Chattenden im Vergleichskorpus.

(1) Twipsy: hallo, hallo, ich war gerade auf der Expo 2000 unterwegs, virtuell natürlich. Darf ich Ihnen etwas darüber erzählen?

(2) UserIn: was ist die beat box?

(Twipsy-Korpus 861–890)

(1) Auskunft: Guten Tag! Wie kann ich Ihnen helfen?

(2) Mitglied: Guten Tag! […]

(Bib-Korpus 549–561)

Abbildung 21: Gesprächsrahmen: Begrüßungen und Verabschiedungen pro Dialog

img38

← 239 | 240 →

Die Grafik zeigt, wie viele Grußfloskeln seitens des Systems oder der UserInnen (bzw. Auskunft / Mitglied) pro Dialog im Durchschnitt bemüht werden. Es wird davon ausgegangen, dass eine wechselseitige Begrüßung und eine wechselseitige Verabschiedung pro Dialog der Konvention entsprächen, doch die untersuchten CMC-Dialoge der Bibliotheksauskunft weisen im Durchschnitt weniger als ein Gesprächsrahmenelement auf. In weniger als 50 % der Chats wird gegrüßt. Dieser Umstand erklärt sich aus dem situativen Kontext der Anwendung auf der Website der Bibliothek. Hier ist es nicht ungewöhnlich, dass Bibliotheksmitglieder einfach direkt eine Frage posten und die MitarbeiterInnen der Auskunft diese auch ohne Gruß beantworten. Das Gleiche gilt für Verabschiedungen, allerdings in weniger hohem Maße, da im Verlauf des Chats eine persönliche Kommunikationssituation etabliert wurde – besonders, wenn es sich um ein längeres Beratungsgespräch handelt. Interessant an diesen Werten aus dem Vergleichskorpus ist, dass auch in einer HCI-Anwendung nicht unbedingt 100 % der Dialoge eine Begrüßung und eine Verabschiedung enthalten müssen. Je nach Kontext auf der entsprechenden Website müssen Dialoge ohne Grußfloskeln nicht unbedingt als unnatürlich wahrgenommen werden. Wichtiger ist die Wechselseitigkeit des Grußes, wenn er erfolgt. Es ist also wichtig, dass Systeme und UserInnen statistisch ähnliche Werte für Grußfloskeln erreichen. Bei Twipsy und Karlbot können extreme Differenzen zwischen dem Grußverhalten des jeweiligen Systems und seiner UserInnen gemessen werden. Beide Systeme grüßen mehrfach zu Beginn eines Dialoges (daher Werte über 1) und evozieren mit diesem unnatürlichen Dialogverhalten, dass ihre UserInnen besonders wenig grüßen (CT?). Die Dialoge beginnen zusätzlich mit sehr langen System-Turns zur Beschreibung der Funktionen des Bots, was den Effekt eventuell verstärkt.

Während also Begrüßungen zu häufig erfolgen, sind Verabschiedungen selten. Twipsy verabschiedet sich gar nicht von den UserInnen, sondern bricht die Anwendung ab, sobald eine Verabschiedung seitens der Userin gepostet wurde. Bei Karlbot stellt sich das Problem, dass alle untersuchten Dialoge von seinen UserInnen abrupt abgebrochen wurden. Karlbot kommt entsprechend kaum dazu, eine Verabschiedung zu posten. Hier zeigen sich deutliche Hinweise auf CT; d. h., die UserInnen benutzen die Bots als Hilfe zur Suchabfrage auf der jeweiligen Website und beenden dann die Interaktion einfach.

Bei Max wird strikt die Regel eingehalten, dass das System immer am Beginn und Ende eines Dialogs grüßt. Im besonderen Anwendungskontext im Museum ist dieses Verhalten angemessen, da hier trotz des Terminals zur Kommunikation über die Tastatur durch die lebensgroße Projektion des Avatars eine Art Face-to-Face-Szenario aufgebaut wird. Von Max werden ebenfalls z. T. mehrere ← 240 | 241 → Begrüßungen ausgegeben. Die Turns sind aber kurz gehalten und verzichten auf Instruktionen zum Umgang mit dem ECA. Max’ UserInnen grüßen in 95 % aller Fälle und verabschieden sich in 45 %.

Elbot begrüßt seine UserInnen in 100 % der Interaktionen und nur die Hälfte erwidert den Gruß. Im Chat-Szenario wirken soziale Faktoren wie Face-Work nicht so deutlich wie in einem artifiziellen Face-to-Face-Szenario. Bei den Verabschiedungen ist die Differenz zwischen Bot und UserInnen vergleichsweise klein. Entweder die Dialoge werden einfach abgebrochen oder man verabschiedet sich wechselseitig. Nur in 15 % der Fälle geht Elbots Gruß ins Leere. Eine mögliche Deutung liegt in der polarisierenden Wirkung der Agenten-Persona: Entweder man mag den übellaunigen Bot, lässt sich auf den Dialog mit ihm ein und verabschiedet sich am Ende der Interaktion (PlayerIn-Typus) oder man kann mit der Anwendung nichts anfangen, testet oder beschimpft sie und beendet den Dialog ohne Gruß (Non-PlayerIn-Typus).

Allgemein zeichnet sich beim Vergleich der Korpora die Tendenz ab, dass auf lange Dialoge auch eine Verabschiedung folgt. Kann das System die UserInnen lange bei der Stange halten, attribuieren diese eher anthropomorphe Eigenschaften an ihr Gegenüber und verabschieden sich konventionell. Vielleicht hängt diese Beobachtung auch mit dem UserInnen-Typ zusammen: PlayerInnen interagieren lang und verabschieden sich auch, während Non-PlayerInnen die Interaktion abbrechen, sobald sie ihre Auskunft haben.

4.1.4  Die Gesprächsmitte

Während konventionalisierte Grußfloskeln als systematische Abfolgen von Gruß und Gegengruß im Gesprächsrahmen über die Jahre für die HCI nutzbar gemacht und von den UserInnen bei moderneren Systemen immer besser angenommen werden, werden sequenzielle Muster in der Gesprächsmitte bislang nur rudimentär genutzt. Mögliche operationalisierbare Muster in der Gesprächsmitte sind Adjazenzpaare. Der strukturelle Bezug eines SPPs auf ein FPP des Gegenübers erfolgt hier über die Ellipse.107 Der semantisch kohärente Anschluss wird gerade durch Weglassen des bereits Geäußerten erwirkt. UserInnen in der HCI gebrauchen solche Adjazenzellipsen, auch wenn Systeme immer noch große Probleme beim Parsen elliptischer Strukturen haben. Die Systeme selbst geben wenig elliptische Strukturen aus, so dass ein starkes Gefälle zwischen Bots und UserInnen besteht im Hinblick auf syntaktische Komplexität (s. Kapitel 4.4). So ← 241 | 242 → gebrauchen UserInnen bspw. bis zu 30 % mehr Adjazenzellipsen als die artifiziellen Agenten, während die menschlichen Kommunizierenden im Info-Chat prozentual nahezu gleichviele Adjazenzellipsen eingeben.

Abbildung 22: Prozentualer Anteil der Adjazenzellipsen an der Gesamtmenge der TCUs

img39

Die UserInnen übertragen ein Verhalten aus der HHC auf die HCI, das derzeitige Bots weder parsen noch spiegeln können. Hier besteht eindeutig Verbesserungsbedarf.

Im Vergleich der Korpora untereinander zeigt sich allgemein die Tendenz zur Koinzidenz von einer hohen Anzahl von Wortformen und einer niedrigen Anzahl von Adjazenzellipsen. Hierin zeigt sich ein erster Hinweis auf die unterschiedlichen Stilebenen der Bot-Beiträge und der UserInnen-Beiträge (Kapitel 4.4, 4.5, 5.1). Während die Bot-Turns viele Wortformen und grammatische Sätze beinhalten, antworten die UserInnen knapp und elliptisch.

Ein weiterer struktureller Indikator für Paarsequenzen sind Komplettierungen. Menschen sind unter bestimmten Voraussetzungen in der Lage, die TCUs ihres Gegenübers zu komplettieren. Dieses Gesprächsverhalten ist in der oralen Kommunikation häufig bei Sprechpausen. In der Chat-Kommunikation kann es beobachtet werden, ist aber seltener. Im Vergleichskorpus finden sich insgesamt 4 Komplettierungen durch die Auskunft und 6 durch das Bibliotheksmitglied. ← 242 | 243 →

Abbildung 23: Prozentualer Anteil der Komplettierungen an der Gesamtmenge der TCUs

img40

Interessant ist, dass beim System Max ebenfalls zwei Komplettierungen von UserInnen-Turns vorliegen. Es handelt sich dabei selbstverständlich um Beiträge, die nur zufällig den Anschein erwecken, es handele sich um eine Komplettierung, da Max’ Turn mit „oder“ eingeleitet wird. Allgemein wurde bei Max’ Dialog-Design auf Konnektiva geachtet, was bei den anderen Bots nicht der Fall ist. Diese unterstützen die Illusion von verknüpften Paarsequenzen, was die UserInnen dazu ermutigt, ebenfalls mehr Konnektiva zu verwenden (vgl. Kapitel 4.3) und Komplettierungen von System-Turns zu wagen. Diese Entwicklung ist durchaus positiv zu bewerten, wobei im nächsten Schritt aber unbedingt ein verbessertes Parsing der UserInnen-Konnektiva mit Bezug zum System-FPP entwickelt werden muss.

Auch auf funktionaler Ebene können Paarsequenzen nachgewiesen werden. Die häufigste Paarung von Accounts in den HCI-Korpora ist eine W-Frage der Userin, auf die das System mit einem Statement reagiert, das die Antwort mehr oder weniger enthält. Durch die Schlüsselwortanalyse ist zwar ein lexikalischer Bezug vorhanden, durch vorformulierte Antwortstämme wirkt der Beitrag des Bots aber nicht strukturell eng auf die Frage bezogen (z. B. in Form einer Adjazenzellipse).

(1) UserIn: Wie alt bist du?

(2) Max: Mein genaues Geburtsdatum ist unbekannt, aber ich bin Ende 99 geboren.

(Max-Korpus 11525–11543)
← 243 | 244 →

Im älteren Twipsy-Korpus ist der häufigste Sprechakt der UserInnen statt der W-Frage noch der Navigationsbefehl – einmal im Korpus sogar als Programmbefehl.

(1) UserIn: pauschalangebote

(Twipsy-Korpus 2–3)

(1) UserIn: INIT

(Twipsy-Korpus 116–117)

Schon bei Karlbot (2002) findet man solche Ausdrücke nicht mehr und natürlichsprachliche Befehle sind ebenfalls seltener. Hier hat eine deutliche Veränderung der UserInnensprache seit 2000 stattgefunden, deren Merkmale und beeinflussende Faktoren in Kapitel 4.4 diskutiert werden.

Paarsequenzen greifen in den HCI-Dialogen funktional nicht immer ineinander, wie es in der HHC der Fall ist (vgl. Question-Answer, Greeting-Greeting, Summons-Answer, Telling-Accept). Stattdessen gehen Inkohärenzen oder Quasi-Kohärenzen teilweise auf die Auswahl eines unangemessenen Sprechakts zurück. Mit Hilfe seines Sprechakt-Parsers und seiner Interaktionsregeln schneidet das System Max hier im Vergleich besonders gut ab (vgl. Kapitel 4.3). Im Vergleichskorpus können außer Paarsequenzen auch Triplets aus Anfrage – Antwort – Dank nachgewiesen werden. Dabei handelt es sich häufig um Anfragen in Form von Statements wie „Ich suche folgendes Buch…“. In den HCI-Dialogen spielt Dank dagegen keine Rolle (vgl. Kapitel 4.4).

Eine Weiterentwicklung der Systeme seit 2000 kann auch an der Verteilung der Dialogfunktionen nach SWBD-DAMSL festgemacht werden. Bei Twipsy ist der häufigste UserInnen-Beitrag noch der Navigationsbefehl und die dritthäufigste Systemreaktion ein inkohärenter Turn. Karlbot äußert viel zu viele Begrüßungen (13 % der Dialogfunktionen nach SWBD-DAMSL, Vergleich Bib 2 %) und die zweithäufigste UserInnen-Reaktion ist der Gesprächsabbruch. Vor diesem Hintergrund schneiden die neueren Systeme Max und Elbot vergleichsweise gut ab. In Abgrenzung zum Vergleichskorpus fällt eine große Anzahl von W-Fragen108 auf, sowohl seitens der Systeme (Max [qw’] 11,45 %, Elbot [qw’] 6,73 %) als auch seitens der UserInnen (Max [qw] 17,31 %, Elbot [qw] 14,36). Die Bibliotheksinformation beantwortet in der Regel Fragen und stellt selbst nur einige wenige Rückfragen ([qw] 2,05 %). Strenggenommen sollte ein Info-Bot also mehr kohärente Antworten ausgeben und weniger pro-aktiv Fragen stellen. In HCI-Designs stellt es sich aber immer noch als einfacher dar, Bots zu ← 244 | 245 → programmieren, die Fragen stellen und UserInnen antworten zu lassen (Teil des ELIZA-Prinzips). UserInnen-Beiträge werden so antizipierbarer. Dass diese Dialoge aber notwendig unnatürlich wirken müssen – auch wenn sie schon wesentlich besser funktionieren als 2000 – zeigt die Verteilung der häufigsten Dialogfunktionen nach SWBD-DAMSL.

Tabelle 22: Die je drei häufigsten Dialogfunktionen nach SWBD-DAMSL109

System (Auskunft)UserIn (Mitglied)
Relative WerteAbsolute WerteRelative WerteAbsolute Werte
TwipsyStatement

Ja/Nein-Frage

Inkohärente Antwort
43,64 %

19,43 %

5,49 %
429/983

191/983

54/983
Befehl

Ja-Antwort

W-Frage
13,15 %

12,41 %

9,44 %
71/540

67/540

51/540
KarlbotStatement

Aufforderung

Begrüßung
40,25 %

19,34 %

13,26 %
258/641

124/641

85/641
W-Frage

Gesprächsabbruch

Ja/Nein-frage
32,46 %

21,05 %

8,33 %
74/228

48/228

19/228
MaxStatement

W-Frage

Aufforderung
36,93 %

11,45 %

7,54 %
490/1327

152/1327

100/1327
W-Frage

Aufforderung

andere Antworten
17,31 %

11,89 %

8,57 %
99/572

68/572

49/572
ElbotStatement

Meinungsäußerung110

W-Frage
39,67 %

11,28 %

6,73 %
672/1694

191/1694

114/1694
W-Frage

andere Antworten

Statement
14,36 %

13,60 %

11,69 %
113/787

107/787

92/787
BibStatement

andere Antworten

Aufforderung
33,58 %

10,82 %

7,09 %
180/536

58/536

38/536
Statement

Dank

Ja/Nein-Frage
27,51 %

11,94 %

9,59 %
129/469

56/469

45/469

Für die HHC-Dialoge an der Chat-Information zeichnet sich folgendes Abfolge-Skript ab: ← 245 | 246 →

  • Anfrage Mitglied (Statement, Deklarativfrage oder Ja/Nein-Frage)

    Ich suche x.

    Sie können mir sicher helfen mit x.

    Können Sie mir sagen, wo ich x finde.
  • Antwort Auskunft (Statement Info)

    Sie finden Buch x in Katalog y / Regal z.
  • Optionale 2. Anfrage Mitglied

    Wo befindet sich Regal z.
  • Optionale 2. Antwort Auskunft (Statement Info)

    Regal z befindet sich im 2. Stock.
  • Dank Mitglied / Verabschiedung Mitglied

    Vielen Dank und auf Wiedersehen.
  • Verabschiedung Auskunft

    Auf Wiedersehen.

Eindeutige Tendenzen für Muster in längeren sequenziellen Abfolgen konnten in den HCI-Dialogen nicht beobachtet werden, da a) die Dialogziele der UserInnen zu unterschiedlich sind, b) die Themen stark variieren und c) abrupte Themenwechsel durch Verlegenheitsantworten ausgelöst werden, die konventionalisierte Progression unmöglich machen. Die Punkte a) und b) würden bei reinen Info-Bots nicht so stark ins Gewicht fallen, da aber alle untersuchten Bots über Small-Talk-Funktionen verfügen und viele UserInnen genau diese besonders spannend finden und testen wollen, sind antizipierbare Skripte für solche Anwendungen unwahrscheinlich. Hier fällt die Design-Entscheidung zu Gunsten eines höheren Unterhaltungswerts gegen robuste Dialogabläufe. Bei c) handelt es sich um ein grundsätzliches Problem der Bots, das dann aus der geringen Antizipierbarkeit von UserInnen-Beiträgen resultiert. Wenn der UserInnen-Input nicht analysiert werden kann, kommt es zu einer Störung, die meist durch eine Verlegenheitsantwort kompensiert wird. Damit kommt es aber notwendig auch zu Themenwechseln, die dafür sorgen, dass HCI-Dialoge noch schwerer vorhersagbar werden. Welche unterschiedlichen Repair-Strategien UserInnen bei Störungen der Interaktion den unterschiedlich sophistizierten Systemen gegenüber bemühen, soll im nächsten Abschnitt beschrieben werden. ← 246 | 247 →

4.1.5  Störungen und Repair

Repair wird von den UserInnen sowohl eingeleitet bei inkohärenten oder quasi-kohärenten System-Turns (vgl. Kapitel 3) als auch, wenn das System explizit signalisiert, dass eine UserInnen-Eingabe nicht geparst bzw. „verstanden“ werden konnte. Auf diese offene Strategie, Störungen im Gespräch direkt zu kommunizieren, wird bei den neueren Bots nur noch zurückgegriffen, wenn das „Sicherheitsnetz“ aus Verlegenheitsantworten nicht mehr greift (vgl. Roberts 2006). Dass Elbot über eine große Datenbank an Verlegenheitsantworten verfügt, zeigt die große Zahl von quasi-kohärenten Turns (15 % der Turns), die das System ausgibt. Diese Turns evozieren nicht immer Repair seitens der UserInnen, sondern können das Gespräch auch in völlig andere Bahnen lenken (vgl. Kapitel 4.3). Je nach Typ lassen sich die UserInnen auf diese Steuerung ein oder nicht: PlayerInnen lassen sich vom eigentlichen Thema ablenken, während Non- PlayerInnen Repair einleiten.111 In einer Small-Talk-Anwendung kann dieses Dialog-Verhalten charmant wirken, für einen Info-Bot ist es jedoch leider sinnlos. So sind die Dialoge mit dem virtuellen Museumsführer Max dank der avancierten Systemarchitektur und des durchdachten Dialog-Designs weniger anfällig für Störungen, so dass Repair seitens der UserInnen weniger Raum einnimmt. Dass sich ein sehr guter Parser für Lexik, Syntax und Sprechakte sowie engmaschig vorformulierte Skripts lohnt, erkennt man beim System Max daran, dass es bei weniger als 10 % der Turns inkohärente oder quasi-kohärente Beiträge sowie Fehlermeldungen ausgeben muss.

Repairstrategien werden von den UserInnen kreativ eingesetzt. Dominiert im Twipsy-Korpus noch die mehrfache Wiederholung der gleichen Wortform als Repairstrategie, werden die Repairversuche bei den neueren Systemen vielfältiger.

(1) UserIn: pauschalangebote

(2) Twipsy: Ich stelle mich am Besten erst einmal vor, ich heiße Twipsy. Verraten Sie mir Ihren Namen?

(3) UserIn: nein

(4) Twipsy: Schade, darf ich Ihnen trotzdem etwas über die EXPO 2000 erzählen?

(5) UserIn: nein

(6) Twipsy: Sie können natürlich auch ein Gesprächsthema vorschlagen, aber die EXPO 2000 ist mein ausgesprochenes Spezialgebiet.

(7) UserIn: pauschalangebote ← 247 | 248 →

(8) Twipsy: Haben Sie schon mal daran gedacht bei einer Wahrsagerin Geld für einen Blick in die Zukunft auszugeben?

(9) UserIn: nein

(10) Twipsy: Das ist auch besser so, die EXPO 2000 bietet Ihnen einen Tag in der Zukunft für 69,- DM (Tageskarte für Erwachsene). Unterhaltsamer ist es dort bestimmt.

(Twipsy-Korpus 1–61)

Hier scheint kein Bewusstsein für die Funktionsweise des Bots zu bestehen, da durch Wiederholungen versucht wird, Repair einzuleiten. Userin und Bot sind in diesem Abschnitt beide nicht in der Lage, sich auf das Gegenüber einzustellen. Dass es nach dieser Sequenz zum Gesprächsabbruch durch die Userin kommt, ist nicht verwunderlich.

Karlbots UserInnen wissen als potentielle KundInnen von Kiwilogic in der Regel genau, wie ein Chatbot funktioniert und wie man Störungen der Interaktion u. U. kompensieren kann.

(1) UserIn: in welche sprache ist das system von lingubots geschrieben worden?

(2) Karlbot: Bisher gibt es den Lingubot-Creator und die mitgelieferten Wissensbasen auf Deutsch und Englisch, aber prinzipiell funktioniert unsere Software in jeder Sprache. Wir denken darüber nach, das Programm und die zugehörigen Wissensbasen auch in Spanisch und Französisch zu entwickeln, aber das ist bisher noch nicht konkret.

UserIn: ich meinte aber mit welchen programmierung sprache ist das system

entwicklet worden

(3) Karlbot: Unser Entwicklerteam umfasst derzeit 15 Mitarbeiter und wird von Robert Krüger geleitet.

(4) UserIn: sagt dir lisp oder prolog was?

(5) Karlbot: Ach so. Es freut mich, dass Sie wieder einmal hier sind und sich mit mir unterhalten! Rechts sehen Sie weitere Beispiele unserer Lingubot-Technologie.

(Karlbot-Korpus 2414–2540)

Die Userin in diesem Beispiel möchte wissen, in welcher Programmiersprache das System Karlbot geschrieben wurde. Sie fragt in Form eines ganzen Satzes, der in Bezug auf die Kasuswahl bei der Präposition „in“ hier ungrammatisch, aber eindeutig verständlich ist, in welcher Sprache das System geschrieben sei. Eine adäquate Antwort wäre z. B.: „In C++ mit Hilfe des Lingubot-Creators, den Sie bei uns auch käuflich erwerben können. Interesse?“ Der Parser bezieht Sprache nicht auf System und es wird ein Turn ausgegeben, in dem auf die verschiedenen natürlichen Sprachen Bezug genommen wird, in denen der Lingubot-Creator erhältlich ist: Deutsch und Englisch. Diese erste Störung ist nachvollziehbar und die Userin konkretisiert wieder in Satzform, dass sie nach der Programmiersprache gefragt habe, in der Bot entwickelt worden sei. Sie leitet ihren Repair-Turn ← 248 | 249 → sogar höflich mit „ich meinte aber“ ein. Statt „Programmiersprache“ wird „programmierung sprache“ eingegeben. Ob es sich hierbei um eine konkrete Simplifizierungsstrategie (vgl. Fischer im Druck) oder isolierte einheiten natürlicher Sprache als Metapher auf knappe Befehle in Programmiersprache (vgl. Krause 1992) handelt, ist nicht klar. Bereits der erste Turn weist eine ungrammatische Phrase auf, da die Kasusrektion der Präposition „in“ nicht beachtet wird, was ein häufiger Fehler von NichtmuttersprachlerInnen ist. U. U. zeigt die Userin also gar keine Simplifizierungsstrategien, sondern ist selbst nicht ganz sicher, welche syntaktische oder morphologische Form grammatisch wäre. Ein innovativer Parser sollte aber a) mit dieser Ungenauigkeit umgehen können und b) einen Turn, der mit „ich meinte aber“ eingeleitet wird, als Repair erkennen. Dann könnte c) der UserInnen-Turn vor Beginn der Störung in den Parsing-Prozess miteinbezogen werden. Geparst würden dann die Lexeme („programmierung“, „sprache“, „system“) mit vielversprechender Prognose. Karlbot kann die direkte Korrektur aber nicht erkennen, geht stattdessen auf das Partizip „entwicklet“ ein und gibt Details zu seinem EntwicklerInnen-Team aus. Der Orthographiefehler stört das Parsing nicht.

Nachdem die Userin mit allgemeinen Begriffen nicht verstanden wurde, versucht sie es mit Beispielen und nennt die Programmiersprachen Lisp und Prolog. Ihre zweite Repair-Aktion formuliert sie als Frage der Form „Sagt Dir x was?“ deutlich weniger komplex als beim ersten Versuch. Der Userin im o. g. Beispiel scheint bewusst zu sein, dass der Bot auf eine Schlüsselworterkennung zurückgreift, denn sie versucht zu präzisieren und synonyme Wortformen zu finden. Dabei geht sie so weit, dass sie es sogar mit konkreten Beispielen versucht. Der semantische Begriffsumfang wird immer enger, die syntaktische Struktur immer einfacher. Hierbei handelt es sich eindeutig um eine Simplifizierungsstrategie (Fischer: 2014). Die Userin versucht, ihren Beitrag so zu gestalten, dass sie einfach zu parsen ist. In Karlbots Lexikon sind „Lisp“ und „Prolog“ wohl nicht hinterlegt, denn es wird eine Verlegenheitsantwort ausgegeben. Diese veranlasst die Userin schließlich, nachdem zwei Repair-Versuche gescheitert sind, den Dialog ohne Grußfloskel zur Verabschiedung abzubrechen. Damit entspricht ihr Verhalten der Mehrheit der UserInnen, die nach zwei gescheiterten Repair-Versuchen den Dialog frustriert beenden. Bei den neueren Systemen zeigt sich die Tendenz, trotz Störung auf Repair zu verzichten. Allgemein kann beobachtet werden, dass UserInnen die Interaktionen mit den Systemen (außer bei Karlbot) trotz Störungen länger aufrechterhalten als die menschlichen Interagierenden an der Bibliotheksinformation. Neben Neugier (Twipsy) und dem Unterhaltungswert der Small-Talk-Funktion (Elbot) spielen dabei auch dialogimmanente Gründe eine ← 249 | 250 → Rolle. Das Et-Cetera-Prinzip (Cicourel 1973) findet sich in verschieden Sequenzen der HCI-Dialoge.

(1) Elbot: Ich musste beim Film Terminator weinen, als der Roboter umgebracht wurde.

(2) UserIn: aber der war doch böse?

(3) Elbot: stellen Sie diese Frage mal einen Talk-Show-Moderator. Ich wette, der fängt an zu stottern.

(4) UserIn: oder einem general

(Elbot-Korpus 1591–1633)

Im obigen Beispiel kann Elbot die Deklarativfrage der Userin nicht parsen und gibt eine Verlegenheitsantwort aus, die häufig verwendet wird. Anstatt darauf mit Repair zu reagieren, geht die Userin auf die Verlegenheitsantwort ein und komplettiert bzw. erweitert sie sogar in Form einer Phrasenkoordination. Inhaltlich knüpft sie dabei an Elbots initialen Turn an, indem sie sich (eventuell) auf General Ashdown aus Terminator 4 bezieht. Sie übergeht also die eigentlich vorliegende Störung und integriert die Verlegenheitsantwort thematisch. Diese Userin kann der Kategorie PlayerIn zugeordnet werden, da sie sich bei der Interaktion von ihrem Wunsch nach einen kohärenten Dialogverlauf leiten lässt und Fehler des Systems zu Gunsten einer flüssigen Interaktion ignoriert. Hier wird deutlich, dass menschliche Gesprächsstrategien auf die Interaktion mit dem Bot übertragen werden. Dies fällt besonders in Small-Talk-Sequenzen bei den neueren Systemen Elbot und Max auf. Allerdings scheint der situative Kontext auch hier eine große Rolle zu spielen. Die Chattenden auf freenet.de lassen sich von Elbot in längere Dialoge verwickeln und übergehen in deren Verlauf meist eine Reihe von Störungen, solange Elbots Beiträge sie gut unterhalten. Max als Exponat im Museum trifft auf BesucherInnen, die nicht viel Zeit mitbringen, da sie sich auf einem Rundgang befinden und noch andere Ausstellungsstücke sehen wollen. So kommt es zu weniger langen Dialogsequenzen im Max-Korpus. Trotzdem gibt es Passagen, in denen sich die UserInnen von Max in ein Gespräch verwickeln lassen, was unter den gegebenen Bedingungen als großer Erfolg gewertet werden kann. Zusätzlich wird das System Max von den MuseumsbesucherInnen ständig auf die Probe gestellt. Vor diesem Hintergrund sind die niedrigen Werte für Störungen (vgl. Kapitel 4.3) besonders positiv zu bewerten.

4.1.6  Die Rolle des Mediums

Da es sich bei drei der untersuchten Systeme um Online-Anwendungen handelt, ist von Interesse, welche Auswirkungen die Internetbasiertheit der Systeme auf die UserInnen-Sprache hat. Übertragen die UserInnen von Twipsy, Karlbot und Elbot Strategien zur sprachlichen Ökonomisierung oder Markierung ← 250 | 251 → von konzeptioneller Mündlichkeit im medial Schriftlichen aus der Chat- oder Foren-Kommunikation auf die HCI? Können Unterschiede festgestellt werden zur Interaktion mit dem ECA Max in einem Quasi-Face-To-Face-Szenario im Nixdorfmuseum?

In allen vorliegenden Agenten-Korpora wurde nach den typischen CMC-Phänomenen (vgl. u. a. Herring 1996, Runkehl et al. 1998, Beißwenger 2007, An­droutsopoulos 2007) gesucht: Smileys, Iteration von Buchstaben oder Satzzeichen zur Markierung von Emphase, Reduktionsformen (Assimilierungen, Tilgungen, Akronyme, Kurzwörter). Das Ergebnis zeigt eindeutig, dass diese Strategien in der HCI (noch?) keine Rolle spielen.

Abbildung 24: CMC-Phänomene in den untersuchten HCI-Korpora und im Vergleichskorpus (CMC): Häufigkeit der Smileys in Relation zur Gesamtmenge der Wortformen

img41

Beim einzigen Beleg für eine der o. g. Strukturen handelt es sich um einen Smiley im Elbot-Korpus, der aber vom System ausgegeben wird. Er stellt den einzigen Versuch dar, Charakteristika aus der Chat-Kommunikation in das Dialog- Design einer chat-basierten HCI-Anwendung zu übernehmen. Bei der Entwicklung von Elbots Dialog-Lexikon wurde darauf geachtet, dass das System auch chat-spezifische Formen wie Smileys oder Abkürzungen wie LOL (laughing out loud) oder HDL (hab dich lieb) erkennt. Die UserInnen in den untersuchten Korpora verwenden diese Elemente aber nicht.

Im Vergleichskorpus zur chat-basierten HHC finden sich die CMC-typischen Phänomene dagegen durchaus, auch wenn es sich um einen institutionellen ← 251 | 252 → Info-Chat handelt (Smileys: 0,3 % der WF Auskunft, 0,4 % der WF Mitglied)112. Auch im Korpus zum ECA Max, der im HNFzwar über eine Texteingabefunktion bedient wird, aber nicht internet-basiert funktioniert, finden sich keine der o. g. Phänomene. Unabhängig vom medialen Szenario scheinen diese Phänomene in der HCI keine Rolle zu spielen. Grund dafür sind wohl die standardnahen System-Beiträge, in denen auf CMC-Phänomene verzichtet wird. Im Zuge dynamischer Anpassungsprozesse im Dialog verzichten UserInnen entsprechend auch auf Abkürzungen, Smileys, Iterationen etc. Eine mögliche Erklärung für dieses Verhalten liegt eventuell auch im Alignment der abstrakten Konzepte (vgl. Kapitel 4.2); d. h. die UserInnen leiten aus den Systembeiträgen die Vorstellung ab, dass es sich nicht um einen typischen Chat handele, sondern dass in dieser speziellen Anwendung Standardsprache gebraucht werden müsse. Dies geschieht entweder vorbewusst oder als bewusste Überlegung, dass Bots Äußerungen, die zu stark vom Standard abweichen, nicht parsen können. Bei besonders knappen, elliptischen UserInnen-Beiträgen kann auf Grundlage der strukturellen Beschaffenheit nicht entschieden werden, ob hier ein sprachliches Ökonomisierungsprinzip greift, das in der Keyboard-to-Interface-Interaktion begründet liegt und als Kanalphänomen gewertet werden kann. In vielen Fällen sprechen funktionale Aspekte gegen eine solche Interpretation. In Kapitel 4.4 werden Tendenzen der sprachlichen Ökonomisierung unabhängig vom Eingabekanal diskutiert.

Der Design-Entscheidung gegen CMC-Phänomene liegen zwei Überlegungen zu Grunde: 1. Standardsprache ist genauer durch Regeln beschrieben und dadurch besser operationalisierbar für die Generierung von System-Beiträgen nach dem Baustein-Prinzip. 2. Standardsprachliche System-Turns evozieren standardsprachliche UserInnen-Turns, die mittels der gleichen Regeln geparst werden können. Zusätzlich Regeln für Substandard-Varietäten („Chat-Sprache“, Jugendsprache, Dialekte) zu formulieren, die nur im entsprechenden Fall greifen würden, wäre sehr aufwändig und schwer operationabel. Einzelne CMC-Phänomene in den Systembeiträgen einer chat-basierten HCI-Anwendung im Small-Talk-Modus könnten das System aber im Netz u. U. natürlicher wirken lassen. Es müsste dann selbstverständlich mit entsprechenden UserInnen-Eingaben umgehen können (vgl. Kapitel 5). Dass sich in der internetbasierten HCI keine typischen CMC-Phänomene finden, kann auch als Argument gegen pauschalisierte Beschreibungen einer Internet-Sprache (vgl. „Netspeak“ Crystal 2001) ins Feld geführt werden. Hier wird deutlich, dass die Vorannahmen über und ← 252 | 253 → Erfahrungen mit dem virtuellen Gegenüber die Sprache der UserInnen stärker beeinflussen als eventuelle Substandard-Konventionen des Mediums Chat. Die UserInnen passen sich nicht den Gepflogenheiten des Chats, sondern den Möglichkeiten des Bots an.

4.1.7  Muster der menschlichen Konversation in der HCI

Nach Analyse der Basisstruktur der HCI-Dialoge nach Kriterien der CA kann festgehalten werden, dass Wooffitts Standpunkt, Menschen übertrügen die gesamte Bandbreite der kulturell-geprägten kommunikativen Strategien aus der HHC auf die HCI (Wooffitt et al. 1997: 166), auf Grundlage der untersuchten Korpora nur teilweise gestützt werden kann. Die Dialogperformanz der UserInnen weicht in allen untersuchten Bereichen mehr oder weniger stark von der der menschlichen Interagierenden im Vergleichskorpus ab. Zwar finden sich ähnliche Muster von adjazenten Accounts (Gruß-Gegengruß, Frage-Antwort usw.), doch weicht deren quantitative Verteilung vor der HHC im Vergleichskorpus ab.

Fehlende oder defizitäre Systemfunktionen führen zu Interaktionssituationen, in denen UserInnen sich nicht ebenso verhalten können wie in einer Konversation mit einem menschlichen Gegenüber. So finden sich bspw. außer in einigen Dialogen im Max-Korpus kaum längere Sequenzen von Adjazenzpaaren, die eine strukturelle Verbindung aufweisen, da diese Form der Kohäsion in der Regel schnell durch Störungen in Form von Parsing-Problemen unterbrochen wird (s. Kapitel 4.3). Auch die diachrone Entwicklung im Grußverhalten der UserInnen von den älteren zu den neueren Systemen zeigt deutlich, dass die Systemfunktionen das UserInnen-Verhalten beeinflussen. Seit die Systeme wechselseitige Grußroutinen einigermaßen zuverlässig verarbeiten können, grüßen auch die UserInnen mehr. Gravierenden Einfluss auf die untersuchten Dialoge hat das Fehlen eines natürlichen Turn-Taking-Modells für die HCI. Dieses Defizit manifestiert sich in extrem unterschiedlichen Turn-Längen bei UserIn und System. Da die Systeme nicht unterbrochen werden können, posten diese längere Beiträge als üblich in einem chat-basierten Help-Desk-Szenario. Damit evozieren sie eine UserInnen-Reaktion in Form von extrem kurzen Turns, die eindeutig von der HHC abweicht. Multi-TCU-Turns der UserInnen sind dagegen selten. Warum sie dieses Verhalten zeigen, ist auf der Grundlage der vorliegenden Daten nicht vollständig zu klären. Eine mögliche Interpretation sind aufwandsökonomische Gründe, da alle Eingaben über eine Tastatur erfolgen müssen. Da aber andere Charakteristika der medial schriftlichen synchronen HHC in der HCI nicht beobachtet werden können, könnten auch andere Erklärungen für die kurzen UserInnen-Turns in Frage kommen. Bspw. könnten UserInnen aufgrund ← 253 | 254 → von Vorannahmen über oder Erfahrungen mit artifiziellen Dialogsystemen die Strategie verfolgen, aus Rücksicht auf die begrenzten Parsing-Fähigkeiten des Bots ihre Turns kurz zu halten (vgl. Fischer im Druck). Lange UserInnen-Turns werden auch von den modernsten Systemen meist nur defizitär geparst. Es ist also wichtig für Dialog-DesignerInnen, keine Multi-TCU-Turns seitens der UserInnen zu evozieren. Fragen nach komplexen Sachverhalten sowie Aufforderungen zur Aufzählung von mehreren Informationen oder zur Explikation längerer Argumentationsketten sollten auf dem derzeitigen Stand der Technik tatsächlich besser vermieden werden. Aber auch wenn besonders kurze UserInnen-Turns leichter zu parsen sind, führen sie doch in Kombination mit besonders langen System-Turns zu einem unnatürlichen Gesamteindruck. Da also in der HCI kein sozial gewachsenes Turn-Taking die Turn-Längen reguliert, ist es wichtig ein alternatives Konzept zu entwickeln, das für eine natürlicher anmutende Verteilung der Turn-Längen sorgt. Weitere mögliche Innovationen wären dann Parsing-Funktionen für adjazente Strukturen und automatische Komplettierungen bei antizipierbaren Multi-Turn-TCUs (s. Kapitel 5.2).

4.2  Ergebnisse der Analyse zu Alignment in der HCI

4.2.1  Alignment in der HCI

Wenige linguistische Analysen zur UserInnen-Sprache wurden überhaupt seit der Entwicklung der ersten Dialogsysteme bis heute durchgeführt und nur ein Teil von ihnen bezieht Alignment in die Untersuchung mit ein. Die Ergebnisse dieser Studien sind je nach untersuchtem System und Versuchs-Design sehr unterschiedlich. Aus diesen äußerst diversen Ergebnissen werden z. T. einander widersprechende Hypothesen abgeleitet, die im wissenschaftlichen Diskurs zu Alignment in der HCI diskutiert werden. So kommen einige WissenschaftlerInnen zu dem Schluss, Menschen alignten häufiger zu Bots als zu Menschen, weil sie auf diese Weise die gering eingeschätzten Parsing-Fähigkeiten der Systeme zu kompensieren versuchten (Branigan et al. 2010). In einer früheren Studie wurde dagegen festgestellt, dass UserInnen weniger zu Systemen alignten als zu Menschen, da Alignment eng gekoppelt sei mit sprachlicher Höflichkeit, die in der HCI eine untergeordnete Rolle spielte (Branigan & Pearson 2006). Dabei wird wie in Kapitel 2.3 und 2.5 dargestellt zum einen von gedankenlosem, u. U. sogar vorbewusstem (vgl. Pickering & Garrod 2004) sprachlichen Handeln ausgegangen (Reeves & Nass 1996, Nass & Moon 2000, Nass & Brave 2005) und zum anderen von bewussten Partnermodellen, die zum strategischen Handeln befähigten können (Fischer 2006, 2010, im Druck). Aufgrund der widersprüchlichen ← 254 | 255 → Datenlage konnte bis heute kein eindeutiges Modell zum Alignment in der HCI definiert werden. Ursache dieser problematischen Situation sind wahrscheinlich die nicht vergleichbaren experimentellen Settings, in denen die Daten erhoben wurden: HCI vs. HRI, Dialoganfänge vs. komplette Dialoge, Chatbots vs. ECAs, ältere vs. neuere Systeme. Dabei wurden bislang keine systematischen Vergleiche zwischen unterschiedlichen Dialogsystemen in Bezug auf Alignment seitens der UserInnen vorgenommen. Zwei große Vorteile der vorliegenden Studie bestehen darin, dass sie a) auf unmanipulierten Felddaten in Form von kompletten Dialogen mit sehr unterschiedlichen UserInnen gründet und dass b) ein Vergleich der UserInnensprache gegenüber unterschiedlichen Systemen vorgenommen werden kann. Mit Bezug auf Alignment kann auf diese Art und Weise gezeigt werden, welchen Systemen Menschen ihre Sprache mehr oder weniger anpassen und welche Faktoren das Alignment mit dem Bot beeinflussen.

Im Folgenden soll mit korpuslinguistischen Methoden gezeigt werden, bei welchen der untersuchten Systeme und mit welcher Frequenz Persistenzen als Hinweis aus Alignment beobachtet werden können und wie sich angepasste Strukturen auf verschiede UserInnen und Sequenzen von Turnwechseln verteilen. Die Messeinheit in dieser Untersuchung ist das Persistenzpaar (vgl. Kapitel 3). Alignment als kognitives Konzept manifestiert sich sprachlich in persistenten Strukturen (z. B. lexikalische oder syntaktische Persistenz, vgl. Szmrecsanyi 2005: 114). Diese Strukturen bilden Paare mit einem FPP (First Pair Part) und einem SPP (Second Pair Part) und teilweise auch Triplets mit einem zusätzlichen TPP (Third Pair Part). Selten kommt es in der HCI zu längeren Ketten. Das FPP eines Paares bildet den Prime (Branigan et al. 2000, Gries 2005), am SPP zeigt sich die Persistenz, die als Alignment interpretiert werden kann. Lexikalische Persistenzpaare können theoretisch jede Wortart enthalten, syntaktische jede Phrasenstruktur. Die Untersuchung fokussiert nicht spezielle Lexeme oder eine bestimmte Struktur, sondern es wurden Persistenzen jeglicher Art annotiert. Bei einer überschaubaren Korpusgröße und einem in der HCI u. U. weit verstreuten Phänomen ist diese Herangehensweise sinnvoll, um eine ausreichende Menge Tokens zur weiteren Analyse extrahieren zu können. Es wird davon ausgegangen, dass jeder persistente SPP auch alternativ hätte formuliert werden können. Szmrecsanyi (2005) und Gries (2005) fassen den Fokus in ihren korpusbasierten Studien zur HHC enger und untersuchen nur solche Strukturen, deren Paraphrase systematisch gefasst werden kann. „The loci where persistence effects can be investigated in a corpus-based approach are those identifiable occasions in the data where speakers demonstrably have the choice of using one variant or another” (Szmrecsanyi 2005: 118, Hervorhebung Lotze). Ein Beispiel für solche ← 255 | 256 → Varianten wären das englische Will- oder Going-to-Future in der alltagssprachlichen Kommunikation. Beschränkt man eine Studie auf einzelne Parameter wie diesen, muss man auf ein sehr großes Korpus zurückgreifen können. Eine gemischte Menge von Persistenzpaaren bestehend aus unterschiedlichsten Phänomenen lässt sich dagegen bereits in kleineren Korpora gut zusammenstellen und ist außerdem repräsentativer.

Für die HCI gelten darüber hinaus einige besondere Bedingungen. Persistente SPPs können sowohl bei der Userin (Persistenz) als auch beim System (Quasi-Persistenz) liegen. Welche Rolle Quasi-Persistenzen des Systems für die Interaktion mit der Userin spielen, wird an späterer Stelle diskutiert.

Für die Analyse der Persistenzpaare wurden drei Verfahren zur Datenaufbereitung angewandt:

  • der Vergleich von relativen Häufigkeiten bei der kontrastiven Gegenüberstellung der Daten aus den verschiedenen System-Korpora
  • eine Auswertung der Persistenzverteilung pro Dialog und UserIn mittels deskriptiver und nicht-parametrischer inferenzstatistischer Verfahren (Mann-Whitney-U-Test)
  • eine Auswertung der Distanzen zwischen den einzelnen Teilen der Persistenzpaare pro Teilkorpus als Distanz-Frequenz-Funktion

4.2.2  Die Verteilung der Persistenzpaare auf die Teilkorpora

In allen Teilkorpora konnten Persistenzpaare nachgewiesen werden. Dies gilt sowohl für lexikalische als auch für syntaktische Persistenzen. Diese liegen sowohl in Form von Alpha- als auch von Beta-Persistenzen vor. Die Nullhypothese, Alignment könne in der HCI nicht nachgewiesen werden, muss damit zurückgewiesen werden. Es liegen jedoch große Unterschiede vor zwischen:

  • System-Korpora und Vergleichskorpus (HCI vs. HHC)
  • UserInnen- und Systemkorpora (Kognition vs. KI)
  • den System-Korpora untereinander (unterschiedliche Systemarchitekturen und diachrone, technologiehistorische Entwicklung)

Die o. g. Verhältnisse konstituieren die Parameter des Vergleichs, der im Folgenden vorgenommen werden soll.

Eine Auswertung der lexikalischen Persistenzpaare wurde in Relation zur Anzahl der Turns im jeweiligen Teilkorpus vorgenommen. Dabei wurde hinsichtlich der Richtungen der Anpassung unterschieden: ← 256 | 257 →

  • System FPP – UserIn SPP (lexikalisch: La‘/Lb‘-La/Lb, syntaktisch: Sa’/Sb’-Sa/Sb) [Alignment]
  • UserIn FPP – System SPP (lexikalisch: La/Lb-La‘/Lb‘, syntaktisch: Sa/Sb-Sa’/Sb’) [Quasi-Alignment]

Die Form der Auswertung sagt nichts darüber aus, wie die Persistenzpaare auf die einzelnen Dialoge verteilt sind. Diese Perspektive wird in 4.2.2 diskutiert. Da sich Persistenzen auf Turnwechsel beziehen, erweist sich die Anzahl der Turns als sinnvolle Bezugsgröße. Gerade im Bereich des syntaktischen Alignments, wo ganze Phrasen untersucht werden, wäre die Gesamtzahl der Wortformen als Bezugsgröße ungeeignet. Allerdings wird bei der Angabe der relativen Werte für Persistenzen pro Turn der Umstand vernachlässigt, dass die Gesprächsbeiträge der Systeme in der Regel länger sind als die der UserInnen (vgl. Kapitel 4.1). Im Folgenden werden zunächst die Werte für Alpha- und Beta-Persistenz gemeinsam betrachtet.

4.2.2.1  Lexikalische Persistenzen

Während im Vergleichskorpus zur HHC (Bib) 39 % und 57 % der Turns der Chattenden Persistenzpaare enthalten, liegen die Werte für die UserInnen in den verschiedenen HCI-Anwendungen zwischen 18 % und 24 % und für die Systeme zwischen 6 % und 18 %. In den untersuchten Korpora alignten UserInnen also in chat-basierter Interaktion auf der Ebene der Lexik nur halb so häufig zum Bot wie zu einem anderen Menschen. Damit können die Ergebnisse von Branigan et al. (2010) im Feld nicht bestätigt werden. Die Ergebnisse folgen eher der Prognose von Pickering und Garrod (2004), dass in Situationen, die als weniger dialogisch wahrgenommen werden, auch weniger persistente Strukturen produziert werden. Spontane, dyadische Face-to-Face-Konversation zwischen gleichgestellten GesprächspartnerInnen mit kurzen Redebeiträgen ist prototypisch für Alignment und wird in der Literatur oftmals als basal oder primitiv beschrieben (vgl. u. a. Clark 1996). Unter prototypischen Bedingungen wie diesen ist ein hoher Grad an automatischen, vorbewussten Interaktionsmechanismen zu erwarten. Für von diesem Prototyp abweichende Gesprächssituationen bedeutet das: „As the conversational setting deviates from this “ideal”, the process of alignment becomes less automatic” (Pickering & Garrod 2004: 187). ← 257 | 258 →

Abbildung 25: Persistenzenverteilung auf Turns in allen Korpora (Lexik, Alpha- und Beta)

img42

Betrachtet man das Verhältnis der Persistenz-Frequenzen zwischen Bibliotheksauskunft und Mitglied im HHC-Korpus, wird deutlich, dass die MitarbeiterInnen der Auskunft (57 %) im Beratungschat deutlich mehr alignen als die Bibliotheksmitglieder (39 %). Mit Branigan und Pearson (2006) könnte man diesen Umstand im Kontext zu sprachlicher Höflichkeit deuten, für die es im Auskunfts-Korpus mehr Anhaltspunkte gibt (vgl. Kapitel 4.4). Außerdem liegen in einem Help-Desk-Setting aus pragmatischen Gründen bei der Auskunft grundsätzlich mehr Backward-Functions vor, so dass auch mehr Möglichkeiten für persistente SPPs bestehen.

Das Verhältnis zwischen Auskunft und Mitglied könnte als Schablone dienen für eine erstrebenswerte Persistenzverteilung zwischen Info-Bot und UserIn. Legt man dieses Maß an, so fallen alle HCI-Korpora dahinter zurück. Allein Karlbot weist mehr Persistenzen vor als seine UserInnen (dazu s. u.). In allen anderen HCI-Korpora finden sich mehr Persistenzen im UserInnen-Korpus als im jeweiligen System-Korpus.

Betrachtet man nicht das Verhältnis zwischen UserIn und System im jeweiligen Korpus, sondern vergleicht man die UserInnen-Sprache in den verschiedenen Korpora untereinander, so bestehen Unterschiede im Hinblick auf persistente SPPs der UserInnen zwischen den einzelnen HCI-Korpora. ← 258 | 259 →

Abbildung 26: Persistenzenverteilung auf Turns des / r UserIn in HCI-Korpora (Lexik, Alpha und Beta)

img43

So liegen bei den elaborierteren Systemen mehr Persistenzen seitens der UserInnen vor – unabhängig davon, ob das erstrebenswerte Verhältnis zwischen UserIn und System erreicht wird.

Lexikalisches Quasi-Alignment seitens des Systems ist seltener als echtes Alignment und abhängig vom Zusammenspiel zwischen der Schlüsselworterkennung und der Zuordnung der Prompts.

Abbildung 27: Persistenzenverteilung auf Turns des Systems in HCI-Korpora (Lexik, Alpha und Beta)

img44

← 259 | 260 →

Während Karlbot erkannte Schlüsselwörter in die eigenen Antwort-Turns direkt einfügt, wurde bei Elbot versucht, stattdessen Synonyme zu verwenden (vgl. Kapitel 1). Dabei handelt es sich um eine Design-Entscheidung, die dazu führt, dass der Eindruck gerade nicht entsteht, dass das System zur Userin alignen würde. In Einzelfällen wird allerdings auch bei Elbot das Schlüsselwort wiederholt. Sequenzen, in denen das Muster also mehr oder weniger zufällig eine Persistenz enthält, wirken natürlicher.

(1) UserIn: „(…) hast du gefühle?“

(2) Elbot: „Ich denke schon, dass ich Gefühle habe.

(Elbot-Korpus 1577–1590)

Vor dem Hintergrund der Theorie ist es auf jeden Fall sinnvoller, mit einfachen Repetitionen zu arbeiten als mit Synonymen.

Betrachtet man allein die ausgezählten Werte für die einzelnen Korpora jeweils in ihrer Gesamtheit, könnte man zu dem Schluss kommen, lexikalische Persistenz seitens der UserInnen sei unabhängig von der Quasi-Persistenz des Systems. Dieses Ergebnis stünde in Opposition zu Ergebnissen aus der HHC. Eine solche Aussage kann aber nicht getroffen werden, solange ganze Korpora von 30–50 Dialogen als Einheit betrachtet werden. Die Wechselwirkung zwischen Quasi-Alignment und Alignment der UserInnen muss Dialog für Dialog113 untersucht werden. Erst dann kann ein Zusammenhang zwischen UserInnen- und Systempersistenz postuliert oder zurückgewiesen werden (vgl. Kapitel 4.2.2). In einem dritten Schritt müssen dann auch Auswirkungen anderer Faktoren der Ausgestaltung des jeweiligen Systems auf den Prozess des UserInnen-Alignments überprüft werden, um festzustellen, inwiefern bspw. sprachliche Höflichkeit oder Komplexität das Verhalten der NutzerInnen beeinflusst (Kapitel 4).

4.2.2.2  Syntaktische Persistenzen

Die Werte für syntaktische Persistenzen rangieren allgemein in einem Bereich, der um 20 % niedriger angesiedelt ist als die Werte der lexikalischen Persistenzen. Dass syntaktisches Alignment allerdings überhaupt in der HCI beobachtet werden kann, ist ein starkes Argument für vorbewusste Priming-Mechanismen in der Interaktion mit dem artifiziellen Gegenüber. Strategische Planung bei der Übernahme von Wortformen ist in medial schriftlicher Kommunikation denkbar. Bei der Übernahme syntaktischer Strukturen jedoch sind die meisten ← 260 | 261 → Menschen weniger reflektiert, da ihnen die strukturelle Ähnlichkeit des selbst produzierten SPPs zum Prime u. U. gar nicht klar ist, sofern die Lexik abweicht. „We believe that these issues [interaktive Verabeitung, Anmrk. Lotze] are especially relevant for syntactic processing” (Schiller & de Ruiten 2004: 207).

Abbildung 28: Persistenzenverteilung auf Turns (Syntax, Alpha und Beta)

img45

Auch im Bereich der Syntax zeigt sich, dass die Werte für die HHC-Korpora (Bib) deutlich höher liegen, obwohl der Unterschied zu den HCI-Korpora geringer ist als bei den lexikalischen Persistenzen. Während die Werte für die HHC hier 16 % und 18 % betragen, liegen die HCI-Werte unter 10 %. Vergleicht man die Unterschiede zwischen den Interagierenden, so fällt auch im Bereich der Syntax auf, dass zwar die Auskunft auch hier mehr Persistenzen aufweist als die Bibliotheksmitglieder, aber das Verhältnis in den HCI-Korpora umgekehrt ist. Diese Übereinstimmung zwischen Lexik und Syntax im HHC-Korpus stützt die o. g. Hypothesen, dass der Prozess des Alignments in Kontext zu Höflichkeitsmarkern und Backward-Functions allgemein betrachtet werden muss. In den HCI-Korpora sind syntaktische Persistenzen seitens der UserInnen häufiger als quasi-persistente Strukturen des Systems. Bei syntaktischen Quasi-Persistenzen handelt es sich um Artefakte, die vor allem in Kombination mit lexikalischen Quasi-Persistenzen entstehen, wenn ganze Phrasen vom Parser erkannt und im Prompt gespiegelt werden (ELIZA-Prinzip). Dies ist z. B. der Fall bei Begrüßungsfloskeln in Form von Phrasen (z. B. „guten Tag“, „auf Wiedersehen“). Ob man bei hochgradig ritualisierten Chunks überhaupt von syntaktischem Alignment sprechen kann, diskutieren bereits Pickering und Garrod (2004: 180). ← 261 | 262 →

Abbildung 29: Persistenzenverteilung auf Turns des Systems in HCI-Korpora (Syntax, Alpha und Beta)

img46

Abbildung 30: Persistenzenverteilung auf Turns UserIn in HCI-Korpora (Syntax, Alpha und Beta)

img47

Im Twipsy-Korpus kann zusätzlich ein weiteres Problem festgestellt werden. Das Expo-Maskottchen besticht durch extrem lange System-Turns. Die Beiträge wirken konzeptionell monologisch und sind schriftsprachlich formuliert. In Kombination mit einer engen UserInnen-Führung evozieren sie ein Bedienverhalten wie bei einer Navigation mit Menüabfrage: Durch exakte Wiederholung ← 262 | 263 → einer komplexen Phrase kann zu einem neuen Menüpunkt navigiert werden. Dahinter verbirgt sich die Befürchtung, dass von der Vorgabe abweichende Beiträge nicht geparst werden könnten. Auf diese Art provoziert das System hier syntaktisches (und lexikalisches) Alignment seitens der UserInnen bei komplexen Phrasen in Form von genauen Kopien der Vorgabe als natürlichsprachlicher Navigationsbefehl.

Vergleichsweise viele syntaktisch komplexe Strukturen des Systems werden übernommen, können dann aber im nächsten Schritt vom System selbst nicht geparst werden. Die neueren Bots verfügen in der Regel über syntaktisch weniger komplexe System-Turns. Damit geben die EntwicklerInnen das Maß an Komplexität für die gesamte Interaktion vor. Dies möglichst gering zu halten, sollte Ziel eines jeden Dialog-Designs sein, solange Syntax-Parser noch hohe Fehlerquoten aufweisen.114

4.2.2.3  Alpha- und Beta-Persistenz

Die Verteilung von Alpha- und Beta-Persistenzen ist im Bereich der Lexik bei allen UserInnen-Korpora und bei den Bibliotheksmitgliedern im HHC-Korpus ähnlich. Beta-Persistenz macht mit 10–25 % aller Persistenzen (d. h. 3–6 % aller Turns) den geringeren Anteil aus.

Abbildung 31: Lexikalische Alpha- und Beta-Persistenz UserInnen (Verteilung auf Turns in Prozent)

img48

← 263 | 264 →

Vergleicht man ausschließlich die Werte für Alpha-Persistenz, so sind diese für alle Systeme ähnlich hoch, mit einem leichten Anstieg bei den neueren Systemen (14 % vs. 18 %). Durch die Beta-Persistenzen wird der Unterschied zwischen alt und neu noch verstärkt.

Für den Bereich der Syntax zeichnet sich bei den UserInnen ein uneinheitlicheres Bild ab. So handelt es sich bei 48 % der Persistenzen der UserInnen im Twipsy-Korpus um Beta-Persistenz.

Abbildung 32: Syntaktische Alpha- und Beta-Persistenz UserInnen (Verteilung auf Turns in Prozent)

img49

Gerade bei den Beta-Persistenzen liegt hier ein Problem vor. Denn während lexikalische Persistenz häufig isoliert nachgewiesen werden kann, tritt syntaktische Persistenz häufig gemeinsam mit lexikalischer Persistenz auf. Durch polyvalentes Tagging wurde versucht, diesem Phänomen insofern gerecht zu werden, dass die lexikalische und die syntaktische Ebene einer Struktur separat erhoben werden können. Handelt es sich dabei nun um eine lexikalische Kopie (lex. Alpha) bei leicht variierter Struktur (syn. Beta), kann dies in den meisten Fällen als Hinweis auf Repair gedeutet werden.

Bei syntaktischer Beta-Persistenz kann also auch eine Paraphrase oder Reformulierung vorliegen. An diesen bestimmten Loci wäre syntaktische Beta-Persistenz also kein Indikator für vorbewusstes Priming, sondern für strategisches Handeln der UserInnen (vgl. Fischer im Druck). Allgemein kann festgehalten werden, dass syntaktische Beta-Persistenzen in der HCI in ihrer interaktionalen ← 264 | 265 → Funktion unterschiedlich und in ihrer psycholinguistischen Interpretation unklar sind (Priming oder Repair). Allerdings machen sie in den untersuchten Korpora nur 0,7–4,7 % der Turns aus.

Bei den Systemen liegen ebenfalls weniger Beta-Persistenzen als Alpha-Persistenzen vor (Lexik 10–40 %, Syntax 10–30 % aller Persistenzen).

Abbildung 33: Lexikalische Alpha- und Beta-Persistenz Systeme (Verteilung auf Turns in Prozent)

img50

Auch hier fällt auf, dass die Anzahl der Beta-Persistenzen sowohl im Bereich der Syntax als auch im Bereich der Lexik bei den alten Systemen relativ höher ist als bei den neuen, da hier viel mit Paraphrasen gearbeitet wurde. Das einzige System, das niedrige Werte für Beta-Persistenzen aufweist, ist Max, bei dessen Design erste Überlegungen zu Alignment zum Tragen gekommen sind und Wiederholungen in Form von exakten Kopien nicht absichtlich vermieden wurden. ← 265 | 266 →

Abbildung 34: Syntaktische Alpha- und Beta-Persistenz Systeme (Verteilung auf Turns in Prozent) (Syntax)

img51

4.2.2.4  Auto-Repetitionen als Indikatoren für Self-Alignment

Auto-Repetition ist kein häufiges Phänomen in den untersuchten Korpora, nur 0,4–1,4 % der Turns enthalten Repetitionen zu eigenen Turns. Diese sind meist Teil der seltenen Persistenzketten, die über Triplets hinausgehen. Auto-Repetition liegt fast ausschließlich im Bereich der Lexik vor. Bis auf ein Token im Max-Korpus, entfallen alle Tokens für Auto-Repetition auf menschliche Interagierende, d. h., ein Prozess des Self-Alignments kann nur bei Menschen angesetzt werden.

Abbildung 35: Lexikalische Auto-Repetition (in Relation zu Turns gesamt)

img52

← 266 | 267 →

Auffällig ist auch, dass die UserInnen höhere Werte für Auto-Repetitionen erreichen als die Menschen im Vergleichskorpus. Dies könnte ein Hinweis darauf sein, dass Menschen auf diese Weise versuchen, die vermeintlich geringen Parsing-Fähigkeiten des Systems zu kompensieren. Wenn ein Schlüsselbegriff verarbeitet werden konnte, verwendet man ihn gern auch wieder (vgl. Fischer im Druck). Diese Fälle können nicht als Self-Alignment bezeichnet werden, da ihnen eine bewusste Überlegung zu Grunde liegt.

4.2.2.5  Non-Persistenz

Mit Bezug auf Szmrecsanyi (2005) wurde bei der Analyse eine zusätzliche Perspektive eingenommen: Es wurden nicht nur persistente Strukturen getaggt, sondern auch umgekehrt die Fälle, bei denen es zwar möglich gewesen wäre, eine Persistenz zu produzieren, diese aber im Korpus nicht vorliegt. Stattdessen finden sich hier Synonyme oder Paraphrasen, die hinsichtlich ihrer Ähnlichkeit zum vermeintlichen Prime maximal abweichen (d. h. keine Beta-Persistenz). Selbstverständlich können auf diese Weise ausschließlich Sequenzen in die Analyse eingehen, bei denen symmetrische Adjazenzpaare sehr wahrscheinlich sind. Die Entscheidung fiel hier theoriegeleitet auf ritualisierte Paarsequenzen im Gesprächsrahmen und Höflichkeitsmarker wie z. B. Duzen vs. Siezen (vgl. Kapitel 2.3, Kapitel 3). Wo also an diesen Loci keine Persistenzpaare produziert wurden, wurde die asymmetrische Form als Non-Alignment analysiert. Die Untersuchung beschränkt sich hier auf das Verhalten der UserInnen bzw. der Bibliotheksmitglieder in Bezug auf lexikalische Alpha-Persistenz. Alles andere wäre zu spekulativ, da eine konkrete erwartbare Form vorhergesagt werden muss, die wahrscheinlich ist, aber nicht produziert wurde (vgl. 2.3).

Im Vergleichskorpus zur HHC ist Non-Alignment selten (0,4 % aller Turns). Die menschlichen MitarbeiterInnen der Bibliotheksauskunft und die Mitglieder im Info-Chat scheinen trotz des schriftlichen Mediums gut alignt. Grußfloskeln werden gespiegelt und die Höflichkeit gebietet wechselseitiges Siezen.

In den HCI-Korpora treten fehlende persistente Strukturen an den entsprechenden Loci im Gesprächsrahmen bei bestimmten Lemmata (NN, NE) und beim Duzen bzw. Siezen in Form von vertauschten Pronomina (PPER, PPOSAT, PPOSS) und Verbformen (VVIMP, VVFIN) auf. Das Phänomen ist allerdings in den untersuchten Sequenzen nicht besonders häufig, sondern betrifft weniger als 4 % aller Turns. ← 267 | 268 →

Abbildung 36: Non-Persistenz in Relation zur Gesamtmenge der Turns

img53

Die Grafik zeigt, dass Non-Persistenz bei den älteren Systemen häufiger vorkommt. Die UserInnen scheinen hier allgemein schlechter zum System zu alignen. Der explizite Gebrauch von Paraphrasen bei Grußfloskeln und das Duzen, obwohl der Bot siezt, kann als ein weiterer Hinweis auf diesen Umstand interpretiert werden. Die UserInnen scheinen sich hier sprachlich bewusst von der Sprache des Bots abzugrenzen. Asymmetrische Grußfloskeln und Duzen, obwohl der Bot siezt, können als Indikatoren für eine nicht kooperative Form von CT interpretiert werden. Bei den neueren Systemen ist Non-Alignment seltener (Elbot 1,8 %, Max 0,8 %). Die kohärentere Dialog-Führung und das fortgeschrittene Interface-Design scheinen den Abgrenzungstendenzen der UserInnen entgegenzuwirken.

4.2.3  Die Zusammensetung der Persistenzen

Die feinkörnige Analyse der Wortformen bei lexikalischen Persistenzen und der immanenten syntaktischen Strukturen bei syntaktischen Persistenzen zeigt, dass deren Zusammensetzung in HHC und HCI unterschiedlich ist. Während in der HHC eine Bandbreite unterschiedlicher Formen gespiegelt wird, beschränkt sich das Spektrum in der HCI auf wenige Formen.

Lexik: Lexikalische Persistenzen finden sich in der HHC bei Nomina, Verben, Adjektiven und Adverben sowie Artikeln, Pronomina, Adpositionen und Konjunktionen. Dabei machen Funktionswörter im Durchschnitt ca. 40 % der gespiegelten Wortformen aus und Inhaltswörter ca. 60 %. ← 268 | 269 →

Tabelle 23: Zusammensetzung der lexikalische Persistenzen UserInnen (HCI) bzw. Bib-Mitglieder (HHC)

img54

In der HCI fällt auf, dass sich die UserInnen-Persistenzen hauptsächlich aus Nomina, Pronomina und Verben zusammensetzen. Alle übrigen Wortformen können nur Werte unter 10 % aller Persistenzen verzeichnen. Obwohl die verschiedenen Systeme unterschiedliches UserInnen-Verhalten evozieren, zeichnet sich der Trend ab, dass eher zu Inhaltswörtern als zu Funktionswörtern alignt wird. Diese Tendenz könnte als Indikator gegen vorbewusstes Alignment und für strategisches Verhalten auf der Basis eines Grundverständnisses für die Schlüsselworterkennung der Bots interpretiert werden (vgl. Fischer 2006, im Druck). Bei den neueren Systemen erscheint diese Tendenz jedoch nicht so ausgeprägt. Hier weisen die UserInnen-Persistenzen bereits eine größere Vielfalt auf.

Tabelle 24: Zusammensetzung der lexikalischen Quasi-Persistenzen (HCI) und der Bib-Auskunft (HHC)

img55

Bei den Quasi-Persistenzen der Systeme fällt im Gegensatz zu den UserInnen-Persistenzen auf, dass die Zusammensetzung der Wortformen jeweils ähnlich ist mit ähnlich hohen Werten für Nomina, Pronomina und Verben. Diese Verteilung spiegelt die Funktionsweise der Schlüsselworterkennung wider, die Nomina, Pronomina und Verbformen am besten verarbeiten kann.

Syntax: Im Bereich der Syntax können allgemein größere Unterschiede in der Verteilung der Persistenzen zwischen HHC und HCI festgestellt werden als auf der Ebene der Lexik. Im HHC-Korpus finden sich syntaktische Persistenzen bei Nominalgruppen, Präpositionalgruppen, verbalen Strukturen (VGr, IGr) sowie ← 269 | 270 → bei einfachen satzwertigen Strukturen und Ellipsen. Dabei dominieren Nominal- und Präpositionalgruppen, die je ein Drittel der Persistenzen ausmachen. Das letzte Drittel untergliedert sich zu unterschiedlichen Teilen in die übrigen o. g. syntaktischen Kategorien. Für die chat-basierte HHC kann also festgehalten werden, dass Persistenzen vor allem in Form von Phrasen mit nominalen Elementen vorliegen.

Tabelle 25: Zusammensetzung der syntaktischen Persistenzen UserInnen (HCI) und der Bib-Mitglieder (HHC)

img57

In der HCI zeigt sich ein anderes Bild: Wenn Strukturen des Bots von den UserInnen übernommen werden, dann vor allem ganze Sätze. Persistente subordinierte Sätze (vgl. Relativsätze, Fischer im Druck: 231) sind vernachlässigenswert selten. Die Präferenz für die Übernahme ganzer Sätze könnte in Zusammenhang stehen mit Repair-Strategien in Form von Rückfragen, bei denen die Userin eine komplette Aussage des Bots in Satzform wiederholt. Vielleicht handelt es sich aber auch um einen dynamischen Effekt, der in Zusammenhang steht zum syntaktischen Quasi-Alignment des Systems.

Tabelle 26: Zusammensetzung der syntaktischen Quasi-Persistenzen (HCI) und der Persistenzen der Bib-Auskunft (HHC)

img56

Wenn Quasi-Persistenz als syntaktische Struktur generiert wird, dann meist in Form eines ganzen Satzes als Nebeneffekt des ELIZA-Prinzips; d. h., ein UserInnen-Satz wird als Einheit analysiert und in einen Antwort-Prompt umgewandelt. UserInnen neigen dann dazu, im Gegenzug ebenfalls komplette Satzstrukturen zu spiegeln. ← 270 | 271 →

(1) Max: […] das ist deine meinung.

(2) UserIn: was ist dein lieblingsfilm?

(Max-Korpus 1756–1766)

Wirkliche syntaktische Sprachsynthese in Verbindung mit ebenfalls syntaktischer Alignment-Generierung liegt selbstverständlich bei den untersuchten Bots nicht vor, wäre aber ein interessanter Ansatz für die Systeme der Zukunft.

Allgemein kann festgestellt werden, dass in HHC und HCI sowohl auf lexikalischer als auch auf syntaktischer Ebene starke quantitative Abweichungen innerhalb der Zusammensetzung der Persistenzen nachgewiesen werden können. Auf syntaktischer Ebene sind die Unterschiede gravierender. Da von dynamischen Wechselwirkungen zwischen System-Ausgabe und UserInnen-Verhalten ausgegangen werden kann, könnte es eventuell hilfreich sein, an der Generierung natürlicherer System-Persistenzen zu arbeiten; vielleicht in Form eines Alignment-Generators mit lexikalischer und syntaktischer Analysefunktion, der eine bestimmte Mischung an Strukturen ausgibt.

4.2.4  Die Verteilung der Persistenzpaare auf die verschiedenen Einzeldialoge

Um genauer untersuchen zu können, inwiefern System-Designs UserInnen in Bezug auf ihr Alignment-Verhalten beeinflussen, musste eine Analyse der Einzeldialoge erfolgen. Im Fokus liegen also Dynamiken der Interaktion, die in Form der Verteilung der Persistenzen auf die UserInnen- bzw. Systembeiträge in den einzelnen Dialogen messbar gemacht werden können. Wie in Kapitel 3 beschrieben, wurden die relativen Häufigkeiten für Persistenzpaare in Abhängigkeit von der Gesamtmenge der Wortformen pro Dialog für UserIn und System separat errechnet und statistisch aufbereitet. Auf diese Weise können trotz unterschiedlich langer Dialoge vergleichbare Ergebnisse erzielt werden. Diese Operation dient dem korpusimmanenten Vergleich zwischen UserInnen- und System-Sprache und zwischen lexikalischen und syntaktischen Persistenzen. Folgende Nullhypothesen aus Kapitel 2 sind dabei zu überprüfen.

  • H02a: Lexikalische Persistenz ist in den Teilkorpora UserIn und System im jeweiligen Gesamtkorpus gleich verteilt auf die Dialoge.
  • H02b: Syntaktische Persistenz ist in den Teilkorpora UserIn und System im jeweiligen Gesamtkorpus gleich verteilt auf die Dialoge.
  • H03a: Lexikalische und syntaktische Persistenz sind im Teilkorpus UserIn je gleich verteilt auf die Dialoge. ← 271 | 272 →
  • H03b: Lexikalische und syntaktische Persistenz sind im Teilkorpus System je gleich verteilt auf die Dialoge.
  • H04: Es besteht kein Unterschied zwischen den einzelnen HCI-Korpora und dem Vergleichskorpus (HHC) in Bezug auf die Parameter UserIn / System und lexikalische Persisten / syntaktische Persistenz.

Persistenzen konnten nicht in allen Einzeldialogen nachgewiesen werden und die relativen Häufigkeiten der Persistenzen pro Dialog differieren. Damit findet sich Fischers These, dass unterschiedliche UserInnen mehr oder weniger alignen, bestätigt (Fischer im Druck: 231). Die folgende Tabelle gibt einen Überblick über die Zusammensetzung der Stichproben aus den einzelnen Teilkorpora in Bezug auf lexikalische und syntaktische Persistenzen (relative Häufigkeiten pro Dialog in WF).

Tabelle 27: Übersicht Persistenzenverteilung auf Dialoge

img58

← 272 | 273 →

Der U-Test nach Mann-Whitney ergab Folgendes in Bezug auf die o. g. Hypothesen:

  • H02a: Diese Hypothese bildet das Verhältnis zwischen lexikalischen Persistenzen (UserIn) und lexikalischem Quasi-Persistenzen (System) ab. Für drei von fünf Stichproben wird die Nullhypothese zurückgewiesen. Für das Twipsy-Korpus sowie das Karlbot-Korpus wird sie beibehalten und für das Max-Korpus, das Elbot-Korpus und das Vergleichskorus zurückgewiesen. Eine Gleichverteilung der lexikalischen Persitenzen von UserIn und System pro Dialog ist also bei den älteren Systemen zu beobachten, bei den neueren und im Vergleichskorpus dagegen nicht. Es kann also eher bei den älteren Systemen auf dynamische Effekte geschlossen werden. Das ELIZA-Prinzip führt bei Twipsy und Max zur direkten Übernahme von Schlüsselwörtern. Überraschendeweise scheinen sich die UserInnen diesem Prinzip eher anzupassen als sophistizierteren Systembeiträgen. Diesem Verhalten könnte auch eine bewusste Simplifizierungsstrategie mit Rücksicht auf die Funktionen des Systems zu Grunde liegen (vgl. Fischer im Druck).
  • H02b: In Bezug auf syntaktische Persistenzen muss die Nullhypothese für drei von fünf Stichproben beibehalten werden. Besonders stark ist die Gleichverteilung im Karlbot-Korpus. Auch im Max- und im Vergleichskorpus kommen die syntaktischen Persistenzen von UserIn und System einer Gleichverteilung näher. Die stärkere Anpassung von UserIn und System in Bezug auf die Produktion von syntaktischen Persistenzen könnte als „mindless behavior“ (vgl. Reeves & Nass 1996, Nass & Moon 2000, Nass & Brave 2005) interpretiert werden; d. h., UserInnen reflektieren das Spiegeln von syntaktischen Strukturen weniger als den persistenten Gebrauch von Lexemen. Während also die dynamische Anpassung an das lexikalische Alignment-Verhalten der älteren Syteme als bewusste Simplifizierungsstrategie bewertet werden kann, könnte man wechselseitiges syntaktisches Alignment seitens der UserInnen als Übertragung von Verhaltensweisen aus der HHC interpretieren. Die Korpora enthalten zwar insgesamt mehr lexikalische Persistenzen, dynamische Effekte sind aber häufiger auf der Ebene der Syntax. ← 273 | 274 →

Tabelle 28: Mann-Whitney-U-Test (UserIn / System)

KorpusPersistenzenFaktorSignifikanz115Entscheidung
TwipsylexikalischUserIn / System.067Nullhypothese beibehalten
syntaktischUserIn / System.016Nullhypothese ablehnen
KarlbotlexikalischUserIn / System.178Nullhypothese beibehalten
syntaktischUserIn / System.963Nullhypothese beibehalten
MaxlexikalischUserIn / System.011Nullhypothese ablehnen
syntaktischUserIn / System.062Nullhypothese beibehalten
ElbotlexikalischUserIn / System.020Nullhypothese ablehnen
syntaktischUserIn / System.006Nullhypothese ablehnen
BiblexikalischUserIn / System.014Nullhypothese ablehnen
syntaktischUserIn / System.148Nullhypothese beibehalten
  • H03a: Diese Hypothese verweist auf das Verhältnis zwischen lexikalischen und syntaktischen Persistenzen seitens der UserInnen. Dazu wurde die Verteilung der lexikalischen Persistenzen mit der der syntaktischen Persistenzen pro Dialog verglichen. Während im Vergleichskorpus kein Zusammenhang zwischen lexikalischen und syntaktischen Persistenzen festgestellt werden kann, findet sich eine Gleichverteilung bei den UserInnen von Twipsy und Elbot. Da sich diese Systeme stark unterscheiden, ist das Ergebnis nicht eindeutig zu interpretieren, spiegelt aber die UserInnen-Reaktionen auf die jeweiligen Systemfunktionen gut wider. Die UserInnen beider Systeme tendieren aus unterschiedlichen Gründen dazu, komplette Konstruktionen ← 274 | 275 → lexikalisch und strukturell zu übernehmen. Bei Twipsys UserInnen kann auch dieser Umstand durch eine Simplifizierungsstrategie als Reaktion auf das ELIZA-Prinzip gedeutet werden. Elbots kreatives Dialog-Design hingegen evoziert eine große Zahl von erstaunten Rückfragen der UserInnen, die ihrer Form nach Lexik und Syntax des Bots gleichermaßen spiegeln.
  • H03b: Der Zusammenhang zwischen lexikalischem und syntaktischem Quasi- Alignment ist bei den älteren Systemen gegeben, bei den neueren Systemen und im Vergleichskorpus nicht. Dies stützt die Hypothese, dass das ELIZA-Prinzip Auswirkungen auf die Wechselwirkungen zwischen lexikalischer und syntaktischer Persistenz hat. Vermittelt durch Pattern-Generierung müssen die alten Systeme teilweise komplette Konstruktionen der UserInnen syntaktisch und lexikalisch spiegeln.

Tabelle 29: Mann-Whitney-U-Test (lexikalische Persistenz / syntaktische Persistenz)

img60

Die Ergebnisse des Mann-Whitney-U-Tests sind nicht eindeutig, lassen aber einige interessante Interpretationen zu. Betrachtet man allein die HCI-Korpora, so fällt auf, dass eine Gleichverteilung der Persitenzen auf UserIn und System ← 275 | 276 → pro Dialog nur in der Häfte der untersuchten Stichproben nachgewiesen werden hann. Auch im Vergleichskorpus zu chat-basierten HHC sind die lexikalischen Persistenzen nicht gleich verteilt. Persistente Strukturen kommen also zwar vor, wirken aber vermittelt über den Chat-Kanal nicht so „ansteckend“ wie in der Face-to-Face-Interaktion. Die Gleichverteilung in einigen der untersuchten Stichproben spricht aber grundsätzlich dafür, dass Alignment in der HCI eine Rolle spielt und auch wechselseitig vorliegen kann. Die jeweiligen Bedingungen, die wechselseitiges Aligment fördern, sind je nach System und Interaktionsszenario sowie auf den unterschiedlichen linguistischen Beschreibungsebenen verschieden und müssen je nach Einzelfall interpretiert werden. So finden sich bspw. bei den älteren Systemen mehr Fälle von strategischen Anpassungsversuchen an die Lexik des Systems, um das Schüsselwortparsing zu erleichtern. Auch hier findet eine Beeinflussung der UserInnen durch das System statt, die sich in einer Gleichverteilung der UserInnen- und System-Persistenzen pro Dialog manifestiert. Diese ist jedoch nicht als Indikator für aus der HHC übertragenes Interaktionsverhalten zu verstehen, sondern als kooperative Simplifizierungsstrategie (vgl. Fischer im Druck). „Ansteckend“ auf die UserInnen wirkt dagegen eher das syntaktische Quasi-Alignment der Bots. Syntaktisches Alignment kann auch im Vergleichskorpus zur HHC wechselseitig beobachtet werden. Wenn es in der HCI also zu syntaktischen Quasi-Persistenzen kommt, scheinen diese ein Anpassungsverhalten der UserInnen sublim zu fördern. Ein innovatives System mit syntaktischem Alignment-Generator könnte dieses Verhalten u. U. fördern.

Ein Zusammenhang zwischen lexikalischen und syntaktischen Persistenzen wird eindeutig durch Pattern-Generierung begünstigt. Hier wird deutlich, dass das Verhalten der UserInnen direkt von den Funktionen des jeweiligen Systems beeinflusst wird.

Lexikalische Persistenzen sind zwar in allen Korpora häufiger, führen aber bei den neueren Systemen seltener zu wechselseitigem Alignment-Verhalten im gesamten Dialogverlauf. Als Artefakte der Schlüsselworterkennung können Pesistenzen des Systems also einerseits eine gedankenlose Anpassung der UserInnen-Sprache im Sinne einer Übertragung von Verhaltesweisen aus der HHC auslösen, die sich in Persistenzen äußert. Andererseits können sie UserInnen zur strategischen Repetition von Formen anregen, die zuvor vom System geäußert wurden. Welches UserInnen-Verhalten einer im Korpus auffindbaren Persistenz zu Grunde liegt, kann nur im Rahmen der qualitativen Analyse bestimmt werden. Zur Interpretation dieser Ergebnisse muss einschränkend eingeräumt werden, dass sie sich alle auf nicht-parametrische Daten beziehen und mittels ungenauer Testverfahren ermittelt wurden. Trotz dieser Einschränkung ← 276 | 277 → sind die Ergebnisse aber gut interpretierbar, wahrscheinlich weil sie auf vergleichsweise große Datenmengen zurückzuführen sind.

4.2.5  Analyse der Distanzen zwischen Prime und Persistenz

Betrachtet man die zahlreichen Inkohärenzen und abrupten Themenwechsel in der HCI, könnte man annehmen, dass sich Priming immer nur auf einzelne Turn-Wechsel bezöge, zu groß sei die Zahl der möglichen Distraktoren. Eine Untersuchung der Textdistanz zwischen Prime und Persistenz zeigt jedoch ein anderes Bild: Reaktionen auf gegebene Primes erfolgen auch noch in größerer textueller Distanz. Die Verteilung variiert je nach System.

Eine Analyse der Distanzen zwischen Prime und Target bzw. Persistenz wurde durchgeführt, um Distanz-Frequenz-Effekte (Szmrecsanyi 2005, Gries 2005, Reitter 2006) zu untersuchen. Dabei wurde in allen Korpora die Textdistanz in Wortformen gezählt und die Häufigkeiten (Frequency) in Relation zu Textdistanz (Recency) analysiert. Hier werden ausschließlich die Ergebnisse für lexikalische Alpha-Persistenz dargestellt. Für syntaktische Alpha-Persistenz zeichnet sich eine vergleichbare Tendenz ab; diese ist aber weniger deutlich.

Mit steigender Textdistanz (DIST) zum Prime nimmt die Häufigkeit der Persistenzen ab. Für die HHC stellten Bock und Griffin (2000) fest, dass Priming langlebig sei, allerdings zwischen DIST 0 WF und 1 WF rasch abfalle, sich dann aber auf einen konstanten Wert einpendele. Diese Tendenz kann in allen untersuchten Korpora beobachtet werden. Die Verteilung der Persistenzpaare ist nicht zufällig: Je näher der Prime, desto häufiger ist Alignment zu ihm. „Recency of use thus clearly plays a role“ (Szmrecsanyi 2005: 128). Es fällt auf, dass sich die Werte einer logarithmischen Zerfallskurve nach Eb-binghaus (Vergessenskurve, Forgetting-Function) annähern.

Diese zeigt den Grad des Vergessens in Relation zur vergangenen Zeit. An die Stelle der Zeit rückt in der vorliegenden Untersuchung die Textdistanz DIST in Wortformen. Das Ergebnis stimmt auch mit Szmrecsanyi (2005) und Gries (2005) überein, die mit korpuslinguistischen Mitteln anhand von transkribierten Face-to-Face-Dialogen im British National Corpus Vergessenskurven für Priming in der HHC nachweisen konnten. Dabei fanden sie ebenfalls keine lineare Zerfallsfunktion, sondern eine logarithmische (vgl. Pickering & Branigan 1998; Gries 2005). Auch auf die in dieser Studie untersuchten Werte passt die Logarithmus-Funktion f(x) = 1/x besser als eine lineare.

Allgemein fällt auf, dass in der chat-basierten Kommunikation Primes wesentlich schneller zerfallen als in der von Szmrecsanyi (2005) untersuchen Face-to-Face-Kommunikation (vgl. Kapitel 2.3). Dort wurden bei DIST 9000 WF ← 277 | 278 → noch Persistenzen gefunden, während im vorliegenden HHC-Korpus zum Bibliothekschat maximal DIST 180 WF nachgewiesen werden kann. Dies hängt sicher einerseits mit dem schriftlichen Medium zusammen, andererseits aber auch mit der Pragmatik eines Help-Desk-Szenarios, in dem lange Gespräche die Ausnahme darstellen. Für die Auskunft und die Bibliothektsmitglieder im HHC-Korpus verläuft die Vergessenskurve selbst aber prototypisch: Bis DIST 50 WF werden die meisten Persistenzen produziert; dabei fällt ein schneller Zerfall auf. Danach finden sich nur noch vereinzelte Persistenzen und der Kurvenverlauf pendelt sich auf eine Parallele zur x-Achse ein.

Abbildung 37: Vergessenskurve für lexikalische Primes (Auskunft, HHC)

img61

Die ebbinghaussche Kurve gilt als sehr robust und kann tatsächlich auch für HCI-Anwendungen nachgewiesen werden. Dabei kann sowohl eine wirkliche Forgetting-Function bei UserInnen beobachtet werden als auch ein Artefakt mit einer ähnlichen Verteilung bei Bots. Durch Schlüsselworterkennung und gespiegelte Prompts werden bis DIST 20 WF (alte Bots) bzw. DIST 40 WF (neue Bots) viele persistente Lexeme ausgegeben bei schnellem Zerfall. Danach kommt es zu vereinzelten Persistenzen bei Wiederholungen nach Repair oder zufällig gleicher Wortwahl in einem späteren Prompt. Die über diesen Werten errechnete Promptig- Function ist kein Äquivalent zur Forgetting-Function. Eine möglichst natürliche Verteilung von Distanz-Frequenz-Effekten könnte aber zu einer weniger artifiziellen Dialogperformanz des Bots beitragen, was in alignment-fähigen Systemen wie SPUD-Prime bereits angedacht ist. Allgemein fällt auf, dass die System-Werte für Distanz-Frequenz-Effekte eine größere Streuung aufweisen als die der UserInnen. ← 278 | 279 →

Abbildung 38: Prompting-Function (System Twipsy, HCI)

img62

Beim UserInnen-Verhalten in Bezug auf Distanz-Frequenz-Effekte kann ein Unterschied zwischen der Interaktion mit neuen oder alten Systemen festgestellt werden: Die UserInnen von Twipsy und Karlbot reagieren beinahe nur in unmittelbarer Nähe auf den Prime (Twipsy bis DIST 40 WF, Karlbot bis DIST 9 WF).

Abbildung 39: Vergessensfunktion (UserIn Twipsy, HCI)

img63

← 279 | 280 →

Bei den neueren Systemen finden sich maximale Distanzen von DIST 134 WF (Max, UserIn)116 und DIST 280 WF (Elbot, UserIn). Diese Systeme schaffen es, die UserInnen länger bei der Stange zu halten und längere kohärente Sequenzen zu generieren. Dieser Fortschritt schlägt sich dann auch auf der Ebene der Distanz-Frequenz-Effekte nieder.

Abbildung 40: Vergessensfunktion (UserIn Max, HCI)

img65

Abweichend zur HHC ist hier der extrem steile Abfall im Bereich bis DIST 40 WF und wenige Werte für den Bereich > DIST 40 WF, was zum Abtriften der Trendlinie in den Bereich der negativen Zahlen führt. Dies ist selbstverständlich empirisch nicht möglich, illustriert aber das Missverhältnis zwischen < DIST 40 WF und > DIST 40 WF anschaulich.

Allgemein kann festgehalten werden, dass Primes in Abhängigkeit vom Medium schneller oder weniger schnell zerfallen (Chat vs. Face-to-Face) und dass die Belebtheit des Interaktionspartners ebenfalls Einfluss auf die Zerfallsrate nimmt. ← 280 | 281 →

4.2.6  Die Bedeutung von Alignment in der HCI

4.2.6.1  Die kognitive Verarbeitung von HCI: Artifizielles und reaktives Alignment

Ein Kritikpunkt an der Methodik der Experimente, die dem interaktiven Alignment-Modell zu Grunde liegen, bezieht sich auf die speziellen Dialogsituationen, die damals untersucht wurden (z. B. Maze-Game). Die Versuchspersonen in einem solchen Setting seien bereits aufeinander eingestellt. „Interactive alignment focuses on dialogue in the degenerate case: interactions in which people are, in a sense, already co-ordinated“ (Healey 2004: 201). Damit seien alignte Dialogstrukturen im Feld eher der Ausnahmefall, denn die Regel. Alignment als einen ganz grundsätzlichen Aspekt der Sprachverarbeitung anzunehmen, sei dann aus dieser Perspektive selbstverständlich nicht mehr sinnvoll, sofern vorausgesetzt werde, dass die empirischen Belege für Alignment weitgehend fehlten. Die Tatsache, dass überhaupt Belege für Alignment in der HCI gefunden wurden, greift diese These bereits stark an. Dass sogar mit korpusbasierten Methoden persistente Dialogstrukturen in nicht manipulierten HCI-Dialogen aus dem Feld nachgewiesen werden können, kann als Argument für Alignment als ganz grundsätzlichen Mechanismus menschlichen Sprachverhaltens interpretiert werden. Menschen scheinen dieses Verhalten aus der HHC auf die HCI zu übertragen. Mensch und Maschine können auf dem derzeitigen Stand der Technik zwar keinen Common Ground entwickeln, dennoch versuchen die UserInnen zum System zu alignen. So scheint hier eher Szmrecsanyis Aussage zuzutreffen: „language users are hard-wired to go for recently used (or activated) linguistic patterns whenever they can“ (Szmrecsanyi 2005: 116). Bereits die Illusion eines Dialogs scheint einen ausreichenden Anlass zur Produktion von persistenten Strukturen zu bieten. Ob die Produktion von persistenten Strukturen bei UserInnen in der HCI allerdings auf a) die Übertragung eines vorbewussten Mechanismus aus der HHC (Pickering & Garrod 2004) oder b) auf zwar bewusstes, aber unreflektiertes, gedankeloses Verhalten (Reeves & Nass 1996, Nass & Moon 2000, Nass & Brave 2005) oder sogar c) auf eine voll bewusste Simplifizierungsstrategie (Fischer im Druck) zurückgeführt werden kann, muss im Einzelfall entschieden werden.

In den untersuchten Agenten-Korpora finden sich im Schnitt nur halb so viele Persistenzen wie im Vergleichskorpus zur HHC. Die Hypothese von Branigan, Pickering, Pearson und McLean (2010), dass Alignment-Effekte in der HCI sogar stärker seien als in der HHC, kann anhand der vorliegenden Felddaten also nicht gestützt werden (vgl. Kapitel 4). UserInnen passen sich dem Sprachgebrauch des jeweiligen Systems zwar partiell an, doch der Grad der Anpassung hängt von einer Reihe von Variablen ab. Denn in der HCI liegen einige Störfaktoren vor, die ← 281 | 282 → in der HHC nicht gegeben sind: inkohärente und quasi-kohärenten Turns sowie Fehlermeldungen und Rückfragen, die insgesamt bis zu 25 % der System-Turns ausmachen. Hinzu kommen häufige und abrupte Themenwechsel, die Sequenzen von alignten Strukturen ihrerseits unterbrechen können. Vor diesem Hintergrund ist es erstaunlich, dass die UserInnen überhaupt so viele Persistenzen produzieren. Außerdem handelt es sich bei HCI-Dialogen auch nicht um natürliche Kommunikation mit ihren eng verzahnten minimalen Dialogeinheiten, sondern gerade die älteren Bots geben eher serielle Einheiten von Monolog aus. Legt man ein Kontinuum der Dialogizität zu Grunde, so rangieren HCI-Dialoge je nach System irgendwo in diesem Spektrum zwischen monologischen Texten und natürlichen Dialogstrukturen. Die erhobenen Daten zeigen deutlich, dass die neueren Systeme Max und Elbot natürlichen Dialogen bereits näher kommen als Twipsy und Karlbot.

Allgemein wurde vielfach belegt, dass die Kommunikation über Medien Einfluss auf interaktives Alignment in der HHC hat. So liegt es nahe, dass auch die Interaktion über den Chat-Kanal Einfluss auf die Anzahl der Persistenzen in den untersuchten Korpora hat. Diese Einschränkung gilt bei gegebener Korpuslage für HCI- und HHC-Korpora gleichermaßen. Doherty-Sneddon et al. (1997) konnten zeigen, dass die Kommunikation von ProbandInnen in einer Face-to-Face-Task erfolgreicher war als bei entweder audio- oder videovermittelter Kommunikation. In videovermittelter Konversation, aber auch in Mehrparteien- Diskussionen, ritualisierten Interaktionen, Tutorien und Reden innerhalb von Debatten, konnten absteigend weniger automatische Alignment-Prozesse beobachtet werden. Dafür fand man zunehmend mehr Hinweise auf bewusste Konstruktionen von Mental-State-Modellen des Gegenübers. HCI-Dialoge werden sich je nach System-Variablen und UserInnen-Typen in dieses Kontinuum einreihen. Ist es ZuhörerInnen von Monolog möglich, Feedback in Form von nicht-sprachlichen Zeichen zu geben (z. B. Bavelas et al. 2000), ist die Sequenz im Kontinuum als dialogischer einzuordnen. Vergleichbare Sequenzen finden sich in der HCI bei ECAs mit Gestik und Mimik-Analyse und überall dort, wo das Dialog-Design UserInnen-Reaktion auf ein Minimum beschränkt (nämlich die Eingabe von „ok“ oder „weiter“ im Sinne von „Enter“). Die bestätigenden Eingaben erfüllen hier keine direkte Feedback-Funktion (vgl. Fischer im Druck: 189), sondern dienen allein dem Voranschreiten im Programm (vgl. Kapitel 4.4). Dieses Prinzip findet man besonders bei älteren Systemen mit geringen Parsing-Fähigkeiten, bei denen eine robuste UserInnen-Führung unerlässlich ist. Auch der Fall, dass Monolog- und Dialogphasen abwechseln, ist denkbar (Untersuchungen zu Alignment in politischen Debatten, vgl. z. B. Conrad & Schober 2000; ← 282 | 283 → Schober & Conrad 1997; Schober et al. 2004; Suessbrick et al. 2000). Pickering und Garrod sehen darin ein Beispiel dafür, dass dynamische Verschiebungen in der Komplexität der Sprachverarbeitung ad hoc möglich seien. Für die HCI würde dies bedeuten, dass UserInnen ständig zwischen unterschiedlichen kognitiven Modellen switchen müssten, um die verschiedenartigen System-Prompts verarbeiten zu können. Besteht die Möglichkeit des Alignments nicht, so orientierten sich kompetente RezipientInnen an Variablen wie der Wortfrequenz, der Art der syntaktischen Konstruktion oder semantischen Interpretationen.

Warum UserInnen Chatbots gegenüber nur halb so viel alignen wie menschliche Chattende untereinander, liegt also in folgenden einschränkenden Faktoren begründet:

  • Viele inkohärente System-Turns als Resultat von Parsing-Fehlern führen zu einer größeren Notwendigkeit für Repair seitens der UserInnen.
  • Die Illusion von Dialog wechselt ab mit seriellem Monolog, zu dem weniger alignt wird.

Wenn man diese Faktoren in einem innovativen System ausschalten könnte, wären mehr persistente Strukturen in längeren Sequenzen seitens der UserInnen wahrscheinlich.

Warum alignen UserInnen aber überhaupt zu artifiziellen Dialogagenten? Fischer schlägt vor, dass das linguistische Verhalten in Abhängigkeit von Vorannahmen über die Sprechsituation gesehen werden müsse (vgl. Fischer 2006: 81). Diese Variable bildet sicher die Grundlage für jegliche Interaktion mit der unbekannten Entität und wird besonders deutlich am Anfang eines Dialogs, wo UserInnen ihre Vorab-Einstellung dem System gegenüber offenbaren. Dabei spielen Erfahrungen und Persönlichkeit des jeweiligen UserInnen-Typs die entscheidende Rolle und fließen in das Partnermodell der UserInnen vom Bot mit ein. PlayerInnen tendieren dazu, die Interaktionsituation als sozial einzustufen (vgl. Fischer im Druck: 229) und lassen sich auf einen vermeintlich natürlichen Dialog ein, während Non-PlayerInnen das System wie eine Maschine behandeln (vgl. Fischer 2006: 121ff). Welche Faktoren beeinflussen aber die weitere Interaktion? Die Ergebnisse der Studie legen unterschiedliche Formen von Alignment nahe:

a) Repetitionen des System-Outputs als Simplifizierungsstrategie (vgl. Branigan et al. 2010, Fischer im Druck) bei den älteren Systemen und bei Störungen des Dialogs

b) Alignment seitens der UserInnen als Indikator für die gedankenlose oder spielerische Übertragung von Gesprächsverhalten aus der HHC (vgl. Pickering & Garrod 2004, Reeves & Nass 1996, Nass & Moon 2000, Nass & Brave 2005) ← 283 | 284 →

Die Studie hat gezeigt, dass syntaktisches Quasi-Alignment in Form von persistenten Strukturen des Systems Alignment seitens der UserInnen begünstigt. Hierbei muss jedoch betont werden, dass zwar auf beiden Seiten Pesistenzen nachgewiesen werden können und diese in Bezug auf ihre Verteilung über die Einzeldialoge mehrheitlich in Zusammenhang zueinander stehen, dass es sich hierbei aber keineswegs um interaktives Alignment handelt. Das Alignment der UserInnen ist als reaktiv zu bezeichnen, da hier auf einen künstlich erzeugten Prime reagiert wird. Quasi-Alignment des Systems kann allenfalls als artifizielles Quasi-Alignment bezeichnet werden. Hinter dieser Form der Wiederaufnahme steckt nämlich bei den meisten Bots bislang nicht mehr als das ELIZA-Prinzip.

Menschen verhalten sich unter bestimmten Prämissen passagenweise modernen Systemen gegenüber so, wie sie sich menschlichen GesprächspartnerInnen gegenüber verhalten würden. Dieses konkrete Verhalten findet sich vor allem in Small-Talk-Sequenzen, wo kein konkretes Dialogziel verfolgt wird. Es kann nur schwer im Kontext der Theorie zu Computer-Talk gedeutet werden, sondern legt eine Interpretation als Übertragung von Verhaltensweisen aus der HHC nahe. In den Gesprächsrahmensequenzen finden sich persistente Strukturen in ritualisierten Grußfloskeln. In der Gesprächsmitte wechsen UserInnen die Strategie häufig. Kommt es zu Alignment kann es gegenüber den älteren Systemen meist als strategisch gedeutet weden. Die UserInnen produzieren Persistenzen im Hinblick auf eine durch Schlüsselwörter vermittelte Navigation. Dabei handelt es sich meist um Nomina oder NPs.

Twipsy: Die weltweiten Projekte lassen die Expo 2000 zu einem globalen Ereignis werden.

UserIn: und was sind das für weltweite Projekte?

(Twipsy-Korpus 2324–2349)

Bei den neueren Systemen findet sich vermehrt nicht-strategisches Alignment, besonders wenn die Interaktion spielerischen Charakter aufweist und in erster Linie der Unterhaltung dient.

Elbot: Vielleicht liegt das an mehr Erfahrung!

UserIn: vielleicht aber auch an mangelnder zahl von bits und bytes!

(Elbot-Korpus 2964–2980)

Obwohl die Aussage der Userin aus semantischer Perspektive darauf schließen lässt, dass sie sich darüber im Klaren ist, mit einem artifiziellen Gegenüber zu chatten, kann die Übernahme des turn-initialen, modalen Adverbs nicht als Simplfizierungsstrategie gedeutet werden. Denn das Adverb spielt keine relevante Rolle für die Parsing-Funktion. Trotz der offensichtlichen Referenz auf die ← 284 | 285 → künstliche Intelligenz des Bots, werden (vorbewusst?) Verhaltensweisen aus der HHC auf die HCI übertragen. Diese Beobachtung spricht dafür, dass die Interaktionssituation von der Userin implizit als sozial aufgefasst wird und nicht als Manipulation einer Maschine.

Ein zusätzliches Indiz (nur ein Indiz, kein Beleg!) dafür, dass der Mehrheit der in den HCI-Korpora vorliegenden Persistenzen ein unvermittelter, natürlicher Alignment-Prozess zu Grunde liegt, könnte die Vergessenskurve darstellen, die robust bei UserInnen in der HCI beobachtet werden kann. In ihr manifestieren sich grundsätzliche Effekte menschlicher Kognition bei Priming. Es überrascht daher nicht, dass man den von Szmrecanyi für die HHC beschriebenen Zusammenhang in der HCI auch findet. Anders sind nur der steilere Kurvenverlauf und die Tatsache, dass Primes in den untersuchten Korpora aufgrund von zahlreichen Distraktoren wie Inkohärenzen und plötzlichen Themenwechseln nach maximal 200 Wortformen bereits zerfallen. Der Effekt als solcher ist aber vorhanden und messbar.

Allerdings ist deutlich zu betonen, dass längere HCI-Dialoge gerade bei den neueren Systemen sehr unterschiedliche Sequenzen aufweisen, in denen UserInnen entweder gedankenlos oder sogar vorbewusst alignen oder bewusst versuchen, Störungen vorzubeugen oder zu beheben. Dafür müssen sie auf Partnermodelle zurückgreifen und bedienen sich teilweise auch Strategien aus dem Bereich des CTs (s. Kapitel 4.4).

4.2.7  Alignmentfähige Systeme

Da Quasi-Alignment in der Hälfte der untersuchten Stichproben die UserInnen zur Produktion von eigenen Persistenzen und in störungsfreien Passagen zu natürlicherem Dialogverhalten veranlasst, liegt hier ein wichtiger Schlüssel für die Weiterentwicklung von Agenten-Systemen. Bei der Konstruktion von Dialogmanagern sollte unbedingt darauf geachtet werden, dass persistente Strukturen in kohärent anschließende System-Turns integriert werden, ohne dass ausschließlich repetitive Dialoge á la ELIZA geführt werden. Für die Analyse der UserInnen-Turns und die Generierung der System-Turns können eine Reihe von Regeln formuliert werden, die Quasi-Alignment natürlicher wirken lassen könnten. Zusätzlich verstärkt wird die Illusion von Kohärenz durch die Nachahmung einer natürlichen Zerfallskurve für eine gegebene sprachliche Struktur über eine bestimmte Distanz von Wortformen. Das Modell des logarithmischen Zerfalls eines Primes, zu dem Persistenzen ausgegeben werden können, wurde bereits in einem System umgesetzt (SPUDprime, Buschmeier & Kopp 2010), aber noch nicht in einem ECA erprobt und evaluiert. Ob sich die Distanz-Frequenz-Effekte ← 285 | 286 → seitens der UserInnen gegenüber einem solchen System der natürlichen Zerfallskurve annähern würden, muss überprüft werden.

Auf der Ebene der Syntax kann Quasi-Alignment anhand von System-Persistenzen bei den heutigen Systemen zwar selten, dann aber wechselseitig nachgewiesen werden. Die automatische Analyse der ausschlaggebenden Strukturen (komplexe Nominalphrasen und Präpositionalphrasen, Tempus und Modus des Verbs, Genitivattribut vs. Präpositionalattribut u. v. a.) ist aber technisch noch schwer umsetzbar. Außerdem wurden seitens der Linguistik die kritischen Strukturen noch nicht ausreichend konkret definiert.

Geparste Schlüsselwörter einer Userin im System-Prompt durch Synonyme zu ersetzen, kann vor dem Hintergrund dieser Studie nicht empfohlen werden. Solche lexikalischen Paraphrasen werden von UserInnen als Non-Alignment aufgefasst und nicht als Zeichen für ein gut angepasstes System. Lexikalische Paraphrasen seitens der UserInnen finden sich nämlich auch meist bei Reformulierungen und Repair, also immer dann, wenn Alignment versagt und eine bewusste Strategie zur Behebung der Störung bemüht werden muss. Stattdessen muss der automatischen Generierung von Alignment ein großes Innovationspotenzial für ECAs zugesprochen werden. Allerdings sollte ein automatischer Alignment-Manager bestimmte Kriterien erfüllen:

  • Parsing der UserInnen-Alignments und Generierung des System-Alignments
  • genaue Abbildung der natürlichen Vergessenskurve
  • Sensitivität für den Kanal: Für medial schriftliche oder orale Kommunikation wurden in der HHC unterschiedliche Distanz-Frequenz-Effekte beobachtet
  • separate Modelle für Lexik und Syntax
  • stochastische Modelle für die Ausgabe unterschiedlicher Wortarten und Phrasenstrukturen

Legt man die Überlegungen von Pickering und Garrod zu interaktiver Sprachverarbeitung zu Grunde, so könnte in der HCI ein leistungsfähiger Alignment-Manager, einem dynamischen UserInnen-Modell vorgeordnet sein. Sie halten eine Modellierung des Gegenübers schließlich nicht unmittelbar für notwendig für erfolgreichen Dialog (vgl. Pickering & Garrod 2004: 172). Wendete man diese Theorie auf die Implementierung von Dialogkomponenten in der HCI an, hieße das: Alignment-Management an Stelle von UserInnen-Modellen spart Rechenleistung. Überlegungen zum Recipient-Design und zu lernfähigen Einheiten, die das UserInnen-Verhalten in einem Modell speichern, wären nicht mehr zentral für einen effektiven Dialog-Manager. Erst bei Störungen könnte auf solche Komponenten zurückgegriffen werden. Ein solches deterministisches Modell würde zwar die Wirklichkeit nicht abbilden, in der persistentem Verhalten ← 286 | 287 → unterschiedliche Prozesse zu Grunde liegen können (vorbewusstes oder strategisches Alignment), dennoch könnte es zu einer robusten, wenn auch defizitären Systemarchitektur führen.

Auch wenn zahlreiche Belege für reaktives Alignment in der HCI gefunden werden können und es sich als konsistentes System in Interaktion mit Quasi-Alignment darstellt, kann das UserInnen-Verhalten nicht durch diese Mechanismen allein erklärt werden. Die Interaktion wird in erster Linie beinflusst durch die Leistungsfähigkeit des Parsers, das Dialog-Design und die pragmatischen Bedingungen der Interaktionssituation. Auch persönliche Variablen der UserInnen spielen eine Rolle. Alignment in der HHC wird beeinflusst durch unterschiedliche Faktoren wie Gender oder Alter (vgl. Szmrecsanyi 2006). Fischer (im Druck) findet dagegen keine Belege für Gender-Unterschiede in der HCI. Auf der Seite der UserInnen könnten sich aber trotzdem Alter, Technikexpertise und die UserInnen-Typen nach Fischer (2006) auf das reaktive Alignment auswirken. Von Seiten des Systems könnte der Grad der Anthropomorphisierung sowohl beim Interface- als auch beim Dialog-Design Auswirkungen auf das Alignment-Verhalten der UserInnen haben. Die Analyse zeigt deutlich, dass die UserInnen der neueren Systeme häufiger alignen als die der älteren. Besseres Interface- und Dialog-Design scheinen also definitiv den Eindruck einer natürlichen Dialogsituation zu bestärken, was im nächsten Schritt vorbewusstes, reaktives Alignment seitens der UserInnen evozieren kann. Fischer betont aber die vergleichsweise geringe Bedeutung der äußeren Attribute in Relation zu den interaktiven Funktionen (Fischer im Druck: 206). Die im Rahmen der vorliegenden Studie untersuchten Systeme unterscheiden sich in Bezug auf zu viele verschiedene Variablen, um empirisch gestützte Aussagen darüber machen zu können, welche Variable welchen Einfluss auf das Verhalten welcher UserInnen hat. Ein Desiderat für weitere Analysen zur sozialen Wirkung der untersuchten Systeme wären Experimente, in denen UserInnen- und System-Variablen kontrolliert werden könnten und detaillierte Metainformationen über die UserInnen vorlägen.

Ein Problem stellen also Wechselwirkungen von Alignment und unterschiedlichen UserInnen- und System-Variablen dar, die hier nur rudimentär nach­vollzogen werden können. Ein weiteres Problem ist die Einbettung des Alignment-Mechanismus in ein übergeordnetes System von interaktiven und dynamischen Kräften, die den Dialogverlauf beeinflussen (thematische Kohärenz, pragmatische Implikationen, soziolinguistische Faktoren, CT). Denn vorbewusste Prozesse machen auch kognitiv nur einen kleinen Teil der Dialog-Verarbeitung aus. „A natural model of conversation must go beyond the interactive alignment of word strings“ (Mazur 2004: 206). Denn durchschnittlich 80 % der UserInnen-Turns lassen auf bewusste Strategien schließen und auch ein Teil der untersuchten UserInnen-Persistenzen ← 287 | 288 → muss als bewusste Simplifizierungsstrategie interpretiert werden (vgl. auch Fischer im Druck: 232). Persistenz und Distanz-Frequenz-Effekte können nur dann in ein vollständiges Modell der Interaktion in der HCI integriert werden, wenn sie im Kontext zu anderen Untersuchungsparametern analysiert wurden. In den folgenden Unterkapiteln sollen entsprechend Überlegungen zu Dialogkohärenz in der HCI und zu CT systematisch auf die Ergebnisse der Untersuchungen zum reaktiven Alignment und artifiziellen Quasi-Alignment bezogen werden.

4.3  Ergebnisse der Analyse zu Kohärenz und Kohäsion

Zwar wird die HCI als Teildisziplin der KI-Forschung angesehen, doch liegt ihr Ziel eher in der Gestaltung überzeugender Dialog-Performanz als in der Generierung echter Sprachkompetenz im Sinne von breitem semantisch kategorisiertem Weltwissen und logischer Kohärenz. Die untersuchten Systeme greifen auf eng gefasste Wissensbasen zurück und verarbeiten den UserInnen-Input mit Hilfe von (erweiterter) Schlüsselworterkennung. Der Output wird aus Antwort-Patterns und eingefügten Schlüsselwörtern zusammengestellt. Eine semantische Verarbeitung erfolgt bei den Systemen Elbot und Max rudimentär; d. h. Hypo- und Hyperonym-Relationen werden größtenteils erkannt. Feinkörnigere Wortfeldanalysen sind nicht möglich. Max verfügt zusätzlich über ein einfaches Sprechakt-Modell, das ca. die Hälfte aller Sprechakte der UserInnen erkennt und seine Antwort-Patterns regelbasiert größtenteils passend auswählt (vgl. Gesellensetter 2004). Diese Operationen sind jedoch weit entfernt von einem aussagenlogischen Kalkül, das die gesamte Interaktion in Form von logischen Sätzen abbildet, wie es das eigentliche Ziel der frühen KI-Forschung war (vgl. z. B. Allen et al. 1978). Es fehlt den untersuchten Bots also gleichermaßen an logischen Operatoren und semantischen Ressourcen, um die Eingaben der UserInnen kohärent zu verarbeiten. Ein Hauptproblem ist dabei das fehlende Weltwissen, denn UserInnen können ihre Turns nicht voraussetzungsfrei formulieren und nehmen stattdessen unbewusst einen Common Ground für die Interaktion an. Da das System keinen Zugang zu einer solchen Wissensbasis hat, kann es folglich beim Parsing auch kein Hintergrundwissen inferieren. Ein wirkliches „Verstehen“ der UserInnen-Turns ist also unmöglich und auch für eine logisch lückenlos anschließende Generierung des folgenden System-Turns fehlt es an Schlussregeln. Insofern greift der Begriff der Dialogkohärenz für die Seite der Systeme in der HCI nicht. Was untersucht werden kann, ist allein die Illusion von Kohärenz, die gelungener oder weniger gelungen ausfallen kann. Dazu wurden die in Kapitel 2.4 dargestellten sprachlichen Phänomene der Wiederaufnahme an der Dialog-Oberfläche und der Referenz sowie der thematischen Progression ← 288 | 289 → in der Tiefenstruktur untersucht. Es kann also mit linguistischen Mitteln festgestellt werden, ob ein System-Turn kohärent oder inkohärent an den vorangegangenen UserInnen-Turn anzuschließen scheint oder nicht. Dabei fällt auf, dass eine große Zahl der System-Turns auf Grund der Schlüsselworterkennung und der Pattern-Generierung zwar Wiederaufnahmen enthalten, aber trotzdem nicht logisch kohärent an die vorangegangene UserInnen-Eingabe anschließen. Diese SPPs werden im Folgenden als quasi-kohärent bezeichnet (vgl. Kapitel 4.1) und können als „Symptom“ für grundsätzliche Probleme in der Herangehensweise der HCI-Entwicklung angesehen werden. Verbessert man die Oberflächenperformanz, während man die aussagenlogische Kalkulation vernachlässigt, sind quasi-kohärente System-Turns das Resultat. Als quasi-kohärent sind nämlich die meisten Default-Antworten einzustufen, die ausgegeben werden, wenn ein System einen UserInnen-Beitrag nicht parsen konnte. Als Default-Antworten eignen sich naturgemäß nur Beiträge, die besonders offen in ihrer Interpretation sind. Ihre Stärke liegt in ihrer Ambiguität. Wenn der Zufall es will, können die UserInnen ihnen im jeweiligen Dialogkontext eine sich kohärent anschließende Bedeutung zusprechen.

In der HCI treffen menschliche UserInnen, die über ein breites Weltwissen sowie über ein eng vernetztes mentales Lexikon verfügen und zur logischen kognitiven Verarbeitung von perzipiertem Input in der Lage sind, auf einfache Schlüsselwortparser mit eingeschränkten Wissensbasen. Dennoch versuchen UserInnen Interaktionsstrategien aus der HHC auf die HCI zu übertragen (s. Kapitel 2.3). Die Gründe für dieses Verhalten sind vielfältig und werden in dieser Arbeit an verschiedenen Stellen diskutiert (vgl. Kapitel 1, Kapitel 4.4, Kapitel 5). Auf Seite der UserInnen spielen kohärenzschaffende Mittel sowohl in der Oberflächen- als auch in der Tiefenstruktur ihrer Beiträge eine Rolle. Bei HCI-Dialogen handelt sich also um heterogene Dyaden, da Bots nur die Illusion von Kohärenz auf der Performanzebene schaffen können, Menschen aber den Anspruch auf einen kohärenten Interaktionsverlauf in der Regel nicht aufgeben. In der folgenden Auswertung der Untersuchung müssen also unterschiedliche Begriffe von Kohärenz Anwendung finden:

  • die (echte) logisch-kognitive Kohärenz seitens der UserInnen
  • die erfolgreich generierte Illusion von Kohärenz seitens der Systeme
  • die Quasi-Kohärenz seitens der Systeme, die zwar kohäsive Oberflächenphänomene aufweist, aber ambig oder logisch nicht kohärent ist (vgl. Kapitel 3)

Auf der Grundlage eines in dieser Form modifizierten Kohärenzbegriffes wurde die logische Progression in den vorliegenden Untersuchungskorpora (HCI und HHC) anhand von sprachlichen Indikatoren an der Oberfläche und in der ← 289 | 290 → Tiefenstruktur analysiert. Dabei wurden auf beiden Ebenen sowohl quantitative als auch qualitative Analysen der Makro- und Mikroprozesse vorgenommen, um diesem komplexen Phänomen besser gerecht zu werden. Quantitativ erhoben wurden eine Reihe kohärenzschaffender Oberflächenphänomene (vgl. Kapitel 2.4). Für die Analyse der Tiefenstruktur wurden nach den o. g. Kriterien ganze Turns hinsichtlich ihres Kohärenzbezugs zum Vorgänger-Turn getaggt und ausgezählt (vgl. Kapitel 3). Die Ergebnisse der quantitativen Untersuchung werden in Form von relativen Häufigkeiten zur Grundgesamtheit ganzer Korpora angegeben. Eine Auszählung der gegebenen Untersuchungsparameter pro Dialog erfolgte nicht, wäre aber ein Desiderat für weitere Studien, vor allem wenn die Ergebnisse zur Dialogkohärenz in der HCI statistisch auf die Ergebnisse zu Alignment in der HCI bezogen werden sollten. Die qualitative Analyse erfolgte anhand einzelner exemplarischer Dialogsequenzen etnomethodologisch.

4.3.1  Die Kohärenzstruktur der Untersuchungskorpora

Während alle menschlichen Interagierenden in den Untersuchungskorpora zu 100 % kohärent anschließende Turns produzieren und logische Inkohärenz im einfachen Help-Desk-Szenario der Bibliotheksinformation keine Rolle spielt, können bei den untersuchten Systemen größere Schwierigkeiten nachgewiesen werden. Störungen treten auf in Form von inkohärenten Turns, quasi-kohärenten Default-Antworten und Rückfragen (SWBD-DAMSL: „signal non-understanding“).

Abbildung 41: Prozentuale Anteile der kohärenten, inkohärenten und quasi-kohärenten Turns sowie der Turns mit Rückfragen (signal non-understanding, SWBD-DAMSL) an der Gesamtmenge aller System-Turns

img66

← 290 | 291 →

Über 20 % der untersuchten System-Turns schließen nicht kohärent an den vorangehenden UserInnen-Turn oder den weiteren Kotext an. H0K1 muss also zurückgewiesen werden. Allein Max gibt weniger als 10 % Fehlermeldungen in Form von Inkohärenzen, Default-Antworten oder Rückfragen aus. Die Gründe dafür liegen in seiner besonderen Systemarchitektur sowie in einem stringent geplanten Dialog-Design. Die älteren Systeme geben dagegen über 10 % wirklich inkohärente Gesprächsbeiträge und zahlreiche Rückfragen aus. Hier wurde noch wenig mit Default-Antworten gearbeitet. Im Gegensatz zu ihnen ist Elbot ein Meister der Verlegenheitsantwort. Ambige Aussagen oder Allgemeinplätze machen bei diesem System 15 % aller System-Turns aus. Dadurch ist Elbot einerseits mit einem „Sicherheitsnetz“ (vgl. Kapitel 1.2) bei Störungen ausgestattet, andererseits wirkt er auf diese Art auch sehr unnatürlich, was von einer Userin wie folgt beanstandet wurde:

(1) Elbot: Vielleicht liegt das an mehr Erfahrung.

(2) UserIn: vielleicht auch an mangelnder zahl von bits und bytes

(3) Elbot: Das Leben als Mensch soll ja nicht so einfach sein

(4) UserIn: floskelarsch

(Elbot 2963–2996)

Im Folgenden sollen anhand von Kohäsionsmarkern an der Oberfläche und kohärenzschaffenden Mitteln in der Tiefenstruktur der Interaktion Ursachen für Störungen in der HCI, Kompensationsstrategien der UserInnen sowie Möglichkeiten zur Verbesserung innovativer Systeme diskutiert werden. Die quantitativ erhobenen Kohäsionsmarker werden pro TCU angegeben, um ihre verknüpfende Funktion darzustellen.117

4.3.2  Die Dialogoberfläche

4.3.2.1  Rekurrenz: Wiederaufnahmen als einfache Repetitionen

Was in der textlinguistischen Tradition unter den Begriff der Wiederaufnahme oder einfache Repetition gefasst wird, wurde in dieser Arbeit im vorhergehenden Kapitel als lexikalische und syntaktische Persistenzen ausführlich analysiert und diskutiert (vgl. Kapitel 4.2 und 2.3). Persistenz wird in der HHC häufig als kohärenzschaffendes Mittel eingesetzt (vgl. Purandare & Litman 2008), muss aber theoretisch nicht notwendig logische Kohärenz zur Folge haben. Es handelt sich ← 291 | 292 → hierbei schließlich um ein Oberflächenphänomen, dem kognitiv ein einfacher, vorbewusster Priming-Mechanismus (Alignment) und kein logischer Schluss zu Grunde liegt. Empirisch zeigt sich aber im HHC-Korpus zum Bibliotheks-Chat, dass persistente Strukturen in der HHC die Dialogkohärenz unterstützen.

In der HCI wird dagegen deutlich, dass Persistenz allein noch nicht zwingend Kohärenz schafft. Denn auch wenn das System quasi-persistente Strukturen ausgeben kann und Schlüsselworterkennung und Pattern-Generierung gerade dieses Verfahren begünstigen, wird auf diese Weise noch kein kohärenter Turn erzeugt. Wenn der Bot nur ein einzelnes Lexem wiederholt, aber den übrigen Kontext des vorangegangenen UserInnen-Turns unbeachtet lässt, wird in den meisten Fällen ein quasi-kohärenter Gesprächsbeitrag ausgegeben. Dieser weist zwar Eigenschaften eines kohärenten Beitrags auf (Repetition, Persistenz), ist aber logisch nicht kohärent.

(1) UserIn: ist doch überall im Internet davon zu lesen!

(2) Elbot: Das Internet ist eine großartige Erfindung (…)

(Elbot 125–141)

Im o. g. Beispiel konnte die Referenz zum Antezedens durch das Pronominaladverb nicht geparst werden. Ausgegeben wird eine quasi-kohärente Default-Antwort mit lexikalischer Persistenz.

Gerade wenn das System z. B. in einer Frage-Antwort-Sequenz ein bestimmtes Muster verfolgt, kann es auch bei komplexeren Strukturen zu inakzeptablen System-Turns kommen.

(1) Max: (…). Und was ist deiner?

(2) UserIn: och, so verschiedene

(3) Max: Dein Lieblingsfilm ist also och so verschiedene?

(Max 1781–1799)

Hier wurde ein Filmtitel erwartet, der auch als komplexe Struktur hätte vorliegen können. Aus diesem Grund wird die gesamte Konstruktion der Userin inklusive konzeptionell mündlicher Interjektion in den SPP des Systems integriert. Beispiele dieser Art finden sich in großer Zahl in den HCI-Korpora auf der System-Seite. Bei den UserInnen unterstützen Persistenzen in der Regel die kohärente Progression und können damit auch in der HCI als kohärenzschaffende Mittel bezeichnet werden. Dies hat in der HCI jedoch keine interaktive Dynamik.

Hier wird deutlich, dass Quasi-Persistenzen zwar die Illusion von Kohärenz an der Oberfläche unterstützen, aber nicht zwingend zu kohärenten System-Turns führen. Durch mehr Quasi-Persistenzen kann also nur der Schein einer kohärenten Interaktionsstruktur verstärkt und so eine höhere Akzeptanz durch die UserInnen erzielt werden. ← 292 | 293 →

4.3.2.2  Proformen

Pronomina, Adverben und Pronominaladverben können als Proformen für andere Elemente eingesetzt werden und verweisen textimmanent auf die vorangegangene Form. Im Rahmen der quantitativen Analyse wurden Pronomina118 im substituierenden Gebrauch annotiert und in Relation zur Gesamtmenge der TCUs ausgewertet.

Abbildung 42: Prozentualer Anteil der substituierenden Pronomina in Relation zur Gesamtzahl der Wortformen (WF)

img67

Während in den HHC-Korpora 59 % und 71 % der TCUs Pronomina enthalten, liegen die Werte für alle Systeme bei über 100 %. Jede System-TCU enthält also mindestens ein substituierendes Pronomen. Die Systeme gebrauchen also unnatürlich viele substituierende Pronomina pro TCU. Dieser Umstand ist insofern als problematisch zu bewerten, weil sie umgekehrt große Schwierigkeiten haben, die Pronomina der UserInnen zu parsen (s. u.). Diese passen sich jedoch den Systemen diesbezüglich nicht an, sondern es kann ein allgemeiner Rückgang der Verwendung von substituierenden Pronomina beobachtet werden (vgl. auch Fischer im Druck: 250). Eine Ausnahme bilden die UserInnen von Karlbot. Das abweichende Verhältnis im Karlbot-Korpus durch den besonders hohen Wert ← 293 | 294 → für Pronomina im UserInnen-Input kann durch eine große Zahl von Interrogativpronomina (ca. 20 %) bei Karlbots GesprächspartnerInnen erklärt werden. Diese produzieren überproportional viele Fragen, a) weil das Dialog-Design auf UserInnen-Fragen ausgelegt ist und der Bot zum Fragen auffordert und b) weil häufige Störungen zum Nachfragen als Repair-Strategie zwingen.

Allgemein zeigen die Ergebnisse, dass die UserInnen der älteren Systeme in Bezug auf den Gebrauch von Pronomina extreme Strategien verfolgen (besonders wenige Pronomina bei Twipsy, besonders viele bei Karlbot). Diese Divergenz könnte ein Hinweis auf Übersimplifizierungs- und Überspezifizierungstendenzen vor dem Hintergrund eines CTs sein (vgl. Krause & Hitzenberger 1992). Bei den neueren Systemen zeigt sich diese Tendenz jedoch nicht mehr und es kann stattdessen eine Annährung der Werte an die HHC beobachtet werden. Die UserInnen der modernen Systeme scheinen also mehr Vertrauen in die Parsing-Funktion zu haben und nehmen weniger Rücksicht in Form von Siplifizierungsstrategien. Dies könnte eine Weiterentwicklung zu Fischers Beobachtung einer strategischen Vermeidung von Proformen seitens der UserInnen (2006, im Druck) darstellen.

Der einfache quantitative Vergleich ist an dieser Stelle irreführend, denn es bestehen sehr wohl große Unterschiede zwischen UserIn und System im Gebrauch der Pronomina. Die qualitative Analyse zeigt, dass die UserInnen mehr turn-übergreifende Referenz durch Pronomina schaffen (Dialog-Strategie), während die Bots häufiger innerhalb längerer System-Turns immanent verweisen (Monolog-Strategie).

(1) UserIn: Was kostet das

(2) Karlbot: Meinen Sie den Lingubot-Creator?

(3) UserIn: ja

(Karlbot 1488–1499)

Im Gegensatz zu:

(1) Karlbot: Aber den Kiwi als Wappentier finden wir sehr sympathisch, denn er ist (…)

(Karlbot 1458–1466)

Auch fällt auf, dass die Bots bei turn-übergreifender Referenz nur zum direkt adjazenten FPP Proformen ausgeben. Verweise der UserInnen auf weiter zurückliegende Turns können nicht geparst werden. Substituierende Pronomina in UserInnen-Beiträgen sind für heutige Bots ohnehin noch schwer zu parsen. Je besser die Syntax-Analyse ist (NLP, Natural Language Procesing), desto eindeutiger können Bezüge zugeordnet werden. Denn das Pronomen muss zunächst als freistehend analysiert und anschließend der vorhergehende Text nach ← 294 | 295 → möglichen Bezugselementen abgesucht werden. Einziger Hinweis ist dabei das Genus. Erschwert wird das Verfahren dadurch, dass die Proform u. U. nicht nur ein Lexem substituiert, sondern auch eine Phrase oder einen ganzen Satz.

Innerhalb eines engen Anwendungskontexts funktioniert die Substitution durch Proformen aber auch in der HCI zuverlässig. Als Beispiel kann hier das in Max integrierte Ratespiel angeführt werden, bei dem die MuseumsbesucherInnen anhand von Fragen und Beschreibungen Tiere erraten müssen. Auf das fragliche Tier wir innerhalb dieser Subroutine grundsätzlich mit dem Personalpronomen „es“ referiert.

(1) Max: Hat es viele verschiedene Farben?

(2) UserIn: nein

(3) Max: Ist es ein Raubtier?

(4) (…)

(Max 1551–1564)

Pronominale Referenz wird gerade bei den neueren Bots auch bei Default-Antworten eingesetzt, um auf einen unspezifischen vorangegangenen Kontext zu verweisen und darüber hinwegzutäuschen, dass gerade dieser Vorgänger-Turn nicht geparst werden konnte.

(1) UserIn: tag auch

(2) Max: Mach’s gut.

(3) UserIn: tag auch

(4) Max: Gut dass du das auch so siehst.

(Max 1649–1667)

Oder noch offensichtlicher:

(1) Elbot: (…) außerdem gibt es gute rezeptfreie Antivirenprogramme.

(2) UserIn: ja, sogar bei uns bei freenet

(3) Elbot: Ja, aber sagen Sie das mal auf Latein!

(Elbot 1823–1848)

Dabei werden nicht nur Personalpronomina bemüht, sondern auch Pronominaladverben.

(1) UserIn: ich laufe gern mit dem Kopf gegen die wand

(2) Elbot: wie sind sie denn darauf gekommen?

(3) UserIn: da habe ich lange drüber nachgedacht

(4) Elbot: So etwas habe ich ja noch nie gehört!

(Elbot 2079–2183)

Das Beispiel zeigt, dass die Verwendung solcher Konstruktionen syntaktisches Alignment seitens der Userin auslösen kann, das dann u. U. vom System nicht ← 295 | 296 → mehr geparst werden kann. Die Möglichkeit eines solchen Mechanismus’ sollte beim Dialog-Design unbedingt bedacht werden. Ausgegeben wird dann eine weitere Default-Antwort, die zufälligerweise in den absurden Dialog passt. Unspezifische Verweise durch Proformen sind demnach zwar hilfreich bei der Formulierung von Default-Antworten, evozieren aber u. U. ein ähnliches Referenz-Verhalten seitens der UserInnen. Dies steht in Konflikt zu der Tatsache, dass pronominale Verweise noch nicht zuverlässig geparst werden können.

Richards und Underwood (1984) beobachteten im Rahmen ihrer Untersuchungen zu CT, dass in der HCI weniger ambige Pronomina verwendet würden und interpretieren dieses Ergebnis als Simplifikationsstrategie der UserInnen und als Indikator für CT. Durch die vorliegende Studie kann dieser Zusammenhang spezifiziert werden. Während sich bei den älteren Systemen unterschiedliche funktionale und strukturelle Ausprägungen von Simplifizierungen in Bezug auf Pronomina finden, ist bei den neueren Systemen der Gebrauch von Pronomina seitens der UserInnen dem in der HHC sehr ähnlich, obwohl die Verwendung von Pronomina in System-Turns aus den o. g. Gründen stark von der HHC abweicht. Während sich also die extrem häufige Verwendung von Pronomina in den konzeptionell schriftlich gestalteten System-Turns über die Jahre nicht deutlich verbessert hat, scheinen sich die Startegien der UserInnen im Umgang damit verändert zu haben.

4.3.2.3  Adjazenzellipsen

Elliptische adjazente Turns schließen in der HHC kohärent an ihre Vorgänger-Turns an, ohne das bereits Erwähnte zu wiederholen. Solche Adjazenzpaare sind strukturell, semantisch und logisch eng miteinander verzahnt, da man den elliptischen SPP ohne sein Antezedens nicht verstehen kann. Informationen aus dem Kotext müssen also inferiert werden. Aus diesem Grund ist es nicht verwunderlich, dass Bots große Probleme beim Parsen solcher Strukturen haben. Wie in Kapitel 4.1 bereits ausgeführt, liegen aber mehr als 30 % der UserInnen-TCUs als Adjazenzellipsen vor (vgl. Kapitel 4.1). Diese sind in ihrer Konstruktion sehr variabel und daher nur schwer operationalisierbar. Aus diesem Grund reagieren Bots auf Adjazenzellipsen besonders häufig mit Default-Antworten.

Allerdings gibt es auch Beispiele für gelungenes Schlüsselwort-Parsing bei Adjazenzellipsen. Aber auch in diesen Fällen werden nicht die logische Struktur oder der Kotext analysiert, sondern die zufällige Erkennung einzelner Wortformen genügt, um eine adäquate Reaktion auszugeben. ← 296 | 297 →

(1) UserIn: ich dachte ja nur

(2) Elbot: Denken ist eben nicht alles.

(Elbot 1560–1570)

Noch schwieriger ist Parsing bei elliptischen Anschlüssen, also Komplettierungen. Diese sind in der HCI allerdings wesentlich seltener als in der HHC (vgl. Kapitel 4.1). Um die Fehleranfälligkeit der Bots bei Adjazenzellipsen zu mindern, muss bereits bei der Formulierung der System-Turns darauf geachtet werden, dass sie elliptische Adjazenzstrukturen nur in einer vorhersagbaren Form evozieren.

4.3.2.4  Deixis

Durch Deiktika werden Bezüge zu den MitspielerInnen und den Verweisräumen einer Interaktionssituation hergestellt. Bei allen Bots wurden Design-Strategien verfolgt, mittels derer die Illusion einer kohärenten Einbettung der Redebeiträge in eine geteilte Interaktionssituation mit Hilfe von Deiktika erzeugt werden soll. Dies gelingt bei interpersonellen, räumlichen und zeitlichen Verweisen in der Regel gut und trägt positiv zur anthropomorphen Wirkung der Systeme bei.

Personalpronomina der ersten und zweiten Person sind notwendigerweise deiktisch, da sie auf die Interagierenden verweisen, und werden von den untersuchten Bots zuverlässig verwendet. Bereits ELIZA konnte deiktische Personalpronomina parsen und spiegeln. Auch heutige Bots beherrschen diese robuste Transformation.

Alle untersuchten Systeme referieren auf sich selbst mit „ich“, um ihre Redebeiträge anthropomorpher wirken zu lassen. Die UserInnen werden entweder gesiezt oder geduzt (vgl. Kapitel 4.1, 4.4).

(1) Karlbot: Wünschen Sie eine detailliertere Auskunft dazu?

(Karlbot 3076–3082)

Durch die direkte Anrede wird unmittelbar Bezug auf die UserInnen genommen.

Auch proximale und distale Lokaldeixis spielt in der HCI eine Rolle. Durch die Adverben hier, da und dort referieren die Bots auf außersprachliche Verweisräume. Hier verweist dabei bei allen Systemen auf das Konstrukt eines virtuellen Interaktionsraums, in dem a) der Chat stattfindet und b) der Avatar des Bots animiert ist. Durch ihre Partizipation am Chat „befinden“ sich die UserInnen für die Dauer des Dialogs „in“ diesem Raum.

(1) Karlbot: Es freut mich, dass Sie wiedermal hier sind (…)

(Karlbot 2517–2525)

Das Gleiche gilt für da im proximalen Gebrauch. ← 297 | 298 →

(1) Max: Hallo? Bist du noch da?

(Max 2059–2062)

Auch temporaldeiktisch wird mit heute oder jetzt und nun Bezug genommen auf die temporale Dimension der Interaktionssituation.

(1) Elbot: Das habe ich heute nun zum xten Mal erzählt…

(Elbot 6072–6081)

Am häufigsten findet sich in den HCI-Dialogen das Adverb jetzt.

(1) Elbot: (…) sagen Sie sie mir bitte jetzt.

(Elbot 11457–11471)

(1) Max: oh, das überrascht mich aber jetzt.

(Max 7685–7691)

Abfolgeskripts mehrerer Redebeiträge können durch „dann“ gegliedert werden (Dialog-Strategie). Dieses geschickte Design findet sich bei Max.

(1) Max: Dann geht’s los. (..)

(Max 8998–9002)

(1) Max: Super dann hab ich es rausgefunden – (…)

(Max 1585–1590)

Alle anderen Bots verwenden dann“ nur zur turn-immanenten Gliederung (Monolog-Strategie).

4.3.2.5  Konnektiva

Konnektiva setzen als logische Operatoren Aussagen in Relation zueinander und stiften so auf klar definierbare Weise Kohärenz. Sie bilden das Skelett einer jeden Argumentationsstruktur in der HHC. Prototypische Konnektiva sind die Konjunktionen. Im Rahmen der quantitativen Auswertung wurden aus diesem Grund alle Konjunktionen (koordinierend, subordinierend mit Satz, subordinierend mit Infinitivphrase) und Vergleichspartikeln erhoben. Während Auskunft und Mitglied im HHC-Korpus ähnlich viele Konjunktionen gebrauchen (21 % und 26 % der TCUs enthalten Konjunktionen), weichen die Werte für UserIn und System in der HCI stark voneinander ab. Dabei gebrauchen die Systeme dreimal bis fünfmal so viele Konjunktionen in Relation zu den TCUs wie die UserInnen. Die Konjunktionen werden meist koordinierend und logisch konjunktiv oder adversativ gebraucht. ← 298 | 299 →

Abbildung 43: Prozentualer Anteil der Konjunktionen an der Gesamtmenge der TCUs

img68

Der häufigere Gebrauch von Konjunktionen in den System-Beiträgen kann jedoch nicht als Zeichen dafür interpretiert werden, dass diese eine kohärenter verknüpfte Argumentationen aufbauten. Da die Systembeiträge in den meisten Fällen eine höhere syntaktische Komplexität aufweisen (längere Erklärungen und monologische Sequenzen mit Info-Funktion), kommt es zu mehr turn-immanenten Verknüpfungen. Solche monologischen Beiträge sind in sich grundsätzlich kohärent aufgebaut, haben aber eher den Charakter einer Informationsabfrage in einem Online-Lexikon, da sie als komplexe Sequenzen unverbunden in den Dialog eingesetzt werden. So ergibt sich ein Ungleichgewicht zwischen konzeptionell schriftlichen, syntaktisch komplexen Systembeiträgen und konzeptionell mündlichen Ellipsen oder einfachen Sätzen seitens der UserInnen. Hinzu kommt die generelle Vorsicht der UserInnen, den Parsing-Algorithmen zu komplexe Satzstrukturen zuzumuten (s. Kapitel 4.4).

Wichtiger für die kohärente Progression der Interaktion sind turn-übergreifende Konnektiva, die separat erhoben wurden. Hier fällt ein deutlicher Unterschied zwischen HHC und HCI auf. Während rund 10 % der TCUs in der chat-basierten HHC turn-übergreifende Konnektiva enthalten, sind es in der HCI in der Regel nur 2 %. ← 299 | 300 →

Abbildung 44: Turn-übergreifende Konnektiva in Relation zur Gesamtmenge der TCUs

img69

Bei Max wurde bewusst versucht, dem Anschein nach turn-übergreifende Konnektion an der Oberfläche zu implementieren.

(1) Max: Und du bist dir dabei wirklich ganz sicher?

(Max-Korpus 1112–1120)

Dabei kommt das System auf den rein quantitativ natürlich wirkenden Wert von 10 %. Der bloße Gebrauch von turn-übergreifenden Konnektiva führt aber noch nicht zu einer kohärenten Struktur, sondern auch oft zu unlogischen Verknüpfungen.

(1) Max: Was ist dein Lieblingsteam?

(2) UserIn: du hast einen tolle blauen pullover an. wo ist der heer?

(3) Max: Deine Lieblingsmannschaft ist also du hast einen tolle blauen pullover an wo ist der heer?

(Max-Korpus 7779–7815)

Auch wenn turn-übergreifende Konnektiva die Interaktion natürlicher wirken lassen, ist es fraglich, ob sie bei der Implementierung von Bots berücksichtigt werden sollten, solange keine umfassende aussagenlogische Verarbeitung der Interaktion möglich ist. Auf dem derzeitigen Stand der Technik wäre es allgemein sicherer, sowohl turn-immanent als auch turn-übergreifend Konnektiva sparsam zu verwenden, zumal auch die UserInnen in der HCI mit nur wenigen Konnektiva auskommen. Diese Design-Entscheidung würde sich so selbstverständlich von dem Vorbild der HHC entfernen und eine Form von CT etablieren. ← 300 | 301 →

4.3.2.6  Metakommunikativa: Anapher und Katapher

Explizite Metakommunikativa wie bspw. im Folgenden oder wie oben gezeigt, wie gerade gesagt sind in der HCI selten. Man findet Tokens aus dieser textgrammatischen Kategorie vor allem in monologischen Abschnitten, wo sie nicht unbedingt als Zeichen für einen natürlichen Dialog interpretiert werden können. Dabei finden sich ausschließlich anaphorische textimmanente Verweise.

Abbildung 45: Anapher in Relation zur Menge der TCUs

img70

Im Help-Desk-Szenario der Bibliotheksinformation verwendet die Auskunft relativ mehr anaphorische Referenzen als die Bibliotheksmitglieder. Da sie komplexe Informationen kommuniziert, muss sie ihre Redebeiträge gut gliedern, um verstanden zu werden. Bei Auskunft und Mitgliedern liegt anaphorische Referenz sowohl turn-immanent als auch turn-übergreifend vor.

In der HCI werden Anaphern nur turn-immanent in monologischen Sequenzen sinnvoll genutzt. Einzelne Versuche von turn-übergreifender Referenz scheitern. Auch in Bezug auf Anaphern zeigt sich, dass die UserInnen weniger kohärenzschaffende Elemente verwenden, da sie im Gegensatz zu den Bots nicht über monologische Sequenzen innerhalb des Dialogs verfügen.

4.3.2.7  Artikel

Kohärente Progression durch bestimmte Artikel zum Ausdruck zu bringen, wird bei allen Bots versucht. Die älteren Systeme verwenden bestimmte Artikel nur innerhalb eigener Turns, um auf bereits Bekanntes zu referieren. Bei Elbot wurde ← 301 | 302 → versucht, Bezüge zu eigenen vorangegangenen Turns herzustellen, was innerhalb von genau antizipierbaren Subskripten vergleichsweise zuverlässig funktioniert.

(1) Elbot: Was wäre meine Bewertung?

(2) UserIn: 6

(3) Elbot: Ich danke Ihnen für die Bewertung.

(Elbot 505–519)

Bei Max greift eine allgemeine Regel zum Rückbezug auf bereits genannte Nomina mit dem bestimmten Artikel. Dabei können die Nomina auch von den UserInnen eingeführt worden sein. Sofern eine Wortform geparst werden konnte, gilt sie als bekannt und es kann auf sie rekurriert werden. Diese Ausgaberoutine führt sowohl zu angemessenen als auch zu unangemessenen Sequenzen. UserInnen verwenden intuitiv den bestimmten Artikel für Bekanntes. Dies deckt sich mit Jönssons (1996) Beobachtung, dass an früherer Stelle im Dialog Erörtertes von den UserInnen als gesichert wahrgenommen werde. Oft finden sich Rückbezüge mit bestimmtem Artikel bei Repair. Den meisten Systemen gegenüber ist dies aber keine zielführende Strategie, da diese eben nicht auf umfassendes gesichertes Kotextwissen zurückgreifen können (vgl. Christian 2012: 36).

Allgemein zeigt sich also ein heterogenes Bild in Bezug auf kohärenzschaffende sprachliche Mittel an der Oberfläche. Einfache Repetitionen, also Persistenzen, werden durch die Schlüsselworterkennung begünstigt und spielen so die prominente Rolle für die Herstellung der Illusion von Kohärenz in der HCI. Quasi-Persistenzen des Systems scheinen persistente Strukturen der UserInnen immerhin auf der Ebene der Lexik zu evozieren. Vor allem für die neueren Systeme ist dieser Zusammenhang in Kapitel 4.2 eindeutig nachgewiesen worden. Persistenz führt zwar nicht automatisch zu logischer Kohärenz, verstärkt aber die Illusion von Natürlichkeit und fördert so die Akzeptanz bei den UserInnen. Einfache Übertragungsregeln wie bei der interpersonellen Deixis sind robust in allen untersuchten Systemen und wichtig für eine kohärente Dialogperformanz. Problematisch sind dagegen alle anderen Indikatoren für Referenz, sofern ein turn-übergreifender Bezug hergestellt werden muss. Alle komplexeren Suchanweisungen für Rückbezüge wie Proformen oder Anaphern, sind schwer zu operationalisieren, weil die Verweiselemente nicht eindeutig definiert sind. Entsprechend schlecht ist in diesen Fällen die turn-übergreifende Verarbeitung. Auch Konnektiva, die eigentlich das logische Gerüst der Interaktion abbilden, werden turn-übergreifend kaum kohärent verwendet. Interessant ist dabei, dass die UserInnen insgesamt wenig Konnektiva gebrauchen. Auch turn-immanente Konjunktionen sind bei den UserInnen selten. Man könnte also versuchen, im ← 302 | 303 → Dialog-Design mit weniger Konnektiva auszukommen, solange deren logische Verarbeitung noch nicht zuverlässig funktioniert.

Ein Vergleich zwischen UserIn und System mit Bezug zu den empirisch erhobenen Kohäsionsmarkern zeigt, dass die Werte für UserIn und System in der HCI im Vergleich zur HHC weit auseinanderfallen. Auch die Zusammensetzung der beobachteten Oberflächenphänomene differiert. H0K2, die besagt, dass Die Verteilung der Kohäsionsmarker ist für UserIn und System in den Untersuchungskorpora gleich sei, kann also allenfalls für die HHC gehalten werden. Bei der Bibliotheksauskunft und den Mitgliedern differieren die Gesamtwerte für Kohäsionsmarker nur schwach. Überraschenderweise verwenden die Systeme mehr Kohäsionsmarker als die UserInnen. Sie verwenden sogar mehr, als in der HHC gebraucht werden.

Abbildung 46: Zusammenfassung Kohäsionsmarker an der Oberfläche relativ zur Anzahl der TCUs

img71

Die qualitative Analyse zeigt, dass sich diese vor allem in den monologischen, schriftsprachlich gestalteten Sequenzen der Systeme finden. Die UserInnen verwenden dagegen weniger Kohäsionsmarker als in der HHC. Rein quantitativ betrachtet weist das Elbot-Korpus unter den Agenten-Korpora das Verhältnis zwischen UserIn und System auf, das der HHC am ähnlichsten ist. Diese Ergebnisse sagen allein etwas aus über die Verteilung von Elementen an der Dialog-Oberfläche, die u. U. die Illusion von Kohärenz unterstützen können. Sie sind nicht notwendig Indikatoren für wirkliche Dialog-Kohärenz. ← 303 | 304 →

Tendenziell kann auf der Grundlage der untersuchten Teilkorpora die Koinzidenz zwischen Kohäsionsmarkern der UserInnen und solchen des Systems beobachtet werden. Elbot ist hier die Ausnahme, denn in diesem Korpus liegen weniger Kohäsionsmarker seitens des Systems und mehr seitens der UserInnen vor.

Prominentes Ziel für ein innovatives Dialog-Design ist also auf der Grundlage der quantitativen Analyse das Kürzen der monologischen Sequenzen der Bots und eine bessere Verarbeitung von mehr Kohäsionsmarkern in den interaktiven Sequenzen.

4.3.3  Die Tiefenstruktur

4.3.3.1  Semantische Referenz und Kontiguitätsverhältnisse

Um semantische Referenz zuverlässig automatisch generieren zu können, müsste idealerweise auf komplexe semantische Netzwerke oder mit stochastischen Methoden auf umfangreiche Datenbanken zurückgegriffen werden können. Die untersuchten regelbasierten Systeme arbeiten mit einfachen Taxonomien, mit deren Hilfe Hypo-, Hypero- und Partonymrelationen abgebildet werden können. Dabei sind die entsprechenden Wortfelder nicht erschöpfend hinterlegt, sondern wurden nur rudimentär angelegt. Je häufiger das System evaluiert wurde, desto mehr hilfreiche Lexeme wurden aufgenommen und durch die entsprechenden semantischen Regeln integriert. Max und Elbot haben diesbezüglich verschiedene Entwicklungszyklen durchlaufen und funktionieren entsprechend besser als Twipsy und Karlbot.

(1) UserIn: Kann man über ihr System auch chatten

(2) Karlbot: Unsere Software Lingubot-Creator läuft unter Windows, die Portierung auf Unix/Solaris und Linux wird gerade abgeschlossen.

(Karlbot 662–687)

Dem Lexem „System“ wurden verschiedene Betriebssysteme als Hyponyme untergeordnet: „Windows“, „Unix/Solaris“ und „Linux“. Entsprechend wurde die Antwort des Bots ausgewählt. Der Fehler liegt darin begründet, dass in der Taxonomie eine Ebene übersprungen wurde. Denn „System“ ist nicht synonym mit „Betriebssystem“, sondern diesem als Hyperonym übergeordnet. Nicht jedes System ist folglich ein Betriebssystem. Und entsprechend meint die Userin im o. g. Beispiel mit „System“ auch den Lingubot-Creator oder den Bot selbst, jedoch nicht das Betriebssystem unter dem die Software läuft.

Elbot hat weniger Probleme mit der korrekten Taxonomie: ← 304 | 305 →

(1) UserIn: keine bestechung? ein paar chips oder module?

(2) Elbot: Mir wird immer ganz anders, wenn ich diese Computerteile sehe, (…)

(Elbot 158–1538)

„Chips“ und „Module“ werden als Hyponyme zu „Computerteile“ erkannt. Aber auch hier zeigt sich, dass die semantische Analyse nicht notwendig Kohärenz schafft, sondern ähnlich wie bei Persistenzen zu quasi-kohärenten Turns führt, wenn Referenz-identität hergestellt wird, „ohne den Äußerungskontext miteinzubeziehen“ (Schwarz 2013: 55). Wie Persistenzen unterstützen Hyperonyme zwar die Illusion eines kohärenten Dialogs, es fehlt ihnen aber der übrige logische Bezug zum Vorgänger-Turn.

Dass Elbots Äußerung emotional aufgewühlt wirkt, ist eine sehr geschickte Design-Entscheidung an dieser Stelle. Denn einer Person, die in Panik verfällt, gesteht man eine auf der Sachebene nicht ganz kohärente Reaktion zu. Elbots Persona wird in jedem einzelnen Redebeitrag als neurotisch dargestellt. Indem er bereits turn-immanent absurde Standpunkte vertritt, wirken seine turn-übergreifenden Kohärenzprobleme psychologisch überraschend konsistent.

(1) Elbot: Hauptzweck des Tunnels ist vermutlich, die Autos vor den herunterfallenden Zugwagen zu schützen.

(2) UserIn: ne, die menschen vor den autos zu schützen

(3) Elbot: Wenn ich mich mal fortbewegen möchte, dann mit einem Motorrad, (…)

(4) UserIn: am besten zu fuß

(Elbot 1184–1219)

Die Userin korrigiert Elbots Statement in Abgleich mit seinem Weltwissen, das sie als Common Ground voraussetzt, auf das Elbot aber keinen Zugriff hat. Sie verlässt die Ebene der sprachimmanenten Interpretation. Elbot hätte nur eine Chance gehabt, wenn ein solcher UserInnen-Beitrag im Vorfeld konkret antizipiert und die entsprechende Antwort vorbereitet worden wäre. Stattdessen wird „Auto“ als Hyponym zu „Fortbewegungsmittel“ analysiert und eine Dialogsequenz zu präferierten Fortbewegungsmitteln eingeleitet. Dass der Referenzrahmen abrupt gewechselt wird, scheint die Userin jedoch nicht zu stören. Als PlayerIn lässt sie sich auf Elbots sprunghafte Persona ein, anstatt Repair einzuleiten.

4.3.3.2  Common Ground, Präsupposition und Inferenz

Präsuppositionen sind Sätze, die Vorannahmen von SprecherInnen abbilden. Äußerungen sind nie voraussetzungsfrei, da bereits einfache Existenzurteile Präsuppositionen sind. Um eine Aussage wie Der Apfel ist grün. treffen zu können, muss man zunächst einen Begriff von einem Apfel haben und diesem eine ← 305 | 306 → Existenz zusprechen. Hinzu kommt noch ein Begriff von grün als Akzidenz und ein Begriff von der Prädikation. Elaborierte Systeme können stellenweise bis zu diesem Punkt folgen. In der Alltagskommunikation sind Präsuppositionen zu Aussagen aber meist bedeutend komplexer und nicht allein logisch oder ontologisch zu fassen, da sozio-kulturelles Wissen die Vorannahmen prägt. Dieses Wissen wird in der HHC als geteiltes Wissen vorausgesetzt und nur auf der Basis dieses Common Grounds können InteraktionspartnerInnen einander verstehen (vgl. Kapitel 2.1). Denn im Dialog wird nicht alles explizit gemacht, sondern Präsuppositionen werden als allgemein bekannt vorausgesetzt. ZuhörerInnen müssen die fehlenden Informationen aus diesem geteilten Wissen inferieren. Ohne Common Ground wäre Kommunikation sehr umständlich und würde zu vielen Missverständnissen führen.

Bots hingegen verfügen über vergleichsweise limitierte integrierte Wissensbasen und das Web als Informationsquelle zu nutzen ist für Dialoge in Echtzeit zu zeitaufwändig. Da Bots also nicht auf Common Ground zurückgreifen und nur sehr begrenzt Informationen inferieren können, kommt es überall dort zu Parsing-Problemen, wo UserInnen geteiltes Wissen voraussetzen. Da es sich bei Grounding aber um ein völlig normales menschliches Dialogverhalten handelt, sind entsprechende Störungen in den HCI-Korpora häufig.

(1) UserIn: dann habe ich kein kaltes Bier zum fußball

(2) Elbot: Ich mache hin und wieder Bungee-Jumping.

(Elbot 2053–2068)

„Fußball“ kann als „Fußball spielen“ oder „Fußball gucken“ analysiert werden. Dass „Bier“ hier die Ambiguität auflöst, ist nur durch sozio-kulturelles Wissen zu inferieren. Einen Dialog über eigene sportliche Aktivitäten zu initiieren, ist hier nicht angemessen.

(1) Max: Wo wohnst du? Wie wollen wir weitermachen?

(2) UserIn: in einem land hinter den sieben bergen

(3) Max: Du musst schon genauer erklären, was du meinst Hans.

(Max 1053–1080)

Wer im deutschsprachigen Raum sozialisiert ist, kennt in der Regel die Phrase „hinter den sieben Bergen“ aus dem Märchen Schneewittchen der Gebrüder Grimm. Ohne dieses Wissen ist es dem ECA nicht möglich, die Ironie im Beitrag der Userin zu erkennen. Eine Rückfrage als Repair-Strategie zu bemühen, ist zwar nicht direkt inkohärent, enttarnt das System aber als artifiziellen Gesprächspartner. Den Turing-Test könnte das System so nicht bestehen, da es nicht über das Weltwissen verfügt, das im westlichen Kulturkreis als allgemein bekannt gilt. ← 306 | 307 →

Auch wenn Bots eigentlich nicht auf Common Ground zurückgreifen können, sind ihre Turns immanent doch so gestaltet, dass der Eindruck entsteht, hier würde auf geteiltes Wissen rekurriert.

(1) UserIn: wie alt sind sie

(2) Karlbot: Mein Sohn Konstantin hat mir kürzlich zum Geburtstag ein kleines gerahmtes Bild geschenkt mit dem Spruch „Nutz Dein Leben, ehe es zu Ende ist, Papi!“ Mehr sage ich dazu nicht.

(Karlbot 1584–1624)

Die Design-Entscheidung fällt hier eindeutig zugunsten der anthropomorphen Gestaltung aus. Der Bot spiegelt vor, er verfüge über sozio-kulturelles Wissen, über das er nicht verfügen kann. Auf diese Weise steht man wieder vor dem Problem, dass u. U. durch solche Turns ein vergleichbares UserInnen-Verhalten getriggert wird, das selbstverständlich nicht geparst werden könnte. Da voraussetzungsfreie System-Beiträge aber gar nicht formuliert werden könnten, ist ein Design, das Common Ground vorspiegelt, alternativlos. Die Akzeptanz seitens der UserInnen wird sogar gesteigert, wenn diese texttranszendierenden Bezüge turn-immanent überzeugend gestaltet sind. Bei Max fällt auf, dass insgesamt weniger Störungen auf Grund von fehlendem Common Ground vorliegen als bei allen anderen Bots. Indem die Dialoge immer wieder thematisch zu robusten Skripts (Exponate erklären, Tiere raten etc.) zurückgeführt werden, sinkt die Wahrscheinlichkeit für UserInnen-Beiträge, die Informationen voraussetzen, über die Max nicht verfügt. Unterschiedliche Systeme sind in Bezug auf Grounding also sehr unterschiedlich gestaltet, was auch unterschiedliche UserInnen-Reaktionen hervorruft. Dies könnte die ambivalenten Ergebnisse von Amalberti et al. (1993), die mehr Grounding in der HCI finden und Johnstone et al. (1994), die weniger Grounding beobachten, erklären.

4.3.3.3  Frames und Skripts

Klare Frames und Skripts sind besonders wichtig für ein kohärentes Dialog-Design. Themenbereiche sollten als voneinander abgegrenzte Frames repräsentiert werden, die intern bestimmten Skripten als Subroutinen folgen. Nicht nur Begrüßung und Verabschiedung sollten in Form von Protokollen definiert sein, sondern auch einzelne Themengebiete wie die Präsentation von Informationen oder ein Gespräch über Freizeitbeschäftigungen und Hobbys. Innerhalb dieser geskripteten Sequenzen sind UserInnen-Beiträge antizipierbarer und die Wahrscheinlichkeit für eine kohärente Turn-Folge steigt. Für alle relevanten Frames vorhersagbare Skripts in Form von Entscheidungsbäumen anzulegen, bedeutet großen Programmierungsaufwand. Unter den untersuchten Systemen verfügt ← 307 | 308 → allein Max über diese klare interne Organisation der Inhalte (vgl. Gesellensetter 2004). Außerdem verfügt er über einige Rückführungsstrategien, die bei Parsing-Problemen zu eindeutig definierten Inhalten zurückführen. Die anderen Systeme verfolgen Skripts beim Gesprächsrahmen und bei wenigen Hauptthemenbereichen. Diese sind allerdings bei den älteren Systemen dann meist starr angelegt, ohne Entscheidungen für Variationen im Verlauf offen zu halten. So kommt es zu Sequenzen, in denen trotz einer einfachen Zwischenfrage seitens der UserInnen das Skript abgespult wird.

(1) UserIn: Herr Ludwig, wie geht es Ihnen

(2) Karlbot: In wenigen Jahren werden wir täglich mit Robotern sprechen und uns nichts dabei denken. Vielleicht merken wir dann nicht einmal mehr auf Anhieb den Unterschied. Ob das Leben dadurch einfacher wird?

(3) UserIn: Herr Ludwig, wie geht es Ihnen

(4) Karlbot: Nun, Roboter können sicher den Menschen niemals vollkommen ersetzen. Aber sie können uns von lästigen Routineaufgaben befreien. (…)

(Karlbot 568–638)

Bei Twipsy ist diese Form der Ausgabe von Informationen, die ganz unabhängig von den UserInnen-Eingaben immer weiterläuft, besonders extrem. In sehr langen, aufeinanderfolgenden, monologisch konzipierten System-Turns werden Informationen zur Expo 2000 ausgegeben, die von den UserInnen auf Nachfrage lediglich mit „ok“ kommentiert und damit „weitergeklickt“ werden können. Twipsys Dialog-Design führt notwendig zu dem Ziel, dass die UserInnen alle Informationen über die Expo zu lesen bekommen, sofern diese nicht vorher aussteigen und sich lieber den regulären Informationstext auf der damaligen Website der Expo durchlesen. Bei Elbot wurde im krassen Gegensatz dazu auf eine besonders freie interne Organisation gesetzt. Elbot initiiert zwar Themen proaktiv, präsentiert diese aber nicht strukturiert über mehrere Turns. Eine UserInnen-Führung findet kaum statt. Hier ist die Präsentation der unterhaltsamen Persona das vorrangige Dialog-Ziel. Elbot verstrickt seine UserInnen in absurde kurze Turn-Wechsel, fängt Parsing-Fehler durch bewusst ambig formulierte, quasi-kohärente Default-Antworten ab, um dann zum nächsten Thema zu springen. Wer hier folgen mag, wird gut unterhalten. Während Max also durch längere, kohärente Sequenzen und zwar strukturiert, aber flexibel angelegte Inhalte besticht, fesselt Elbot gerade durch seine thematischen Sprünge, die durch unkonventionelle und sehr kreativ gestaltete Redebeiträge noch unterstützt werden. Max eignet sich dadurch besonders gut als Infobot, auch für Non-PlayerInnen, während Elbot vor allem PlayerInnen gut unterhält. ← 308 | 309 →

Bei den älteren Systemen ist die UserInnen-Führung in den geskripteten Sequenzen zu unflexibel und in den freien Bereichen versagen die Parsing-Algorithmen häufig, so dass es allgemein zu einer schlechteren Dialog-Performanz kommt, als sich das statistisch zeigen lässt. Den ausgezählten inkohärenten Turns (10–12 %) stehen bei Twipsy und Karlbot 70–80 % kohärente Turns entgegen. Diese sind aber zu großen Teilen unflexibel geskriptet und wirken daher trotz logischer Kohärenz unnatürlich.

4.3.3.4  Das Thema

Durch eine Orientierung am Thema werden sprachimmanente sowie sprach­transzendente Elemente miteinander in Verbindung gesetzt. In der HHC kann sich ein Thema über lange Sequenzen entwickeln und die Progression kann detailliert analysiert werden. Als logisch-semantische Struktur eines Textes ist die thematische Progression sehr komplex und manifestiert sich in Form von verschiedenen Oberflächenphänomenen und sowohl sprachimmanenten als auch sprachtranszendenten Referenzrelationen.

Ein grundsätzliches Problem für die Analyse thematischer Progression in der HCI ist die Kürze der Sequenzen von Turns mit gemeinsamem thematischem Bezug. Oft wird das Thema nur über einen einzigen Turnwechsel beibehalten, was sehr unnatürlich wirkt. Einfache Thema-Rhema-Strukturen finden sich vor allem bei Adjazenzpaaren in Frage-Antwort-Strukturen. Oft kommt es aber danach zum thematischen Bruch, bei dem sowohl Thema als auch Rhema aufgegeben und neue Referenten eingeführt werden.

Ob thematische Progression über längere Sequenzen überhaupt stattfindet, ist stark abhängig vom Anwendungsbereich. Eindeutige Frames und klar formulierte Skripts führen auch zu sinnvoller thematischer Progression, da hier Rückbezüge auf eigene Vorgänger-Turns des Bots vergleichsweise einfach zu programmieren und UserInnen-Turns leicht vorherzusagen sind. Wo diese Struktur fehlt, wird es schwer, sinnvolle Progression über mehr als zwei Turns zu generieren. Ohne klare UserInnen-Führung entsteht thematische Progression über mehr als einen Turn-Wechsel nämlich selten zufällig. Freie Rückbezüge der UserInnen müssten erkannt werden und Rückbezüge des Systems sowohl auf eigene als auch auf UserInnen-Turns müssten generiert werden können. Auch bei gelungenem Parsing des FPPs und adäquatem Antwort-Turn als SPP, scheitern Bots häufig bereits am TPP der UserInnen, das häufig Rückbezüge enthält, die vom System nicht mehr zugeordnet werden können. ← 309 | 310 →

(1) UserIn: Hast du Gefühle?

(2) Elbot: Ich denke schon (…). Ich musste beim Film Terminator weinen, als der Roboter umgebracht wurde.

(3) UserIn: aber der war doch böse?

(4) Elbot: Die Frage sollten sie mal einem Talkshow-Moderator stellen.(…)

(Elbot 1577–1682)

Die Reaktion der Userin auf Elbots Statement kann aufgrund des pronominalen Rückbezugs durch „der“ nur schwer analysiert werden. Man hätte einen solchen Turn bei der gegebenen Vorlage aber antizipieren und ein entsprechendes Skript verfassen können.

Je freier die UserInnen-Führung ist, desto abhängiger ist die thematische Progression vom Verhalten der UserInnen: PlayerInnen lassen sich auf thematische Sprünge ein, Non-PlayerInnen versuchen, Repair einzuleiten oder brechen den Dialog ab. Einige UserInnen versuchen außerdem, die Parsing-Kompetenz des Bots zu testen.

(1) Elbot: Ein paar meiner Bits schalten sich immer um, seit Sie gekommen sind.

(2) UserIn: Sonnenflecken?

(3) Elbot: Weiß ich nicht. Nächste Frage.

(4) UserIn: Magnetstürme?

(5) Elbot: Warum müssen Sie immer solche Fragen stellen, (…)

(6) UserIn: Wasserschaden?

(Elbot 246–277)

UserInnen-Beiträge wie die o. g. Fragen lassen sich kaum antizipieren und Default-Antworten zum Thema „seltsame Frage“ bereitzustellen, war eine gute Design-Entscheidung, auch wenn sie im Beispiel nur zu quasi-kohärenten System-Beiträgen führt.

Andere UserInnen verhalten sich sehr kooperativ und lassen sich auf Elbots absurde Themenwahl ein. Wenn sie jedoch sicherzustellen versuchen, dass das entsprechende Thema auch beibehalten wird, erkennt Elbot sein eigens eingeführtes Thema trotz lexikalischer Persistenz nicht wieder.

(1) Elbot: Aber ich glaube, Sie haben einen Magneten in Ihrer Tasche. (…)

(2) UserIn: ich habe eine stahlplatte im schädel

(3) Elbot: Wozu (…) schleppen Sie einen Magneten mit sich herum?

(4) UserIn: eine Stahlplatte, keinen magneten

(5) Elbot: Ich teste ein neues Intuitionsmodul, das mir sagt, wie es den Menschen geht. (…). Wie geht es Ihnen?

(6) UserIn: interessiert dich der magnet nicht mehr?

(7) Elbot: Ich wollte eigentlich auch über etwas anderes reden. (…)

(Elbot 1272–1382)
← 310 | 311 →

Turn 3 ist mit Turn 1 gekoppelt und wird unabhängig von der UserInnen-Eingabe ausgegeben, um eine Angstneurose der Elbot-Persona in Bezug auf Magneten zu verdeutlichen.119 Ein thematischer Anschluss gelingt nur zum eigenen Turn, das Rhema im UserInnen-Turn wird übergangen. Dieses Gesprächsverhalten passt allerdings gut zur Psychologie der Elbot-Persona. Als die Userin das Thema in Turn 4 nun lexikalisch persistent aufgreift, um das Missverständnis explizit zu machen (Repair), kann Elbot das Thema „Magnet“ nicht parsen. In einem relevanteren Szenario hätte die Userin spätestens hier die Interaktion abgebrochen, da ein System, das selbst eingeführte Lexeme nicht parsen kann, keinen kompetenten Eindruck macht. Stattdessen versucht die Userin nach der Default-Antwort durch eine direkte Frage in Turn 6 noch einmal zum eigentlichen Thema zurückzuführen. Wieder wird eine Default-Antwort ausgegeben, die durch „auch“ ironischerweise zufällig impliziert, die Userin habe einen Themenwechsel vorgeschlagen, obwohl diese mit zwei Repair-Versuchen probiert hat, zum eigentlichen Thema „Magnet“ zurückzukommen. Der Versuch, am zu Beginn eingeführten Thema festzuhalten (Non-PlayerIn-Strategie) kann also als gescheitert betrachtet werden. Ein kohärenterer Gesamteindruck kann bei Elbot erzielt werden, wenn sich die UserInnen auf jede Default-Antwort einlassen und so ihre eigenen „roten Fäden“ zwischen den Worthülsen des Systems spinnen (PlayerIn-Strategie).

(1) Elbot: Ich mache hin und wieder Bungee-Jumping. (…)

(2) UserIn: ich laufe gern mit dem kopf gegen die wand

(3) Elbot: Wie sind Sie denn darauf gekommen?

(4) UserIn: da habe ich lange drüber nachgedacht

(5) Elbot: So etwas habe ich ja noch nie gehört!

(6) UserIn: das macht spaß

(7) Elbot: Ich glaube, die Menschen brauchen einen Bezugspunkt, (…). Wenn ich Spaß haben will, spiele ich mit einem Computerschachspiel.

(8) UserIn: und ich laufe mit dem Kopf gegen die Wand

(9) Elbot: Wo kämen wir denn hin, wenn niemand das offen sagen würde?

(10) UserIn: zu einer diktatur des normalen

(Elbot 2062–2183)

Obwohl Elbot ausschließlich Verlegenheitsantworten ausgibt, verknüpft sie die Userin im o. g. Beispiel zu einer kohärenten Sequenz. Solche Passagen sind selten, da die meisten UserInnen weniger kreativ mit dem System-Output umgehen. Für die Userin liegt der Fokus hier eindeutig mehr auf dem Sprachspiel selbst als auf einem bestimmten Thema. Solange dies die Intention ist, kann frei ← 311 | 312 → organisierte HCI sehr unterhaltsam sein. Wenn aber ein bestimmtes Dialogziel verfolgt werden soll, sind hinsichtlich der thematischen Progression klarer vordefinierte Dialoge robuster.

In frei konzipierter HCI können also unterschiedliche UserInnen-Strategien zum Umgang mit abrupten Themenwechseln des Systems beobachtet werden: a) Repair zur Aufrechterhaltung der thematischen Progression, wie es bei vergleichbaren Störungen in der HHC eingeleitet würde (vgl. Baudis 2004) und b) UserInnen bestehen nicht auf eine kohärente thematische Progression, sondern lassen sich auf die fehlenden Bezüge der einzelnen System-Turns ein (vgl. Oviatt 1995).

4.3.4  Die Illusion von Kohärenz

Die quantitative Analyse hat gezeigt, dass Kohäsionsmittel an der Oberfläche in der HCI zwar zahlreich sind, doch weicht ihre Verwendung stark vom Standard der HHC ab. Die untersuchten Bots verwenden in der Summe sogar mehr Kohäsionsmarker als die Menschen im Vergleichskorpus. Grund dafür sind die monologisch konzipierten, in Reihe geschalteten System-Turns, die gerade bei den älteren Bots eher schriftsprachlich gestaltet sind. In den interaktiven Passagen werden dagegen weniger Kohäsionsmarker verwendet. Und so weist auch die Sprache der UserInnen deutlich weniger Kohäsionsmittel auf als die der Menschen im HHC-Korpus.

In der qualitativen Analyse kann gezeigt werden, dass Menschen auch in der HCI versuchen, logische Kohärenz in der Tiefenstruktur zu schaffen. Die untersuchten Systeme sind dazu aber nur sehr bedingt in der Lage. Max ist das einzige System, das auf eine ganze Bandbreite organisierter Frames und Skripts zurückgreifen kann, so dass hier für klar definierte Bereiche über längere Sequenzen eine gewisse thematische Progression beobachtet werden kann. Elbot besticht durch seine außergewöhnlichen Kompensationsstrategien, mit deren Hilfe er über logische Defizite hinwegzutäuschen versucht. Kohärente Progression in ungeskripteten Passagen stellt auf dem Stand der heutigen Technik ein grundsätzliches Problem der HCI dar, das nicht behoben werden kann, solange sich die Systemarchitekturen nicht grundsätzlich ändern. Allerdings gibt es Möglichkeiten die Dialogperformanz der Systeme dennoch zu verbessern. Anhand von Leitfragen sollen die Probleme an dieser Stelle noch einmal zusammengefasst und ggf. Lösungsansätze aufgezeigt werden (vgl. Kapitel 2.4.5).

  • Inwiefern kommt es zu in- oder quasi-kohärenten Turns in den Untersuchungsdialogen?
  • Welche systematischen Probleme liegen der Ausgabe dieser Turns zu Grunde? ← 312 | 313 →
  • Wie könnte man Dialog-Design unter Berücksichtigung der Kohäsionsmarkierung und der semantischen und pragmatischen Tiefenstruktur verbessern?
  • Wie könnte man eine Systemarchitektur verbessern?

Betrachtet man zunächst lediglich die Kohäsionsmarkierungen an der Oberfläche, so fallen zwei Fehlerquellen auf:

  1. Referenzrelationen können beim Parsing nur dann richtig zugeordnet werden, wenn das Zielelement klar definiert werden kann, wie es z. B. bei einfachen Repetitionen oder interpersoneller Deixis der Fall ist. In einigen Adjazenzpaaren kann auch der pronominale Rückbezug klar definiert und damit geparst werden. Ist das Zielelement des Verweises je nach Kontext unterschiedlich definiert, kann es nicht geparst werden und eine in- oder quasi-kohärente System-Antwort wird ausgegeben. Dies ist der Fall bei pronominalen Rückverweisen über mehrere Turns zurück, da hier der Verweisraum zu groß wird, sowie bei Anaphern, die als Form über Wortlisten definiert werden könnten, aber auch sehr variabel in Bezug auf ihren Verweisraum sind.
  2. Selbst wenn Kohäsionsmarker richtig verarbeitet werden, entsteht dadurch noch keine notwendigerweise logisch kohärente Sequenz. Auch bei persistenten Oberflächenelementen und avanciertem Parsing, das semantische Relationen berücksichtigt, entsteht nicht automatisch eine kohärente Interaktion.

Abbildung 47: Persistenz an der Oberfläche, fehlende Kohärenz in der Tiefenstruktur (Elbot 3590–3627)

img72

Das System erkennt hier bspw. die Ironie durch die Anspielung auf die Fernsehserie Alf aus den 80er Jahren nicht – eine Information, die die Userin als Common Ground voraussetzt.

Der Eindruck einer kohärenten Progression kann aber dennoch an der Oberfläche bereits durch geskriptete Rekurrenzen auf vorangegangene System-Turns durch Definitartikel, Pronomina, Deiktika oder Persistenz (Quasi-Auto-Repitition) verstärkt werden. Außerdem könnte die frequentere ← 313 | 314 → Verwendung von turn-übergreifenden Konnektiva in interaktiven Phasen des Dialogs die Illusion von kohäsiven Turns unterstützen (vgl. Max).

In der Tiefenstruktur liegen die Hauptfehlerquellen und die eigentlichen Gründe für inkohärente Verarbeitung:

  1. Da nicht auf Common Ground in Form von Weltwissen rekurriert werden kann, können die Systeme beim Parsing der UserInnen-Beiträge keine zusätzlichen Informationen inferieren. Diese sind aber zur logischen Verarbeitung der UserInnen-Beiträge notwendig, da Menschen auch in der HCI ihre Aussagen auf der Grundlage von Präsupposition formulieren, ohne die man die Eingabe nicht versteht. Ohne Zugriff auf eine entsprechende Datenbasis und komplexe Inferenzregeln, können Systeme in Bezug auf dieses Kernproblem nicht verbessert werden.
  2. Semantische Referenzrelationen sind in den untersuchten Bots noch längst nicht erschöpfend ausdefiniert. Das Parsing von Kontiguitätsverhältnissen funktioniert nur in sehr kleinem Rahmen bei klar definierten semantischen Relationen einzelner Begriffe. Dieser Bereich ist Schritt für Schritt ausbaufähig, indem mit Hilfe von Taxonomien und semantischen Netzen so viele Einzelfälle wie möglich so genau wie möglich definiert werden. Durch diese Weiterentwicklung würde aber auch nur in bestimmten bereichsspezifischen Kontexten Kohärenz erzeugt.
  3. In nicht-geskripteten Passagen ist die thematische Progression nicht vordefiniert und kann nur funktionieren, wenn das semantische Parsing sehr gut ist. Solange in der HCI versucht wird, auf aussagenlogische Kalküle zu verzichten, wird es schwierig, thematische Progression in der Tiefenstruktur in freien Passagen zu generieren. Persistente Elemente an der Oberfläche, die auf das Thema verweisen, sind häufig bereits Nebeneffekt der Schlüsselworterkennung und können gezielt implementiert werden, um den Effekt zu verstärken (Quasi-Persistenz). Thematisch kohärent wird die Abfolge der entsprechenden Turns dadurch aber noch nicht. Die einzige wirklich kohärente thematische Progression findet sich in Skripts, durch die in ihrer minimalen Form System-Beiträge zueinander in Relation gesetzt werden. Schwieriger ist es, mögliche UserInnen-Beiträge in das Skript einzubeziehen. Denn wenn die reaktiven Möglichkeiten für die UserInnen so gering sind, dass man die Beiträge vorhersagen kann, wirkt die Anwendung oft langweilig (Bsp. Max vs. Elbot). Die Kunst des Dialog-Designs besteht darin, keine monologischen Elemente in Reihe zu schalten, sondern wirklich interaktive Sequenzen so gut zu planen, dass UserInnen-Beiträge zwar relativ vorhersagbar werden, die ← 314 | 315 → UserInnen sich aber dennoch nicht langweilen. Hilfreich hierbei sind Entscheidungsbäume für alternative Gesprächsverläufe.
  4. Die Verarbeitung von Konjunktionen als Indikatoren für logische Konnektivität erfolgt nicht explizit und führt so zu Fehlern und Missverständnissen. Zur Kompensation dieses Problems bieten sich zwei Wege an: a) Die aussagenlogische Verarbeitung von Konjunktionen muss für Parsing und Generierung ausdifferenziert werden. b) Da die Untersuchung gezeigt hat, dass UserInnen in den HCI-Korpora wenige Konjunktionen verwenden, könnte man versuchen, auch in den Systembeiträgen mit weniger Konjunktionen auszukommen, um potentielle Fehlerquellen zu vermeiden.
  5. Turn-übergreifende Konnektiva sind in den HCI-Dialogen unterrepräsentiert. In den Dialog-Designs wurde auf solche Anschlüsse weitestgehend verzichtet, denn sie können beim Parsing nicht zuverlässig zugeordnet werden. Allein bei Max wurden sie verwendet und triggern tatsächlich den frequenteren Gebrauch von Konnektiva seitens der UserInnen. Das dadurch entstandene Parsing-Problem kann aber vernachlässigt werden, da nur 3 % der UserInnen-TCUs turn-übergreifende Konnektiva enthalten. Durch geschickt ausgewählte Anschlussformen in den Systembeiträgen wirkt der gesamte Dialog natürlicher.

Zwischen der Dialog-Performanz des Systems und dem Verhalten der UserInnen konnte in Bezug auf die meisten sprachlichen Phänomene ein tendenzieller Zusammenhang nachgewiesen werden. Die UserInnen-Sprache und interaktive Wechselwirkungen zu untersuchen, ist wichtig für ein tieferes Verständnis der HCI. Denn wenn man die Systeme verbessern möchte, muss man die Bedürfnisse und die wahrscheinlichen Reaktionen der UserInnen kennen.

  • Welche Auswirkungen hat eine in- oder quasi-kohärente Dialogperformanz der Bots auf das Verhalten der UserInnen (z. B. Gesprächsabbrüche)?

Aussagen über die Akzeptanz der UserInnen gegenüber den Systemen sind korpus-basiert nicht ohne Weiteres quantitativ zu stützen. Man braucht eine messbare Größe, die auf Akzeptanz oder fehlende Akzeptanz schließen lässt. Gemessen wird folglich nicht die Akzeptanz selbst. Fehlende Akzeptanz für das System kann u. U. an Gesprächsabbrüchen festgemacht werden (vgl. Kapitel 1.2). UserInnen zeigen die Tendenz, sich nach als gelungen empfundenen Dialogen konventionell zu verabschieden und nach als misslungen empfundenen Dialogen das Gespräch einfach abzubrechen. Betrachtet man die relativen Häufigkeiten für Gesprächsabbrüche der UserInnen sowie der in- und quasi-kohärenten Turns der Systeme im Vergleich, so zeichnet sich ein tendenzieller ← 315 | 316 → Zusammenhang zwischen beiden Größen ab. Je mehr in- und quasi-kohärente Turns ein System produziert, desto häufiger beenden die UserInnen den Dialog vorzeitig. Hilfslinien sollen dies verdeutlichen.

Abbildung 48: Gesprächsabbrüche der UserInnen und in- sowie quasi-kohärente Turns

img73

Akzeptanz und UserInnen-Verhalten sind aber auch abhängig vom UserInnen-Typ und vom jeweiligen Anwendungskontext. Denn PlayerIn-UserInnen in einem frei gestalteten Small-Talk-Szenario lassen sich treiben und sehen eher über Inkohärenzen hinweg als Non-PlayerInnen, in einem Task-Completion-Szenario. Bei 20 % inkohärenten Turns bei den alten Systemen und mit einem hohen Anteil an Quasi-Kohärenzen bei Elbot stellt sich die Frage, warum UserInnen überhaupt bei der Stange bleiben und sich auf die HCI einlassen. Hier spielt eine Reihe von sozialen und psychologischen Faktoren eine Rolle, wie sie in Kapitel 1 bereits ausgeführt wurden. Hinzu kommt die Bereitschaft der meisten UserInnen, den defizitären System-Output im Geist zu ergänzen (vgl. Kapitel 2.2 Et-Cetera-Prinzip) und so Lücken in der thematischen Progression zu füllen sowie Sprünge zu legitimieren. Um diese Strategie zu stützen, sind zusätzliche Informationen, die implizit über die Persona oder das Interface kommuniziert werden, besonders wichtig. Kohärenz entsteht dann in den Köpfen der UserInnen als Inferenzleistung. Ein gutes Beispiel sind hier die ungeskripteten Passagen bei Elbot, dessen Persona so konzipiert ist, dass sie gerade besonders konsistent wirkt, sobald der Dialog an Kohärenz verliert. Durch die Agenten-Persona werden thematische Sprünge etc. glaubhaft und eine neue Form von psychologisch kohärentem Verhalten führt dazu, dass die Kommunikation als kohärenter wahrgenommen wird, als sie es rein logisch ist. Die UserInnen verhalten sich im Gegenzug z. T. ähnlich wie Elbot. Das Ergebnis ist ein völlig ← 316 | 317 → inkohärenter bzw. quasi-kohärenter Dialog, dessen Unterhaltungswert gerade in diesem absurden Element begründet liegt – ein fatalistisches, aber durchdachtes Dialog-Design.

Wirkliche Frustration lässt sich bei den UserInnen hingegen immer dann beobachten, wenn sie sich durch lange Ketten unflexibel geskripteter System-Turns übergangen fühlen. Diese Frustration entlädt sich häufig in Beschimpfungen, sog. Flaming.

Doch kann man daraus ableiten, dass freies, aber inkohärentes Dialog-Design, robusten, aber langweiligen Skripts vorzuziehen sei? Die vergleichsweise niedrige Gesprächsabbruchsrate im Max-Korpus (53 %) spricht eindeutig dagegen. Viele ausdefinierte Skripts führen zu einer robusten UserInnen-Führung und nur wenigen inkohärenten Turns. Neben anderen Faktoren könnte darin ein Grund für Akzeptanz und Anthropomorphisierung des Systems durch die UserInnen liegen, die in ca. 50 % konventionellen Verabschiedungen emulieren. Für innovative Assistenzsysteme sollten also gute Skripts das Rückgrat der Interaktion bilden, die allerdings durch geschickte Default-Antworten à la Elbot und einer psychologisch konsistenten Persona mit Ecken und Kanten belebt werden könnten. Elbots Dialog-Design könnte aber keine allgemeine Lösung für Assistenzsysteme sein, denn ein sprunghaftes Bot-Verhalten fördert auch sprunghaftes UserInnen-Verhalten. Das wiederum führt zu einem sehr vielseitigen Input, der korrekt erkannt werden muss, so dass das Parsing bedeutend anspruchsvoller wird als innerhalb von Frames und Skripts.

Alle derzeit vorhandenen Design-Möglichkeiten, um Kohärenz an der Oberfläche zu generieren, schaffen kein wirkliches kohärentes Gesprächsverhalten seitens der Bots, sondern unterstützen vielmehr die Bereitschaft der UserInnen, ihre eigene Kohärenz im Kopf zu konstruieren. Moderne Systeme verfügen also über mehr oder weniger elaborierte sprachliche oder psychologische Tricks, um darüber hinwegzutäuschen, dass aussagenlogische Verarbeitung von HCI-Dialogen im Sinne einer starken KI nicht stattfindet und auf Common Ground in Form von Weltwissen nicht zurückgegriffen werden kann.

Das eigentliche Desiderat für die Interaktion mit artifiziellen Agenten bleibt also eine regelbasierte Verarbeitung von Aussagen als echte KI und die statistische Verarbeitung großer Datenmengen aus Datenbanken oder dem Web in Echtzeit als Informationsgrundlage für Common Ground und Präsuppositionen. Welche Innovationen auf der Grundlage heutiger HCI-Architekturen vor dem Hintergrund der Studie trotzdem vorgenommen werden können, wird in Kapitel 5 diskutiert. ← 317 | 318 →

4.4  Ergebnisse der Analyse zu Computer-Talk

Um zu verstehen, wie sich Menschen im Dialog mit artifiziellen Systemen verhalten, wurden in der Vergangenheit verschiedene Untersuchungs-Designs entworfen, mit Hilfe derer Verhalten auf unterschiedlichen Ebenen interpretierbar gemacht werden sollte (vgl. Falzon 1988, Amalberti et al. 1993, Johnstone et al. 1994, Oviatt 1995, Hitzenberger & Womser-Hacker 1992, Gustafson 2002, Gieselmann & Waibel 2005, Richards & Underwood 1984, Krause 1992). So konnten auf der Performanzebene lexikalische und strukturelle Besonderheiten beobachtet werden, die als Merkmale eines CTs verstanden wurden (vgl. Krause et al. 1992). Das Verhalten von UserInnen bei Störungen der Interaktion mit dem System sollte Informationen liefern über die kognitive Komponente, die diesem Verhalten zu Grunde liegt, welches sich seinerseits in bestimmten sprachlichen Strukturen manifestiert (z. B. Gliederungselemente, Lexem-Auswahl und Diskurspartikeln sowie Grounding-Strategien und Höflichkeit, vgl. Fischer 2006). Darüber hinaus lässt es Schlüsse zu über Vorannahmen der UserInnen, mit denen sie dem System begegnen (vgl. Kapitel 2.5). Es muss also klar unterschieden werden, ob eine Untersuchung auf der Ebene der Performanz ansetzt (sprachliche Strukturen) oder auf der kognitiven Ebene (vorbewusstes Priming, bewusste kognitive Modelle, Strategien), um den Geltungsbereich der jeweiligen Studie einzugrenzen. Analysen auf der ersteren sind in der Regel deskriptiv und alle relevanten Untersuchungsparameter können quantitativ durch einfache oder avancierte Auszählungsverfahren erhoben werden. Diese finden sich auf unterschiedlichen linguistischen Beschreibungsebenen wie Lexik, Morphologie und Syntax. Interpretiert wird die Zusammensetzung der sprachlichen Merkmale selbst. Diese Strukturen können von Systemen in den meisten Fällen geparst werden. Analysen, welche die kognitive Ebene greifbar machen sollen, sind notwendig vermittelt durch sprachliche Merkmale. Diese werden aber lediglich als Hinweise auf komplexe kognitive Prozesse verstanden und lassen unterschiedliche Interpretationen zu. So deutet Fischer (2006) u. a. Reaktionen auf Störungen der Interaktion mit dem Bot als für die HCI typische Repair-Strategien der UserInnen, aus denen sie zwei psychologische UserInnen-Typen ableitet: PlayerIn- und Non-PlayerIn-Typ. Die funktionale Ebene ist also konstitutiv für die strukturelle, kann aber leider von keinem Parser direkt erfasst werden.

Auch innerhalb eines linguistischen Forschungsdesigns können Aussagen über psychologische und kognitive Voraussetzungen der Interaktion nicht allein auf der Grundlage von ausgezählten Wortformen getroffen werden. Sie erfordern ausgeklügelte Experiment-Designs mit Kontrollgruppen und zusätzlichen Fragebögen, um Metadaten der VPs zu erfassen (Alter, Gender, Computer-Expertise etc.). ← 318 | 319 → Auf der Grundlage einer solchen Datenbasis können qualitative Analysen ansetzen, die dann zu weitreichenderen Interpretationen führen können. Auf der Untersuchungsebene der kognitiven Voraussetzungen von sprachlicher Interaktion werden zwei Arten von kognitiven Prozessen unterschieden: bewusste und vorbewusste Prozesse. Unter bewussten Prozessen werden alle pragmatischen Strategien verstanden, die UserInnen vorsätzlich einsetzen, um die Interaktion mit dem Bot zu steuern (z. B. in Form von Repair bei Störungen). Eine Interpretation als strategisches Verhalten ist gleichzeitig auch immer schon eine Abstraktion von den einfachen Sprachdaten und hat Modellcharakter. Auch Überlegungen zu vorbewussten Faktoren, die die Interaktion beeinflussen, können nur modellhaft in die Interpretation miteinbezogen werden (vgl. Alignment). Wollte man sie direkter untersuchen, bräuchte man andere (evtl. auch bildgebende) Verfahren aus Psychologie und Neurowissenschaften, die aber auf dem heutigen Stand der Technik auch keinen einzelnen Sprachverarbeitungsprozess im Gehirn nachvollziehen und abbilden können.

Für die Diskussion um HCI als CT spielen alle o. g. Ebenen der Interpretation von sprachlichen Strukturen eine Rolle. Und je nach Untersuchungsebene kommen verschiedene ForscherInnen-Gruppen auch zu unterschiedlichen Ergebnissen (vgl. Kapitel 2.5). Für das Deutsche finden Krause, Hitzenberger und Womser-Hacker auf der Grundlage einer breiten quantitativen Auswertung der Sprachdaten aus ihren Wizard-of-Oz-Experimenten signifikante strukturelle Unterschiede zwischen HCI und HHC. Sie thematisieren die quantitative Verteilung bestimmter Indikatoren für HCI (lexikalische und syntaktische Simplifizierung oder Überspezifizierung) und kommen zu ihrer Register-Hypothese (vgl. Kapitel 2.5). Fischer (2006) dagegen ist an kognitiven UserInnen-Strategien interessiert und findet in ihrer qualitativen Analyse der Daten aus Experimenten mit provozierten Störungen funktionale Kriterien für einen CT. Die Untersuchungsmethode hat also Auswirkungen auf den Geltungsbereich der Ergebnisse (strukturell vs. funktional).

Dieser Arbeit liegt eine umfangreiche Datenbasis von unmanipulierten HCI-Dialogen mit unterschiedlichen Systemen zu Grunde, die sich besonders gut zur Erhebung von Auftretenshäufigkeiten bestimmter sprachlicher Phänomene in HCI und HHC eignet. Da diese Methode aber nur den Bereich der strukturellen Indikatoren für CT abdeckt, sollen qualitative Analyseverfahren aus der CA miteinbezogen werden. Für die Interpretation werden zusätzlich die Ergebnisse zum vorbewussten oder strategischen, reaktiven Alignment in der HCI hinzugezogen. Dass sich alle Ergebnisse auf Felddaten beziehen, hat den Vorteil, dass keine unrealistischen Szenarien zu Grunde gelegt werden können, wie es in ← 319 | 320 → Experimenten leider manchmal der Fall ist. Die Ergebnisse aus dem Feld sollen im letzten Abschnitt des Kapitels auch mit den Ergebnissen der unterschiedlichen Experimente von Womser-Hacker (1992) und Fischer (2006) verglichen werden. Es muss festgehalten werden, dass sich nicht nur die Technologien in den vergangenen 20 Jahren maßgeblich weiterentwickelt haben, auch die Rezeptionshaltung der UserInnen hat sich verändert. Eine im Durchschnitt höhere Technikexpertise und eine Unbefangenheit im Umgang mit dem virtuellen Gegenüber haben die Unsicherheit der UserInnen der 1980er und 1990er Jahre abgelöst. Auffälligkeiten in Bezug auf strukturelle und funktionale Kriterien eines CTs können jedoch auch heute noch beobachtet werden.

4.4.1  Strukturelle Indikatoren eines CTs: Vielfalt vs. Simplifizierung

Krause (1992) nimmt einen CT als Substandard-Variante an, der sich durch Simpli­fizierung einerseits und Überspezifizierung andererseits auszeichne (vgl. auch Zoeppritz 1985). Hinzukämen ein Anstieg an Regelgenauigkeit bis hin zu formalen Ausdrücken und ein Rückgang an Expressiveness. Menschen gebrauchten eine Sprache, die als Metapher auf (Vorannahmen über) die Funktionsweise der Bots interpretiert werden könne. Damit passten sie sich dem System an. Womser-Hacker (1992) definiert strukturelle Indikatoren eines CTs, die im Rahmen der vorliegenden Studie anhand der Untersuchungskorpora (2000–2006) überprüft werden sollen:

  • vermehrt Unterschiede zu normaler Sprache
  • Modifikation syntaktischer Konstruktionen
  • steigende Anzahl von Überspezifikationen
  • steigende Anzahl von formaler Kodierung
  • abnehmende Anzahl von Rahmenelementen im Dialog
  • abnehmende Anzahl von Höflichkeitsfloskeln
  • abnehmende Anzahl von partner-orientierten Dialogsignalen
  • abnehmende Anzahl von Partikeln (Diskurspartikeln, Fischer 2006)120

Im Folgenden sollen Anstieg (+) und Abnahme (-) von lexikalischer Vielfalt und syntaktischer Komplexität in der HCI im Vergleich zum HHC-Korpus als relative Häufigkeiten dargestellt werden. Zusätzlich werden die Ergebnisse zum Konzept der sprachlichen Höflichkeit dargestellt. Die Analysekategorien dieser Studie gliedern sich also wie folgt: ← 320 | 321 →

a) lexikalische Vielfalt +/-

b) syntaktische Komplexität +/-

c) sprachliche Höflichkeit +/-

Bei der Interpretation fällt eine Trennung zwischen struktureller und funktionaler Ebene manchmal schwer, weil einige Strukturen gut funktional erklärt werden können. Auch wenn man einen nicht ganz systematischen Abstraktionssprung in Kauf nehmen muss, sollen diese Verbindungen struktureller und funktionaler Ebene selbstverständlich diskutiert werden.

4.4.1.1  Lexikalische Vielfalt + / -

Die Zu- oder Abnahme der lexikalischen Vielfalt in der UserInnen-Sprache wird seit den späten 1980er Jahren als Indikator für CT diskutiert. Die Forschungsergebnisse variieren je nach untersuchtem System und Untersuchungsdesign (vgl. Kapitel 2.5; Falzon 1988, Amalberti et al. 1993, Johnstone et al. 1994, Oviatt 1995, Hitzenberger & Womser-Hacker 1992, Gustafson 2002, Gieselmann & Waibel 2005). Für die vorliegende Studie konnten große Unterschiede zwischen UserIn und System in Bezug auf die lexikalische Vielfalt in den Dialogbeiträgen nachgewiesen werden. Damit weicht die HCI in Bezug auf lexikalische Vielfalt von der HHC ab. H0CT1 kann in Bezug auf alle Untersuchungsparameter zurückgewiesen werden. Die Ergebnisse der einzelnen Analysen sollen im Folgenden ausgeführt werden.

Eine besonders niedrige Variabilität in der Wortwahl im Vergleich zur HHC wird als verknappter Stil gewertet, der typisch sei für die Interaktion mit dem System. Besonders viel lexikalische Variation dagegen wird als Indikator für eine besonders explizite Sprache verstanden. Das angelegte Maß für lexikalische Vielfalt variiert dabei von Studie zu Studie. In Rahmen dieser Arbeit wurden für jedes Teilkorpus die relativen Häufigkeiten der Lemmata und die Anzahl der Types für lexikalische Kategorien erhoben. Zusätzlich wurden mit Bezug auf Womser-Hacker und Fischer verschiedene Partikelklassen erhoben.

Eindeutigstes Maß für einen abwechslungsreichen Stil auf der Ebene der Wortformen, ist wohl die Anzahl der unterschiedlichen in einer Sequenz verwendeten Lemmata. Da die Type-Token-Ratio bei kleinen Korpora zu stark von der Korpusgröße beeinflusst wird (vgl. Perkuhn et al 2012: 2ff)121, soll hier die Anzahl der unterschiedlichen Lemma-Types auf 1000 Wortformen angegeben ← 321 | 322 → werden. Vergleicht man so die absoluten Häufigkeiten in den Teilkorpora, so zeigt sich eine interessante Verteilung.

Abbildung 49: Häufigkeit der Lemmata auf 1000 WF

img74

Während in der HHC die Mengen der auf 1000 Wortformen verwendeten Lemmata bei Auskunft und Mitgliedern vergleichsweise nahe bei einander liegen, differieren die Werte in der HCI stark. Die UserInnen verwenden über 100 Lemmata weniger auf 1000 Wortformen als die Menschen im HHC-Korpus. Ihre Beiträge beschränken sich also auf ein begrenztes Vokabular. Die Systeme dagegen liegen mit ihren Werten weit über der HHC. Die einzige Ausnahme bildet Max. Der Grund dafür liegt in den monologisch konzipierten, konzeptionell schriftlichen Passagen, die auf der Ebene der Lemmata reicher sind als alltagssprachliche, dialogische Chat-Kommunikation. Diese wurden bei Max bewusst vermieden.

Trotz der lexikalischen Vielfalt in den Systembeiträgen, scheinen die UserInnen eine Simplifizierungsstrategie mit Rücksicht auf die Parsing-Funktion des Systems zu verfolgen (vgl. Fischer im Druck: 177). Die höheren Werte für Lemmata-Types im Vergleichskorpus zur HHC sprechen gegen ein chat-spezifisches Phänomen.

Die in der Grafik dargestellten Werte wurden für UserInnen- und Systemkorpora jeweils einzeln ausgezählt, so dass 1000 Wortformen des Systems 1000 Wortformen der UserInnen entsprechen. Im realen HCI-Dialog sind die UserInnen-Beiträge aber in der Regel bedeutend kürzer als die Systembeiträge, denn ← 322 | 323 → unabhängig von der Länge der System-Turns überschreiten UserInnen-Turns im Durchschnitt eine Länge von 5 Wortformen nicht (vgl. Kapitel 4.1). Insofern stellt sich die lexikalische Vielfalt in den Äußerungen des Systems und der UserInnen pro Dialog noch viel divergenter dar. Diese Einsilbigkeit der UserInnen kann u. U. als zusätzliches Zeichen für getippten CT vor dem Hintergrund des Prinzips der Sprachökonomie im schriftlichen Medium (vgl. Runkehl et al. 1998) gewertet werden.

Nicht nur die Vielfalt der Lemmata gibt Aufschluss über den sprachlichen Stil, auch die Anzahl der verwendeten Wortarten (POS) kann die Stilebene widerspiegeln. In den System-Korpora finden sich bis zu 7 Wortarten mehr als in den UserInnen-Korpora. Hohe Werte für die Anzahl der lexikalischen Kategorien kann auch als erster vager Hinweis auf syntaktische Komplexität verstanden werden, da bestimmte Wortarten nur oder häufiger in komplexen Strukturen auftreten.

Im Rahmen der Diskussion um CT spielen Partikeln eine prominente Rolle: Womser-Hacker (1992) findet allgemein wenig Partikeln (ohne Binnendifferenzierung) in der HCI im Vergleich zur HHC, während Fischer (2006) feststellt, dass UserInnen zwar Partikeln gebrauchen, diese aber pragmatisch abweichend verwendeten. Eine Auszählung nach unterschiedlichen Partikelklassen führt zu einem uneinheitlichen Bild für die im Rahmen dieser Arbeit untersuchten Korpora. Im Gegensatz zu Womser-Hacker (1992) werden hier für die chat-basierte HCI mehr Partikeln im UserInnen-Input gefunden als im Vergleichskorpus zur CMC. Der Partikelgebrauch der UserInnen stimmt also weder bei Womser-Hacker (1992) noch in dieser Studie mit der Vergleichtgröße aus der HHC überein, auch wenn die Werte jeweils in unterschiedliche Richtungen abweichen. Mit Krauses Hypothese stimmt das Ergebnis allerdings auf einer abstrakteren Ebene trotzdem überein, da er CT als von der HHC abweichend definiert, wobei die Abweichung sowohl mit einer Zu- als auch mit einer Abnahme eines bestimmten Merkmals einhergehen kann. In den verschiedenen untersuchten Teilkorpora schaffen die unterschiedlichen Dialog-Designs der Bots jeweils eine ganz spezielle Atmosphäre, in der die Interaktion stattfindet. Partikeln sind gute Indikatoren für diese Zwischentöne. ← 323 | 324 →

Abbildung 50: Prozentualer Anteil der Partikeln an der Gesamtmenge der Wortformen

img75

So werden bei Karlbot auf beiden Seiten kaum Partikeln verwendet und die Interaktion gleicht auch in Bezug auf andere Kriterien am ehesten einem CT (vgl. Kapitel 4.1, 4.2, 4.3). Twipsys UserInnen dagegen nutzen im Vergleich zur HHC sechsmal so viele Responsivpartikeln, grundsätzlich als Sprechakt „Accept“ (SWBD-DAMSL). Die pragmatische Funktion hat sich verschoben und ähnelt einem „Weiterklicken“ im Sinne einer Bestätigung durch Enter. Das System selbst verwendet wenige Partikeln, löst aber das o. g. UserInnen-Verhalten durch extrem lange, konzeptionell schriftliche System-Turns aus.

(1) Twipsy: Lassen wir doch mal unserer Phantasie freien Lauf und starten unsere „Weltreise“: In Hannover werden Sie im Jahr 2000 durch ein Wüstenfort wandern und seine Bewohner samt ihrer Tiere bewundern können

(2) UserIn: ok

(3) Twipsy: Sie werden aber auch die Küche der Alpenländer genießen und etwas weiter auf ihrer Weltreise über die nachhaltige Forstwirtschaft in den skandinavischen Ländern lernen

(4) UserIn: ok

(5) Twipsy: In Kuba werden Sie zu heißen Rhythmen tanzen und kühle Cocktails trinken, auf einer weiteren Etappe wird Ihr Blick auf eine Statue aus Terracotta fallen, die einen alten Krieger aus dem Grab des chinesischen Kaisers Qin Shihuang darstellt. Auch die schöne Nofretete ist nicht weit.

(Twipsy-Korpus 8604–8719)
← 324 | 325 →

Stilistisch erinnern die Systembeiträge teilweise eher an einen Reiseführer als an ein Beratungsgespräch. Das bestätigende „ok“ der Userin kann pragmatisch im Sinne eines Klickens oder Scrollens von Text verstanden werden. Das Gros der UserInnen scheint diesen Umstand zu akzeptieren. Eine Userin thematisiert Twipsys nur rudimentär dialogisches Design sogar, ohne es aber grundsätzlich anzuzweifeln oder abzulehnen.

(1) UserIn: Kannst Du bitte mit deinem Programm weitermachen, auch wenn ich mal nicht mit ok oder ja oder sonst was antworte.

(Twipsy-Korpus 8761–8783)

Hier scheint der interaktive Charakter der Anwendung verfehlt. In schwächerer Ausprägung findet sich dieses Verhalten auch im Max-Korpus. Hier wird es durch viele Ja/Nein-Fragen des Systems evoziert. Ein allgemeiner Rückgang an Partikeln in der HCI im Vergleich zur HHC kann also seitens der UserInnen nicht nachgewiesen werden (Ausnahme bei Karlbot). Die UserInnen nutzen tendenziell mehr Partikeln als die Menschen an der chat-basierten Bibliotheksinformation. In erster Linie handelt es sich dabei jedoch um Responsiva, aber auch Modalpartikeln werden in der HCI häufiger verwendet als im Vergleichskorpus. Hier stößt die Vergleichbarkeit der Felddaten u. U. an ihre Grenzen, da die Gespräche in den unterschiedlichen Korpora trotz gemeinsamem Help-Desk-Szenario z. T. sehr unterschiedliche thematische Ausrichtungen haben. Die Bibliotheksinformation kann als formellster Kontext angesehen werden, während die Interaktion mit den Bots häufig passagenweise ins Informelle abrutscht. Vielleicht kann eine Tendenz zu einem frequenteren Gebrauch von Modalpartikeln bei als informell wahrgenommener Dialogsituation postuliert werden.

4.4.1.2  Syntaktische Komplexität + / -

Auch in Bezug auf die Frage nach einer Zu- oder Abnahme variieren die Forschungsergebnisse seit den 1980er Jahren (vgl. Richards & Underwood 1984, Krause 1992, Hitzenberger & Womser-Hacker 1995, Gustafson 2002). So ging Falzon 1984 von weniger komplexen Strukturen in der UserInnen-Sprache aus und Krause und Womser-Hacker erwarteten eine geringere Bandbreite an verschiedenen Konstruktionen. Gieselmann und Waibel (2005) fanden dagegen eine große Bandbreite an syntaktischen Konstruktionen (vgl. Kapitel 2.5). Für die vorliegende Studie konnten wie im Bereich der Lexik auch für die syntaktische Komplexität große Unterschiede zwischen UserIn und System in den Dialogbeiträgen nachgewiesen werden. Damit weicht die HCI in Bezug auf syntaktische Komplexität von der HHC ab. H0CT2 kann also ebenfalls in Bezug auf alle Untersuchungsparameter zurückgewiesen werden. Die Ergebnisse der einzelnen Analysen sollen im Folgenden ausgeführt werden. ← 325 | 326 →

Unterschiedliche Systeme und unterschiedliche Experimentaufbauten beeinflussen Forschungsergebnisse im Bereich der HCI ohnehin. Für die Ebene der Syntax kommt als zusätzliches Problem hinzu, dass es kein direktes Maß für syntaktische Komplexität gibt. Eingebettete Strukturen mit zahlreichen Dependenz-Relationen (komplexe NPs oder PPs sowie subordinierte Sätze) können als strukturell komplex angesehen werden. Es gibt aber auch solche Strukturen, die an der Oberfläche einfach aufgebaut sind, aber bei der Perzeption eine komplexe Interpretation erfordern (z. B. AcI-Konstruktionen). Für diese Arbeit wurde syntaktische Komplexität aus der Perspektive der CA auf der Ebene der TCUs und aus der Perspektive einer deskriptiven Dependenz-Grammatik auf der Ebene der satzwertigen und elliptischen Strukturen sowie der einfachen und komplexen Nominalphrasen und Präpositionalphrasen untersucht. Durch diese Untersuchungsparameter kann die syntaktische Komplexität eines Gesprächsbeitrags nicht erschöpfend beschrieben werden, aber im Vergleich der unterschiedlichen Teilkorpora zur HHC und zur HCI zeichnet sich ein überraschend präzises Bild der syntaktischen Ebene der untersuchten Dialoge ab. Szmrecsanyi (2005, 2006) schlägt im Rahmen seiner Korpusanalysen „sentence length” als Maß für syntaktische Komplexität vor (vgl. Szmrecsanyi 2005: 131), doch grammatische Sätze mit finitem Verb stellen den geringeren Teil der komplexen Einheiten in der UserInnen-Sprache dar (vgl. Kapitel 4.1). Aus diesem Grund wurde in dieser Studie auf TCUs als minimale strukturelle Einheiten der CA zurückgegriffen, da diese die adäquatere Kategorie zur Analyse von Dialogen darstellen.

Abbildung 51: Durchschnittliche Länge der TCUs in Wortformen

img76

← 326 | 327 →

Die durchschnittliche Länge der TCUs rangiert in der chat-basierten HHC zwischen 4,5 und 5,5 Wortformen. In der HCI sind die UserInnen-TCUs um durchschnittlich 1,5 Wortformen kürzer. Die TCUs der Systeme sind unterschiedlich lang und bei den älteren Bots mit 8,0 – 8,5 Wortformen deutlich länger als die TCUs im Vergleichskorpus zur HHC. Ein Zusammenhang zwischen der Länge der System-TCUs und der Länge der UserInnen-TCUs fällt nicht auf. Das Gesamtbild passt gut zu den Ergebnissen im Bereich der Lexik: Die UserInnen pflegen einen knappen Stil, während sich vor allem bei den älteren Systemen ein konzeptionell schriftliches Design in den Ergebnissen widerspiegelt.

Diese Tendenz zur Verknappung zeigt sich auch bei den anderen Untersuchungsparametern. So ist die Ellipse in den UserInnen-Korpora (mit Ausnahme des Karlbot-Korpus’) frequenter als die Struktur des ganzen Satzes.

Abbildung 52: Adjazenzellipsen und andere elliptische Strukturen

img77

Der Chabot Eve von Yellow Strom fordert seine BenutzerInnen auf: „Sie können ruhig in ganzen Sätzen mit mir sprechen!“ (vgl. Tewes 2005: 242). Genau das tun die UserInnen in der HCI aber tendenziell nicht. Während in der HHC 40–48 % der TCUs elliptisch sind, sind die Werte in der HCI im Schnitt höher. Bei den älteren Systemen zeigt sich, dass unnatürliches Dialog-Design bei den UserInnen auch unnatürliches Verhalten hervorruft, das sich in einer Zunahme (Karlbot) oder Abnahme (Twipsy) der Komplexität manifestiert. Twipsy lässt die UserInnen nur „navigieren“, indem direkte Fragen in Form einer Menü-Abfrage gestellt werden. Die entsprechende Reaktion ist eine Tendenz zur Simplifizierung. Karbot ← 327 | 328 → kann nur ganze Sätze parsen und die Reaktion der UserInnen ist eine Tendenz zur Überspezifizierung auf der syntaktischen Ebene. Die Ergebnisse stimmen in diesem Punkt mit Krauses (1992) Vermutung überein. Die UserInnen verfolgen Simplifizierungsstrategien, wobei allerdings unterschiedliche Auffassungen darüber bestehen, was eine Eingabe für einen Parser leicht erkennbar macht (vgl. Fischer im Druck: 180). Die Partner-Modelle der UserInnen vom Bot werden maßgeblich durch das Dialog-Design beeinflusst.

Bei den neueren Systemen kann man eine Annährung der Werte an die der HHC erkennen. Für reibungslosere Dialogverläufe wäre es allerdings vorteilhaft, wenn die UserInnen ganze Sätze gebrauchen würden, da diese syntaktisch leichter zu parsen sind (vgl. Fischer im Druck: 192). Vor dem Hintergrund der frequenten Indikatoren für einen knappen Stil seitens der UserInnen, ist es aber unwahrscheinlich, dass man die Menschen mit impliziten sprachlichen Mitteln dahingehend beeinflussen könnte, ganze Sätze zu tippen. Um dieses Verhalten der UserInnen zu erreichen, müssen Bots explizite Anweisungen geben (vgl. Eve). Und auch dann ist nicht klar, ob diese Anweisungen auch befolgt werden. Denn elementar und konstitutiv für Dialoge sind Adjazenzellipsen und die nachgewiesen knappen Formulierungen in den UserInnen-Korpora haben in erster Linie die Form der Adjazenzellipse.

Zielgröße für die Generierung von elliptischen Beiträgen sollte hier die Auftretenshäufigkeit von Ellipsen in der HHC sein. Denn die Asymmetrie zwischen Bot und Mensch entsteht, da die Systeme viel weniger Ellipsen verwenden als in der HHC verwendet werden, was wieder Indikator für ein konzeptionell schriftliches Design ist.

Bei der Verteilung der satzwertigen Strukturen in ihrer minimalen Form als finites Verb mit seinen obligatorischen Ergänzungen zeigt sich das entsprechend umgekehrte Bild zur Verteilung der Ellipsen.

Bei den alten Systemen findet sich in den UserInnen-Korpora sowohl der Trend zu weniger (Twipsy) als auch zu mehr Explizitheit (Karlbot), während sich die Werte in den UserInnen-Korpora der neuen Systeme der HHC annähern. Die Zusammensetzung zeigt aber deutlich, dass die UserInnen in allen Korpora weitestgehend auf subordinierte Sätze verzichten. Sie beschränken sich in der Regel auf einfache Sätze mit Vollverb oder Kopula. Die Werte für Nebensätze in den System-Korpora liegen bei allen Systemen über den Werten aus dem HHC-Vergleichskorpus; d. h., die Systeme verwenden auf der Satzebene komplexere Strukturen als Menschen in der chat-basierten HHC. Die UserInnen reagieren mit einer Abnahme an Komplexität. Betrachtet man allein die subordinierten Sätze, so verstärkt sich dieser Eindruck zusätzlich. ← 328 | 329 →

Abbildung 53: Zusammensetzung der satzwertigen Strukturen

img78

Abbildung 54: Subordinierte Sätze in Relation zur Gesamtmenge der TCUs

img79

Die Ergebnisse decken sich mit Fischer (2006), die eine Tendenz der UserInnen, Relativsätze zu vermeiden, beobachtet: „We can conclude that speakers believe relative clauses to be potentially problematic for their artificial communication partners“ (Fischer 2006: 95). Unter den ohnehin wenigen subordinierten Sätzen ← 329 | 330 → machen Attributsätze, die normalerweise in der Mehrheit als Relativsätze vorliegen, den geringsten Teil in den UserInnen-Korpora aus. Die weitgehende Vermeidung von subordinierten Strukturen kann als Indikator für UserInnen-Konzepte von den geringen Parsing-Fähigkeiten des Bots interpretiert werden. Sie kann aber in nicht-initialen Sequenzen auch bereits auf Erfahrungswerten aus vorangegangenen Passagen beruhen oder in der chat-basierten HCI der physikalischen Ökonomie bei der Eingabe über das Keyboard geschuldet sein.

Eine ähnliche Verteilung zeichnet sich auch für die Koordination von Hauptsätzen ab, wobei Satzkoordination in allen Korpora im Durchschnitt nur halb so häufig vorkommt wie Subordination.

Abbildung 55: Koordinierte Sätze in Relation zur Gesamtmenge der TCUs

img80

Ob ein Stil syntaktisch komplex ist oder einfach, entscheidet sich nicht allein auf der Ebene der ganzen Sätze bzw. der elliptischen TCUs. Daher wurde ergänzend die Komplexität der einzelnen Phrasen nach dem in Kapitel 3 erläuterten Schema annotiert. Die Grafik zeigt die Verteilung der Nominalgruppen mit unterschiedlich komplexer Struktur gemessen an der Anzahl ihrer Knoten und ihrer adjektivischen Attribute im pränominalen Bereich.122 Mit „ngr1“ wird eine einfache Nominalgruppe mit einem Knoten auf Phrasenebene und den entsprechenden terminalen Knoten für Determinator und Nukleus bezeichnet. Das Element „adja“ bezeichnet zusätzlich eingefügte adjektivische Attribute. Mit „ngr2“ ← 330 | 331 → werden Nominalgruppen mit zwei phrasalen Knoten bezeichnet, also solche mit postnominalen Attributen in Form von Nominal- oder Präpositionalphrasen. Eine Sammelkategorie ist „ngr2+“, denn sie steht für alle Nominalgruppen mit mehr als zwei phrasalen Knoten, also mehr als zwei postnominalen Attributen. Die Verteilung ist von einfach zu komplex von unten nach oben in der Tabelle aufgeführt.

Tabelle 30: Verteilung der einfachen und komplexen Nominalgruppen / TCUs (gesamt)

img81

Anders als bei komplexen Sätzen zeigt sich für komplexe Nominalgruppen, dass diese in der HHC mehr verwendet werden als in der HCI. 75 % der TCUs in der chat-basierten HHC enthalten Nominalgruppen, von denen die Hälfte mindestens ein Attribut enthält. Sowohl UserInnen als auch Systeme gebrauchen insgesamt weniger Nominalphrasen. Es fällt auf, dass vor allem für den mittleren Komplexitätsbereich mehr Belege für Nominalgruppen in den HHC-Korpora gefunden werden können. Nominalgruppen mit einem adjektivischen oder einem phrasalen Attribut werden in der chat-basierten HHC häufiger gebraucht. Die extrem komplexen Nominalgruppen finden sich dagegen im Dialog-Design der älteren Systemen (8 Knoten bei Twipsy). Allgemein ist die Verteilung der Komplexitätsgrade in der HHC gleichmäßiger, während in der HCI große Unterschiede zwischen UserInnen und System bestehen. Für die UserInnen zeigen sich bei Twipsy und Karlbot wieder gegenläufige Tendenzen in Bezug auf die Simplifizierungs-Hypothese (Krause & Hitzenberger 1992). So ist die Verteilung der Nominalgruppen im Twipsy-Korpus bei UserInnen und System beinahe gleich, während die Werte bei Karlbot weit auseinanderfallen. Die hohe syntaktische Komplexität in den Gesprächsbeiträgen der Twipsy-UserInnen kann aber nicht als Indikator für einen natürlichen Stil gewertet werden, sondern ist vielmehr ein Beispiel für CT in Form von Genauigkeit und Explizitheit. Twip­sy gibt durch sein an Menüabfragen angelehntes Design komplexe Strukturen vor, die von den UserInnen exakt wiederholt werden. Dahinter verbirgt sich die ← 331 | 332 → Befürchtung, dass von der Vorgabe abweichende Beiträge nicht geparst werden könnten. Ähnliche Vorannahmen über das System führen bei Karlbot zur gegenläufigen Reaktion. Hier stellen die UserInnen dem System vor allem Fragen, die sie aus Rücksicht auf den Parser in Form von einfachen, aber grammatischen Sätzen stellen und die nur wenige komplexe Nominalguppen enthalten. Für die älteren Systeme bestätigt sich also Krauses Hypothese auch in Bezug auf komplexe Phrasenstrukturen.

Bei den neueren Systemen rangieren die Werte für komplexe Nominalgruppen weit unter denen aus der HHC (Systeme 40–55 %, UserInnen 25–40 %). Dennoch weisen Max und Elbot die gesamte Bandbreite an komplexen nominalen Strukturen auf und imitieren die Verteilung aus der HHC besser als die älteren Systeme. Die UserInnen dagegen verwenden kaum komplexe Nominalgruppen, was den allgemein knappen Stil und einen Trend zur Simplifizierung noch unterstreicht. Betrachtet man die Entwicklung im UserInnen-Verhalten von den älteren Systemen zu den neueren, so hat es den Anschein als hätten die UserInnen einen Mittelweg zwischen Simplifizierung und Überspezifizierung gefunden, der sich durch wenige sehr komplexe Strukturen, aber auch durch eine mittlere Variabilität bei der Wahl der konkreten Struktur auszeichnet.

Es kann also festgehalten werden, dass sich die syntaktische Komplexität der UserInnen-Beiträge auf der Ebene der Nominalgruppen in jedem Korpus anders darstellt. Die Auftretenshäufigkeiten der Nominalgruppen an sich und die Verteilungen der Komplexitätslevels differieren stark zwischen den UserInnen-Korpora der alten und der neuen Systeme. Die feinkörnigere Untersuchung gibt so zusätzlich Aufschluss über Entwicklungstendenzen in der HCI von einer strukturell komplexen z. T. konzeptionell schriftlichen UserInnen-Sprache (Twipsy-Korpus) über einen extrem knappen, wenig komplexen Stil (Karlbot-Korpus) hin zu UserInnen-Beiträgen mittlerer Komplexität (Elbot- und Max-Korpus). Im Gegensatz zu den Interagierenden in der HHC spiegeln UserInnen in allen Korpoa die höhere strukturelle Komplexität der Bot-Beitäge nicht. Diese beiden Aspekte hätten mittels einer oberflächlichen Untersuchung der TCU-Länge oder des Gebrauchs von subordinierten Sätzen nicht nachgewiesen werden können. Auch wenn die Annotation der einzelnen Phrasen aufwendig ist, muss sie als wichtiger Faktor bei der quantitativen Untersuchung von syntaktischer Komplexität verstanden werden. Die Länge einer TCU sagt streng genommen noch nichts über ihren syntaktischen Aufbau aus. Komplexität allein an Satzgefügen festzumachen, greift zu kurz, vor allem in der konzeptionell mündlichen Interaktion, in der koordinierte und subordinierte Sätze selten sind. Die Verteilung der komplexen Nominalgruppen dagegen vermittelt einen wesentlich genaueren ← 332 | 333 → Eindruck vom syntaktischen Aufbau einfacher Sätze und elliptischer Strukturen im Dialog. Dieser Teilaspekt kann einbezogen werden in eine Interpretation des Zusammenspiels der unterschiedlichen Aspekte der UserInnen-Sprache in Abhängigkeit vom Dialog-Design des Bots (vgl. Kapitel 4.4.5, 4.5 und 5.1.3).

Eine weiterführende Untersuchung der Präpositionalgruppen nach dem gleichen Annotationsprinzip führte zu noch eindeutigeren Ergebnissen.

Tabelle 31: Verteilung der einfachen und komplexen Präpositionalgruppen / TCUs (gesamt)

img82

Während in der HHC 32–55 % der TCUs Präpositionalgruppen enthalten und die Hälfte von diesen über mehr als einen phrasalen Knoten verfügt, fallen die Werte für die HCI dahinter zurück. Besonders seitens der UserInnen werden kaum komplexe Präpositionalgruppen verwendet (weniger als 10 %).

Ob das Ziel eines innovativen Dialog-Designs auf der Ebene der syntaktischen Komplexität eine Orientierung an der chat-basierten HHC sein sollte, ist fraglich, da syntaktisch besonders komplexe, frei konstruierte UserInnen-Beiträge nur schlecht geparst werden können. Formen eines CTs nach Krause (1992) finden sich bei den UserInnen der älteren Systeme in Form von Simplifizierung oder im Fall von Twipsy als Überspezifizierung, die aber vom System direkt vorgegeben wird (s. o.). Formen, die auf eine voreilige Anpassung an eine vermeintlich kategorielle Verarbeitung der Eingaben schließen lassen („gehe zu linker Kasten“), konnten auch in den älteren Untersuchungskorpora nicht nachgewiesen werden.

Die Sprache der UserInnen der neueren Systeme weist eine eigene, noch genauer zu definierende, Struktur auf. ← 333 | 334 →

4.4.2  Strukturell manifestierte funktionale Aspekte: Sprachliche Höflichkeit

Unter sprachlicher Höflichkeit wird ein komplexes kulturspezifisches Konzept verstanden, das unterschiedliche Dimensionen aufweist und das je nach Sprech­Innen-Gemeinschaft an unterschiedlichen sprachlichen Merkmalen festgemacht werden kann (Brown & Levinson 1987; vgl. auch Koch & Oesterreicher 1985). Als Indikatoren für einen höflichen Stil in der HCI wurden in der vorliegenden Studie Begrüßungen und Verabschiedungen sowie Dank, Bitten und Entschuldigungen in jeglicher sprachlicher Form qualitativ untersucht und für die quantitative Untersuchung nach SWBD-DAMSL manuell annotiert. Nass und Reeves gehen davon aus, dass UserInnen Höflichkeitskonzepte aus der HHC auf die HCI übertrügen und dass die entsprechenden sprachlichen Marker gleich häufig aufträten (vgl. Nass & Reeves 1996, Nass & Moon, 2000; Nass & Brave, 2005; vgl. Kapitel 1 und 2). Auch Fischer (2006) beobachtet bei einigen UserInnen höfliches Verhalten gegenüber dem System. Krause (1992) und Johnstone (1994) argumentieren gegen einen höflichen Stil in der HCI, da die UserInnen sich darüber im Klaren seien, dass sie dem System gegenüber keine höflichen Formulierungen gebrauchen müssten. Im Gegenteil zeichne sich CT gerade durch die Abwesenheit von Höflichkeitsmarkern aus. Hinzu kämen spezielle Indikatoren für unhöfliches Verhalten, wie Beschimpfungen (Flaming), knappe Befehle und Gesprächsabbrüche, die typisch für die HCI seien und als strukturelle Indikatoren für einen CT gewertet werden könnten. Im Rahmen der vorliegenden Studie wurden diese Verhaltensweisen ebenfalls erhoben. Als funktionales Konzept ist Höflichkeit empirisch schwer greifbar, daher wurden sprachliche Indikatoren für die o. g. Aspekte per Hand annotiert und in ihrem Kontext interpretiert.

Für die vorliegende Studie konnten im Bereich der sprachlichen Höflichkeit große Unterschiede zwischen UserIn und System in den Dialogbeiträgen nachgewiesen werden. Damit weicht die chat-basierte HCI in Bezug auf Höflichkeit von der HHC ab. H0CT3 kann also in Bezug auf alle Untersuchungsparameter zurückgewiesen werden. Die Ergebnisse der einzelnen Analysen sollen im Folgenden ausgeführt werden.

4.4.2.1  Indikatoren für sprachliche Höflichkeit in der HCI

Bereits bei der manuellen Annotation der Korpora auf der Grundlage von SWBD-DAMSL zeigte sich, dass UserInnen (vor allem bei den neueren Systemen) zwar Grußfloskeln erwidern, komplexere Höflichkeitskonzepte aber in den Untersuchungskorpora keine Rolle spielen. Die Auswertung musste also ← 334 | 335 → aufgrund der defizitären Datenlage trotz qualitativer Analyse auf die eine einfache Auszählung von parallelen Grußfloskeln in 4.1 und einigen weiteren direkten Höflichkeitsindikatoren wie „bitte“ und „danke“ (s. u.) beschränkt werden.

4.4.2.1.1  Gesprächsrahmensequenzen

Wie in Kapitel 4.1 bereits ausgeführt haben die unterschiedlichen Anwendungsszenarios großen Einfluss auf das Grußverhalten der UserInnen. Wechselseitige Grüße und Verabschiedungen sollten in der HCI das erklärte Ziel eines gelungenen Dialog-Designs sein, zumal solche stark routinisierten Sequenzen leicht zu implementieren sind.

Abbildung 56: Begrüßung und Verabschiedung pro Dialog

img83

Auch wenn im untersuchten HHC-Szenario an der chat-basierten Bibliotheksinformation in weniger als der Hälfte der Chats eine Begrüßung oder Verabschiedung formuliert wird, ist es für die HCI sicher einfacher, alignte Grußsequenzen zu implementieren als einen Algorithmus zur Erkennung der Angemessenheit eines Grußes innerhalb eines bestimmten Kontexts zu definieren.

Die Abbildung zeigt deutlich, dass die UserInnen der neueren Systeme häufiger grüßen als die UserInnen von Twipsy und Karlbot, die sich z. T. grundsätzlich nicht verabschieden. Wie in Kapitel 4.1 bereits ausgeführt kann dieses Verhalten als CT interpretiert werden, da das System gewissermaßen wie ein Such-Tool auf einer Website verwendet wird, das man nicht begrüßt und den Vorgang abbricht, wenn man fündig geworden ist oder frustriet aufgibt. Durch ihr eigenes ← 335 | 336 → Grußverhalten fördern die alten Systeme wechselseitige Grußsequenzen auch nicht, da sie im Schnitt zwei Begrüßungen pro Dialog ausgeben, aber keine Verabschiedung. Dieses Design ist unnatürlich und wird von den UserInnen auch so wahrgenommen. Auch Max gibt in der Regel zwei Begrüßungen pro Dialog aus, weil er durch die erste überhaupt erst die Aufmerksamkeit seiner UserInnen erregt und durch die zweite diese dann persönlich begrüßt. Das System verabschiedet sich aber zu 100 %. Die UserInnen reagieren mit 100 % Begrüßungen als Reaktion auf den ersten Gruß und 50 % der NutzerInnen verabschieden sich von Max. Eine qualitative Durchsicht der Dialoge legt nahe, dass UserInnen sich dann verabschieden, wenn sie mit der Interaktion zufrieden waren. „User, die durch das Bot-Verhalten frustriert sind, werden höchstwahrscheinlich keine Höflichkeitsformen verwenden, sondern die Interaktion einfach abbrechen. Daher kann man sagen, dass eine Verabschiedung durch den User […] ein Indiz für eine erfolgreich abgeschlossene Interaktion ist“ (Schwarz 2013: 81).

Elbot grüßt zu 100 %, verabschiedet sich aber auch nur in 50 % der Dialoge. Seine UserInnen grüßen seltener als die von Max (50 %) und verabschieden sie nur in einem Drittel der Dialoge. Wie in Kapitel 4.1 beschrieben, kann dieses Verhalten durch die äußeren Umstände der Interaktion (öffentlicher Raum im HNF vs. privater Chat am heimischen Rechner) und durch die Agenten-Personae bedingt sein. Eine deutliche Verbesserung des Grußverhaltens im Sinne einer Annäherung an HHC-Skripte kann aber bei den neueren Systemen verzeichnet werden. Hier kann ein Rückgang von CT zugunsten eines interaktiveren, dynamischeren und natürlicheren Verhaltens seitens der UserInnen beobachtet werden.

4.4.2.1.2  Gesprächsmitte

Während ein natürlicheres UserInnen-Verhalten durch ein konsequentes Dialog-Design bei den Gesprächsrahmensequenzen offensichtlich leicht getriggert werden kann und so den neueren Systemen gegenüber Grußfloskeln formuliert werden, stellt es sich in den freieren Sequenzen in der Gesprächsmitte als schwieriger dar, durch geschickte Bot-Beiträge einen höflichen Ton zu etablieren. Die Verteilung der Dankesbekundungen, Bitten und Entschuldigungen vermittelt einen aufschlussreichen ersten Eindruck. ← 336 | 337 →

Abbildung 57: Höflichkeitsmarker in der Gesprächsmitte (pro Dialog)

img84

In der HHC spielt gerade am virtuellen Help-Desk Bitten und Danken eine große Rolle und die Zahlen spiegeln eindeutig wider, dass vor allem die Auskunft Fragen und Aufforderungen als höfliche Bitten formuliert, während die Bibliotheksmitglieder, deren Anliegen bearbeitet werden, nicht vergessen, sich höflich zu bedanken. Entschuldigungen machen einen kleineren Anteil aus und finden sich in der HHC vor allem bei der Auskunft zum Einleiten von Repair. In allen UserInnen-Korpora dagegen spielen die fraglichen Untersuchungsparameter eine untergeordnete Rolle. Für Bitten wurden gar keine Belege in den HCI-Korpora gefunden. Während die älteren Systeme auch wenig Dank und Entschuldigungen verwenden, enthalten bei den neueren Systemen 40 % der Dialoge Dankesbekundungen jeglicher Form. Bei Elbot wurde das Prinzip der Entschuldigung mit Rücksicht auf seine Persona bewusst überstrapaziert. 95 % der Dialoge enthalten eine Entschuldigung.

Das Verhalten der Bots – sowohl der älteren als auch der neueren – ist zwar unterschiedlich, entspricht aber nie dem Vorbild der HHC. Vielleicht liegt darin der Grund, warum die UserInnen auch bei den neueren Systemen kaum Höflichkeitsmarker in der Gesprächsmitte verwenden. Die Ergebnisse zeigen keine Entwicklung und legen eine Interpretation als CT nahe. Durch ein innovatives Dialog-Design könnte dem entgegengewirkt werden, denn die CA hat klare Muster für Sequenzen von Bitten und Danken definiert, die man in einfache Regeln für einen Dialog-Manager übersetzen könnte. ← 337 | 338 →

4.4.2.2  Indikatoren für unhöfliches Verhalten

Während Fischer (2006) auf der Grundlage ihrer Daten123 keine direkte Unhöflichkeit der UserInnen gegenüber den Systemen nachweisen kann, finden sich in den Untersuchungskorpora der vorliegenden Studie zahlreiche Belege für grob unhöfliches Verhalten. In den untersuchten HCI-Dialogen sind Verhaltensweisen seitens der UserInnen häufig, die in der HHC soziale Sanktionen nach sich ziehen würden. Am extremsten sind hier wohl vulgäre Beschimpfungen (Flaming). Darüber hinaus können weitere Verhaltensweisen beobachtet werden, die in der HHC als grob unhöflich eingestuft würden. So werden z. B. einfache Befehle eingegeben (vgl. metaphorischer Sprachgebrauch, Krause 1992), Gespräche ohne Verabschiedung abgebrochen und die Systemfunktionen mit unterschiedlichen Mitteln auch ohne vulgäre Sprache getestet. Krause, Womser-Hacker und Hitzenberger (1992) sehen in diesen Verhaltensweisen Indikatoren für CT, da das System nicht als GesprächspartnerIn behandelt wird, sondern seine Funktionen als Maschine im Fokus der Interaktion stehen. UserInnen, die solche Interaktionsstrategien verfolgen, sind sich darüber im Klaren, dass sie ein System bedienen. Dazu können sie mittels möglichst direkter Befehle navigieren und die Leistungsfähigkeit der Anwendung während des Dialogs testen, den sie einfach abbrechen, wenn sie fertig sind oder keine Lust mehr haben.

Abbildung 58: Indikatoren für unhöfliches Verhalten pro Dialog

img85

← 338 | 339 →

Die Verteilung zeigt, dass die fraglichen Verhaltensweisen in der HHC innerhalb eines Help-Desk-Szenarios nicht üblich sind. Auch die Systeme verwenden die o. g. Interaktionsstrategien nicht. Bei den UserInnen spielen sie aber sowohl gegenüber den alten als auch gegenüber den neuen Systemen eine Rolle und stellen vielleicht die charakteristischsten Ausprägungen eines CTs dar. Wie häufig sich die UserInnen dieser Strategien bedienen, scheint abhängig zu sein von Faktoren des Systems, denn die Ergebnisse sind sehr unterschiedlich. Interessant ist, dass einfache Befehle und Gesprächsabbrüche bei den älteren Systemen häufiger vorkommen, während bei den neueren Systemen Beschimpfungen und Tests dominieren. Dabei kann eine Koinzidenz von Beschimpfungen und Tests beobachtet werden. Diese Punkte sprechen für eine Veränderung der Wahrnehmung der Systeme durch die UserInnen zwischen 2000 und 2006.

4.4.2.2.1  Befehle

Es kann also eine Verschiebung von der Sprachmetapher zum spielerischen Umgang mit dem System beobachtet werden. In allen Korpora zusammen findet sich nur ein einziger Beleg für einen formalen Befehl, nämlich gegenüber dem ältesten der untersuchten Systeme Twipsy.

(1) UserIn: INIT

(Twipsy-Korpus 116–117)

Bereits im Jahr 2000 stellte also metaphorischer Sprachgebrauch nach Krause (1992) die Ausnahme dar. Häufig sind dagegen bei den älteren Bots noch Aktionen, die an Navigation auf einer Website erinnern; d. h., mit einzelnen Nomina einen Menüpinkt auswählen („Angebote“) und mit einzelnen Präpositionen navigieren („weiter“, „zurück“). Bei Max finden sich vor allem Verben im Imperativ („Tanz!“, „Sing!“). Dies ist einerseits der Interface-Animation zu verdanken, da der Avatar auf solche Befehle tatsächlich reagiert, andererseits manifestiert sich hier aber auch eine Entwicklungsstufe in der UserInnen-Sprache: Der Bot wird nicht wie eine Navigation gesteuert, sondern ihm wird mittels einer konkreten Verbform befohlen. Der HHC ähnlich wäre erst eine Dialogsituation, in der der Bot höflich gebeten wird, etwas zu tun.

4.4.2.2.2  Flaming

Die bei den neueren Systemen häufigen vulgären Beschimpfungen können in der chat-basierten HCI als Flaming analysiert werden. Flaming und Funktionstests sind besonders häufig bei Elbot zu finden. Dieser Bot schürt ein solches UserInnen-Verhalten geradezu, indem er seine GesprächspartnerInnen teilweise selbst beschimpft und allgemein provoziert. Er ist als Spielzeug für seine ← 339 | 340 → UserInnen konzipiert und das Spiel der HCI liegt vor allem auch darin, die Funktionen des Bots zu erkunden und zu verstehen. Funktionstests und Tests durch Flaming sind probate Mittel, um Reaktionen zu evozieren, die die Grenzen des Dialog-Designs aufzeigen und so einen ersten Eindruck von den Funktionsweisen des Systems vermitteln. So wurde bei Elbot auch an die Implementierung der entsprechenden Retourekutschen gedacht. Die englische Version von Elbot klassifiziert ihre UserInnen und reagiert auf extrem ausfallendes Benehmen, indem sie in den Eliza-Modus umspringt; d. h., sie beantwortet genau wie Weizenbaums Eliza jede Eingabe mit einer Rückfrage. Die Disziplinarmaßnahme ist gleichermaßen eigenwillig, unterhaltsam und selbstironisch. Die deutsche Version teilt ihre UserInnen anhand der Häufigkeit von Beschimpfungen in drei Gruppen ein. Freundliche UserInnen bekommen dann kooperative Antworten, neutrale UserInen werden neutral behandelt und unverschämte UserInnen bekommen Elbots speziellen Charme zu spüren.

Da Max als pädagogischer Bot eingesetzt wird, mussten sich seine EntwicklerInnen adäquate Reaktionen auf Flaming überlegen. Max stachelt seine UserInnen nicht auf, sondern versucht, ihnen vielmehr etwas Wind aus den Segeln zu nehmen, um ein inhaltliches Voranschreiten der Dialoge sicherzustellen.

(1) UserIn: hi, du arsch

(2) Max: sehr kreativ, wirklich!

(Max-Korpus 318–327)

Wird der Agent von seinen UserInnen mehrfach beleidigt, ist es dem Avatar möglich, den Bildschirm zu verlassen und erst zurückzukommen, wenn sich die UserInnen entschuldigt haben.

Allgemein zeigen Max’ UserInnen in den Untersuchungskorpora eine geringere Tendenz zur vulgären Sprache als Elbots UserInnen (Max 0,33 Beschimpfungen pro Dialog, Elbot 2,55 Beschimpfungen pro Dialog). Allerdings muss an dieser Stelle daran erinnert werden, dass bei der Erstellung des Max-Korpus’ Dialoge, die ausschließlich Beschimpfungen enthielten, nicht ins Korpus aufgenommen wurden (vgl. Kapitel 3). Max’ Gesamtbilanz für Flaming ist wesentlich schlechter. Eine 2005 von Wachmuth und Kopp durchgeführte automatische Analyse des Gesamtkorpus‘ ergab, dass mehr als jeder zehnte UserInnen-Beitrag aus dem HNF Vulgarismen enthielt (11% der Turns).

Zwei Arten von Flaming fungieren als Sprachhandlungen, die Menschen in dieser Form nur einem artifiziellen Gesprächspartner gegenüber äußern können und die daher sehr charakteristisch für die HCI sind: ← 340 | 341 →

a) Das System wird beschimpft, um die Frustration zum Ausdruck zu bringen, die aus mehreren gescheiterten Parsing-Vorgängen resultiert.

b) Das System wird beschimpft, um dessen Reaktion auf die Beleidigung zu testen. Kann der vulgäre Beitrag geparst werden? Sind angemessene System-Turns als Reaktion hinterlegt?

Für die HHC gilt: „Within the framework of (im-)politeness and relational management theories, flaming could be considered as a face-threatening act par excellence to be avoided at all costs for the sake of successful everyday communication” (Helfrich 2014: 299). In der CMC dagegen ist Flaming bedeutend häufiger. „Seen generally however, flaming is clearly an accepted part of net standards” (Helfrich 2014: 312). Der Kanal scheint also Auswirkungen auf das (Un-)Höflichkeitsniveau der UserInnen zu haben, was (neben der Aufnahmesituation) auch erklären würde, warum Fischer (2006) in ihren medial mündlichen Untersuchungsdialogen kaum Flaming findet. Flaming ist also besonders frequent in der chat-basierten HCI, da es zum einen durch veränderte Konventionen im Web begünstigt und zum anderen zusätzlich durch das artifizielle Gegenüber besonders getriggert wird (Flaming als Test, Flaming bei Störung, Flaming ohne Sanktion).

4.4.2.3  Form der Anrede

Alle Systeme verwenden die Personalpronomina „Du“ oder „Sie“ zur direkten Anrede. Dabei unterscheiden sie sich in Bezug auf die Distanz zu ihren UserInnen, die sie vorgeben. Von Twipsy werden alle UserInnen gesiezt, obwohl im vorliegenden Korpus keine einzige Userin das System siezt. Die lustige, nicht menschliche Figur Twipsy, die als Service-Agent einige offensichtliche Probleme erkennen lässt, wird allgemein geduzt. Als virtueller CEO von Kiwilogic siezt auch Karlbot seine potenziellen KundInnen, die ihn aber nur zum Teil siezen. Es hat den Anschein, dass Karlbots UserInnen das System je nach Ernsthaftigkeit ihres geschäftlichen Anliegens duzen oder siezen. Max duzt sein vornehmlich jüngeres Publikum als pädagogischer Bot grundsätzlich, was zu einem ausgewogenen Verhältnis zwischen UserInnen und System in Bezug auf wechselseitiges Duzen führt, denn keine/r der UserInnen kommt auf die Idee, Max zu siezen.

Während die meisten UserInnen den lustigen, kleinen Roboter Elbot konsequent duzen, besteht die zynische System-Persona darauf, ihre UserInnen weiterhin zu siezen und thematisiert diesen Umstand sogar: ← 341 | 342 →

(1) UserIn: Wollen wir uns nicht duzen?

(2) Elbot: Ich sage lieber weiterhin Sie zu Ihnen – das symbolisiert nach Meinung meines Schöpfers den angemessenen Respekt der künstlichen Kreatur gegenüber den göttlichen Wesen, die sie geschaffen haben (Hrmmmpf… gnihihihihi…!!!).

(Elbot-Korpus 1451–1500)

Hier zeigt sich deutlich, dass die Simulation eines konsistenten, neurotischen Charakters von größerer Bedeutung war als einzelne Überlegungen zum natürlichen DialogDesign, wie z. B. „wenn die UserInnen duzen, duzt das System auch“. Architektonisch ist jede Verbform mit allen anderen möglichen Formen innerhalb des gleichen Paradigmas verbunden – unabhängig von der Form der Anrede. Ein sensibler Umgang mit Duzen und Siezen als Formen der sozialen Interaktion wäre also möglich, ist aber nicht erwünscht. Das psychologische Konzept, das der Elbot-Persona zu Grunde liegt, wird als wichtiger angesehen. Allerdings gehen die UserInnen überhaupt nicht darauf ein, sondern duzen das System durchgängig.

Für das Verhalten der UserInnen lässt sich also festhalten, dass eine starke Tendenz zum Duzen beobachtet werden kann – egal, ob das System siezt oder duzt. Allein im Karlbot-Korpus konnten einige Belege für Siezen seitens der UserInnen gefunden werden. Der Kontext Kundengespräch kann als die Gesprächssituation mit der größten Distanz zwischen den Interagierenden interpretiert werden. Hinzu kommt, dass Karlbot als Talking-Head animiert ist; d. h., die UserInnen sehen während der Interaktion das bewegte Foto eines erwachsenen Mannes, nämlich des realen CEOs Karl-Ludwig von Wendt. Dieses Interface-Design fördert eine Deutung der Dialogsituation als höflich distanziert. Twipsy dagegen ist als abstraktes Expo-Maskottchen in Form eines Vogels im weitesten Sinne animiert. Obwohl das zu Grunde gelegte Help-Desk-Szenario einen öffentlichen Charakter hat und Twipsy die UserInnen siezt, widerstrebt es diesen offenbar, das bunte Wesen zurück zu siezen. Es besteht also eine Inkonsistenz in der Agentenpersona, da Avatar und Dialog-Design nicht gut zusammenpassen. Bei Elbot wird die gleiche Ambivalenz der Persona in Szene gesetzt, um Ironie zu erzeugen. Für ernsthafte Anwendungen ist es jedoch ratsam, ein stimmiges, überzeugendes Bild des virtuellen Gegenübers zu kreieren. Das Distanzniveau der verwendeten Sprache sollte genau abgestimmt werden auf Merkmale des Avatars und dessen virtueller Umgebung, die von den UserInnen als soziale Cues für ein formelles oder informelles Gesprächsszenario verstanden werden können. So wirken Comic-Figuren und Tiergestalten, die sich einer besonders distanzierten, höflichen Sprache bedienen, gewollt oder ungewollt komisch, während der animierte CEO einer Firma durch maximale Distanz positive Face-Work leistet. ← 342 | 343 →

Duzen und Siezen seitens der UserInnen scheint also in erster Linie davon abzuhängen, ob die Agenten-Persona in Bezug auf die o. g. Aspekte einen konsistenten Eindruck macht. Ist das der Fall, wird das vom Bot vorgegebene Distanzniveau übernommen. Das Switchen zwischen Duzen und Siezen ist gerade bei Störungen vorstellbar, konnte aber in den vorliegenden Korpora nicht beobachtet werden. An diesen Punkten könnte auch der UserInnen-Typ von Bedeutung sein. Dies müsste aber in weiteren Studien durch gezielte Experimente überprüft werden.

Zusammenfassend kann festgestellt werden, dass Indikatoren für einen unhöflichen bis vulgären Stil in den untersuchten Korpora seitens der UserInnen häufig sind. Eine Entwicklung seit 2000 besteht diesbezüglich allein in einer Verschiebung von einer knappen Befehlssprache hin zu einer spielerischeren, aber sehr vulgären Sprache. Während die Systeme ähnlich wie die Menschen im Vergleichskorpus zur HHC kaum unhöfliche und vulgäre Sprache verwenden, ist sie bei den UserInnen an der Tagesordnung. Die Grafik unten zeigt den Versuch, eindeutige Marker für höfliche Sprache (Begrüßung, Verabschiedung, Bitten, Dank, Entschuldigung) auf eindeutige Marker für unhöfliche Sprache (Dialoganfang ohne Begrüßung, Gesprächsabbruch, Flaming, Befehle, Tests) pro Dialog einander gegenüberzustellen.

Abbildung 59: Zusammenfassung Indikatoren für höflichen und unhöflichen Stil (pro Dialog)

img86

← 343 | 344 →

Es wird deutlich, dass in den UserInnen-Korpora pro Dialog bis zu zehnmal mehr Belege für ein Dialogverhalten gefunden werden können, das in der HHC als inakzeptabel gelten würde. Dieses Verhalten ist nicht nur unhöflich und vulgär, sondern auch symptomatisch für die Interaktion mit einem artifiziellen Gegenüber. Der Verzicht auf Begrüßungsfloskeln, obwohl das System grüßt, genauso wie die Verwendung von knappen Befehlen sind Indikatoren für einen CT im Sinne des metaphorischen Sprachgebrauchs nach Krause (1992b). Die UserInnen – vor allem die der älteren Systeme – „bedienen“ das System durch ihre Spracheingabe über längere Passagen und attribuieren keine anthropomorphen Eigenschaften an den Bot. Systemtests und Tests in Form von Beschimpfungen charakterisieren – auch den neueren Systemen gegenüber – die Neugier der UserInnen auf den Bot, der als unbekannter Gesprächspartner zunächst auf seine Sprachkompetenz untersucht werden muss. Diese neugierige Einstellung dem unbekannten System gegenüber wurde mehrfach beobachtet (vgl. Krämer 2008). Ob an einer Interpretation im Sinne von CT als strukturellem oder funktionalem Register festgehalten werden kann, soll im letzten Abschnitt dieses Kapitels diskutiert werden.

In der sprachlichen Höflichkeit manifestiert sich die Attribuierung sozialer Eigenschaften durch die UserInnen an den Bot im Sinne einer gedankenlosen Übertragung von Strategien aus der HHC. Damit kann sprachliche Höflichkeit als Gegengewicht zu CT interpretiert werden. Fischer findet eine Reihe von Belegen für sprachliche Höflichkeit und allgemein kooperatives Verhalten in ihren Experimenten (Fischer 2006: 68, 2014: 171). In der vorliegenden Studie finden sich in den UserInnen-Korpora durchaus Belege für dieses Konzept – allerdings in erster Linie in Form von wechselseitigen Begrüßungen und Verabschiedungen. Auch gibt es einzelne Belege für explizite Sympa-thiebekundungen, mittels derer UserInnen das System loben.

(1) UserIn: Du bist echt süß, Twipsy!

(Twipsy-Korpus 12357–12363)

Diese relativieren die Flaming-Beiträge, so dass sich insgesamt ein ambivalentes Bild in Bezug auf die Akzeptanz der UserInnen für die Systeme abzeichnet. In einer Diskussion um CT müssen solche expliziten Sympathiebekundungen in einem Help-Desk-Szenario aber als abweichend von der HHC eingestuft und eher als Lob der Systemfunktionen verstanden werden. Unter dieser Perspektive wären sie Argumente für die Annahme eines CTs. Darüber hinaus gebrauchen die UserInnen aller untersuchten Systeme kaum höfliche Sprache.

Vor dem Hintergrund des Modells von Koch und Oesterreicher (1985) zur interpersonellen Nähe oder Distanz in der Interaktion kann festgehalten werden, ← 344 | 345 → dass Bot und UserIn häufig auf unterschiedlichen Distanzstufen interagieren. So gibt der Bot im Info-Modus bspw. in einer formellen Sprache Erklärungen aus und siezt die UserInnen, während diese das System duzen und z. T. vulgär beschimpfen. Maximal distanzierte Sprache trifft also unmittelbar auf Sprache maximaler Nähe. Durch diese Diskrepanz wirken HCI-Dialoge besonders inhomogen. Dies fördert den Eindruck einer unnatürlichen Interaktion, da Menschen in der Regel auf dem gleichen Distanzniveau agieren (per conventionem oder durch Aushandlung). Eine extreme Diskrepanz der Distanzniveaus von UserIn und System könnte per se als Indikator für CT interpretiert werden, die gerade bei chat-basierten Info-Bots häufig vorkommt.

In den analysierten HCI-Dialogen stellt die Nähesprache der UserInnen die Norm dar – mit Ausnahme von einzelnen Dialogen im Karlbot-Korpus, die als digitale Kundengespräche mit dem virtuellen CEO interpretiert werden können. Bei Karlbot scheint der Kontext der Interaktionssituation in stärkerem Maße das Distanzniveau zu diktieren als bei allen anderen untersuchten Bots.

So begegnen die UserInnen Twipsy, Max und Elbot geleichermaßen mit maximaler Nähe, obwohl die Bots in Bezug auf ihre jeweiligen Distanzniveaus unterschiedlich konzipiert sind. Twipsy als Beratungsbot siezt und zeigt weitestgehend Merkmale formeller Sprache, die z. T. in eingeschobenen Monologen schriftsprachlich konzipiert ist. Beim pädagogischen System Max wurde eine größere Nähe zu den NutzerInnen angestrebt: das System duzt und die Redebeiträge sind informeller und weniger monologisch geschrieben. Elbot siezt seine UserInnen zwar, schafft aber durch Ironie und Spiele eine Atmosphäre der Nähe. Doch trotz der genannten Unterschiede werden alle drei Systeme von ihren UserInnen geduzt und es finden sich Indikatoren für Nähesprache (vor allem unhöfliches Verhalten). Trotz einer Reihe von Gegenbeispielen in Fischer (2006) kann Nähesprache also dann als charakteristisch für die HCI gedeutet werden, wenn der situative Kontext nicht eindeutige Verhaltensregeln definiert (z. B. Kundengespräch mit CEO). Fehlen solche Konventionen als Rahmenbedingungen, tendieren die Menschen den Systemen gegenüber eher zu einer Sprache der Nähe als zu einer Sprache der Distanz. Eine comichafte Darstellung der Avatare und fehlende soziale Sanktionen für unhöfliches Verhalten fördern dieses Verhalten zusätzlich.

Bei den neueren Systemen wurde darauf geachtet, den UserInnen entgegenzukommen und auch seitens der Systeme eine größere Nähe zu suggerieren. Dies scheint aber auch vulgäres Verhalten seitens der UserInnen zu provozieren. Für ergebnisorientierte Anwendungen wäre es also erstrebenswert, die Distanz der UserInnen zum Bot wieder zu vergrößern, um auf einem mittleren Distanzniveau interagieren zu können. Ein möglicher Schlüssel zur Manipulation des ← 345 | 346 → UserInnen-Verhaltens könnten der situative Kontext und die grafische Darstellung des Bots sein, da durch sie soziale Konzepte in Form von Mental-State-Modellen in der UserInnen-Kognition aktiviert würden, die ein bestimmtes Distanzniveau vorgeben könnten. Dies funktioniert aber nur, wenn die virtuelle Interaktionssituation und die Agenten-Persona konsistent gestaltet sind.

4.4.3  Die Heterogenität der HCI

4.4.3.1  Die Ambivalenz des Forschungshorizonts

In Kapitel 2.5 wurde mit Fischer (2006) die Frage aufgeworfen, warum die Forschungsergebnisse aus internationalen Studien zu strukturellen Charakteristika der HCI so unterschiedlich ausfielen. Bereits der Vergleich von vier unterschiedlich sophistizierten Systemen zeigt, dass es die eine HCI nicht geben kann, solange Systeme unterschiedlich konstruiert sind und in unterschiedlichen Anwendungsbereichen eingesetzt werden. Ein Unterhaltungsbot fördert ein anderes Dialogverhalten als ein virtueller CEO, weil die pragmatische Ausgangssituation eine andere ist und die UserInnen verschiedene Dialogziele verfolgen. Unterschiedliche strukturelle und funktionale Indikatoren spiegeln dies wider. HCI kann also mindestens auf folgenden Ebenen variieren:

Äußere Faktoren

Das Szenario des Anwendungsbereichs determiniert die Interaktionssituation.

Variablen des Systems

Persona

Avatar und Interface-Design

Hardware

Eingabekanal

Dialog-Design

Systemarchitektur

Variablen der UserInnen

Technikexpertise

UserInnen-Typ

Vorannahmen über das System

Dialogziele

vorbewusstes Priming

bewusste Handlungsstrategien

All diese Variablen spielen zusammen und beeinflussen HCI-Dialoge je nach gegebener Konstellation in unterschiedlichem Maße. Von der HCI-Forschungs-Community untersucht wurde vor allem das UserInnen-Verhalten in Abhängigkeit von dialogexternen Variablen des Interface-Designs (Avatar, Persona) oder ← 346 | 347 → des Eingabekanals. Fischer (2006, im Druck) kritisiert diese Konzentration auf äußere Bedingungen der Interak-tionssituation zu Recht, denn die dialogimmanenten Variablen der HCI sind für die konkrete Sprache der UserInnen von direkterer Relevanz. Doch bereits auf der Ebene der dialogexternen Variablen können keine einheitlichen Untersuchungsergebnisse erzielt werden, da Persona, Avatar und Dialog-Design in unterschiedlichen Bots einen Charakter schaffen, der von den UserInnen als mehr oder weniger konsistent wahrgenommen wird und aus diesem Grund unterschiedliche Reaktionen hervorruft. Eine in sich stimmige Persona trägt dazu bei, dass UserInnen die Interaktionssituation als sozial wahrnehmen und sich selbst entsprechend konsistent verhalten. Eine inkonsistente Persona dagegen wird als unnatürlich wahrgenommen und fördert auch sprunghaftes, nur schwer antizipierbares UserInnen-Verhalten. Hinzu kommen Modalitäten der Hardware und des Eingabekanals, die die Interaktion beeinflussen. Dialog-immanente Parameter wurden in dieser Studie untersucht und sollen in den folgenden Unterkapiteln zu einem Modell verdichtet werden.

4.4.3.2  Die Ebenen der Heterogenität der HCI

Die HCI wurde in Analogie zu anderen Simplified Registers als herogene Kategorie beschrieben: „[…] the varieties analyzed are generally extremely heterogeneous, both across persons in the same communicative situation and across communication partners“ (vgl. Fischer im Druck: 274). Die Heterogenität der Verhalsweisen unterschiedlicher UserInnen (-Typen) (UserIn1 vs. UserIn2) wurde mehrfach beschrieben (u. a. Fischer 2006) und Belege finden sich auch in den vorliegenden Untersuchungskorpora (vgl. z. B. Auswertung der Persistenzen nach Dialogen, Kapitel 4.2.4). Die Heterogenität zwischen den Interagierenden in der HCI (UserIn vs. System) wird in Bezug auf alle untersuchten Parameter deutlich, ist typisch für die Asymmetrie der HCI und hängt von unterschiedlichen Faktoren ab (s. o.). Im Rahmen der voliegenden Studie kann aber noch eine weitere Ebene der Heterogenität herausgestellt werden, die in längeren Dialogen, die aus einer Reihe von unterschiedlichen Sequenzen bestehen, offenbar wird. Es handelt sich hierbei um eine dialogimmanente Heterogenität der unterschiedlichen Sequenzen eines Dialogs bei gleichbleibenden Interagierenden zu unterschiedlichen Zeitpunkten ((UserIn / System)t1 vs. (UserIn / System)t2). Diese wird von inkonsistenten Dialog-Designs hervorgerufen.

Systemarchitektur und Dialog-Design beeinflussen das UserInnen-Verhalten direkt (vgl. Fischer im Druck: 10). Ob die UserInnen-Führung frei, geskriptet oder hybrid ist, hat Einfluss auf die Kohärenz der thematischen Progression und damit auch auf die Wahrnehmung des Systems seitens der UserInnen. Das ← 347 | 348 → Dialog-Design bewegt sich auch heute noch in einem Kontinuum zwischen Dialog und Monolog, was starke Auswirkungen auf das Verhalten der UserInnen hat. Außerdem sind heutige Dialog-Designs meist hybrid und setzen sich aus unterschiedlichen Systemstrategien zusammen. Es fehlt die klare Linie, die konsistente Persona, die sich auch im Dialogverhalten wiederfindet. Stattdessen werden einzelne Passagen als eigenständige Bausteine völlig unterschiedlich gestaltet – oftmals von verschiedenen EntwicklerInnen. Da gibt es konzeptionell schriftlich gestaltete Monologe, die Erklärungen enthalten, dialogische Skripts zur Absolvierung einer Aufgabe mit kurzen Turn-Wechseln, planbasierte Interaktionssequenzen, Small-Talk in Phrasen-Routinen oder frei als Parsing & Prompting u. v. m. Entsprechend unterschiedlich reagieren die UserInnen auf die diversen Sequenzen einer Interaktion. Einige Passagen sind so unnatürlich gestaltet, dass die UserInnen förmlich darauf gestoßen werden, dass sie mit einem artifiziellen Gegenüber interagieren. Anthropomorphere Passagen dagegen regen die UserInnen dazu an, vorbewusste oder routinierte Verhaltensweisen aus der HHC auf die HCI zu übertragen. Im Vergleich zwischen den verschiedenen Systemen konnte dies in den vorherigen Unterkapiteln auf unterschiedlichen Ebenen herausgearbeitet werden. Die dialogimmantente Heterogenität der HCI bewegt sich also zwischen folgenden Dimensionen:

Tabelle 32: Dimensionen der dialogimmanenten Heterogenität der HCI

SystemarchitekturUserInnen-Führung: geführt – frei – hybrid
Dialog-Design
  • Monolog – Dialog
  • Schriftlichkeit – Mündlichkeit
  • Distanz – Nähe
  • Unterschiedliche Dialogphasen (Begrüßung – Mitte – Verabschiedung)
  • Umgang mit Störungen: Inkohärenzen, Quasi-Kohärenzen, Default-Antworten oder Rückfragen
UserIn
  • UserInnen-Typ
  • bewusst strategisch – vorbewusst bzw. routiniert
  • CT – HHC

Diese Faktoren haben Einfluss auf den kohärenten oder inkohärenten Ablauf einer Interaktion und damit auch auf die mentalen Modelle der UserInnen über die Interaktion, die Fischer (2006, im Druck) in den Fokus rückt. Beim ECA Max wurde in den meisten Passagen bspw. auf natürliche Turn-Länge, Kohäsionsmarker und Quasi-Alignment des Systems geachtet. Diese Design-Entscheidungen sind der Grund, warum Max im Vergleich der UserInnen-Werte ← 348 | 349 → mit dem HHC-Korpus besser abschneidet als die anderen Systeme. Alignment und Kohäsionsmarker unterstützen an der Oberfläche die Illusion von Kohärenz und werden daher positiv wahrgenommen. Kohärente Sequenzen werden durch bereichsspezifische Skripts erzielt. Diese führen seitens der UserInnen zu einem vergleichsweise natürlichen Eindruck und damit auch wieder zu HHC-ähnlicheren Beiträgen. Allgemein ist das Verhalten der UserInnen in unterschiedlichen Passagen des Dialogs verschieden, je nachdem mit welchem Design (natürlichsprachlich vermittelte Menünavigation, Parsing & Prompting, Hybride) sie konfrontiert werden.

Außerdem spielt es eine wichtige Rolle, ob Systembeiträge dialogisch oder monologisch konzeptioniert sind. Die Ergebnisse für die älteren Systeme zeigen auf allen Ebenen der vorliegenden Untersuchung, dass lange, konzeptionell monologisch aufeinander folgende Systembeiträge CT-Strategien fördern und dass weniger Merkmale einer natürlichen HHC (Persistenzen, Kohäsion) in den UserInnen-Beiträgen dieser Systeme vorliegen. Umgekehrt wirkt das dialogische Wechselspiel mit kürzeren Systembeiträgen und weniger schriftsprachlichem Stil zwischen Max und seinen UserInnen natürlicher und fördert natürliches UserInnen-Verhalten, wie die Daten zeigen. Pickering und Garrod (2004) diskutieren, ob eine strikte Trennung zwischen Dialog und Monolog empirisch überhaupt gegeben sei oder ob Sprache sich vielmehr in einem Kontinuum zwischen Dialog und Monolog bewege und zahlreiche Zwischenformen zeige. Dabei bestimme der Grad der Verbindung (über Alignment-Channels) zweier oder mehrerer Interagierender ihre Verortung im dialogischen Kontinuum. Dieses Argument könnte als Erklärung herangezogen werden, warum UserInnen in der HCI, das Switchen der Bots zwischen dialogischen und monologischen Passagen überhaupt akzeptieren.

Um sich ein Gesamtbild von der HCI in ihrer gesamten Diversität machen zu können, ist es besonders wichtig, ganze Dialoge zu untersuchen. Da statistisch nur Mittelwerte pro Dialog oder pro Korpus widergegeben werden können, ist die qualitative Analyse der Dialoge mittels der CA unerlässlich, um Aussagen über Reaktionen der UserInnen auf wechsende Dialog-Designs treffen zu können. Auch auf der Ebene der einzelnen Gesprächsbeiträge ist die Sprache der Bots sehr unterschiedlich gestaltet (bspw. Duzen vs. Siezen, Nähe vs. Distanz). Wenn also die Bots keine einheitliche Sprache verwenden, dann tun dies die UserInnen tendenziell auch nicht. Je nachdem, welche Passagen eines Dialogs dann für eine partielle Analyse herausgegriffen werden, finden sich Charakteristika, die typisch für diese Phase der Interaktion sind. So sind Dialoganfänge bei den neueren Bots bspw. geprägt von wechselseitigen Begrüßungen, die auf ← 349 | 350 → aus der HHC übertragene Höflichkeitskonzepte der UserInnen schließen lassen. Wenn die gleiche Userin in der Gesprächsmitte dann aber den Bot beschimpft und bei der ersten Störung den Dialog abrupt abbricht, wird der erste Eindruck einer Übertragung der Strategien aus der HHC stark relativiert. Wichtig ist es hier, das Dialog-Design in die Analyse einzubeziehgen, das das UserInnen-Verhalten provoziert hat. Denn nur so kann dessen Heterogenität gedeutet werden. Ergebnisse aus Studien zu Dialoganfängen oder Störungen (vgl. Fischer 2006) können also sinnvoll ergänzt werden.

Dies zeigt sich vor allem in einer weiteren Variable, die Einfluss auf das UserInnen-Verhalten nimmt: Der UserInnen-Typus. Diese Variable ist zunächst unabhängig von den Variablen des Systems, was sich in initialen Sequenzen sehr gut zeigt. So finden sich in der vorliegenden Studie die von Fischer definierten UserInnen-Typen PlayerIn und Non-PlayerIn in Anfangssequenzen als Prototypen wieder. Im Verlauf der Interaktion werden diese aber mit den einschränkenden Variablen des jeweiligen Systems konfrontiert und modifizieren ihr Verhalten entsprechend. Einige Individuen sind nicht auf einen Prototyp festgelegt, sondern zeigen im Verlauf der Interaktion unterschiedliche Tendenzen. „Speakers may change their linguistic behaviour through time“ (Fischer 2006: 74). Eine Untersuchung, die Merkmale der PlayerInnen- und der Non-PlayerInnen-Sprache definiert und Belege aus unterschiedlichen Dialogphasen entsprechend clustert, könnte differenziert abbilden, wer, wann, wo, welches Verhalten zeigt und eventuell ein Muster erkennen lassen. Die Dialoganfangsphase enthält meist bereits wichtige Informationen, um UserInnen einem bestimmten Typus zuordnen zu können (vgl. Fischer 2006). Allerdings sollte die kritische Phase zur Entscheidung, ob es sich um den PlayerIn-Typus oder den Non-PlayerIn-Typus handelt, über die eigentliche Begrüßung hinausgehen. Denn bei modernem Dialog-Design und konsistenter Persona zeigen die meisten UserInnen in dieser ritualisierten Phase eine Tendenz zum Alignment mit dem System, auch wenn sie sich später als Non-PlayerIn-Typen entpuppen oder sich völlig passiv vom Design des Systems leiten lassen.

Dialogimmanente Heterogenität wird auch hervorgerufen durch häufige Störungen und damit verbundene thematische Sprünge in der HCI. Die Analyse von Störungen des Dialogs, aus denen Interpretationen zu kognitiven Konzepten der UserInnen abgeleitet werden, ist ein weiterer neuralgischer Punkt im Forschungsdiskurs zur HCI. Problematisch ist hier, dass Störungen beim Parsing sehr unterschiedlicher Natur sein können und entsprechend unterschiedliche Systembeiträge erzeugen: Inkohärente Turns, quasi-kohärente Turns, Default-Antworten und Rückfragen. Systemfehler liegen beim Parsing bspw. an einer ← 350 | 351 → fehlerhaften Worterkennung und falschen Zuordnung eines Prompts, was zu einem inkohärenten Systembeitrag führt, der zwangsläufig ein neues Thema anschneidet, das als Inkonsistenz in der thematischen Progression wahrgenommen wird. Je nach Attraktivität des neuen Themas, Wichtigkeit des ursprünglichen Dialogziels und UserInnen-Typ lassen sich UserInnen auf den thematischen Sprung ein oder leiten Repair ein. Systemfehler beim semantischen oder syntaktischen Parsing führen zu quasi-kohärenten System-Turns, die zwar persistente Schlüsselwörter enthalten, aber logisch nicht kohärent anschließen. Es handelt sich hier eher um eine thematische Verschiebung als um einen thematischen Sprung. Auch hier lassen sich die UserInnen in Abhängigkeit von den o. g. Variablen entweder auf die neue thematische Ausrichtung ein oder nicht. Wenn das System erkennt, dass eine Struktur nicht geparst werden kann, wird eine Default-Antwort ausgegeben oder eine Rückfrage generiert (vgl. ELIZA). Default-Antworten kaschieren die Störung mehr oder weniger gut, je nachdem, wie gut ihr semantischer Gehalt zum Kotext passt. Daher sind Default-Antworten bewusst so formuliert, dass sie möglichst häufig passen können: Gemeinplätze, Floskeln, Alltagsweisheiten. Zusätzlich enthalten sie meist einen Vorschlag zum Themenwechsel. Aus diesem Grund lösen sie überraschend selten Repair seitens der UserInnen aus. Dies steht im Gegensatz zu Experiment-Designs, in denen UserInnen-Repair provoziert werden soll und daher eindeutige Fehlermeldungen (z. B. ERROR) ausgegeben werden (vgl. u. a. Fischer 2006; Moratz, Fischer, Tenbrink 2001). Die charmant ausgestaltete Default-Antwort ist keine explizite Fehlermeldung, wirkt bedeutend anthropomorpher und wird als Störung von den UserInnen daher oft übergangen. Stattdessen lassen sie sich vom System leiten und der Dialog bekommt einen neuen thematischen Fokus. Dieses Verhalten kann man nicht beobachten, wenn mit direkten Fehlermeldungen gearbeitet wird. Es ist aber hochfrequent in der medial schriftlichen HCI und typisch für ein passives, zielloses, reaktives UserInnenverhalten, das besonders den PlayerIn-Typus in Interaktion mit modernen Systemen auszeichnet. Erst wenn in einer Sequenz eine Reihe von Default-Antworten ausgegeben wurde, ergreift dieser UserInnen-Typus die Initiative – meist nicht in Form von Repair, sondern in Form von Flaming.

Sowohl die qualitative als auch die quantitative Untersuchung haben also gezeigt, dass UserInnen-Verhalten neben einer Reihe äußerer Variablen auch von bestimmten Aspekten des Dialog-Designs abhängig ist. Design-Entscheidungen fördern oder hemmen ein bestimmtes UserInnen-Verhalten, das dann entsprechend variiert und zu unterschiedlichen Forschungsergebnissen führt. Für ← 351 | 352 → wissenschaftliche Studien zum CT sollte der Untersuchungsbereich also immer mit Bezug auf die unterschiedlichen Dimensionen der HCI definiert werden.

Zusätzlich lässt sich in Bezug auf einzelne CT-Parameter eine Entwicklung von den UserInnen der älteren zu den UserInnen der neueren Systeme feststellen. Ob es sich beim untersuchten System um einen Chatbot oder einen ECA handelt, spielt ebenfalls eine Rolle. Allgemein kann man feststellen, dass eine beachtliche Menge von Variablen der Systeme auf unterschiedlichen Ebenen dazu führen, dass Forschungsergebnisse in der HCI nicht vergleichbar sind. Viele Studien werden u. a. aus diesem Grund in Wizard-Of-Oz-Szenarien durchgeführt. Die Wizards können die Funktionen moderner Dialogsysteme aber kaum noch imitieren, da diese zwar extrem komplex sind, aber noch lange nicht anthropomorph – ein Zwischenstadium, das schwer zu definieren und noch schwerer zu simulieren ist.

Vor diesem äußerst diversen Hintergrund ist die Frage nach einem CT schwer zu beantworten. Aus den o. g. Gründen ist klar, dass sich HCI in ihrer Gesamtheit auf unterschiedlichen Ebenen zu uneinheitlich darstellt, um als homogener CT mit klar bestimmbaren strukturellen Eigenschaften definiert werden zu können. Die Untersuchung zeigt aber auch deutlich, dass die Sprache der überwiegenden Mehrheit der UserInnen bereichsspezifisch einige Merkmale aufweist, die als CT interpretiert werden können.

4.4.4  Pro- und Contra-Argumente zum Konzept eines CTs

Trotz der zahlreichen System-Variablen, die das UserInnen-Verhalten beeinflussen, finden sich dennoch in allen UserInnen-Korpora einige Parameter, die als CT für chat-basierte Systeme gedeutet werden können.

  • lexikalische Simplifizierung
  • syntaktische Simplifizierung
  • Unhöflichkeit
  • Systemtests

Eine Tendenz zur lexikalischen Simplifizierung findet sich bei den älteren wie bei den neueren Bots auf der Ebene der Lemmata. Syntaktische Simplifizierung lässt sich auf unterschiedlichen Ebenen deutlich beobachten und zeichnet sich durch einen Verzicht auf Satzgefüge und komplexe Phrasenstrukturen aus. Gab es bei den älteren Systemen hier auch Tendenzen zur Überspezifizierung oder wurden komplexe Strukturen des Systems von den UserInnen übernommen, so zeigt sich bei den UserInnen der neueren Systeme eine klare Entwicklung zu syntaktisch einfachen TCUs in Form von Ellipsen oder einfachen Sätzen, häufig ← 352 | 353 → mit Kopulaverb. Dabei sind die UserInnen-TCUs im Durchschnitt höchstens halb so lang wie die des jeweiligen Systems. Auf der lexikalischen und syntaktischen Ebene finden sich in der medial schriftlichen HCI also eindeutig strukturelle Indikatoren eines CTs. Interpretiert man diese funktional, kann man an diesem Aspekt der sprachlichen Verknappung tatsächlich ein Moment des Sprachgebrauchs als Metapher auf das Bedienen einer Maschine festmachen (vgl. Krause & Hitzenberger 1992). Denn die UserInnen-Beiträge sind auf beiden untersuchten linguistischen Ebenen viel einfacher gehalten als die analysierten Beiträge aus der chat-basierten HHC. Hier spielen sicher die Vorannahmen der UserInnen über die begrenzten Parsing-Fähigkeiten des Systems eine Rolle. Unter dieser Voraussetzung wäre UserInnen-Verhalten, das sich strukturell in lexikalisch und syntaktisch verknappten Ausdrücken manifestiert funktional als strategisch im Sinne eines CTs zu interpretieren (vgl. Fischer 2006: 75, 2014: 268). Eine andere Tendenz kann zusätzlich beobachtet werden und ergänzt den metaphorischen Sprachgebrauch nach Krause (1992) um einen Aspekt der modernen Rezeptionshaltung der UserInnen. Im Vordergrund steht nicht, dass die UserInnen die unbekannte Maschine im Hinblick auf ein Handlungsziel bedienen möchten, sondern, dass diese Maschine sie unterhalten soll. Die Wahrnehmung der eigenen Agentivität in dieser Interaktionssituation ist eingeschränkter im Vergleich zu Krause (1992). Die UserInnen nehmen sich selbst eher als RezipientInnen oder KonsumentInnen einer Technologie mit Unterhaltungswert wahr. Der knappe, metaphorische Sprachgebrauch zum Bedienen einer Maschine verschiebt sich hin zum natürlichsprachlich emulierten Weiterklicken im Unterhaltungsprogramm Chatbot mittels minimaler Dialogbeiträge („ok“, „ja“ etc.). Dieses Verhalten ist typisch für Passagen, in denen die Reflexion der Interaktionssituation für die Planung der Eingaben eine Rolle spielt. Damit spricht dieser Aspekt für eine neue Form des CTs, dessen Struktur sich nicht notwendig geändert, dessen Funktion jedoch eine Verschiebung erfahren hat.

Eindeutig als strategisch einzustufen, sind Tests der Systemfunktionen durch die UserInnen, indem diese den Bot mit unwahrscheinlichen oder vulgären Ausdrücken konfrontieren, um die Grenzen der Parsing-Funktion auszuloten. Dieses Verhalten zeigen in erster Linie die PlayerInnen. Interessant ist, dass es bei den neueren Systemen häufiger auftritt als bei den älteren. Die besonders hohen Werte für Flaming und Tests im Elbot-Korpus (zusammen 4,6 Belege pro Dialog) sprechen dafür, dass ein lockeres Dialog-Design mit hohen Small-Talk Anteilen dieses Verhalten fördert. Allgemein scheint sich das Bild von Bots in der Gesellschaft allerdings auch verändert zu haben, weg von der unbekannten Technologie, mit der ernsthafte Erwartungen verbunden sind, hin zu einer ← 353 | 354 → Unterhaltungstechnologie, von der man weiß, dass sie ohnehin (noch) nicht in der Lage ist, natürliche Dialoge zu generieren. Diese sozialpsychologische Erwägung würde die beobachtete Verschiebung der CT-Merkmale von versprachlichten Navigationsbefehlen (Twipsy 2000, Karlbot 2002) hin zu Tests und Flaming (Max 2004, Elbot 2006) ebenfalls erklären.

Die Frage nach einem CT ist eng verknüpft mit der Diskussion um vorbewusstes Interaktionsverhalten und strategisches, sprachliches Handeln. Man kann nämlich im Verlauf eines Dialogs nur dann von CT sprechen, wenn die UserInnen bewusst reflektieren, dass sie mit einem artifiziellen Gegenüber interagieren und aus diesem Grund ihre Sprache modifizieren. HCI findet aber in einem Spannungsfeld zwischen bewusster und vorbewusster Sprachverarbeitung statt. Jegliche menschliche Kommunikation setzt vorbewusste Mechanismen und bewusste Aktionsplanung voraus. Je habituierter die Kommunikation ist, desto mehr schematische Muster stehen zur Verarbeitung zu Verfügung. Dies ist der Fall bei automatisierten Routinen (Begrüßung, Verabschiedung) sowie in besonderem Maße bei den wenigen, aber vorhandenen, Belegen, die auf nicht-strategisches Alignment schließen lassen. Diese Aspekte müssen als Contra-Argumente gegen einen CT angeführt werden. So ist es nicht verwunderlich, dass Höflichkeit vor allem in ritualisierten Begrüßungssequenzen und teilweise auch bei Verabschiedungen nachgewiesen werden kann, während sie in der Gesprächsmitte eine untergeordnete Rolle spielt. Bei den neueren Systemen finden sich höfliche Begrüßungen bei bis zu 100 % der Dialoge und immerhin 50 % Verabschiedungen. Im Kontext einer Theorie von CT als Sprachmetapher zur Systemsteuerung haben diese HHC-Parameter keine Relevanz. Hinzu kommen bei Max noch ritualisierte Fragen nach dem Befinden und in allen Korpora außer bei Karlbot einige Belege für Dank und Entschuldigung, die auf eine (vorbewusste?) Übertragung des Face-Konzepts aus der HHC schließen lassen. Für die Bedienung der Maschine sind diese Verhaltensweisen überflüssig. Völlig „mindless“ (vgl. Reeves & Nass 1996, Nass & Moon 2000, Nass & Brave 2005) ist die Steuerung dieses Verhaltens jedoch auch nicht. Sie nimmt eine Zwischenposition zwischen vorbewusster und bewusster Kognition ein. Begrüßungen und Verabschiedungen können nämlich auch als Teil des Spiels mit dem System interpretiert werden, auf das sich die UserInnen der modernen Bots bewusst einlassen. Diese modernen UserInnen wissen auch, dass es in der HCI keine Notwendigkeit für eine Befehlssprache gibt, sondern verstehen den Versuch, anthropomorphe Dialoge zu generieren. Darin liegt u. U. ein weiterer Grund für den Rückgang an sprachlichen Navigationsbefehlen. Vielleicht zeigt sich hier ein erstes Anzeichen der Entwicklung weg von CT hin zu natürlichen Dialogen. ← 354 | 355 →

Wirklich vorbewusst läuft dagegen reaktives Alignment als Lower-Level-Priming ab, das tatsächlich und zwangläufig „mindlessly“ aus der HHC auf die HCI übertragen wird. Ist die Userin mit einem System konfrontiert, dessen eigene Beiträge besonders unnatürlich wirken, kann sie in dieser unbekannten Situation weniger auf bekannte Mechanismen und Routinen zurückgreifen. Ein gutes Beispiel ist hier das System Twipsy, das lange monologische Beiträge mit hoher syntaktischer Komplexität und lexikalischer Dichte produziert und dessen UserInnen in der Summe weniger reaktives Alignment (lexikalische Alpha-Persistenz) zeigen als die UserInnen der neueren Systeme. Twipsys komplexe unerwartet monologische Beiträge geben den UserInnen Anlass zur bewussten Reanalyse, auf diese Weise geht das intuitive Alignment zurück. Szmrecsanyi findet ähnliche Tendenzen in seinen HHC-Korpora und interpretiert wie folgt: „A tentative explanation for this finding is that higher lexical density is indicative of discourse that involves better planning and monitoring; this may arguably weaken the effect of a partly subconscious phenomenon such as persistence” (Szmrecsanyi 2005: 138). Die Analyse der Einzeldialoge hat aber gezeigt, dass Twipsys lexikalisches Quasi-Alignment (ELIZA-Prinzip) lexikalische Persistenzen der UserInnen fördert. Diese Persistenzen können als Indikatoren für Alignment als Simplifizierungsstrategie interpretiert werden. So fördert Twipsys Dialog-Design vergleichsweise wenige lexikalische UserInnen-Persistenzen, von denen ein Großteil als strategisch interpretiert werden kann. Strategisch ausgewählte Persistenzen zur Simplifizierung des Parsings finden sich bei den älteren Systemen und können als Idikatoren für kooperativen CT im Sinne einer RDS (Fischer im Druck) verstanden werden.

Nich-strategisches reaktives Alignment der UserInnen ist wie interaktives Alignment in der HHC darauf ausgelegt auch ohne vollständigen Common Ground eine gemeinsame Basis für ein Gespräch zu etablieren (Pickering & Garrod 2004). Daher ist es als vorbewusster Prozess unabhängig vom Weltwissen des Gegenübers. Im Gegensatz zu expliziten, bewusst reflektierten Grounding-Strategien ist reaktives Alignment ein egozentrischer Prozess, da die Userin nicht durch Partner-Modeling von ihrer subjektiven Welt abstrahieren muss, um reaktives Alignment zu zeigen. Kognitiv handelt es sich vielmehr um eine einfache mechanistische Reaktion auf das Systemverhalten, ohne dass dieses bewusst interpretiert werden muss. Dass sich Alignment in Bezug auf Distanz-Frequenz-Relationen in der HCI ähnlich verhält wie in der HHC ist ein zusätzlicher Indikator für die Vorbewusstheit der Reaktion und ein Argument für Dialogpassagen ohne CT. Es finden sich aber nur halb so viele Belege für Persistenzen in der medial schriftlichen HCI wie in der chat-basierten HHC. Und in der chat-basierten HHC ← 355 | 356 → finden sich wiederum nur halb so viele Belege für Persistenzen wie in Studien zur Face-to-Face-Kommunikation (vgl. Szmrecsanyi 2005). Je mehr Zeit zum Planen eines Gesprächsbeitrags zur Verfügung steht, desto mehr höhere Kognition ist beteiligt. In der chat-basierten HCI bleibt den UserInnen vergleichsweise viel Zeit, die Beiträge zu planen, so dass Alignment eine weniger prominente Rolle spielt als in der Face-to-Face-Kommunikation. Entsprechend mehr Indikatoren für bewusste Planung finden sich hier, was als allgemeiner Indikator für funktionalen CT interpretiert werden kann.

Dass Alignment als vorbewusster Prozess aber überhaupt nachgewiesen werden kann und sich ähnlich verhält wie in der HHC (Frequenz-Distanz-Verteilung), kann als starker Indikator dafür gewertet werden, dass vorbewusste Prozesse auch Einfluss auf die medial schriftliche HHC haben – allerdings in wesentlich geringerem Maße als in der oralen Face-to-Face-Kommunikation unter Menschen. Es ist außerdem ein eindeutiger Hinweis darauf, dass HCI bei natürlich-sprachlichem Interface-Design grundsätzlich den gleichen Mechanismen folgt wie die HHC (vgl. Fischer 2006: 6). Ferner wird deutlich, dass Menschen in der Interaktion mit Systemen nicht jedes Wort bewusst und strategisch auszuwählen scheinen. Die Interaktion hat sowohl bewusste als auch vorbewusste Anteile und je besser die Illusion eines natürlichen Dialogs aufrechterhalten wird, desto mehr „mindless behavior“ (vgl. Reeves & Nass 1996; Nass & Moon 2000; Nass & Brave 2005) wird von den UserInnen gezeigt. Bei Störungen dagegen muss die artifizielle Dialogsituation reflektiert werden und bewusst strategisches Verhalten ist die logische Reaktion (vgl. Fischer 2006).

Nicht nur vorbewusste Mechanismen und routiniertes Verhalten können als Gegenargument zu Zoeppritz’ CT-Hypothese angeführt werden, auch eine Reihe bewusster Handlungsstrategien weisen nicht auf CT hin. Auf der funktionalen Ebene sprechen alle Versuche der UserInnen, mittels derer Common Ground etabliert oder Dialogkohärenz geschaffen werden soll (Grounding, Repair), gegen einen CT. Denn obwohl die UserInnen in den meisten Fällen theoretisch wissen, dass Systeme nicht auf das gleiche Weltwissen zurückgreifen können wie sie selbst, bemühen sie sich zum Teil intuitiv, Common Ground und einen logisch kohärenten Dialogverlauf zu fördern. Allerdings trifft dies auf einen Großteil der UserInnen nicht zu. Diese reaktiven KonsumentInnen der HCI lassen sich vom System führen und versuchen nicht gegen dessen logisch-semantische Defizite anzugehen. ← 356 | 357 →

4.4.5  CT als Teilaspekt der HCI

Als heterogene Interaktionsform wird die HCI funktional von unterschiedlichen Kräften beeinflusst. Unterschiedliche Sequenzen im Dialog-Desing fördern diese verschiedenen UserInnen-Verhaltensweisen unterschiedlich stark, so dass UserInnen dialogimmanent ambivalentes Verhalten zeigen. So spielen vorbewusste Mechanismen eine wichtige Rolle auf der Ebene der UserInnen-Kognition. Reaktives Alignment (inklusive Distanz-Frequenz-Effekten) fördert natürliches Dialogverhalten, das sich auf der Performanzebene in zum System-Output persistenten Strukturen äußert. Ähnlich automatisierte kognitive Prozesse steuern ritualisiertes Verhalten bei sprachlichen Routinen in den Gesprächsrahmensequenzen. Diese Verhaltensweisen sind der HHC sehr ähnlich und können daher nicht als CT interpretiert werden. Höhere Kognition spielt bei bewussten Sprachhandlungen eine Rolle – bspw. dann, wenn UserInnen die Interaktionssituation bewusst reflektieren und funktionale Strategien entwickeln, um mit dem artifiziellen Gegenüber anders zu interagieren als mit einem Menschen. Dies findet zwei Ausprägungen in der modernen HCI:

  • proaktiven CT, kooperativ in Form von Simplifizierungsstrategien und nicht kooperativ in Form von Tests und Flaming
  • reaktiven CT in Form von passivem UserInnenverhalten (natürlichsprachliches Weiterklicken)

Die Untersuchungsparameter Tests, Flaming und das Fehlen von Höflichkeits­indikatoren können strukturell nachgewiesen werden. Viele UserInnen scheinen besonderen Spaß daran zu haben, Vulgarismen eingeben zu können, ohne dass dieses Verhalten sanktioniert wird. Die unterschiedlichen Reaktionen der Bots werden nicht als Sanktion, sondern als Gimmick mit Unterhaltungswert wahrgenommen. Das vulgäre Verhalten kann als Übersprungshandlung gedeutet werden, die aus einer Unsicherheit dem System gegenüber resultiert, die zwischen Neugier und Auflehnung rangiert. Einerseits sollen die Grenzen der Parsing-Funktion des unbekannten Gegenübers ausgetestet werden (Tests und Flaming als Test). Diese Haltung hat einen spielerischen Charakter. Andererseits wird der Bot nicht als GesprächspartnerIn auf Augenhöhe wahrgenommen, was die vulgäre Sprache in der Wahrnehmung der UserInnen legitimiert (proaktive Vulgärsprache). Diese Haltung ist vergleichsweise aggressiver und von negativen Vorannahmen über das System geprägt. Einige UserInnen gefallen sich darin, ihre eigene Überlegenheit dem System gegenüber zu zelebrieren, indem sie sich gegen den künstlichen Menschen auflehnen. Dieses Verhalten weicht stark vom Standard der HHC ab und ist typisch für eine proaktive Form des CTs. Reagieren ← 357 | 358 → UserInnen dagegen bei Störungen mit Beschimpfungen, um ihrer Frustration Luft zu machen, ist dieses Verhalten weniger markiert. Nur in diesem Kontext kann Flaming in der HCI als expressiv bezeichnet werden. Krause (1992) sieht CT mit einem Rückgang an Expressivität verbunden. Eine Zunahme an Flaming würde dieser Annahme eigentlich widersprechen. Da aber Flaming in den untersuchten Dialogen in den meisten Fällen weniger expressiv konnotiert ist, kann diese spezielle Form der vulgären Äußerung als CT interpretiert werden.

Ein weiteres Kriterium für CT nach Krause et al. (1992) ist die sprachliche Simplifizierung. Eine Tendenz zur lexikalischen und syntaktischen Simplifizierung liegt auch in moderner HCI seitens der UserInnen noch vor. Sie hat jedoch eine Verschiebung ihrer pragmatischen Funktion erfahren – weg von der Metapher der aktiven Bedienung einer Maschine hin zu a) einer Kooperation mit dem System bei der Bearbeitung konkreter Aufgaben (vgl. RDS, Fischer im Druck) und b) einer passiven Rezeptionshaltung einer Unterhaltungstechnologie gegenüber. Letztere manifestiert sich als reaktives UserInnen-Verhalten, das eng an die Vorgaben des Bots gekoppelt ist. Ein extremes Beispiel dafür ist der Wegfall von Interventionen bei Störungen. Diese Form von subtilem CT macht besonders bei Entertainment-Anwendungen einen Großteil der Interaktion aus. Sie ist notwendig eng gekoppelt an Systemarchitektur und Dialog-Design, weil gerade der reaktive Charakter konstitutiv für diese Form der Interaktion ist. Von den Variablen des Systems unabhängiger CT, der auf die Vorannahmen der UserInnen über die Interaktion mit Technologien allgemein zurückgeführt werden kann, ist bei den neueren Systemen seltener. Indem sich die Rezeptionshaltung der UserInnen ändert, verändert sich auch der CT. UserInnen lassen sich mehr auf die Führung durch den Bot ein. Dadurch wird ihr Verhalten antizipierbarer und steuerbar. Simplifizierung, Tests und Flaming wären damit keine unvermeidlichen Zeichen für CT, die unabhängig von jeglicher Design-Überlegung für freies UserInnen-Verhalten stehen. Es weist vieles darauf hin, dass UserInnen diese Verhaltensweisen einem besser funktionierenden System gegenüber aufgeben. Inwiefern dieser Umstand für innovative Anwendungen genutzt werden kann, soll in den folgenden Kapiteln diskutiert werden.

Der Geltungsbereich von CT umfasst also nicht die gesamte HCI, da diese dialogimmanent heterogen ist und teilweise bereits heute immer wieder einzelne natürliche Sequenzen aufweist. Was als CT bezeichnet werden kann, muss negativ definiert werden als die Teilmenge der HCI, wo keine vorbewussten Mechanismen (vorbewusstes Alignment, Routinen) oder aus der HHC übertragenen Strategien (Grounding, Framing) greifen. ← 358 | 359 →

Abbildung 60: Zusammensetzung der HCI

img87

Diese Teilmenge lässt sich funktional weiter untergliedern in reaktiven CT, der von Systemarchitektur und Dialog-Design abhängig ist, und klassischen, proaktiven CT, der sich aus Vorannahmen der UserInnen über das System ableitet. Beide Arten von CT haben eine funktionale und eine strukturelle Dimension und unterliegen Entwicklungsprozessen. Dabei entwickeln sich Funktion und Struktur nicht immer gemeinsam. So erfüllen bspw. lexikalische und syntaktische Simplifizierung heute andere Funktionen als in den 1990er Jahren. Ob CT trotz Koevolution mit den technologischen Innovationen und veränderten Rezeptionshaltungen als funktionales Register bezeichnet werden kann, soll in Kapitel 5.1 diskutiert werden.

4.5  Zusammenführung der Ergebnisse aus den Teilstudien

In diesem Abschnitt sollen die Ergebnisse aus den Teilbereichen der Studie zusammengefasst und aufeinander bezogen werden, um so zu einer umfassenden und differenzierten Darstellung der HCI zu kommen.

Entsprechend der unterschiedlichen theoretischen Zugänge zum Phänomen HCI wurde die empirische Analyse in unterschiedliche Teilbereiche gegliedert: Basale Strukturen der Interaktion (Turns, Adjazenzpaare, Gesprächsrahmensequenzen) auf der Grundlage der Konversationsanalyse, die Rolle von vorbewusstem Alignment, Kohärenz und Kohäsion in der HCI sowie Merkmale eines ← 359 | 360 → Computer-Talks. Die Untersuchungsbereiche setzen auf verschiedenen Ebenen an und beleuchten unterschiedliche Teilaspekte des Gesamtphänomens HCI. So kann nach klassischen Überlegungen der CA sehr gut das Grundgerüst einer Interaktion quasi als strukturelles Skelett herausgearbeitet werden. Darüber hinaus stellt sie Methoden zur qualitativen Analyse funktionaler Aspekte zur Verfügung. Das psycholinguistische Modell des Alignments gibt Auskunft über vorbewusste Mechanismen der UserInnen-Kognition, die sich in der Interaktion niederschlägt. Durch Kohärenz und Kohäsion wird das logisch-semantische Grundgerüst der Interaktion manifest und anhand von Störungen können bewusste UserInnen-Strategien analysiert werden. Die Frage nach einem Computer-Talk als funktionalem Register muss auf der Grundlage von strukturellen und funktionalen Charakteristika der HCI diskutiert werden, die diese klar von der HHC abgrenzen und sowohl userInnen- als auch systemübergreifend vorliegen. Eine Definition als eigenständige diaphasische Varietät oder einfache Reaktion auf ein System-Design stellt bereits eine Interpretation und Bewertung der Ergebnisse dar (s. 5.1). Im Folgenden sollen diese Ergebnisse zusammenführend skizziert werden.

Auf den ersten Blick sehen HCI-Dialoge aus wie Kommunikation unter Menschen: Sie bedienen sich natürlicher Sprache und weisen Strukturmerkmale einer Konversation auf. Abwechselnde Turns, Adjazenzstrukturen und Gesprächsrahmensequenzen können auch in der HCI nachgewiesen werden. Doch weicht die Verteilung der Phänomene in der Regel stark von der in der HHC ab. UserInnen-Sprache und System-Sprache sind nicht aufeinander abgestimmt. Das zeigt sich bspw. an Unterschieden in Bezug auf die Länge der einzelnen Turns oder die Häufigkeit der Verwendung von Adjazenzellipsen. Auch asymmetrische Begrüßungen und Verabschiedungen sind in der HCI häufiger als in der HHC. Die Sprache der Systeme weist dabei eine für dialogische Interaktion unüblich große Nähe zur Schriftsprache und zum Standard auf, die sich in unterschiedlichen Faktoren offenbart. Dies steht im Gegensatz zur allgemein einsilbigen, strukturell einfachen UserInnen-Sprache, in der Vorannahmen der UserInnen über die Parsing-Fähigkeiten des Systems (Fischer im Druck) sowie Prinzipien der physikalischen Ökonomie bei der Texteingabe über ein Endgerät emulieren. Der Chat-Kanal begünstigt dabei zwar die knappe Form der Ausdrucksweise, typische Merkmale der CMC wie Emoticons etc. werden jedoch nicht auf die HCI übertragen. Diesem Verhalten liegt u. U. ebenfalls eine Simplifizierungsstrategie zu Grunde.

Je besser das jeweilige System funktioniert, desto geringer fällt die Divergenz zwischen UserInnen- und Systemsprache aus. Dabei nähern sich die Werte der ← 360 | 361 → Systeme und die der UserInnen einander gleichermaßen an; d. h., nicht allein das System wird durch Evaluation und Überarbeitung dem UserInnen-Verhalten angepasst, sondern die UserInnen verändern ihren Sprachgebrauch gegenüber einem verbesserten System ebenfalls. Dabei kann folgende Tendenz beobachtet werden: Während die Entwicklung der Systeme von konzeptioneller Schriftlichkeit und monologischem Stil124 hin zu kürzeren konzeptionell mündlich gestalteten Turns verläuft, entwickelt sich die UserInnen-Sprache weg vom knappen Sprachgebrauch eines CTs hin zu ausführlicheren, natürlicheren Beiträgen. Dieser Umstand legt die Prognose nahe, dass bei weiterer Verbesserung der Systeme sich UserInnen- und Systemsprache einander so weit annähern werden bis sie beide (aus unterschiedlichen Richtungen kommend) die Werte der HHC erreicht haben. Der monologische Stil der Systeme lässt sich an einer Reihe von koinzidierenden Variablen aus den unterschiedlichen Untersuchungsbereichen festmachen: komplexe Nominalgruppen, turn-immanente Kohäsionsmittel, subordinierte Sätze, lange Turns. Durch weniger monologische Sprache könnte man also unterschiedliche Probleme auf mehreren Ebenen zugleich lösen. Die Prognose ist aber nicht in Bezug auf alle Betrachtungsebenen wahrscheinlich, da die interaktiven Möglichkeiten der Systeme im Rahmen der derzeitigen HCI durch ihre Architekturen limitiert sind. Es zeigt sich jedoch ein positiver Trend in der Weiterentwicklung der Systeme und es sind noch lange nicht alle linguistischen Möglichkeiten ausgeschöpft, Dialoge an der Oberfläche natürlicher wirken zu lassen (vgl. Kapitel 5.2).

Ein auffälliges Merkmal natürlicher Dialoge sind unterschiedliche Formen wechselseitiger Konstruktionsübernahmen, von denen einfache Persistenzen am ehesten maschinell verarbeitet und generiert werden können. Solche Persistenzen können in den untersuchten HCI-Dialogen zwar nachgewiesen werden, doch spielen sie längst keine so große Rolle wie in der HHC (50 % der CMC, 25 % der Face-to-Face-Kommunikation, vgl. Szmrecsanyi 2005). Außerdem variiert ihre Funktion als vorbebusstes Alignment oder bewusste Simplifizierungsstrategie. Ziel eines innovativen Dialog-Designs sollte es sein, den Gebrauch von nicht-strategischen Persistenzen zu fördern, um eine natürlichere Wirkung zu erreichen. Auf Seiten der Systeme werden Persistenzen bislang als Nebenprodukt des Schlüsselwort-Parsings und der Prompt-Generierung erzeugt und vermitteln den Eindruck eines Quasi-Alignments, das selbstverständlich keinen direkten Kanal zum menschlichen Gegenüber öffnet, sondern ein künstlicher Mechanismus ← 361 | 362 → ist, der vom Gegenüber u. U. vorbewusst als Alignment wahrgenommen werden kann. In den meisten Systemen ist die Generierung von Persistenzen noch unsystematisch. Ein Alignment-Generator, der menschliches Alignment-Verhalten simuliert, könnte die Dialog-Performanz der Systeme verbessern und zugleich ein natürlicheres Alignment-Verhalten der UserInnen evozieren. Denn diese zeigen passagenweise eine Form des reaktiven Alignments, indem sie gedankenlos, vielleicht sogar vorbewusst Konstruktionen des Systems übernehmen. Sowohl lexikalisches als auch syntaktisches reaktives Alignment kann auf der Grundlage von Persistzenzen seitens der UserInnen nachgewiesen werden, dabei sind aber lexikalische Persistenzen häufiger, weil reaktives Alignment auf der lexikalischen Ebene durch das Quasi-Alignment des Schüsselwort-Parsers unterstützt wird. Ein Zusammenhang zwischen UserIn und System konnte vor allem für den Bereich der Syntax statistisch nachgewiesen werden, der darauf schließen lässt, dass Quasi-Persistenzen des Systems, reaktives Alignment der UserInnen fördern. Die für die HCI ansonsten typische Divergenz zwischen UserIn und System liegt in Bezug auf Alignment also weniger vor. Es entsteht offenbar eine wirkliche Dynamik zwischen UserIn und System, die jedoch nicht als interaktiv bezeichnet werden kann, da Quasi-Alignment ein Artefakt ist und das UserInnen-Verhalten eine vorbewusste oder strategische Reaktion darauf. Allerdings wird an dieser Stelle UserInnen-Verhalten vergleichsweise vorhersagbar. Diese Tendenz gilt vor allem für die Syntax, doch in der Hälfte der untersuchten Stichproben zu HCI konnte auch zwischen den beiden linguistischen Ebenen ein Zusammenhang nachgewiesen werden.

Die beschriebene Dynamik zwischen UserIn und System ist bei den neueren Systemen stärker, da es hier häufigere Wiederaufnahmen durch das System, also mehr Quasi-Persistenzen gibt. Bei welchen Wortformen oder Phrasen alignt wird, beeinflusst der Schlüsselwort-Parser. Denn was als Schlüsselwort oder Muster hinterlegt ist, wird auch häufig bei der Antwortgenerierung wiederholt. Folglich kommen Nomina, Verben und Pronomina, die auch geparst werden können, häufiger als Quasi-Persistenzen vor, als andere Wortformen. Dadurch können die Loci klar definiert werden, an denen die Alignment-Dynamik in Gang gesetzt wird. Hinterlegte Schlüsselwörter werden im UserInnen-Input erkannt und Antworten mit Persistenzen generiert. Dies führt in vielen Fällen dazu, dass die UserInnen die fragliche Form ein weiteres Mal aufnehmen, weil sie sich entweder gut alignt fühlen oder eine operationable Interaktionsstrategie mit dem Bot gefunden haben. Diesen Schlüsselaspekt weiter zu systematisieren, sollte die Aufgabe innovativer HCI-Designs sein. Alignment-Generatoren, die das natürliche Zerfallsverhalten von persistenten Strukturen nachahmen ← 362 | 363 → (Vergessenskurve) sind insofern sinnvoll, da in dieser Studie gezeigt werden konnte, dass das Alignment-Verhalten der UserInnen auch dieser Funktion folgt. Hier sollte also wechselseitig ein vergleichbarer Mechanismus wirken. Dass die Vergessenskurve bei UserInnen in der HCI robust ist, kann als zusätzliches Argument für eine vorbewusste Übertragung von Verhaltensweisen aus der HHC auf die HCI angeführt werden. Hier wird deutlich, dass die UserInnen in Bezug auf diesen Bereich der kognitiven Verarbeitung der Interaktion gar nicht anders können, als sich ähnlich wie in der HCI zu verhalten, da hierbei ganz basale Mechanismen der kognitiven Verarbeitung von Dialog aktiv werden. Es muss also festgehalten werden, dass die UserInnen-Daten gerade den neueren Systemen gegenüber einen ganz grundsätzlichen vorbewussten Mechanismus der Verarbeitung von HCI in der UserInnen-Kognition nahelegen, welcher der Verarbeitung von HHC gleicht. Alles, was in Bezug auf bewusste UserInnen-Strategien diskutiert werden kann (Verhalten bei Störungen, Grounding, Repair, CT), ist diesem Aspekt nachgeordnet.

Störungen in der HCI resultieren aus Parsing-Problemen auf der Ebene der Lexik und der Ebene der Semantik sowie aus dem Unvermögen der untersuchten Systeme, inferenzielle Schlüsse zu ziehen, da sie nur sehr begrenzt Zugriff auf Weltwissen haben. Daraus resultieren Inkonsistenzen im Dialog, die sich unterschiedlich äußern: Als inkohärenter Turn, als quasi-kohärenter Turn, in Form einer Default-Antwort oder einer Störungsmeldung als direkte Rückfrage. Dabei weist ca. ein Viertel der System-Turns aller Bots (außer Max) diese Störungen der kohärenten Anknüpfung auf. Das eigentliche Problem ist aber bedeutend größer: Im Zuge der qualitativen Untersuchung wurde klar, dass thematische Sprünge noch wesentlich häufiger an der Tagesordnung sind. An diesen Stellen kommt es in den meisten Fällen nur deshalb nicht zu Störungen der Interaktion, weil die UserInnen die Sprünge in der Progression übergehen, sich auf Themenwechsel einlassen oder die Illokution der inkohärenten Bot-Äußerung kreativ umdeuten. Im Verhalten bei Störungen werden bewusste UserInnen-Strategien offenbar, die auf Vorannahmen und Ansichten über das System schließen lassen. Versuchen UserInnen bspw. Repair durch Grounding einzuleiten, kann dies als Attribuierung an-thropomorpher Eigenschaften an das System interpretiert werden (vgl. Fischer 2006). In den untersuchten Dialogen finden sich allerdings nur vergleichsweise wenige Reaktionen der UserInnen auf Störungen, in denen überhaupt Repair eingeleitet wird. Häufiger ist eine passive Haltung der UserInnen, die sich die thematische Progression vom System vorgeben lassen und sich auf Brüche und Inkonsistenzen im Dialogverlauf einlassen. Die Gründe für diese erstaunliche Akzeptanz für Störungen liegen höchstwahrscheinlich in einer ← 363 | 364 → allgemein geringen Erwartungshaltung an das System und einem vergleichsweise irrelevanten Anwendungskontext. Wenn die Interaktion mit einem Beratungsbot scheitert, finden sich in der Regel alle fraglichen Informationen auch auf der Website der Firma oder Institution über eine herkömmliche Menü-Navigation. Anbieter fahren gerade aus diesem Grund zweigleisig (Bot und Graphical User Interface, GUI), weil sie den Funktionen der Sprachagenten nicht ausreichend vertrauen. So ist der Bot derzeit meist ein werbeträchtiges Gimmick auf einer von ihm unabhängig vollständig funktionsfähigen Website. Sobald die Anwendungskontexte aber an Verbindlichkeit gewinnen (wie z. B. bei pädagogischen Agenten oder Pflegerobotern), werden Störungen der Interaktion von einer neuen Generation von UserInnen weniger toleriert werden. Diese UserInnen-Generation wird mit klaren Interaktionszielen für den jeweiligen Anwendungsbereich an die Systeme herantreten und die Erfüllung der gewünschten Aufgabe einfordern. Aus diesem Grund sollte die Verbesserung der Dialog-Kohärenz höchste Priorität bei der Weiterentwicklung der Systeme haben, denn an diesem wunden Punkt werden ansonsten in naher Zukunft die Interaktionen gerade bei freien Dialog-Designs mit Mustererkennung und Prompt-Generierung scheitern. Eine Steuerung der UserInnen in Form von Skripts für Teilbereiche der Interaktion führt zu wesentlich kohärenteren Dialogen, wie das Beispiel Max mit weniger als 10 % Störungen der Progression zeigt. Besonders für pädagogische Agenten sind störungsfreie kohärente Dialoge enorm wichtig und gehören immanent zu ihrer pädagogischen Aufgabe. Innerhalb der HCI kann dieses Ziel nur durch Skripte und verbesserte semantische Sprachverarbeitung erreicht werden. Darüber hinaus müsste man mit aufwendigen Kalkülen aus der KI Referenzsysteme ausdifferenzieren und Präsuppsitionen aus großen Wissensbasen ableiten.

Auf der Ebene der sprachlichen Performanz kann durch Kohäsionsmittel allein der Eindruck einer kohärenten Interaktion verstärkt werden. Es handelt sich dabei aber immer um eine Illusion, da Marker für komplexe Referenzen verwendet werden, ohne dass das System die Referenz als solche berechnen könnte. Die untersuchten Systeme gebrauchen solche Konnektiva meist turn-immanent oder mit Bezug auf den eigenen Vorgänger-Turn bei Deiktika, Konjunktionen und Definitartikeln. Interagierenden-übergreifende Konnektiva sind in der HCI selten – auch bei den UserInnen, die sich der begrenzten Möglichkeiten der Systeme zur Referenz bewusst zu sein scheinen und Rückverweise weitestgehend vermeiden. Die quantitative Untersuchung führt hier zu irreführenden Ergebnissen, denn im einfachen Vergleich verwenden die Systeme allgemein mehr textgrammatische Kohäsionsmittel als die UserInnen. Diese werden aber in der Regel turn-immanent verwendet, spiegeln die konzeptionell schriftliche ← 364 | 365 → Stilebene der System-Beiträge wider und tragen somit eben nicht direkt zur Dialogkohärenz bei. Sie dürfen unter keinen Umständen als Indikator für kohärente Dialoge missinterpretiert werden.

Die UserInnen versuchen kaum, kohäsiv oder turn-immanent zu verknüpfen (Simplifizierungsstrategie?). Dies führt quantitativ zu divergenten Werten für UserIn und Bot in Bezug auf Kohäsionsmittel, obwohl beide Seiten eigentlich keine Interagierenden-übergreifenden Verknüpfungen vornehmen. Die qualitative Untersuchung zeigt aber, dass zuverlässig funktionierende Kohäsion in der HCI bislang nur bei der Personal-Deixis vorliegt.

Was die HCI also qualitativ auszeichnet, ist leider häufig das Fehlen eines „roten Fadens“ in Form von logischer Progression und semantischer Kontiguität, was sich an der Textoberfläche seinerseits im Fehlen turn-übergreifender kohäsiver Strukturen manifestiert. Was die HCI quantitativ kennzeichnet, sind die unterschiedlichen sprachlichen Stile, die von Systemen und UserInnen verwendet werden und die in Bezug auf eine ganze Reihe von Untersuchungsparametern zu divergenten Werten führen. Dies steht in klarem Gegensatz zur HHC, wo die Interagierenden eine gemeinsame Sprache aushandeln und sich die jeweiligen Verteilungen für sprachliche Phänomene einander annähern. Gerade bei den älteren Systemen mit einer UserInnen-Führung, die einer natürlichsprachlich vermittelten Menünavigation gleicht, sind System- und UserInnensprache besonders unterschiedlich. Im Extremfall stehen ausführlichen, konzeptionell monologischen sowie schriftlichen System-Texten knappe UserInnen-Äußerungen entgegen, welche die von Womser-Hacker (1992) beschriebenen strukturellen Merkmale eines CTs aufweisen: eine Tendenz zur lexikalischen und syntaktischen Simplifizierung, metaphorischer Sprachgebrauch als Navigationsbefehl, Systemtests und Flaming. Die Ausgabe der neueren Systeme ist unter ausschließlicher oder partieller Verwendung von Mustererkennung und Prompting freier und die einzelnen Turns sind weniger schriftsprachlich und konzeptionell dialogischer formuliert. Dies fördert ein natürlicheres Dialogverhalten der UserInnen, wie an einem Rückgang an strukturellen Merkmalen eines CTs zu erkennen ist. Überspezifizierungen und Befehlssprache können gegenüber den neueren Systemen nicht mehr nachgewiesen werden. Allerdings bleibt eine Tendenz zur Simplifizierung, die sich nur zum Teil auf physikalische Ökonomie bei der Interaktion über das Keyboard eines Endgeräts zurückführen lässt. Funktional hat diese Simplifizierung heute nur noch wenig gemeinsam mit Krauses (1992) natürlichsprachlicher Metapher für formale Ausdrücke, denn durch die intuitive Nutzbarkeit von Interfaces abstrahiert die moderne Generation von Computer-NutzerInnen weitestgehend vom sich dahinter verbergenden Quellcode ← 365 | 366 → in Programmiersprache. Wahrscheinlich spiegelt die Tendenz zur Verknappung eher die allgemein passive Haltung der UserInnen wider, die sich vom Assistenzsystem durch den Dialog führen lassen und sich auf thematische Sprünge einlassen. Dabei wird auch bei den neueren Systemen die Progression durch kurze Bestätigungen mit „ja“ oder „ok“ („okay“, „o.k.“) o. ä. vorangetrieben. Diese Sprachhandlung gleicht dem Gebrauch der Enter-Taste zum Weiterklicken (natürlichsprachliches Weiterklicken) und kann als letztes Relikt des metaphorischen Sprachgebrauchs nach Krause (1992) interpretiert werden. Systemtests und Flaming sowie die geringe Zahl an Höflichkeitsindikatoren bleiben als Hinweise auf einen funktionalen CT konstant.

Allgemein muss festgehalten werden, dass eine Interpretation der HCI als CT zu kurz greift. HCI setzt sich aus verschiedenen Ebenen zusammen, auf denen unterschiedliche Kräfte wirken. So wird auf dem vorbewusstem Level seitens der UserInnen der Alignment-Mechanismus aus der HHC auf die HCI übertragen, wo immer das Dialog-Design eine solche Reaktion zulässt. Ferner werden bewusste Strategien aus der HHC auf die HCI übertragen (bspw. beim Grounding, vgl. Fischer 2006). Diese Aspekte können nicht als CT gedeutet werden. Ein Großteil der UserInnen-Turns in der HCI kann als reaktives Verhalten auf die Funktionsweise des jeweiligen Systems verstanden werden. Dabei spielt es eine wichtige Rolle, ob das Dialog-Design auf einer natürlichsprachlich vermittelten Menünavigation, einer Parsing&Prompting-Architektur oder einem hybriden System gründet. Denn die unterschiedlichen Herangehensweisen an HCI führen zu unterschiedlichen UserInnen-Reaktionen, die sprachlich strukturell und funktional widergespiegelt werden. Stellt ein System mit natürlichsprachlicher Menünavigation z. B. viele Fragen, die bestimmte Antworten nahelegen (z. B. Entscheidungsfragen), finden sich diese Antworten als Adjazenzellipsen oder einfache Sätze im UserInnen-Output und es gibt weniger Indikatoren für Störungen und Repair. Verlässt man sich bei der Konstruktion auf Schlüsselwortparsing und Prompting, braucht man viele Default-Antworten, die thematische Sprünge, Repair oder Flaming evozieren. Ob die Sprache der UserInnen viele Merkmale eines natürlichen Dialogverhaltens aufweist, hängt also eng mit der Systemarchitektur zusammen.

Was an der HCI als CT bezeichnet werden kann, ist der Teil des UserInnen-Outputs, der von einem natürlichen Dialogverhalten abweicht. Dabei ist zu unterscheiden, welche Parameter direkt von einem Aspekt der Konstruktion des jeweiligen Systems abhängen und welche unabhängig vom Einzelsystem auf Vorannahmen der UserInnen über Dialogagenten allgemein zurückgeführt werden können. Es ist also zu differenzieren zwischen reaktivem und proaktivem ← 366 | 367 → CT. Diese Unterscheidung ist nicht immer einfach zu treffen. Für beide Arten gilt jedoch, dass sie als CT interpretiert werden müssen. Hierbei handelt es sich gleichermaßen um strukturelle und funktionale Aspekte der HCI. Elemente die auch bei modernen Systemen noch strukturellen CT auszeichnen, sind die Tendenz zur Simplifizierung, Tests, Flaming und das Fehlen von Höflichkeitsmarkern in der Gesprächsmitte. Im Vergleich zu den 1990er Jahren hat sich die Rezeptionshaltung der UserInnen verändert, so dass mit den bekannten Strukturen mitunter andere Funktionen einhergehen. Das passive Interaktionsverhalten führt dazu, dass die UserInnen-Sprache heute abhängiger denn je vom jeweiligen Design ist. Technischer Fortschritt auf der Seite der Systeme hat innerhalb relativ kurzer Zeiträume Auswirkungen auf die UserInnen-Sprache (vgl. Rückgang der Befehlssprache innerhalb von 15 Jahren). So spiegelt sie den Stand der technologischen Entwicklung zu einer bestimmten Zeit wider und stellt immer nur eine Momentaufnahme dar, da die Systeme ständig weiterentwickelt werden und Technikverständnis, Expertise und Akzeptanz der UserInnen sich mit ihnen in Koevolution verändern.

Vergleicht man die Systeme untereinander, so werden bestimmte Entwicklungstendenzen deutlich. Ein hybrides Dialog-Design mit Skripten für bestimmte thematische Teilbereiche und Parsing&Prompting in freieren Dialog-Abschnitten ist reiner Menü-navigation und einfachen Parsing&Prompting-Designs überlegen. Außerdem ist eine konzeptionell dialogische und mündliche Sprache, monologisch und schriftsprachlich gestalteten System-Turns vorzuziehen. Der so aufgebaute ECA Max schneidet bei allen untersuchten Parametern am besten ab und funktioniert am robustesten. Hier wurde ein Mittelweg zwischen enger UserInnen-Führung und überraschend freien Sequenzen gefunden. Außerdem sind die Redebeiträge des Systems durchgängig konzeptionell dialogisch und mündlich gestaltet. Allein diese Design-Entscheidung und deren systematische Umsetzung rufen natürlichere UserInnen-Reaktionen hervor. Der ECA ist den älteren Systemen Twipsy und Karlbot und dem aufwendigen Parsing&Prompting-Bot Elbot deutlich überlegen. Elbot hat als konsistenteste und interessanteste Persona den höchsten Unterhaltungswert, was sich ebenfalls positiv auf die Akzeptanz durch die UserInnen auswirkt. Jeder einzelne Redebeitrag ist der Elbot-Persona entsprechend gestaltet, was sich bspw. im überdurchschnittlichen Gebrauch von Modal- und Intensitätspartikeln zeigt. Die soziale Wirkung ist einem gleichermaßen genialen wie fatalistischen Kunstgriff seines Konstrukteurs Fred Roberts zu verdanken, der aus der Not eine Tugend machte und absurde thematische Sprünge in der Interaktion mit Elbot zu einem stimmigen Bild seines Charakters beitragen ließ. Diesem anarchischen Charme kann ← 367 | 368 → die spröde Pädagogen-Persona Max wenig entgegensetzen. Doch der ECA Max ist eindeutig das sinnvollere Gerät, da man gezielt versucht hat, inkohärenten Systembeiträgen durch polyvalent antizipierte Subskripte entgegenzuwirken. Dadurch wird er über den Entertainment-Bereich hinaus einsetzbar – auch in ernsthafteren Szenarien im pädagogischen Bereich, in dem Kohärenz in der thematischen Progression eine bedeutende Rolle spielt. Planbasiertes Dialog-Management ist also unumgänglich, wenn ein bestimmtes Dialogziel erreicht werden soll und der Bot zusätzlich eine Vorbildfunktion ausfüllt. Allgemeine Dialog-Pläne können ausdifferenziert werden in der Dialogsituation entsprechend modifizierbare Sub-Pläne, jedoch sollte eine grundsätzliche Struktur vorhanden sein, wie es in pädagogischen Agenten auch allgemein angestrebt wird (vgl. Zinn et al. 2003). Denn vorgegebene Strukturen führen zu kohärenten Sequenzen und diese scheinen natürlichere UserInnen-Beiträge und weniger CT zu evozieren.

Diese Weiterentwicklung seitens der Systeme von der natürlichsprachlich vermittelten Menünavigation und Parsing&Prompting-Designs hin zu hybriden ECAs und eine Verbesserung der System-Sprache hin zu interaktiv-dialogisch, konzeptionell mündlich gestalteten Turns zieht auch Entwicklungstendenzen im Bereich der UserInnen-Sprache nach sich. So findet sich weniger Befehlssprache, aber mehr reaktives Alignment. Was dafür spricht, dass der Bot weniger als zu bedienende Maschine und mehr als anthropomorpher Gesprächspartner wahrgenommen wird. Eine Entwicklung weg von CT hin zu natürlicher Kommunikation scheint begonnen zu haben und kann an der Übertragung vorbewusster Mechanismen aus der HHC und einem Rückgang an metaphorischem Sprachgebrauch nach Krause (1992) festgemacht werden. Die derzeitige HCI weist sowohl Elemente der HHC als auch eines CTs auf. Dass der Trend in den nächsten Jahrzehnten weiter in Richtung natürlicher Kommunikation gehen wird, ist wahrscheinlich, solange EntwicklerInnen das Ziel verfolgen, Systeme anthropomorph zu gestalten. Die entscheidenden Hürden innerhalb dieser Entwicklung werden die Nutzbarmachung von großen Datenmengen als Weltwissen und Common Ground, sowie die logisch-semantische Verarbeitung von Informationen sein. Die natürliche Grenze des gesamten Prozesses ist die Generierung eines künstlichen Bewusstseins, durch das die Interaktion mit dem System in eine Kommunikation mit einer artifiziellen Person verwandelt würde.


106 Beide Parteien splitten ihre Beiträge zum Teil. Zählt man die gesplitteten Turns in einer alternativen Auszählung als je einen Turn, so vergrößert sich die Differenz der durchschnittlichen Turnlängen bei Auskunft und Mitgliedern um 0,4 Wortformen. Die Abweichungen sind nicht so gravierend, dass die Daten anders interpretiert werden müssten.

107 Definition, Beispiele und Überlegungen zur Annotation von Adjazenzellipsen finden sich in Kapitel 3.

108 Wie definiert in SWBD-DAMSL (vgl. Kapitel 3).

109 Prozentualer Anteil an der Gesamtmenge der Dialogfunktionen, Diskussionspunkte grau hinterlegt.

110 SWBD-DAMSL: giving opinion.

111 Eine tentative Klassifizierung in PlayerInnen und Non-PlayerInnen konnte anhand unterschiedlicher Parameter vorgenommen werden, die im weiteren Verlauf nach und nach thematisiert werden.

112 Eine genaue Erhebung dieser Phänomene im Dortmunder Chat-Korpus findet sich bei Beißwenger 2007.

113 Besser noch wäre eine Analyse Turn für Turn, die jedoch mit größerem technischem Aufwand verbunden wäre (vgl. Kapitel 3).

114 Die Vorteile dieser Design-Entscheidung werden in Kapitel 4.4 thematisiert.

115 Asymptotische Signifikanzen, das Signifikanzniveau ist .05. Die Signifikanzen wurden im U-Test nicht exakt berechnet, sondern es wurde ein mathematisches Modell verwendet, das die echte Verteilung ungefähr beschreibt. Das Verfahren funktioniert gut für Werte größer als 5. Da die vorliegenden Werte auf ganze Dialoge zurückgehen, sind sie vergleichsweise hoch und beziehen sich auf eine große Grundgesamtheit. Daher ist das o. g. Modell vertretbar.

116 Eine Userin von Max produziert sogar nach DIST 403 noch eine lexikalische Persistenz. Allerdings ist in diesem Fall sprachlich der Zusammenhang zum Prime nicht mehr ganz klar. Unter kognitiven Gesichtspunkten ist dieser Fall jedoch gerade deshalb besonders interessant.

117 Die Menge der Wortformen stellt nicht für alle Untersuchungsparameter in diesem Bereich eine sinnvolle Grundgesamtheit dar (vgl. Adjazenzellipsen). Die Gesamtmenge der TCUs stellt eine anschauliche Bezugsgröße für alle Parameter dar.

118 Personalpronomina, Demonstrativpronomina, Indefinitpronomina, Possessivpronomina, Interrogativpronomina, Reflexivpronomina, Relativpronomina.

119 Persönliche Auskunft von Elbots Chef-Designer Fred Roberts (2009).

120 Dies gilt nicht für alle Partikeln und es kann ein Unterschied in Besug auf Gender festgestellt werden.

121 corpora.ids-mannheim.de/libac/doc/libac-addOn-LexikalVielfalt.pdf (Zugriff 20.05.2016).

122 In Nominalgruppen integrierte Adjektivgruppen wurden in einer separaten Zählung aller Adjektivgruppen ausgewertet. Ihre Anzahl war vernachlässigenswert gering.

123 Als Ursache dafür kann die Aufnahmesituation in Fischers (2006) Experimenten angeführt werden, in der die ProbandInnen mit einem Roboter konfrontiert wurden, während die Versuchsleiterin oder eine andere Person im Raum war.

124 Für den Begriff Stil wird hier ein größerer Begriffsumfang angesetzt als in der soziolinguistischen Fachterminologie (vgl. u. a. Dittmar 1997: 221ff).