Lade Inhalt...

Chatbots

Eine linguistische Analyse

von Netaya Lotze (Autor)
Dissertation 443 Seiten
Open Access

Inhaltsverzeichnis


← 10 | 11 →

Abkürzungsverzeichnis

← 12 | 13 →

Dank

Ich danke der Friedrich-Ebert-Stiftung für die großzügige finanzielle und ideelle Unterstützung meiner Dissertation. Ohne ihre im Rahmen der Graduiertenförderung zur Verfügung gestellten Mittel, hätte ich das Promotionsprojekt gar nicht erst beginnen können.

Außerdem danke ich der Firma Artificial Solutions – und dort vor allem Dipl.-Ing. Dipl.-Psych. Fred Roberts – sowie Prof. Dr.-Ing. Ipke Wachsmuth und apl. Prof. Dr.-Ing. Stefan Kopp von der Universität Bielefeld für die freundliche und kollegiale Bereitstellung der Millionen von Dialogtranskripten ihrer Chatbots und Embodied Conversational Agents. Ohne eine solide Datenbasis sind empirische Arbeiten gegenstandslos, daher bin ich sehr froh, dass ich auf eine solche Fülle an Mensch-Maschine-Dialogen zurückgreifen konnte.

Selbstverständlich gilt mein Dank auch meinem Betreuer Prof. Dr. Peter Schlobinski und meiner Betreuerin Prof. Dr. Kerstin Fischer für ihren stetigen, anregenden – und manchmal auch kritischen – inhaltlichen Input und vor allem für die theoretische Basis, auf der ich aufbauen konnte.

Solche Arbeiten entstehen niemals ohne die tatkräftige Unterstützung der zahlreichen FreundInnen, Verwandten, KollegInnen und Hilfkräfte, die nicht müde werden zu korrigieren, nachzurechnen und zu beraten. Euch allen bin ich zutiefst dankbar für Eure Mühen.

Netaya Lotze (Münster, Juli 2016) ← 13 | 14 →

← 14 | 15 →

Vorwort

Einer der Gründe, sich mit künstlichen Kommunikationspartnern zu beschäftigen, ist, dass diese Kommunikationssituation noch so ungewohnt ist, dass SprecherInnen nicht auf Routinen zurückgreifen können und stattdessen ad hoc Lösungen finden müssen, um diese ungewöhnliche Kommunikationssituation zu bewältigen. Die Spuren dieser Prozesse können dann in der Interaktion beobachtet werden. Interaktionen, in denen alles glatt läuft, sind in diesem Sinne viel weniger interessant als solche, in denen SprecherInnen gezwungen sind, neue Lösungen für die angenommenen Kommunikationsprobleme zu entwickeln. Die vorliegende Arbeit steht in dieser Tradition und stellt einen Meilenstein dar auf dem Weg, sprachliches Verhalten in neuen Kommunikationsumgebungen zu verstehen. Netaya Lotze analysiert Interaktionen mit vier verschiedenen deutschsprachigen Chatbots und liefert somit eine der ersten umfassenden Analysen von sprachlichen Mensch-Maschine-Interaktionen, in denen diese Aushandlungs- und Anpassungsprozesse deutlich werden. So trägt beispielsweise ihre Studie zum Alignment dazu bei, die Umstände, unter denen sich SprecherInnen an ihre Kommunikationspartner angleichen, besser zu verstehen. Insbesondere zeigen ihre Ergebnisse, dass lokales Alignment unter anderem durch globale Kohärenzbeziehungen bedingt ist. Ihre Analyse führt so zu einem besseren Verständnis kommunikativer Kooperationsprozesse im Allgemeinen.

Ein weiterer Grund für die Analyse von Interaktionen mit künstlichen Agenten ist, dass sie uns zeigen kann, was tatsächlich menschliche Kommunikation ausmacht. Brian Christian argumentiert beispielsweise in seinem Buch The Most Human Human dafür, dass Menschlichkeit sich vor allem durch ein konsistentes Selbst ausdrückt. Netaya Lotzes Arbeit geht hier weit darüber hinaus und zeigt, wie die Anpassung an einen bestimmten Kommunikationspartner den Dialog auf jeder Ebene (lokale und globale Kohärenz und Kohäsion, Alignment, sequentielle Struktur) durchsetzen, und dass zwischenmenschlicher Dialog sich durch engste Beziehungen zwischen Turns auf der sprachlichen Ebene auszeichnet. Dazu stellt Netaya Lotze in bemerkenswert lesbarer Weise künstliche Agenten und ihre Funktionsweise vor. Die vorliegende Arbeit ist außerdem großartig in der Art und Weise, wie interdisziplinäre Konzepte zusammengebracht und gut verständlich dargestellt werden. Ihre korpuslinguistische Untersuchung ist die aufwändigste und umfassendste sprachliche Analyse von Mensch-Computer-Interaktionen, die ich kenne, und extrem lohnend. Mir ist keine andere Studie ← 15 | 16 → bekannt, die solch einen Aufwand betrieben und so umfassende Ergebnisse zur Mensch-Maschine-Kommunikation vorlegen könnte wie die vorliegende Arbeit.

Der Leser und die Leserin der vorliegenden Arbeit haben somit eine exzellente Wahl getroffen: Der folgende Text ist klar und erstaunlich gut lesbar, liefert detaillierte Theoriediskussionen und tiefgehende empirische Analysen und leistet insgesamt einen wichtigen Beitrag für unser Verständnis von Mensch-Maschine-Interaktion, aber auch von dem, was menschliche Kommunikation ausmacht. Das Buch eignet sich aufgrund seiner Klarheit sowohl für LeserInnen, die noch neu in diesem Gebiet sind, als auch für WissenschaftlerInnen, die seit Jahren in diesem Feld arbeiten – für mich zumindest war dieses Buch zu lesen eine Bereicherung.

Prof. Dr. Kerstin Fischer (Hamburg, Juli 2016)

← 16 | 17 →

Einleitung – Science und Fiction

Ein uralter Traum beflügelt die menschliche Phantasie bis zum heutigen Tag: Die Erschaffung von künstlichen Intelligenzen (KI), mit denen man ebenso kommunizieren kann, wie mit einem menschlichen Gegenüber – von Robotern1 oder virtuellen Assistenzsystemen mit Sprachfunktion. WissenschaftlerInnen2 bemühen sich weltweit, Sprachsysteme zu entwickeln, die diesem Ideal nahe kommen. Die Mensch-Maschine-Interaktion oder Human-Computer-Interaction (HCI)3 ist als Teilgebiet der KI-Forschung seit den 1970er Jahren zu einem interessanten Forschungszweig mit rasanten Fortschritten avanciert. Doch sind die Technologien noch bei Weitem nicht so ausgereift, wie Science-Fiction-AutorInnen sie erträumen. Sprachfähige technische Entitäten bevölkern Bücher, Filme, Serien und Spiele dieses Genres und das Motiv des sprechenden Computers erfährt in den einzelnen Geschichten und fiktiven Welten sehr unterschiedliche Ausprägungen.

In welchem Maße diese künstlichen Intelligenzen natürlichsprachlich kommunizieren können, differiert in der Science Fiction stark. So unterhalten sich z. B. in George Lucas’ Star-Wars-Universum4 intelligente Maschinen untereinander in einer Art Robotersprache und es bedarf eines Übersetzungssystems (C3PO), um die Kommunikation zwischen Mensch und Maschine zu ermöglichen. Die sog. Droiden führen verlässlich Aufgaben für die Humanoiden aus z. B. als Steuerungseinheit eines Raumschiffs oder als Soldaten. Ihre Kommunikation umfasst nur das Nötigste. Douglas Adams (1981) dagegen stellt ein ← 17 | 18 → gänzlich anderes Szenario der Kommunikation mit artifiziellen Assistenten vor. In Per Anhalter durch die Galaxis gehören gleich zwei künstliche Intelligenzen zur Besatzung des Raumschiffs, die zur natürlichsprachlichen Interaktion in der Lage sind: Der redselige, übertrieben freundliche Bordcomputer Eddie und der depressive Roboter Marvin. Eine vom System vorgenommene Bewertung von Redebeiträgen nach emotionalen Kriterien wird schon heute von vielen WissenschaftlerInnen als wichtige Voraussetzung für gelungene HCI-Dialoge angesehen. Adams thematisiert humorvoll die Probleme, die es mit sich brächte, wenn man die Forderung nach emotionalen Sprachsystemen wörtlich nähme. Seine fiktiven Systeme sind nicht länger als zuverlässige Automaten einsetzbar, sondern unterliegen Stimmungsschwankungen und ändern ihre Ziele spontan. Die Dialogführung funktioniert einwandfrei, jedoch werden Dialoge durch die jeweilige persönliche Färbung anstrengend oder ineffizient. Auch die wissenschaftliche Gemeinschaft in der KI-Forschung diskutiert, ob ein wirklich anthropomorpher Dialog zwischen Mensch und Maschine überhaupt wünschenswert sei. Dabei steht immer die Frage nach der anwendungsspezifischen Nutzbarkeit (Usability) im Vordergrund. Während in der KI-Forschung teilweise tatsächlich das Ziel verfolgt wird, anthropomorphe Dialogkompetenz zu implementieren, setzt man im kommerziellen Sektor dagegen auf robuste Nutzbarkeit am jeweiligen Einsatzort.

Die besten Fähigkeiten eines Menschen und die beeindruckendsten Funktionen eines Roboters verbindet der Charakter Data aus Gene Roddenberrys Science-Fiction-Serie Star Trek – The next Generation (TNG), in der ein sehr positives Bild von technischem Fortschritt propagiert wird. Der Android handelt selbstbestimmt und kommuniziert natürlichsprachlich, inhaltsorientiert und effizient. Als lernfähiges System bemüht er sich bewusst um Finessen der menschlichen Kommunikation wie Ironie oder die Auswahl des angemessenen sprachlichen Registers, wie folgendes Beispiel einer Szene aus TNG zeigt, die beim Bordfrisör der Enterprise spielt5.

(1) Data (denkt): Freundschaftliche Beleidigungen und Sticheleien – eine weitere Form der menschlichen Sprache, die ich zu meistern versuche, in diesem Fall mit Commander Geordi La Forge.

(2) La Forge: Hi Data.

(3) Data (denkt): Ich sehe Geordi als meinen besten Freund an.

(4) La Forge: Auch hier zum Haareschneiden?

(5) Data: Mein Haar braucht nicht geschnitten werden, du Knalltüte. ← 18 | 19 →

Data analysiert La Forges elliptische Frage in (4) als Ironie, da zwischen ihm als nicht biologischem Android und „Haareschneiden“ keine direkte semantische Verbindung besteht – eine logische Operation zu der die meisten heutigen Sprachsysteme nicht in der Lage sind. Außerdem schätzt er in (3) das sprachliche Register als freundschaftliche Kommunikation ein, was bereits La Forges informelle Begrüßung in (2) nahelegt. Beide Informationen zusammen veranlassen Data zu seiner Äußerung in (5), in der er durch „du Knalltüte“ signalisiert, dass er erstens den Witz verstanden und zweitens die sprachliche Varietät bemerkt hat, in der sich der Dialog manifestiert.

(6) Data: Ich experimentiere mit freundschaftlichen Beleidigungen und Sticheleien, es war nicht als ernsthafte Beschimpfung gemeint.

Data ist folglich auch fähig zur metasprachlichen Reflexion. La Forges Sprache in der Serie weist bisweilen jugendsprachliche Merkmale auf, d. h. freundschaftliche Beschimpfungen stören in dieser Varietät den Dialog nicht (vgl. Neuland 2008). Dass sich eine solche Strategie nicht auf andere soziale Kontexte übertragen lässt, betont La Forge sofort, da er befürchtet, Data könne aus Mangel an Reflexion über die Kontextabhängigkeit des Registers übergeneralisieren.

(7) Geordi [La Forge] lachend: Also…versuchen Sie das ja nicht beim Captain.

Insgesamt zeigt der Dialog die komplexen logischen Operationen, zu denen Data als weit fortgeschrittene KI in der Lage ist, und das breite Wissen über menschliche Kommunikation, das die Datenbasis für sein Sprachsystem darstellt. Ähnlich wie Data können in Star Trek außerdem der Bordcomputer, ein Sprachassistenzsystem zur Steuerung aller Systeme des Raumschiffs verkörpert durch eine Frauenstimme, und das medizinische Notfallprogramm in Star Trek Voyager verkörpert durch ein Hologramm, als nahezu perfekte Dialogagenten angeführt werden. Diese Form der reibungslosen Kommunikation zwischen Mensch und Maschine ist zum Idealtypus der heutigen HCI stilisiert worden, so dass im Diskurs um innovative Sprachsysteme und neue Herausforderungen an die EntwicklerInnen häufig von Star-Trek-Kommunikation als erklärtem Ziel gesprochen wird. Als Star-Trek-Kommunikation gelten laut Voice Compass „Dialoge zwischen Mensch und Maschine, die ohne jede Einschränkung wie ein zwischenmenschlicher Dialog funktionieren“ (Artelt 2007: 336). Diese Definition geht auf eine Aussage von Dix et al. zurück, in der die eingeschränkten Möglichkeiten heutiger Systeme mit den menschenähnlichen der Star-Trek-Systeme verglichen werden. „In contrast to most human conversation, dialog with computers is relatively structured and constrained. It is only on Star Trek that one can chat freely to the computer and expect a response […]!” (Dix, Finlay, Abowd, Beale 2004: 545). ← 19 | 20 →

Heutige Systeme sind noch weit entfernt von einer uneingeschränkten, menschenähnlichen Konversation. Zwar haben die modernen Chatbots, Embodied Conversational Agents (ECAs), Social Intelligent Agents (SIAs) und soziablen Roboter wesentlich sophistiziertere Systemarchitekturen als Joseph Weizenbaums virtuelle Psychologin ELIZA6 in den 1960er Jahren und greifen auf größere Datenbanken zurück, betrachtet man jedoch die konkrete Dialogperformanz, scheitern sie in vielen Fällen schon – oder gerade – an alltäglichen Aufgaben.

Stellt man z. B. dem preisgekrönten Chatbot Elbot7 die gleiche Frage, wie La Forge sie im oben besprochenen Dialog Data stellt, wird eine Verlegenheitsantwort (5) ausgegeben, weil die Frage (4) vom Parser nicht verarbeitet werden konnte.

(1) Elbot: Ah, schon wieder ein Mensch! Ich bin Elbot, der Roboter. Was haben Sie denn auf dem Herzen?

(2) Netaya: Hi, Elbot.

(3) Elbot: Hallo, ich bin Elbot. Wer sind Sie?

(4) Netaya: Auch hier zum Haareschneiden?

(5) Elbot: Hier ist auch eine Frage: Was machen Sie eigentlich beruflich?

Warum Elbot die Frage (4) nicht verarbeiten kann, hängt mit unterschiedlichen Problemen zusammen. Erstens weicht die Userin vom eigentlich vorgegebenen, in (3) motivierten Gesprächsverlauf ab; d. h. sie wechselt spontan das Thema. Hier zeigt sich ein erstes grundsätzliches Problem in der Interaktion zwischen Mensch und Maschine: Der deterministische Automat steht einem menschlichen Wesen mit freiem Willen gegenüber, das seine Dialogziele abrupt ändern kann. Der Gedankensprung wird nicht kommentiert, da das System nicht in der Lage ist, die Kohärenz von Redebeiträgen zu beurteilen. In (5) springt Elbot allerdings dann in der Default-Antwort selbst zu einem neuen Thema, um einen Gesprächsbeitrag der Userin zu evozieren, den sein Parser besser erkennen kann.

Ein zweites Problem stellt die reduzierte Form der Frage in (4) dar. Entscheidungsfragen sind in ihrer Vollform für Dialogsysteme syntaktisch vergleichsweise leicht zu verarbeiten und bei der Generierung der Antwort beschränken sich die Möglichkeiten auf nur zwei Alternativen. Dieser Fragetyp wird von einigen Systemen mit Sprechaktparser erkannt. Da die Frage hier aber auf syntaktischer ← 20 | 21 → Ebene die Form einer Handlungsellipse aufweist und nicht die Vollform „Sind Sie auch hier zum Haareschneiden?“ eingegeben wurde, konnte sie nicht als Ja/Nein-Frage erkannt werden. Dies ist ein zweites notorisches Problem in Mensch-Maschine-Dialogen. Menschliche Kommunikation folgt in vielen Bereichen dem Prinzip der sprachlichen Ökonomie (vgl. Ronneberger-Sibold 1980), an Kurzformen wie in (3) scheitern Sprachsysteme jedoch noch häufig.

Den dritten Problembereich stellen Lexik und Morphologie dar. „Haareschneiden“ als nominalisiertes zusammengesetztes Verb wird in dieser Form vom Parser nicht erkannt, da es nicht genauso im Lexikon des Bots aufgeführt wird. Komposita dieser Art sind aber völlig alltäglich und können kreativ nach den Regeln der Morphologie gebildet werden. Ein elaboriertes Lexikon müsste also neben Lemmata auch alle Regeln der Morphologie beinhalten und als semantisches Netz angelegt sein, in dem „Haare“ und „schneiden“ assoziativ verbunden sind, um flexibel auf kreative Wortbildung seitens der UserInnen reagieren zu können. In Elbots semantisch nur rudimentär vernetzter Wissensorganisation liegt auch begründet, warum er keine Chance hat, die Ironie zu erfassen, die darin liegt, einen Roboter zu fragen, ob er sich die Haare schneiden lassen möchte. Ferner verfügt das System weder über Erfahrungen noch über Hintergrundwissen zu diesem Thema.

Der Dialog mit Elbot steht exemplarisch für rund 200 HCI-Dialoge, die im Rahmen dieser Arbeit analysiert wurden. Bei den artifiziellen GesprächspartnerInnen in den untersuchten Dialogen handelt es sich um Systeme mit ganz unterschiedlichen Systemarchitekturen und Dialog-Designs aus verschiedenen Entwicklungsphasen der HCI-Forschung. Bereits in der kurzen Sequenz des obigen Beispiel-Dialogs zeigt sich vieles, das empirisch an größeren Samples bestätigt werden kann. HCI-Dialoge kämpfen derzeit noch mit ganz grundsätzlichen Problemen. Ihnen fehlen der „rote Faden“, die logische Kohärenz, die semantische Kontiguität und die sprachlichen Mittel, um all diese Faktoren in einem konkreten Dialogverlauf zu zeitigen. Dennoch werden Menschen heute bereits in vielen Bereichen des täglichen Lebens mit Dialogsystemen konfrontiert und müssen sich den virtuellen GesprächspartnerInnen gegenüber auf irgendeine Weise sprachlich verhalten. Herauszufinden, welche Strategien sie dabei verfolgen, ist Aufgabe der Linguistik.

Dabei werden drei grundsätzliche Ziele angestrebt: Erstens trägt die Evaluation von HCI-Dialogen selbstverständlich dazu bei, die Systeme zu verbessern, indem sie danach genauer auf das sprachliche Verhalten menschlicher BenutzerInnen abgestimmt werden können. „System designers need to know what to expect users to say and how to guide them into linguistic behaviour that in turn ← 21 | 22 → influences the system’s behaviour positively” (Fischer 2010: 2349). Dieser Aspekt fällt in den Bereich der Entwicklung und Verbesserung von Dialogassistenten.

Zweitens gilt der Erforschung dieser Teildomäne menschlichen Sprachhandelns ein abstrakteres soziolinguistisches Interesse per se. In naher Zukunft werden Menschen vermehrt mit Sprachsystemen umgehen, daher ist die differenzierte Analyse der Interaktionsform „natürlichsprachliche HCI“ von großer Wichtigkeit, um eventuelle psychologische oder soziale Auswirkungen und Wechselwirkungen prognostizieren und bewerten zu können. „Interactions between humans and computers or robots constitute in many ways extreme conditions for communication to take place, which can provide us with useful insights into general cognitive, social and interactional factors relevant and the resources speakers make use of“ (Fischer 2010: 2349). Dieser Aspekt fällt in den Bereich der angewandten Linguistik und liegt im Fokus dieser Arbeit.

Der Versuch Dialogbeiträge zu generieren, erfordert ein umfangreiches Wissen über Sprache und Denken an sich. Daher sprechen sich einige KI-ForscherInnen dafür aus, dass über den Umweg der Implementierung sprachlichen Wissens in ein System, das in letzter Konsequenz binäre Codes verarbeitet, Erkenntnisse gewonnen würden über die strukturelle Organisation von Sprache an sich und über die kognitive Sprachverarbeitung in Gehirn. So beantwortet bspw. Prof. Dr. Raúl Rojas von der FU Berlin die Frage nach seiner Motivation, sich mit KI zu beschäftigen, stellvertretend für viele IngenieurInnen in diesem Bereich so: „Mein Forschungsmotiv ist es nicht Menschen nachzubauen, sondern sie zu verstehen, ihre Geheimnisse zu entdecken“ (Rojas 2011)8. Dieser Aspekt fiele dann mit Bezug auf Sprache in den Bereich der Psycholinguistik und der Sprachphilosophie.

Im Rahmen der vorliegenden Studie wurde eine umfangreiche Sammlung von Logfiles von chat-basierten Interaktionen mit unterschiedlich elaborierten Systemen hinsichtlich diverser linguistischer Parameter untersucht. Die Dialogprotokolle stehen in einer diachronen Abfolge und umfassen die Jahre 2000 bis 2006. Im Rahmen der Analyse steht die UserInnen-Sprache im Mittelpunkt der Betrachtung, wobei besonderes Augenmerk auf Wechselwirkungen zwischen UserInnen- und Systemsprache gelegt werden muss. Es handelt sich um eine empirische, korpusbasierte Arbeit, in der rein deskriptiv das Dialog-Design unterschiedlicher Systeme und die sprachlichen Strategien ihrer UserInnen analysiert, gegeneinander abgegrenzt und im Hinblick auf gegenseitige Beeinflussung ← 22 | 23 → untersucht werden. Um zu einem umfassenden Modell der HCI zu gelangen, werden nicht nur Anfangssequenzen oder Sequenzen mit Störungen analysiert, sondern immer ganze Dialoge. Ein besonderes Interesse gilt nämlich der kohärenten Dialogprogression in den verschieden Phasen der Interaktion. Der innovative Charakter des methodischen Ansatzes besteht erstens in der besonders feinkörnigen, polyvalenten Annotation der Korpora – Wortform für Wortform, Phrase für Phrase und Turn für Turn. Die quantitative Untersuchung wird durch qualitative Analysen einzelner Stichproben unterstützt, um funktionale Aspekte, Dynamiken und Wechselwirkungen im Dialog besser greifen zu können. Zweitens wurde eine Bestandsaufnahme der aktuellen Forschungsansätze zur Analyse von Dialogen allgemein und Mensch-Maschine-Interaktionen im Besonderen vorgenommen, die die Auswahl der linguistischen Erhebungsparameter theoriegeleitet bedingt. Dabei werden die folgenden unterschiedlichen Überlegungen miteinbezogen:

Die verschiedenen Ansätze leiten sich aus von einander stark abweichenden Forschungsparadigmen ab und können in der Theorie nicht völlig konsequent zusammengedacht werden. Dennoch kann jeder der gewählten Ansätze im Rahmen einer angewandten Studie einen maßgeblichen Beitrag zur Analyse von HCI-Dialogen leisten. Die partielle Unvereinbarkeit der abstrakten Theorien, die diesen Analysewerkzeugen zu Grunde liegen, wird miteinbezogen, wenn der Geltungsbereich von Ergebnissen diskutiert wird.

Desweiteren wird die Überzeugung vertreten, dass eine adäquate linguistische Analyse von HCI-Dialogen auf unterschiedlichen Ebenen ansetzen muss. Aus diesem Grund wurden sowohl lexikalische als auch syntaktische Kategorien ← 23 | 24 → annotiert sowie Sprechakte und persistente Strukturen als Indikatoren für Alignment. Die Studie konzentriert sich entsprechend auf strukturelle und funktionale Aspekte der untersuchten Dialoge und versucht diese systematisch beschreibend zu formalisieren. Semantische Kontiguität und logische Kohärenz der thematischen Progression werden in Abhängigkeit von den Möglichkeiten der untersuchten Systeme diskutiert.

Die Ergebnisse der Korpusstudie werden im zweiten Teil der Arbeit theoretisch zusammengeführt zu einem Interaktionsmodell der HCI, aus dem sich auch bestimmte Implikationen für die Implementierung innovativer Systeme ableiten lassen. Möglichkeiten und Grenzen des Modells werden in einem abschließenden Teil reflektiert und die interdisziplinäre Weiterentwicklung der Gedanken in Informatik, Kommunikationswissenschaft und Soziologie wird diskutiert.

In Kapitel 1 werden die technischen Grundlagen von Systemarchitekturen und Dialog-Designs skizziert und die im Rahmen der Studie untersuchten Systeme vorgestellt. Außerdem werden die sozialen Wirkungen der Systeme seitens der UserInnen diskutiert. Die Restriktionen der artifiziellen GesprächspartnerInnen werden in Abgrenzung zu handlungstheoretischen Rahmenbedingungen der Kommunikation unter Menschen und vor dem Hintergrund der KI-Diskussion herausgearbeitet. Dabei werden Begriffe des geisteswissenschaftlichen Diskurses wie Kommunikation, Intelligenz oder Person für die HCI neu definiert. In Kapitel 2 werden die unterschiedlichen theoretischen Zugänge zur Analyse von HCI- Dialogen dargestellt und aus ihnen Hypothesen für die empirische Untersuchung abgeleitet. Kapitel 3 ist das Methodenkapitel. Hier werden die methodischen Zugänge zur Analyse der Dialoge erläutert. In Kapitel 4 werden die Ergebnisse der quantitativen und qualitativen Untersuchung mit Bezug zum jeweiligen theoretischen Ansatz vorgestellt. Das Schlusskapitel 5 enthält das Interaktionsmodell der HCI und Vorschläge für ein innovatives System-Design sowie die Diskussion um die Möglichkeit von Star-Trek-Kommunikation.

Damit kann diese Arbeit einen Beitrag zum besseren Verständnis der Interaktion zwischen Mensch und Maschine leisten. Denn auch wenn die heutigen HCI-Dialoge noch weit entfernt sind von einer Star-Trek-Kommunikation, wurde der Weg hin zu Assistenzsystemen mit anthropomorphem Dialog-Design als soziable Schnittstelle bereits beschritten. Und die Herausforderung für die interdisziplinäre Forschung liegt im verantwortungsbewussten Umgang mit der Entwicklung neuer Generationen von Dialogagenten (vgl. Elliott & Brzezinski 1998: 12). Die Linguistik kann zu diesem Prozess mit detaillierten und formalisierbaren Interaktionsmodellen für die HCI-Interaktion beitragen, die auf empirischen Sprachdaten gründen. Als Geisteswissenschaft mit Berührungspunkten ← 24 | 25 → zum Bereich der KI kommt ihr außerdem die Rolle einer kritischen Instanz zu. Indem NutzerInnen-Verhalten auf sprachlicher Ebene beobachtet und reflektiert wird, können problematische soziale und kulturelle Entwicklungen, die bisweilen mit neuen Technologien einhergehen, idealiter frühzeitig bemerkt oder präventiv vermieden werden. Denn Kommunikationsformen der Zukunft inkludieren Sprachinterfaces jeglicher Art, so dass das sprachliche Verhalten der UserInnen gegenüber solchen Systemen von zunehmendem Interesse ist. „The sheer quantity of this speech register will therefore soon raise increasingly more attention” (Fischer 2010: 2349). ← 25 | 26 →


1 Vom tschechischen „robóta“ (dt. „Fronarbeit leisten“), erstmals erwähnt in Karel Čapek Science-Fiction-Roman R.U.R. (Rossum Universal Robots), 1970.

2 Im vorliegenden Text wurde versucht, eine gender-gerechte Sprache zu gebrauchen. Der Schreibung mit Binnenmajuskel (im Plural und bei Generika) wurde aufgrund ihrer weitreichenderen Konventionalisierung der Vorzug gegenüber der Unterstrich- oder Asterikschreibung gegeben (vgl. Bickes & Mohrs 2010: 272). Ist bei Einzelpersonen (z. B. VPs) im Singular mit Artikel das Gender nicht bekannt, wird das Femininum verwendet, um doppelte Artikel oder Pronomina zu vermeiden.

3 Während in der Gesprächsanalyse Dialoge als Konversation oder Kommunikation bezeichnet werden, wird in der heutigen HCI-Forschung der Terminus Interaktion bevorzugt. Die Termini Mensch-Maschine-Interaktion (MMI) und Mensch-Computer-Interaktion (Human-Computer-Interaction, HCI) haben sich im Forschungsdiskurs etabliert. Der Terminus Mensch-Maschine-Kommunikation besteht auch und hat eine gewisse Tradition, wird in der Fachliteratur aber aussemantischen Gründen immer seltener gebraucht.

4 Vgl. auch http://starwars.com/ (Zugriff 12.06.2016).

5 Star Trek, The Next Generation, Folge 4/11 „Datas Tag“, Autor Harold Apter, nach der Idee von Gene Roddenberry, http://de.memory-alpha.org/wiki/Datas_Tag (Zugriff 12.06.2016).

6 ELIZA ist ein Programm, das 1966 von Joseph Weizenbaum entwickelt wurde. Es handelt sich dabei um den ersten Chatbot.

7 Elbot wurde 2006 von Fred Roberts für die Firma Artificial Solutions entwickelt und gewann 2008 den Loebner-Preis für das menschenähnlichste Sprachsystem international. Elbot wird als anthropomorpher Roboter dargestellt. Auf www.elbot.de kann man mit ihm chatten.

8 Interview unter: www.fuberlin.de/presse/publikationen/alumnimagazin (Zugriff 04.03.2016)

← 26 | 27 →

1.  Artifizielle Dialogsysteme – Forschungsansätze und Entwicklungen

Während Weizenbaums (1966)9 berühmtes Chatbot-System ELIZA die Eingaben ihrer KlientInnen nur paraphrasieren und Rückfragen stellen konnte, haben sich Dialog-Systeme zur natürlichsprachlichen Interaktion seitdem weiterentwickelt und ausdifferenziert in zahlreiche bereichsspezifische Varianten. Eine Diversifizierung der Zielsetzungen führte zu unterschiedlichen Design-Überlegungen und damit zu einer umfangreichen Bandbreite von Systemarchitekturen. Dabei existieren momentan einfache Chatbots mit ganz basalen Funktionen zur Spracherkennung und Generierung (ALICE, Wallace 2004)10 neben ambitionierten crowd-sourcing-basierten Systemen (Cleverbot, Carpenter 2010)11, aufwendig animierten Embodied Conversational Agents (REA, Cassell 2004)12, auf statistischen Modellen basierende Assistenz-Systemen (Siri, Apple 2010)13 und hybriden künstlichen Intelligenzen, die unterschiedliche Architekturansätze miteinander verbinden (Watson, IBM, Ferrucci et al. 2010)14.

Im folgenden Kapitel sollen einige der unterschiedlichen Systemtypen mit ihren Architekturen und Dialog-Designs vorgestellt werden. Darüber hinaus soll geklärt werden, welche technischen Entwicklungen und soziokulturellen Tendenzen die Entwicklung einer anthropomorphen Schnittstelle begünstigt haben und welche sozialen Wirkungen die entsprechenden Technologien bei ihren UserInnen hervorrufen. Ziel ist es, die Rahmenbedingungen zu definieren, vor deren Hintergrund jede linguistische Analyse von HCI-Dialogen stattfinden muss. Denn ohne ein genaues Verständnis für die zu Grunde liegenden Technologien und deren soziale Bedeutung, ist eine adäquate Beschreibung der HCI auf sprachlicher Ebene nicht möglich. ← 27 | 28 →

1.1  Die Assistenzmetapher zwischen menschenähnlicher KI und Usability

Als die am weitesten verbreitete Form artifizieller Dialogsysteme kann die am wenigsten aufwendig gestaltete Anwendung, der einfache Chatbot, angesehen werden (vgl. Krämer 2008: 35). Als virtuelle BeraterInnen auf Websites von Firmen und Institutionen im WWW finden sich vermehrt Chatbots, mit denen man über ein natürlichsprachliches Interface mit Ein- und Ausgabefunktion medial schriftlich in Interaktion treten kann. Diese Systeme werden oft durch anthropomorphe oder zoomorphe Darstellungen verkörpert, bevölkern Chatrooms und MMORPGs (Massive Multi-Player Online Role-Playing Games15) und sollen den überzeugenden Eindruck fiktiver oder aber auch realer Charaktere vermitteln. Dabei erstrecken sich die Anwendungsbereiche von virtuellen Freunden zum Plaudern bis zu pädagogischen Tutorial-Systemen oder Infobots wie z. B. Findulin16, der auf der offiziellen Website des Bundestags in Gestalt eines Adlers auf Nachfrage Informationen zur deutschen Verfassung ausgibt.

Da die chat-basierte Interaktion mit artifiziellen Dialogsystemen auf dem heutigen Stand der Technik weniger störungsanfällig ist als es Systeme mit Spracherkennung und Sprachsynthese sind, kann am Beispiel der Chatbots die eigentliche Dialogperformanz der Technologie besonders gut im Hinblick auf logisch-semantisches Parsing und kohärente Antworten evaluiert werden. Auch der bekannteste Test für künstliche Intelligenzen (KIs) mit natürlichsprachlichem Interface wurde für chat-basierte Systeme entwickelt. Es handelt sich dabei um den 1950 von Alan Turing vorgeschlagenen Turing-Test, der besagt, dass eine KI dann als intelligent bezeichnet werden könne, wenn sie in einem verdeckten Experimentaufbau eine Jury von menschlichen InteraktionspartnerInnen davon überzeugen könne, dass sie ein chattender Mensch sei. Der Test wurde mehrfach kritisiert, weil er nicht die Intelligenz der Systeme im Sinne von Kompetenzen und Bewusstsein teste, sondern nur deren Performanz im Sinne von konsistentem Verhalten (vgl. Searle 2006; s. a. Kapitel 1.3). Dennoch wird seit 1991 jährlich der internationale Loebner-Contest nach Vorbild des Turing-Tests durchgeführt, um das System zu prämieren, das die menschenähnlichste Wirkung erzielt. Nach Fred Roberts mit seinem System Elbot und Rollo Carpenter mit Cleverbot war 2013 Steve Worswick mit dem Chatbot Mitsuku17 erfolgreich. ← 28 | 29 →

Abbildung 1: Chatbot Mitsuku

img1

Da chat-basierte Bots also weit verbreitet sind und einen direkten Vergleich der Dialogsoftware ohne Text-to-Speech-Komponenten als Störvariablen zulassen, liegt der Fokus dieser Arbeit auf medial schriftlicher HCI. Trotz dieser Einschränkung wird bei eingehender Recherche klar, dass die Zahl sowohl der einfachen Anwendungen im WWW als auch der ambitionierten Forschungsprojekte auf dem Gebiet der natürlichsprachlichen Dialogsysteme als virtuelle AssistentInnen oder TutorInnen immens ist. Einen Überblick über die aktuelle Forschungslandschaft und die verbreitetsten kommerziellen Bots skizziert Krämer (2008). Dabei stellt sie die technologiehistorischen und soziokulturellen Entwicklungslinien dar, die die Herausbildung einer Interface-Metapher18 in Form von menschenähnlichen Dialog-AssistentInnen19 begünstigt haben. Dabei stehen zwei Aspekte im Vordergrund: ← 29 | 30 →

a) die intuitive Nutzbarkeit einer natürlichsprachlichen Schnittstelle (Usability)

b) die historisch gewachsene sozio-kulturelle Faszination, eine künstliche Intelligenz zu erschaffen

Beide Entwicklungslinien kumulieren in der Assistenzmetapher, die mittlerweile eine vielversprechende Alternative zur Werkzeugmetapher darstellt. Der Entwicklung anthropomorpher Assistenzsysteme ging ein Paradigmenwechsel im Verständnis von benutzerInnen-freundlichem Interface-Design voraus. Die Schnittstelle wurde über verschiedene metaphorische Szenarios leichter bedienbar. So manipulieren wir ganz selbstverständlich Icons auf einem Desktop und lassen uns auf diese Weise auf die Metapher des virtuellen Büroarbeitsplatzes ein. Die Software wird dabei als Werkzeug verstanden (Werkzeugmetapher). Virtuelle HelferInnen als persönliche AssistentInnen in Form von Dialogsystemen mit anthropomorphen Avataren sind also nur ein weiterer Schritt zum innovativen Schnittstellen-Design (Assistenzmetapher). Die HCI-Forschung als eigenständige Disziplin mit Fokus auf Dialogsystemen entwickelte sich schließlich aus der Forschung zur sog. schwachen KI20, der Usability-Forschung, der Forschung zu autonomen Agenten und der Computerlinguistik.

In den vergangenen Jahrzehnten hat die Forschung zu starker und schwacher KI (vgl. Searle 1980) gezeigt, dass Simulationen von Kognition sehr unterschiedlich ausfallen können z. B. als formallogisches Kalkül, als Ontologie oder als probabilistisches Netzwerk-Modell – und dass menschliche Kognition nicht die einzige Möglichkeit der Informationsverarbeitung darstellt. Bezeichnete Manhart in den 1990er Jahren die KI noch euphorisch als aussichtsreiche Bemühung der Menschen, sich ein Ebenbild zu schaffen (vgl. Krämer 2008), so distanzieren sich viele ForscherInnen heute vom Gedanken einer Nachbildung des menschlichen Geistes. Sie sind überzeugt, dass die KI nach ihren eigenen Prinzipien funktioniere und betonen den Werkzeugcharakter der Anwendungen. Auch wenn das Schnittstellen-Design anthropomorph gestaltet ist, wird das nicht unbedingt als Voraussetzung für intuitive Usability im Austausch mit einem intelligenten Gegenüber verstanden. „Die Vorstellungen von erfolgreichem Design wurden sehr lange ausschließlich von einer ingenieurwissenschaftlich ausgerichteten Forschung zu Mensch-Computer-Interaktion geprägt, die selbst in hohem Maße von den sich entwickelnden cognitive sciences beeinflusst war“ (Wagner 2002: 13). In der ← 30 | 31 → Usability-Forschung wurde ein Wechsel von einem technikzentrierten zu einem menschenzentrierten Ansatz vollzogen (vgl. Zühlke 2002), so dass heute sozialwissenschaftliche und psychologische Paradigmen zur Erforschung der Rezeptionshaltung der NutzerInnen in den Fokus rücken.

Andererseits bleibt die Faszination der anthropomorphen Schnittstelle bestehen, die die Kluft zwischen artifizieller Intelligenz und menschlichem Verstand überbrücken soll. So erfährt der Diskurs eine neue Welle des Optimismus durch aktuelle innovative Entwicklungen aus interdisziplinären Forschungsprojekten an der Schnittstelle zwischen KI-Forschung und Neurowissenschaften. Bspw. prognostizierte der Science-Fiction-Autor Vernor Vinge 1993 die Erschaffung einer Superintelligenz noch innerhalb dieses Jahrhunderts und belegt den Zeitpunkt mit dem Begriff der „technologischen Singularität“, da von diesem Moment an alle weiteren Entwicklungen in der Hand dieser übermenschlichen Intelligenz lägen. Die Erschaffung einer Superintelligenz wäre also die letzte Erfindung der Menschheit (vgl. Barrat 2013). Einige renommierte WissenschaftlerInnen halten diese Überlegungen für plausibel. Ray Kurzweil und Peter Diamandis gründeten 2008 die Singularity University (SU) im Silicon Valley, deren Ausrichtung einen Schwerpunkt auf allgemeine KI und menschenähnliche KI legt und auch eine übermenschliche KI prinzipiell für möglich hält. Die Community der TranshumanistInnen strebt die Verbesserung des menschlichen Körpers sowie des menschlichen Geistes durch innovative Technologien an (vgl. u. a. Brockmann 2004). Während sich die technischen Möglichkeiten verändert haben, werden in diesem Kontext die gleichen erkenntnistheoretischen, existenziellen und ethischen Fragen diskutiert wie bereits im Zeitalter der Aufklärung. Bei wachsendem technischem Fortschritt gewinnen diese Fragen notwendig an Relevanz. Doch welche Möglichkeiten hat moderne KI? Um einen Einblick in die Funktionsweise von modernen artifiziellen Dialogsystemen zu bekommen, sollen im Folgenden die Hauptentwicklungslinien der HCI-Forschung nachgezeichnet und einige grundsätzliche Überlegungen zu Systemarchitektur und Dialog-Design dargestellt werden.

1.2  Chatbots und ECAs

1.2.1  Grundlagen der Systemarchitektur und des Dialog-Designs einfacher Chatbots

Die ersten Entwicklungen im Bereich der HCI brachten einfache Chatbots hervor, sog. „computergenerierte Systeme, die in der Lage sind, über Ein- und Ausgabezeile oder durch ein Spracherkennungssystem mit einem menschlichen Nutzer in natürlicher Sprache zu interagieren“ (Tewes 2005: 242). Als Prototyp ← 31 | 32 → dieser basalen Chatbot-Architektur gilt Weizenbaums (1966) Simulation von Therapiegesprächen mit dem System ELIZA, das Schlüsselwörter im UserInnen-Input parsen kann und auf der Basis eines erkannten Schlüsselworts eine Rückfrage generiert. Innerhalb eines deterministischen Systems wird also ein an Schlüsselwörtern orientierter Dialog hervorgebracht (vgl. Klabunde et al. 2004). Das System reagiert auf bestimmte Wörter innerhalb der UserInnen-Eingabe mit der Ausgabe von vorformulierten Turns.

(1) ELIZA: Hi I’m Eliza. Tell me your problem.

(2) UserIn: My best friend hates me.

(3) ELIZA: Why do you say your best friend hates you?

(4) UserIn: She’s not happy to see me anymore.

(5) ELIZA: Can you elaborate on that?

(6) UserIn: She steals my lunch money.

(7) ELIZA: Why do you say your lunch money?

(8) UserIn: Because that’s what she takes from me. […]
(vgl. Tewes 2005: 246)

1.2.1.1  Parsing und Prompting

Das Beispiel illustriert, nach welchen einfachen Regeln ELIZAs Dialog-Design aufgebaut ist: Personalpronomina werden gespiegelt (you statt me) und zusammen mit den entsprechenden Schlüsselwörtern (hate, steal) in vorgefertigte Antwortschablonen eingesetzt (Why do you say X?). ELIZA ist nicht fähig zu proaktiven Turns, Interventionen oder Repair. Kann eine UserInnen-Äußerung nicht geparst werden, wird eine unverfängliche Rückfrage ausgegeben (Can you elaborate on that?). Die Systemarchitektur solcher Chatbots der ersten Generation ist so einfach, dass interessierte SchülerInnen sie heute nachbauen können.21

Der Pattern-Matcher gleicht UserInnen-Eingaben mit Textmustern ab und wählt das Pattern aus, das am besten zu einer Eingabe passt. Nach diesem Muster wird dann die Antwort konstruiert (z. B. Why do you say X?). Dieses Prinzip ist sehr fehleranfällig, sofern es nicht flexibel durch weitere Regeln variiert wird. ← 32 | 33 →

Abbildung 2: Einfache Chatbot-Architektur (Gesellensetter 2004: 18)

img1

(1) Max: Ich habe mehrere Lieblingsfilme. Zum Beispiel Terminator (…). Was ist deiner?

(2) UserIn: och, so verschiedene

(3) Max: Dein Lieblingsfilm ist also och so verschiedene?
(Max 1781–1799)

Misslingt das Schlüsselwort-Parsing, so dass dem Input-Pattern kann kein Output-Pattern zugeordnet werden kann, werden von den meisten Systemen sog. Default-Antworten ausgegeben, um den Dialog aufrechtzuerhalten. Diese sind gewissermaßen das Sicherheitsnetz für die weitere Progression. Problematisch an Default-Antworten ist, dass sie notwendig Gemeinplätze enthalten, die nicht immer einen thematischen Bezug zum vorangegangenen Input haben.

Zu einem Input-Pattern passen verschiedene Output-Patterns, die zyklisch variiert werden, um die Antworten (Prompts) abwechslungsreicher zu gestalten. Zusätzlich wird auf Regeln aus dem Regelspeicher zurückgegriffen, um bspw. Pronomina zu spiegeln. Im Zwischenspeicher können UserInnen-Eingaben abgelegt werden, um später im Dialog auf sie zurückzukommen. Ein Beispiel für einen moderneren Chatbot auf der Basis dieser Grundarchitektur ist das System ALICE, das 1995–2000 von Wallace entwickelt wurde und mehrfach die Loebner-Medaille gewann. Eine moderne Variate mit Spracherkennung steht heute als App (AIVC) für Android-Geräte zur Verfügung. Im Unterschied zu ELIZA kann ALICE proaktiv neue Themen in den Dialog einbringen und ihr System stützt sich auf mehr als 40.000 Regeln und 25.000 sog. Categories zum Musterabgleich. Die Gruppe um Wallace entwickelte auch das XML-Derivat ← 33 | 34 → AIML (Artificial Intelligence Markup Language), der in vielen heutigen Chatbots und ECAs als Auszeichnungssprache verwendet wird.22 In AIML besteht jede der Categories (z. B. Begrüßung) aus einem Pattern (z. B. Guten Tag!) und einem Template (z. B. Hallo! Wie geht es Dir?).23 Allein durch die Menge der Categories ist die Interaktion mit ALICE bedeutend flexibler als bei ELIZA. Flexibilität beim Parsing und Variation im Output wird bei vielen Chatbots zusätzlich durch Sy­nonymlisten, sog. Makros, erzielt, aus denen alternierend neue Lexeme ausgewählt werden können. Makros funktionieren auch auf der Ebene ganzer Phrasen und besonders erfolgreich bei ritualisierten Gesprächssequenzen. Für eine Verabschiedung könnte ein Makro aussehen wie folgt:

<keywords>

bye, cu, cya, exit, quit, ciao, ade, adios, hasta, auf wieder, tschoe, tschues, tschau, und weg, so long, machs gut, bis bald, bis dann, bis spaeter, wiedersehen, hasta*

Der Asterisk (Kleene Operator) steht in AIML als Platzhalter für beliebig viele Zeichen. Das Keyword „hasta*“ würde also bspw. sowohl für „hasta luego“ als auch für „hasta la vista“ zutreffen. Je mehr Synonyme zugeordnet werden können, desto zuverlässiger funktioniert das Parsing.24 Einige moderne Chatbots verfügen zusätzlich über regelbasierte Syntax- und Sprechakt-Parser, die die Auswahl eines Patterns unterstützen. Diese stehen aber noch am Beginn ihrer Entwicklung.

1.2.1.2  Wissensbasen

Die Pattern-Matching-Algorithmen machen ein System weder intelligent noch versetzen sie es in die Lage, natürlichsprachliche Dialoge auf menschenähnlichem Niveau zu führen. Relevanter sind die hinterlegten Wissensbasen, auf die bei elaborierteren Systemen zurückgegriffen wird, und vor allem die interne Organisation von Wissensrepräsentationen. „Grundvoraussetzung für intelligentes ← 34 | 35 → Verhalten von Computer-Systemen ist, daß sie Wissen über ihre Umwelt besitzen“ (Reif 2000)25. Derzeit werden unterschiedliche Ansätze verfolgt. Carpenters Cleverbot recycelt bspw. per Crowd-Sourcing gesammelte Gesprächsbeiträge von früheren UserInnen als eigene Antwort-Turns. Bei Apples Siri werden stochastische Modelle verwendet, um große Datenbanken nach den entsprechenden Informationen abzusuchen. Schwieriger zu implementieren sind nach semantischen Kriterien organisierte Wissensspeicher, die als logikorientierte oder prozedurale Kodes sowie in Form von Frames, semantischen Netzen oder durch Constraints definiert sein können. „Praktisch kann man eine Wissensrepräsentation als die Abbildung eines Ausschnitts der realen Welt bezeichnen“ (Reif 2000). Doch ist dieser verglichen mit den Ressourcen menschlichen Weltwissens verschwindend gering.

1.2.2  Erweiterung der Chatbot-Architektur durch klassische KI: Planbasierte Systeme

Die klassischen Chatbot-Architekturen schaffen (unter idealen Bedingungen) die Illusion von Kohäsion an der Oberfläche des Dialogs durch die Wiederholung einzelner Lexeme oder Phrasen. Je differenzierter ihre Interaktionsmuster definiert sind, desto besser gelingt dies. Die HCI-Forschung beschritt in den 1970er- und 1980er-Jahren außerdem einen anderen Weg, welcher der einer klassischen KI mit aussagenlogischem Kalkül nähersteht. Hier wird mit einem sog. „Austin-Grice-Strawson-Searle-Ansatz“ (vgl. Allen 1978) in Form von Sprechakten, Weltmodellen, Plankonstruktionen und Planerkennung gearbeitet. Semantisches und pragmatisches Wissen werden also miteinbezogen, um wirklich kohärente Abfolgen von Aussagen zu gewährleisten. Welche Veränderungen erwirkt ein erfolgreich ausgeführter Sprechakt in einem SprecherInnen- oder RezipientInnen-Modell? Wie ist die Verbindung zwischen der semantischen und der pragmatischen Bedeutung einer Äußerung? Dieser Ansatz ist in seiner theoretischen Form bedeutend komplexer als ein einfaches Chatbot-Prinzip. In der Vergangenheit wurden ernsthafte Versuche unternommen, Systeme zu konstruieren, die mittels eines logischen Kalküls zu wirklich kohärenten Äußerungen kommen (z. B. OSCAR, Allen et al. 1978; Watson, Ferrucci et al. 2010). Hinzu kommt pragmatisches Wissen in Form von Regeln zur Interpretation und Ausgabe von Sprechakten. Ein solches Kalkül funktioniert allerdings nur innerhalb enger, genau definierter Bedingungen. Um den Fokus zu erweitern, wurde an der Definition verschiedener Präsuppositionen gearbeitet. So werden viele der ← 35 | 36 → heutigen sophistizierteren Systeme als zielorientiert (goal-directed) bezeichnet; d. h. sie orientieren ihre pragmatische Dialogplanung an einem vordefinierten Dialogziel. Inspiriert ist diese Architektur von menschlicher Intentionalität, bildet diese aber nicht ab, da Goals vom System nicht bewusst, eigenständig, spontan und frei neu definiert werden können. Zielorientierung wird modelliert, indem von einem Anfangsstatus und einem Zielstatus ausgegangen wird. Dazwischen liegen die zu definierenden Operatoren (initial stateoperatorsgoal state). Die adäquaten Operatoren werden während der Interaktion ausgewählt. Eine Sequenz von Operatoren wird Plan genannt (vgl. Allen 1978). Man spricht auch von planbasierten Systemen. Die Operatoren erzielen Effekte. So wird ein Weltmodell verändert oder durch den entsprechenden Output die reale Welt selbst.

Eine planbasierte Sprechakttheorie muss in ihrer basalen Form folgendes beinhalten: Ein Planungssystem, eine Sprache zur Beschreibung des Status’ der Welt, eine Sprache für Operatoren und Algorithmen und eine Sprache für Plankonstruktion und Inferenz sowie Definitionen von Sprechakten als Operatoren. Darüber hinaus stellen sich weitere Fragen: Was sind die Effekte dieser Sprechakte? Wann sind sie anzuwenden? Wie können sie in natürlicher Sprache realisiert werden? Es kann z. B. definiert werden, dass auf eine Frage eine Antwort folgt und dass der Informationsgehalt der Antwort die Wissensbasis der RezipientInnen verändert. Unterschiedliche Fragetypen können dabei sprachlich unterschieden und erkannt werden. Die Pläne eines sog. plan-basierten Agenten-Systems können durch die eines anderen beeinflusst werden, wie es auch in der menschlichen Kommunikation möglich ist. Die Operatoren funktionieren allerdings nur unter bestimmten Vorbedingungen.

Zusätzlich werden Präsuppositionen definiert, die Vorannahmen über die Welt und das Gegenüber abbilden sollen. Jeder Agent verfügt über ein Weltmodell und ein PartnerInnen-Modell. Er soll gewissermaßen eine „Vorstellung“ davon haben, was sein Gegenüber weiß oder nicht weiß. „Linguistic utterances are the result of the execution of operators whose effects are mainly on the models that the speaker and hearer maintain of each other“ (Allen et al. 1978: 126). Theoretisch könnten so in einer ganz eindeutig definierten Sprechsituation inferentielle Schlüsse aus dem semantischen Gehalt der Äußerung und den Vorannahmen über den Wissenshorizont des Gegenübers gezogen werden. Allen et al. (1978: 126) führen hierfür folgendes Beispiel an: A fragt B, wo die nächste Tankstelle sei. B inferiert, dass A tanken möchte, und antwortet, dass die Tankstelle bereits geschlossen sei. A weiß daraufhin also, dass es zwar eine Tankstelle in der Nähe gibt, man dort aber im Moment nicht tanken kann. In einem HCI-Dialog mit relativ offenem Fokus funktionieren solche Kalküle jedoch nicht, weil sie eine ← 36 | 37 → enorme Wissensbasis voraussetzen würden, aus der der Bot Annahmen über geteiltes Wissen auswählen können müsste. Ein solches Modell von menschlichem Weltwissen, konnte bislang nicht konstruiert werden. Derzeit ist es modernen ECAs nur sehr basal möglich, dynamische UserInnen-Modelle aufzubauen, mittels derer sie sich an ihre InteraktionspartnerInnen „erinnern“ und auf den Kotext aus dem vorangegangenen Dialogverlauf rekurrieren können. Allgemein orientieren sich moderne Architekturen von ECAs aber an Allens planbasiertem System. Sie kombinieren schwache KI mit differenzierter Schlüsselworterkennung und vereinen so beide Ansätze der HCI-Forschung.

Abbildung 3: Architektur von Dialogsystemen (vgl. Kellner 2004: 535)

img3

Kommen definierte Präsuppositionen in Form von Goals, PartnerInnen oder Sitiations-Modelle hinzu, spricht man von einer sog. BDI-Architektur (Belief, Desire, Intention, vgl. Rao & Georgeff 1991).

1.2.3  Systemtypen und Automatentaxonomie

Aus unterschiedlich differenzierten Systemarchitekturen, verschieden aufwändigen Formen der grafischen Darstellung oder der Verkörperung im Raum sowie diversen Anwendungsbereichen lassen sich verschiedene Systemtypen ableiten. Die Bezeichnungen in der Literatur sind teilweise irreführend und die Übergänge zwischen den Kategorien fließend. Im folgenden Abschnitt sollen die einzelnen Systemklassen vorgestellt und deren jeweiliger Begriffsumfang abgesteckt werden. Dies führt zu einer Taxonomie der unterschiedlichen Systeme (vgl. Zeller 2005, Schatter 2011). ← 37 | 38 →

1.2.3.1  Begriffsdefinitionen

Der wohl unspezifischste Begriff zur Beschreibung einer KI, mit der UserInnen in Interaktion treten können, ist der des Agenten (lat. agere tun, handeln). Agenten-Systeme sind das Ergebnis planbasierter, zielorientierter Architekturen. Steels und Brooks definieren den Begriff wie folgt:

„Autonomous agents are “self-controlling” as opposed to be under the control of an outside agent. To be self-controlling the agent must have relevant self knowledge and motivation, since they are prerequisites of a controller. In other words, an autonomous Agent must “know” what to do to exercise control, and must “want” to exercise control in one way or another” (Steels, Brooks 1994: 85).

Der Agent trifft trifft also Entscheidungen im Hinblick auf ein vordefiniertes Ziel. Die Autonomie26 besteht dabei in der Dynamik der Dialogplanung, durch die Agenten-Systeme flexibel auf ihre Umwelt reagieren können; d. h. sie sollten lernfähig sein und sich an ihre GesprächspartnerInnen anpassen können. Z. T. können sie ihren Status als in der Zeit fortdauernd mitrechnen. Agenten können über eine virtuelle Verkörperung verfügen, dies ist aber nicht obligatorisch. Die sprachliche Interaktion erfolgt chat-basiert medial schriftlich oder mündlich über ein Spracherkennungs- und Sprachsynthese-Modul. Typische Szenarios für den Einsatz von Agenten sind Aufgaben, die kooperativ und kommunikativ gelöst werden müssen.

Während der Terminus Agent ein System beschreibt, das sich hinter verschiedenen Formen von artifiziellen AssistentInnen verbergen kann und deren KI (planbasiert, zielorientiert Entscheidungen treffen) beinhaltet, bezieht sich der Begriff Avatar allein auf die sichtbare, anthropomorphe Schnittstelle. Der Avatar fungiert demnach als Verkörperung des Systems.27 Ein Avatar ist folglich kein System mit Sprachfunktion, sondern lediglich dessen Darstellung als Interface (vgl. Krämer & Bente 2002).

Der Begriff Persona leitet sich von den Dramatis Personae28 eines Theaterstücks ab und weist auf fiktive Charaktere hin, die ausgestaltet werden, um Systeme menschenähnlicher wirken zu lassen. EntwicklerInnen von Dialogsystemen unternehmen Bemühungen, ihre Agenten den NutzerInnen als konsistente ← 38 | 39 → Persönlichkeiten vorzustellen. „Characters have to be realized as distinguishable individuals with their own areas of expertise, interest profiles, personalities, audio/visual appearance“ (André & Rist 2001: 9). Dabei wird ein gewisser Aufwand betrieben, um über die Defizite der KI hinwegzutäuschen. In sophistiziertere Agenten wird konsistentes Verhalten implementiert und auf den Avatar abgestimmt, aber auch einfache Chatbots werden mit Charakteristika versehen, die zum Bild einer stimmigen Persönlichkeit führen sollen. Jeder Redebeitrag des Systems sollte idealerweise zu diesem Eindruck beitragen. Unterstützt wird das Prinzip, ganze Persönlichkeiten zu kreieren, durch Metainformationen zum Bot, die von den EntwicklerInnen oder VertreiberInnen bereitgestellt werden.29

Chatbot ist technologiehistorisch der älteste Begriff für ein Programm mit Dialogfunktion in Form einer Schlüsselworterkennung und vorformulierten Antworten. Chatbots sind ebenfalls virtuell und können sogar auf jegliche Form der Verkörperung verzichten. Auch hinter einem einfachen Eingabe- und Ausgabefeld kann sich ein Chatbot verbergen. Chatbot ist der klassische Begriff, der die eigentliche Funktion des „Plauderns“ in den Vordergrund rückt. Da der Begriff Chatbot wohl der bekannteste Terminus für KIs mit Sprachfunktion ist, wird er heute außerhalb des wissenschaftlichen Diskurses übergeneralisiert gebraucht als Bezeichnung für alle Systeme, mit denen man „plaudern“ kann.

Multifunktionale, multimodale Systeme werden unter ExpertInnen heute als ECAs (Embodied Conversational Agents) bezeichnet.30 Sie verbinden die KI der planbasierten Agentensysteme mit umfangreichen Wissensbasen, anthropomorphen Avataren und zusätzlichen Systemen, die konsistente Verhaltensweisen steuern. Cassell beschreibt ECAs als „computer interfaces that hold up their end of conversation, have bodies and know how to use it for conversational behaviours as a function of the demands of dialogue and emotion, personality, and social convention” (Cassell 2002: 70). Spricht man von einem ECA, ist ein komplexes System mit zahlreichen Subsystemen gemeint, das fortgeschrittener ist, als ein einfacher Chatbot. ECAs sind virtuell verkörpert (Embodiment) und mit Kameras und ← 39 | 40 → Sensoren ausgestattet. Das Embodiment schließt oft ein Modell der Selbstwahrnehmung des Systems im virtuellen Raum ein, das es mittels taktiler Sensorik entwickeln kann. Was als „anthropomorph“ angesehen wird, variiert.31 Wichtig ist, dass die Darstellung Gestik und Mimik zulässt und soziale Effekte hervorruft.

Auch Roboter können natürlichsprachliche Interfaces besitzen oder soziables Verhalten aufweisen (vgl. z. B. die Arbeiten von Breazeal). „In short, a sociable robot is socially intelligent in a human-like way, and interacting with it is like interacting with another person. At the pinnacle of achievement, they could befriend us, as we could them“ (Breazeal 2002a: 1). Dialoge mit solchen Robotern werden als Mensch-Roboter-Interaktion (Human-Robot-Interaction, HRI) bezeichnet. Während virtuelle Agenten nur medial vermittelt Einfluss auf ihre Umgebung nehmen (außer in Virtual-Reality-Anwendungen), manipulieren Roboter die Umwelt direkt und müssen flexibel auf Veränderungen reagieren. In dieser Arbeit liegt der Fokus auf virtuellen Agenten. Ergebnisse aus der Forschung mit sprachgesteuerten Robotern sollen ergänzend einfließen (z. B. Fischer 2006, im Druck; Vollmer et al. 2009).

1.2.4  Die im Rahmen der Studie evaluierten Systeme

Im Rahmen der vorliegenden Studie wurden Interaktionen mit vier unterschiedlich sophistizierten chat-basierten Systemen aus den Jahren 2000 bis 2006 erhoben und analysiert (vgl. Kapitel 3). Bei den älteren Systemen Twipsy und Karlbot (Kiwilogic32, 2000–2002) handelt es sich um einfache Chatbots mit unterschiedlich elaboriertem Dialog-Design. Eines der leistungsstärkeren Systeme im Rahmen dieser Studie ist der ECA Max (Universität Bielefeld, Heinz- Nixdorf-Museum Paderborn 2004). Der Loebner-Preis-Gewinner Elbot (Artificial Solutions 2006) basiert zwar grundsätzlich auf einer Chatbot-Architektur, verfügt aber über umfangreiche Wissensbasen und ein Subsystem zum semantischen Parsing. In Bezug auf das Dialog-Design wurden bei der Gestaltung der Systeme unterschiedliche Strategien verfolgt, die großen Einfluss auf die interaktiven Möglichkeiten der Systeme haben. Sie alle sind zur beidseitig initiativen Interaktion33 in der Lage und kombinieren festgelegte Abfolgen von Sequenzen, ← 40 | 41 → bei denen die UserInnen-Beiträge antizipiert werden müssen (Skripts), mit freien Sequenzen (Parsing & Prompting). Bei den älteren Bots dominiert die Funktion der Ausgabe von themenbezogenen Informationen in Bezug auf ein Schlüsselwort der UserInnen wie bei einer klassischen Suchmaschine. Kombiniert wird diese Funktion mit einer Vielzahl an Entscheidungs- und Ja/Nein-Fragen, mittels derer die UserInnen durch die interne Informationsrepräsentation navigieren können. Der Vorgang gleicht einer natürlichsprachlich und dialogisch vermittelten Menünavigation. Bei Elbot wurde eine freiere UserInnen-Führung auf der Grundlage eines verbesserten Parsers versucht. Das System gibt viele offene Beiträge in Form von einfachen Statements aus. Die fehlende Planbarkeit der Dialoge soll kompensiert werden durch ein Fall-back auf Default-Antworten, die bei Störungen ausgegeben werden, um den Dialog am Laufen zu halten. Max verfügt über eine Vielzahl an Subsystemen, die mehr Freiraum in der Gestaltung des Dialogs ermöglichen. Trotzdem wurde ein hybrider Ansatz verfolgt, bei dem freie und geskriptete Sequenzen je nach Dialogstatus abwechseln (z. B. Small-Talk vs. Informationsvermittlung). Inwiefern sich die unterschiedlichen Voraussetzungen der Systeme auf das Dialogverhalten ihrer UserInnen auswirkt, soll anhand unterschiedlicher linguistischer Untersuchungsparameter analysiert werden (vgl. Kapitel 2 und 4). Zunächst sollen jedoch die Systeme hinsichtlich ihrer Architektur, ihres Dialog-Designs und ihres Anwendungsbereichs vorgestellt werden.

1.2.4.1  Twipsy

Auf der Basis des Lingubot-Creators34, einer Software der Firma Kiwilogic/Artificial Solutions wurde der Chatbot zu Twipsy, dem Maskottchen der Expo 2000, von Dorothee Wagner und Constantin Schmitt entwickelt, und konnte auf der Website der Expo 200035 aufgerufen werden.36 Die Aufgabe des Systems bestand in der Vermittlung von Informationen zur Expo 2000 ohne elaborierte Aufbereitung oder didaktisches Konzept. ← 41 | 42 →

1.2.4.1.1  Systemarchitektur

Die dem Bot zu Grunde liegende Systemarchitektur basiert auf einer Wissensbasis, die mit der sog. Web-Engine von Kiwilogic/Artificial Solutions verarbeitet werden kann. Diese folgt grundsätzlich den bereits beschriebenen Grundprinzipien der einfachen Chatbot-Architektur mit Mustererkennung. Die Knowledge-Library des Lingubot-Creators enthält so genannte Building-Blocks, mit deren Hilfe Parsing-Regeln konstruiert werden können. Die Interaktionsregeln können in logischen Gruppen dargestellt werden. Dies dient jedoch allein der internen Organisation und hat nichts mit dem Parsingprozess an sich zu tun. Auf eine logisch-semantische Kategorisierung kann folglich nicht zurückgegriffen werden.

1.2.4.1.2  Dialog-Design

Innerhalb aller Systeme wird bei Kiwilogic/Artificial Solutions grundsätzlich zwischen aktivem und passivem Wissen unterschieden. Passives Wissen wird von UserInnen aufgerufen, indem ein bestimmter Input eingegeben wird. Hier greift die Schlüsselworterkennung auf Grundlage der Wissensbasen in Verbindung mit den Interaktionsregeln für passives Wissen. Als aktives Wissen werden dagegen Systembeiträge bezeichnet, die ausgegeben werden, wenn eine UserInnen-Eingabe nicht geparst werden konnte; also wenn keine der Interaktionsregeln auf den UserInnen-Input angewandt werden konnte (Default-Antwort). So hat der Bot die Möglichkeit, den Dialog aktiv aufrechtzuerhalten, indem er z. B. ein neues Thema einführt und damit ein anderer Entscheidungsbaum aufgerufen wird.

Das System verfügt über 1.662 Schlüsselbegriffe (Recognitions) und über 2.482 Antwortstämme (Answers) und greift damit auf eine vergleichsweise wenig umfangreiche Wissensbasis zurück. Dabei verfolgt Twipsy als Infobot der Expo immer das Ziel, Informationen über die Expo auszugeben. Freie Smalltalk-Sequenzen sind möglich (Parsing & Prompting), aber sobald ein UserInnen- Beitrag nicht geparst werden kann, lenkt Twipsy das Gespräch wieder auf die Expo 2000 in Hannover und ihre Sehenswürdigkeiten.

(1) Twipsy: Sie können natürlich auch ein Gesprächsthema vorschlagen, aber die EXPO 2000 ist mein absolutes Spezialthema.

(2) UserIn: schnauze lutscher

(3) Twipsy: Suchen Sie noch einen ganz besonderen Tag für Ihren EXPO-Besuch? Dann interessieren Sie bestimmt die sieben Thementage.
(Twipsy-Korpus 198–220)

Von den Small-Talk-Sequenzen abgesehen, folgt die UserInnen-Führung vordefinierten Abfolge-Skripts. Die Themenwahl erfolgt über Dialogbeiträge des Systems, die einer Menü-Abfrage nachempfunden sind. In einer langen Reihe von ← 42 | 43 → Phrasenkoordinationen werden die Interessengebiete der UserInnen abgefragt, zu denen Twipsy potentiell Auskunft geben kann. Zu übergeordneten Kategorien werden im nächsten Systembeitrag Unterkategorien abgefragt.

(1) Twipsy: Interessiert Sie „J. S. Bach“ oder die „Nacht der Nacht“? Möchten Sie „Weltenwandern“ oder im Geiste „Sterne-Galaxien-Utopien“ erforschen? Begeistert Sie der „Trommeltag“, „Children‘s Corner“ oder der „Wald“?

(2) UserIn: wald
(Twipsy-Korpus 780–831)

1.2.4.1.3  Avatar und Eingabekanal

Twipsy ist als bunte, abstrakte Figur grafisch wenig anthropomorph dargestellt, verfügt aber über ein Gesicht mit Augen und Schnabel sowie über zwei unterschiedlich lange Arme bzw. Flügel und zwei kurze Beine. Eingeschränkte Mimik war in der Online-Version zur Expo 2000 möglich. Einzelne Standbilder in unterschiedlichen Positionen mit unterschiedlichem Ausdruck wechselten sich in Abhängigkeit vom jeweiligen Sprach-Output ab. Zusätzlich konnte Twipsy dank einer einfachen Animation zyklisch mit den Augen zwinkern.

Der Chat mit Twipsy konnte in einem separaten Fenster aufgerufen werden. Die Eingabe erfolgte über die Tastatur des heimischen Computers der UserInnen in einem Textfeld und konnte über Enter gepostet werden.

Abbildung 4: Chat-Fenster Twipsy

img4

← 43 | 44 →

1.2.4.1.4  Persona und situativer Kontext

Die Twipsy-Persona wird als quirliges, vogelähnliches Wesen mit sprühendem Temperament vorgestellt. „[Twipsy is] a sprightly little being that filled web site visitors in on the last EXPO news.“37 Diese Charakterzüge sind aber in den Dialogbeiträgen mit Infocharakter nicht konsequent ausgestaltet, so dass der Eindruck von Brüchen im Gesamtkonzept der Persona entsteht.

Twipsy wurde von Dezember 1999 bis Oktober 2000 als Infobot auf der Website der Expo 200038 eingesetzt. Eine konventionelle Navigation mit zusätzlicher Suchfunktionwar auf der fraglichen Internetseite ebenfalls möglich. Eine Interaktion mit dem Chatbot Twipsy war also nicht unbedingt notwendig, um bestimmte Informationen zu finden. Hinter Twipsy als Maskottchen und auch als Chatbot stand ein Marketing-Konzept. Die Expo sollte in vielen Bereichen als zukunftsweisend verstanden werden. Ein artifizieller Dialogagent auf der Website sollte diese Wirkung unterstützen.

Wer also mit Twipsy interagierte, wollte vermutlich die Technologie kennenlernen und sich unterhalten lassen. Konkrete Informationen über die Expo zu erhalten, kann zwar als Dialogziel der meisten NutzerInnen verstanden werden, der Unterhaltungsfaktor spielte aber ebenfalls eine prominente Rolle.

1.2.4.2  Karlbot

Karlbot war die virtuelle Kundenbetreuung von Kiwilogic und Anfang der 2000er Jahre das Aushängeschild der Firma auf ihrer Website. Bei Karlbot in der damaligen Form handelt es sich um einen kommerziellen Chatbot mit Infofunktion, der von Nikolas Prehn, Toby Sharp und Marion Gövert entwickelt wurde.39

1.2.4.2.1  Systemarchitektur

Das System beruht weitgehend auf der gleichen Architektur wie Twipsy mit einigen geringen Abweichungen. Zum damaligen Zeitpunkt war in erster Linie die fotorealistische Animation des Talking-Heads in LifeFX besonders innovativ. Diese wurde kombiniert mit Kiwilogics Lingubot-Back-End und führte zu einer ← 44 | 45 → gut aufeinander abgestimmten Performanz von Sprachausgabe und Animation. Auf der Kiwilogic-Website war leider nur die englische Text-to-Speech-Version mit diesem Feature ausgestattet. Es muss also davon ausgegangen werden, dass die im Rahmen der Studie untersuchten deutschen Logfiles von Dialogen stammen, die von der zweidimensionalen Version begleitet wurden.

1.2.4.2.2  Dialog-Design

Karlbot parst 2.177 Wortformen und verfügt über 3.610 Antwortstämme (Bausteine für die Antwortgenerierung). Das System agiert zielgerichtet und versucht in erster Linie Informationen über Kiwilogic und den Lingubot-Creator auszugeben. Dabei werden z. T. geskriptete Sequenzen mit vordefinierter Abfolge ausgegeben, doch ist die UserInnen-Führung weniger eng als bei Twipsy. So werden z. B. keine Auswahlmöglichkeiten im Sinne einer Menünavigation aufgezählt. Stattdessen erfolgt die Interaktion in erster Line über Parsing & Prompting. Da der Themenbereich Kiwilogic an sich schon einen vergleichsweise engen Fokus darstellt, wurde ein relativ offenes Dialog-Design versucht. Wenige Default-Antworten und stattdessen mehr Rückfragen sollten Karlbot aufrichtig wirken lassen. Das Dialog-Design verfügt also über ein weniger enges Sicherheitsnetz bei Störungen.

1.2.4.2.3  Avatar und Eingabekanal

Die grafische Darstellung ist dem Aussehen des damaligen, realen Vorstandsvorsitzenden von Kiwilogic, Karl-Ludwig von Wendt, nachempfunden. Als klassischer Talking-Head verfügt Karlbot über keinen Körper. Eine Reihe statischer Fotografien von Wendts dienten als Grundlage für die Animation von verschiedenen Gesichtsausdrücken, sog. Stand-Ins, die in Echtzeit auf die Sprachausgabe der englischen Version abgestimmt wurden. Die Grafik konnte sowohl zweidimensional als auch in 3D aufgerufen werden. Anfang der 2000er Jahre hatte Karlbot gerade auf Grund seiner grafischen Darstellung sehr gute Kritiken (vgl. Proffitt 2002).40

Die Eingabe erfolgte über ein Textfeld unterhalb der animierten Grafik und konnte mit Enter gepostet werden. Die Ausgabe des System-Outputs erfolgte in der deutschsprachigen Version medial schriftlich im Hintergrundfeld. ← 45 | 46 →

Abbildung 5: Chat-Fenster Karlbot

img5

1.2.4.2.4  Persona und situativer Kontext

Trotz der begrenzten Fähigkeiten des Bots wirkt die Persona als virtueller CEO von Kiwilogic überzeugend. Ein angemessenes Maß an Distanz zu seinen UserInnen manifestiert sich in formeller Anrede und gehobenem sprachlichen Stil. Karlbot vermeidet allzu private Themen höflich und erklärt stattdessen die Produkte von Kiwilogic kompetent und verkaufsorientiert.

Auf der Website von Kiwilogic gab es keine FAQs und keine Kontaktdaten der Kundenbetreuung. Stattdessen konnte man in einem separaten Fenster mit Karlbot chatten. Zur regulären Kundenbetreuung wurden KundInnen erst dann weitergeleitet, wenn ein Dialog mit Karlbot scheiterte. Das System entlastete auf diese Art MitarbeiterInnen im Kundendienst und war gleichzeitig eine überzeugende Werbung für die von der Firma vertriebene Lingubot-Technologie.

Auf der Seite von Kiwilogic informierten sich potentielle KundInnen, BewerberInnen oder MitarbeiterInnen von Konkurrenzunternehmen sowie interessierte Laien über Dialogsysteme und die dazugehörige Software. ← 46 | 47 →

1.2.4.3  Max

Der ECA Max wurde an der Universität Bielefeld von der Forschungsgruppe um Prof. Dr. Ipke Wachsmuth und Dr. Stefan Kopp entwickelt41. Architektonisch gilt er als eines der differenziertesten Systeme im deutschsprachigen Raum (vgl. Krämer 2008). Seit 2004 wird Max als virtueller Museumsführer im Heinz-Nixdorf-MuseumsForum (HNF) in Paderborn eingesetzt, wo er Exponate erklärt und gleichzeitig selbst als Exponat in der Ausstellung KI gezeigt wird.42

1.2.4.3.1  Systemarchitektur

Da für den täglichen Einsatz im HNF ein stabiles System benötigt wird, haben sich die Entwickler von Max für eine hybride, planbasierte Architektur entschieden, die die Robustheit von Chatbots mit der Multimodalität von ECAs verbinden soll.43 Pläne können dynamisch der jeweiligen Gesprächssituation angepasst werden. Die basalen ECA-Architekturen (vgl. u. a. Cassell et al. 2000; Churchill et al. 2000) wurden außerdem um zusätzliche kognitive Architekturen ergänzt. Das Dialogsystem steht in Verbindung mit einem System zur Gesichtserkennung, das mittels einer Kamera Besucher im Raum orten kann, und mit einem anthropomorphen Agenten, dessen nonverbales Verhalten auf die Dialogsequenzen in Echtzeit abgestimmt wird. Darüber hinaus verfügt Max über ein System zur Abbildung von Emotionen auf dem Agenten (MURML). Jegliches Verhalten wird dynamisch in Abstimmung auf die Dialogsituation generiert.

Abbildung 6: Rahmenarchitektur Max nach Kopp (2007)44

img6

← 47 | 48 →

Die deliberative Komponente besteht aus einem Interpreter, der die UserInnen-Beiträge parst, einem Dialog-Manager, der auf der Grundlage einer Sprechaktanalyse Dialogschritte plant und einem Antwortmodul, mit dessen Hilfe schablonenbasiert Antworten erstellt werden, die dann über eine Text-to-Speech-Komponente in gesprochene Sprache übertragen werden. Der Dialog-Manager greift auf zwei umfangreiche Wissensbasen zurück: 1. dynamisches Wissen; d. h. Wissen über die Dialogsituation, 2. statisches Wissen; d. h. Datenbanken sowohl zum Dialogverhalten an sich als auch enzyklopädisches Wissen in Form von Informationen über die Exponate.

Abbildung 7: Die deliberative Komponente (Gesellensetter 2004: 56)

img7

← 48 | 49 →

1.2.4.3.1.1  Interpreter (Parser)

Der Interpreter in JAM45 kombiniert regel- und planbasierte Ansätze. An der Oberfläche findet eine Mustererkennung statt – wie bei einfachen Chatbot- Systemen. Erst wenn diese fehlschlägt, hilft die Sprechakterkennung auf der zweiten Ebene den Beitrag zu parsen und eine adäquate Antwort zu finden.

Eine UserInnen-Eingabe wird vom Interpreter nicht allein anhand von Schlüsselwörtern geparst, sondern in eine abstrahierte Zwischenrepräsentation übertragen. Diese wird als hierarchische Repräsentation in DiaML dargestellt und dient der Unterscheidung von unterschiedlichen Sprechakten. So wird z. B. grundsätzlich zwischen propositionalen und interaktionalen Äußerungen unterschieden. Die zweistufige Verarbeitung ist vergleichsweise differenziert und klassifiziert UserInnen-Beiträge z. B. als Verneinung, Zustimmung, Selbstbezug oder Bezug auf das System (vgl. Gesellensetter 2004: 51).

Um den UserInnen-Eingaben Sprechakte zuordnen zu können, werden diese auf sog. Modifier abgebildet, d. h. die Eingaben werden mit einer Reihe von Synonymen abgeglichen, denen bereits ein Sprechakt-Tag zugeordnet wurde (z. B. Begrüßung, Verabschiedung, Verneinung Selbstbezug, Bezug auf das System, Zustimmung, Verneinung, positiv/negativ konnotierte Adjektive).

„hallo“, „hi“ Modifier greeting
„ciao“, „tschüß“, … Modifier farewell
„danke“, „merci“ … Modifier thanks
„danke tschüß!“ Modifier thanks, farewell
(Gesellensetter 2004: 64)

Gesellensetter beschreibt die Vorteile des Sprechakt-Parsings wie folgt: „Wird der Text zusammen mit seiner konversationalen Funktion angegeben, so hat dies verschiedene Vorteile: Interpretationsfehler können ausgeschlossen werden, über die Funktion kann ein Kontextbezug hergestellt werden und auch Phänomene, mit denen sich Interpreter im allgemeinen schwer tun, können angegeben werden (z. B. Ironie)“ (Gesellensetter 2004: 55). Inwiefern dieser hohe Anspruch tatsächlich vom System erfüllt werden kann, zeigt die Evaluation im Rahmen dieser Studie (Kapitel 4).

Um das System robust zu gestalten und Verarbeitung in Echtzeit zu gewährleisten, wird kein Syntax-Parser zur Analyse herangezogen, obwohl dies bei modernen ECAs häufig der Fall ist. Max verfügt über 876 domänenunabhängige ← 49 | 50 → Grundpläne und über 1.200 domänenabhängige Pläne, die Regeln für die Interpretation der Inputs und die Auswahl der Antworten implementieren.

1.2.4.3.1.2  Dialog-Manager

Zwischen Eingabeinterpretation und Antwortgenerierung ist der Dialog-Manager geschaltet. Auf der Grundlage der Sprechaktanalyse des Interpreters bereitet er eine adäquate Reaktion auf die UserInnen-Eingabe vor. Der Dialog-Manager kann als Versuch angesehen werden, einzelne Eingaben in Abhängigkeit vom Kotext zu parsen. Dazu erstellt er parallel zur Interaktion ein Dialogmodell über den Dialogverlauf, ein Systemmodell über aktuelle systemimmanente Repräsentationen und ein BenutzerInnen-Modell anhand von gespeicherten Daten zur Charakterisierung der UserInnen.46

Ein immanentes Systemmodell über das eigene Wissen und die eigenen Ziele des Systems ermöglicht – im Rahmen der Möglichkeiten einer KI – die zielorientierte, aus den o. g. Datenbanken gespeiste Gestaltung von Systembeiträgen. Das BenutzerInnen-Modell wird durch Eckdaten zur UserInnen-Persönlichkeit (A ist 15 Jahre alt, kommt aus Bielefeld und flucht viel) erstellt. Die jeweiligen Modelle werden während jedes laufenden Dialoges aktualisiert. Durch diese Komponenten soll eine kohärente Dialogführung gewährleistet werden (vgl. Gesellensetter 2004: 52). Der Dialog-Manager formuliert den Plan für jede nächste Systemäußerung mit ihrer Funktion im Rahmen der Interaktion und als konkreten Antworttext, dessen einzelne Bausteine zwar schablonenbasiert ausgewählt werden, aber kontextspezifisch kombiniert werden können. Dabei wird auf die Wissensbasen zurückgegriffen. Das statische Wissen umfasst Interpretationswissen, Interaktionswissen, Kontrollwissen, Inhaltswissen (Informationen über Exponate), Dialogepisoden und ein Behavior-Lexikon für die Gestik und Mimik des Avatars. Das dynamische Wissen wird vom Dialog-Manager selbst erstellt und beinhaltet Dialogmodell, Systemmodell, BenutzerInnen-Modell und ein Modell des virtuellen Repräsentationsraums. Das Dialogmodell bildet seinem Anspruch nach sowohl Parameter des Turn-Takings als auch des Groundings und der Dialoghistorie ab. Turn-Taking spielt bei der vollständig medial mündlichen Version von Max mit Spracherkennung eine Rolle und wird durch Gestik und Mimik des Avatars kommuniziert. Bei der Version im Nixdorf-Museum erfolgt die Eingabe über eine Tastatur und wird durch Enter gepostet, so dass ← 50 | 51 → Sprachhandlungskoordination hier eine untergeordnete Rolle spielt. Unter Grounding verstehen die Entwickler von Max die Möglichkeit des Systems, ein basales semantisches Modell von aktuellen und früheren Themen zu erstellen. Die Dialoghistorie speichert Dialogsequenzen mit ihren Metainformationen, um auf frühere Turns zurückgreifen zu können, falls ein UserInnen-Beitrag Bezug auf den vorangegangenen Dialogverlauf nimmt. Die Erkennung von anaphorischen Referenzmarkern und der kohärente Rückbezug stellen aber ein Problem dar. Im nächsten Schritt, der Aktionsplanung, wird der Sprechakt mit adäquaten nonverbalen Behaviors kombiniert, so dass Sprache und Avatar gut aufeinander abgestimmt sind und sich kohärent in die Interaktion fügen. Kombiniert werden beide Konzepte an die Antwortgenerierung weitergeleitet.

Die Antwortgenerierung erfolgt analog zur Interpretation der UserInnen-Eingaben in zwei Schritten: als abstrakte Darstellung der Antwort als Sprechakt im Dialogkontext und als schablonenbasierte Antwortgenerierung mit offenen Slots für kontextsensitive Ergänzungen. Über eine Text-to-Speech-Komponente wird der Antworttext in gesprochene Sprache überführt. Dabei werden Zeigegesten und Mimik mit der Sprachausgabe synchronisiert, so dass z. B. im Satz Da ist die Kamera“ die Zeigegeste zeitlich auf die Ausgabe des Adverbs abgestimmt ist.

Die deliberative Komponente kann durch eine Direktverbindung von Interpreter und Antwortgenerierung auf der Basis einfacher Schlüsselworterkennung umgangen werden, wenn eine Sprechaktanalyse scheitert (Hardwired Reaction).

1.2.4.3.2  Dialog-Design

Max’ UserInnen haben die Möglichkeit durch die Einführung neuer Ziele das System dazu zu bringen, die alten Ziele vorerst zurückzustellen. So kann bei Max im HNF z. B. die Ausgabe von Informationen zu den Exponaten durch Zwischenfragen der UserInnen unterbrochen werden, wenn z. B. ein Small-Talk-Thema angesprochen wird oder UserInnen das System beschimpfen. Kann eine Eingabe nicht interpretiert werden, wird im System das frühere Dialogziel wieder aktiv. So können mehrere Dialogziele latent gesetzt sein.

Unter Einbeziehung der Sprechaktanalyse können Paarsequenzen nach folgendem Schema ausgewählt und mit nonverbalem Verhalten kombiniert werden. ← 51 | 52 →

Abbildung 8: Sprechaktanalyse (Gesellensetter 2004: 59)

img8

Max kann zwischen affirmativen und nicht-affirmativen Antworten auf Bestätigungsfragen unterscheiden unter Rückbezug auf den Dialogkontext. So kann unter bestimmten Bedingungen z. B. auch ein „nein“ affirmativ gebraucht werden.

(1) Max: Du warst aber noch nie hier?

(2) UserIn: Nein, noch nie.

Die Präsentation der Exponate nimmt einen großen Teil der kommunikativen Funktionen von Max ein. Diese sind modular gegliedert; d. h., das Präsentationswissen ist als Skript in einer Baumstruktur angelegt. Jede Präsentation ist in unterschiedliche Blöcke unterteilt und kann Stück für Stück von den BesucherInnen aufgerufen werden (Prinzip der Menünavigation). ← 52 | 53 →

Abbildung 9: Präsentationswissen (Gesellensetter 2004: 68)

img9

Die Umsetzung erfolgt durch gezielte, aber unverfänglich formulierte Nachfragen des Systems, wie z. B. „Möchten Sie mehr über x, y, z erfahren?“, „Soll ich das noch mal zusammenfassen?“. Alle Blöcke, die bereits präsentiert wurden, werden als „geteiltes Wissen“ ins Dialogmodell übertragen.

Da Max von vielen Kindern genutzt wird, wurde bei der Programmierung darauf geachtet, dass man mit ihm auch spielen kann. Indem der Spielmodus (Tiere raten) eingeleitet wird, werden weitere Small-Talk-Sequenzen vermieden – ein eleganter Weg, um UserInnen-Verhalten antizipierbarer werden zu lassen.

Max’ Möglichkeiten zur Interaktion kommen nicht durch die Anzahl der Recognitions und der Antwortstämme zum Ausdruck, sondern liegen in den immensen Kombinationsmöglichkeiten und der kotext- und userInnen-sensitiven Architektur des Dialog-Managers. Allerdings schlägt sich dieses Potenzial leider nicht immer in der konkreten Performanz nieder, da die Sprechakterkennung nur zu 40 % zuverlässig funktioniert und Max im Alltagstest häufig die Hardwired Reaction nutzen muss. ← 53 | 54 →

1.2.4.3.3  Avatar und Eingabekanal

Der Avatar ist anthropomorph und dreidimensional animiert. Er stellt einen jungen Mann mit hellem Haar im violetten Pullover dar. Mimik und Gestik sind differenziert auf die akustische Sprachausgabe abgestimmt. Max wird zwar menschenähnlich abgebildet, die Grafik hat aber eher die Ästhetik älterer Computerspiele. Mit Bezug auf Moris Uncanny-Valley-Hypothese (1982, s. u.) hat man den Avatar bewusst grafisch abstrahierter dargestellt als es möglich gewesen wäre.47 Der anthropomorphe Agent erhält die Aktionspläne vom Dialog-Manager und führt bestimmt auf den Sprach-Output der Text-To-Speech-Komponente abgestimmte Behaviors aus. Außerdem können bestimmte reaktive Verhaltensweisen durch die Perzeption über die Kamera ausgelöst werden. Max folgt z. B. seinen UserInnen mit dem Blick. Die Mimik wird zusätzlich von der Emotionskomponente in MURML48 gesteuert. Ein hohes Maß an Freude und ein niedriges an Langeweile löst die Animation eines Lächelns aus.

1.2.4.3.4  Persona und situativer Kontext

Durch die Subsysteme zur Steuerung der Behaviors und das Emotionssystem MURML wird konsistentes Verhalten generiert, das die soziable Wirkung der Agenten-Persona unterstützt. Auch auf einer Meta-Ebene wurde versucht, die Agenten-Persona zu gestalten. Im Gespräch mit Max erfährt man, dass er Hobbys und Lieblingsfilme hat. Die einzelnen Antwortstämme sind sprachlich allerdings vergleichsweise neutral gestaltet, so dass Max auf der sprachlichen Ebene als konsistente Persönlichkeit nicht ganz ausgestaltet wirkt. Als pädagogischer Agent und virtueller Museumsführer soll er eine gewisse Seriosität ausstrahlen, was die Möglichkeiten zur sprachlichen Ausgestaltung limitiert. Dennoch besteht in diesem Punkt Entwicklungspotenzial und eine individuellere sprachliche Gestaltung der einzelnen Antwortstämme könnte zu einer natürlicheren Wirkung beitragen.

Im Museum hat Max seinen Platz in der Ausstellung KI im ersten Stock in einer engen Nische, in der sich oftmals ganze Schulklassen drängen. ← 54 | 55 →

Abbildung 10: Max im Heinz-Nixdorf-MuseumsForum (HNF)

img10

Um trotz dieser widrigen Umstände eine Interaktion mit dem System in Echtzeit gewährleisten zu können, wurden verschiedene Möglichkeiten der Sprachausgabe kombiniert. Mit Max kann man grundsätzlich sowohl über die Tastatur als auch medial mündlich über Spracherkennung und Sprachausgabe interagieren. Da die Spracherkennung jedoch in der vergleichsweise unruhigen Umgebung des HNF Probleme bereitet, steht in diesem Umfeld die chat-basierte Anwendung zur Verfügung. Bei der bereitgestellten Tastatur handelt es sich um eine robuste Variante für öffentliche Terminals (vgl. z. B. Bankautomaten), die dem entsprechend nicht so sensibel ist, wie gängige Tastaturen für private PCs. Die Eingabe wird durch diesen Umstand teilweise erheblich erschwert. Die Ausgabe erfolgt einerseits in einem Chat-Fenster unterhalb der Grafik medial schriftlich, andererseits zusätzlich über eine akustische Sprachausgabe, so dass die UserInnen Max’ Beiträge gleichzeitig hören und lesen können. Diese Variante hat sich für die spezielle Situation im HNF als praktikabel erwiesen. Inwiefern diese ungewöhnliche Konstellation von Informationskanälen Auswirkungen auf die Interaktion zeigt, bleibt zu überprüfen.

1.2.4.4  Elbot

Elbot ist einer der am aufwändigsten und am charmantesten gestalteten, deutschsprachigen Chatbots. Er wurde von dem Informatiker und Psychologen Fred Roberts für Artificial Solutions entwickelt. Besonders viel Arbeit wurde in die sprachliche Gestaltung der Redebeiträge und gesteckt, da sich Elbots konsistent ausgestaltete Persönlichkeit in seinen Äußerungen zeigt. ← 55 | 56 →

1.2.4.4.1  Systemarchitektur

Elbots Systemarchitektur entspricht größtenteils dem Aufbau der Systeme Twip­sy und Karlbot. Session-Manager und Request-Parser laufen unter einer Web-Engine. Interaktionsregeln weisen einem UserInnen-Input eine Antwort aus der Wissensbasis zu.49

Elbot verfügt darüber hinaus über ein so genanntes Knowledge-Grid, ein semantisches Netz, durch das während des laufenden Analyseprozesses einzelnen Wortformen oder Phrasen semantische Informationen zugewiesen werden können. So werden z. B. Hypo- und Hyperonym-Relationen erkannt. In den meisten Fällen greift Elbot also auf komplexe Regeln zurück, die über eine einfache Schlüsselworterkennung hinausgehen. Sie enthalten eine Sammlung an synonymen Phrasen, die eine bestimmte Bedeutung repräsentieren. Außerdem speichert Elbot Dialoginformationen aus dem Kotext. Gespeicherte Informationen, die eindeutig zugeordnet werden können, beziehen sich bei Elbot allerdings nur auf einige Eckdaten wie Name oder Alter der UserInnen. Komplexere Zusammenhänge können nicht gespeichert und auf Anfrage wieder abgerufen werden. Elbot erstellt keine UserInnen-Modelle im Sinne von artifiziellem Partner- Modeling.

Elbot ist aber in der Lage, einige Sprechakte zu erkennen. Bspw. konnte implementiert werden, dass eine Ja/Nein-Frage des / der UserIn alle möglichen Reaktionen auf zwei eindeutige Antworten restringiert. Die kodierten Interaktionsregeln ermöglichen auch eine basale Erkennung von Topologie. Fokussiert wird allerdings auf Semantik. Auf syntaktische Analysen wird verzichtet.

1.2.4.4.2  Dialog-Design

Elbots Dialog-Design beruht in erster Line auf Parsing & Prompting. Engere Dialogskripte werden kaum verwendet, was den UserInnen eine außergewöhnlich freie Interaktion mit dem Bot ermöglicht.

Jede geparste Wortform kann mit einer Repräsentation des kompletten Flexionsparadigmas abgeglichen werden, so dass z. B. Singular und Plural, Präteritum und Präsens oder Duzen und Siezen erkannt werden. Sofern dann ein passender Systembeitrag vorliegt kann die genaue Formulierung feinabgestimmt ausgewählt werden. In Kombination mit einer automatischen Rechtschreibkorrektur ← 56 | 57 → und einem Algorithmus für Orthographietoleranz, verhelfen diese Funktionen dem System zu einer robusten Performanz. Das Lexikon, auf das Elbot zurückgreift, ist sehr umfangreich und auf den Kommunikationskanal abgestimmt, indem Merkmale der Chat-Kommunikation wie Smileys geparst und ausgegeben werden können.

Durch ständige Evaluation der UserInnen-Beiträge wurde Elbots Dialog-Design über viele Jahre kontinuierlich und systematisch weiterentwickelt. Wenn bestimmte Systembeiträge UserInnen-Antworten evozieren, die vom System nicht adäquat verarbeitet werden können, werden sie von den MitarbeiterInnen ausgetauscht oder umformuliert, so dass das System, ohne dass grundsätzliche Veränderungen an der Architektur vorgenommen wurden, immer besser zu funktionieren scheint (vgl. Roberts 2010). Die Weiterentwicklung erfolgt nicht theoriegeleitet, sondern auf der Grundlage von statistischem Datenmaterial. Logfiles werden Dialog für Dialog oder als Gesamtkorpus analysiert. Ergebnis dieser Strategie ist ein Bot mit einer außergewöhnlichen Vielzahl an vorformulierten möglichen Äußerungen sowie zahlreichen Antwortstämmen. Der deutsche Elbot verfügte zum Zeitpunkt der Datenerhebung über 2.417 Recognitions und 4.593 Antwortstämme.

Elbot kann seine UserInnen in ein Assoziationsspiel verwickeln, im Verlauf dessen die GesprächsteilnehmerInnen einen mit dem Vorgängerturn assoziierten Begriff nennen müssen. Elbot spielt jedoch nicht fair, da er besonders unwahrscheinliche Assoziationen ausgibt.

(1) UserIn: hut

(2) Elbot: leichenschau
(Elbot-Korpus 11977–11982)

Fred Roberts hält paradoxe Systembeiträge für eine fruchtbare Ressource zur Simulation von Intelligenz. Elbot wirkt so besonders spontan und eine verwirrte UserInnen-Reaktion wird antizipierbar. Auf paradoxe Systembeiträge folgen in der Regel Rückfragen seitens der UserInnen. Diese können dann von Elbot adäquat beantwortet werden, so dass über eine längere Sequenz hinweg die Illusion besteht, Elbot interagiere intelligent. Darüber hinaus trägt diese Design-Entscheidung zum anarchischen Charme des Bots bei. Diese Wirkung wird zusätzlich unterstützt durch den außergewöhnlichen Umgang mit Störungen. Wird Elbot bspw. von seinen UserInnen beschimpft, schaltet das System in den sog. ELIZA-Modus und „straft“ diese mit Rückfragen und Paraphrasen. ← 57 | 58 →

1.2.4.4.3  Avatar und Eingabekanal

Elbot wird als Comic-Roboter in einer minimalistischen Umgebung dargestellt. Er verfügt über ein Gesicht mit Augen und Mund sowie über zwei stilisierte Arme, so dass mimischer und gestischer Ausdruck möglich sind. Das Eingabefeld befindet sich unter der Grafik; die Ausgabe wird in einer Sprechblase dargestellt.

Abbildung 11: Elbots Avatar

img11

1.2.4.4.4  Persona und situativer Kontext

Die Elbot-Persona wurde phantasievoll ausgestaltet und stellt sich selbst als Diplom-Humanologe vor, der aus seiner Außenperspektive als Roboter die Menschheit erforscht.50 Elbot verfügt über eine eigene Website, auf der er sich mit seinen Hobbys und Interessen vorstellt. Er liest gern Telefonbücher und sammelt Barcodes von Lebensmittelverpackungen, die man auch auf der Seite bewundern kann. Die Persona ist notorisch schlecht gelaunt, zynisch und etwas herablassend und steht damit in krassem Gegensatz zum Gros der Assistenzsysteme und kommerziellen Bots, die gut gelaunt und kooperativ Produkte anpreisen. Fred Roberts betont die Wichtigkeit der Agenten-Persona, denn er sieht in der Gestaltung von konsistentem Bot-Verhalten das Potenzial, antizipierbarere UserInnen-Reaktionen auszulösen. ← 58 | 59 →

„Some basic ideas of motivation and social psychology are powerful in guiding the user to behave predictably, not to trick them into believing the system is human, but to provide entertaining exchanges. These theories apply in social situations, which is what the chat becomes, if the user enters with high expectations, and these expectations are maintained“ (Roberts 2010).51

1.2.5  Probleme der medial vermittelten Kommunikation

Wie die HHC kann auch die HCI medial unterschiedlich vermittelt sein, wobei verschiedene Medien zu jeweils speziellen Besonderheiten führen. So haben telefonbasierte Agenten z. B. mit Problemen des Turn-Takings zu kämpfen, wenn UserInnen dem System ins Wort fallen (Barge-In), während chat-basierte HCI Merkmale der quasi-synchronen, medial schriftlichen, internetbasierten Kommunikation aufweist (vgl. Schlobinski, Siever, Runkehl 1998)52. HRI hingegen zeigt viele Charakteristika der Face-to-Face-Kommunikation (vgl.Vollmer et al. 2009). UserInnen stellen sich also auf die unterschiedlichen Möglichkeiten ein, die die jeweiligen Medien bieten. Da in dieser Arbeit der Fokus auf chat-basierter HCI liegt, müssen deren sprachliche und konzeptionelle Parameter diskutiert werden. Hierbei ist allerdings anzumerken, dass Menschen nicht über eine Chat-Software Kontakt mit dem Bot aufnehmen, sondern die Bot-Software direkt bedienen. Eingabefelder auf dem Interface sollen an Chat-Software erinnern. Dahinter verbirgt sich aber der Bot. Es handelt sich also auch hierbei um eine Illusion. Die UserInnen interagieren zwar mit dem Bot durch medial schriftliche Texteingabe über eine Schnittstelle, die an ein Chat-Interface erinnert, doch chatten sie nicht im eigentlichen Sinne. Dass im Folgenden trotzdem von chat-basierter HCI gesprochen werden kann, liegt darin begründet, dass die Interaktionssituation auf der Seite der UserInnen wie ein Chat wahrgenommen wird.

Allgemein handelt es sich beim Chat um eine quasi-synchrone Boten-Technologie, d. h., die KommunikationspartnerInnen müssen zeitgleich kommunikationsbereit sein. Für die HCI spielt dieser Umstand aber keine prominente Rolle, da die Bot-Software immer bereit ist, sofern sie nicht gewartet wird oder offline ist. Die Übermittlung erfolgt entweder Keystroke-per-Keystroke oder als einmaliges Posting über Enter. Letzteres kann dazu führen, dass UserInnen längere ← 59 | 60 → Beiträge splitten – ein Problem, mit dem moderne Parser umzugehen lernen müssen.

Mehrparteiendialoge sind prototypisch für Chatrooms und teilweise sind in diesen Interaktionsräumen auch Bots anzutreffen. Bei den untersuchten Dialogen handelt es sich allerdings um 1:1-Chats (Mensch-Bot). Für das Vergleichskorpus (Mensch-Mensch) wurden entsprechend ebenfalls 1:1-Chats ausgewählt.

Klassische Sender-Empfänger-Modelle (Shannon & Weaver 1948) gehen von einem Kanal aus, über den die Transmission der Nachricht erfolgt. Für die technische Seite der HCI ist dieses Modell adäquat, da System und Userin ihre Chat-Beiträge über das WWW versenden.

Abbildung 12: Chat-basierte HHC

img12

Aus psycholinguistischer Perspektive sind einfache Sender-Empfänger-Modelle als Erklärungsmodell für dialogische Kommunikation heute umstritten (vgl. Kapitel 2.3). Daher wird bei der Analyse der Logfiles zu den Chats mit unterschiedlichen Agentensystemen mit dem Begriff Kanal auf das Medium referiert; d. h. auf internetbasierte Chat-Kommunikation mit Bot-Software, wobei unterschiedliche UserInnen verschiedene Endgeräte nutzen. Der sprachliche Kode (Eingabe durch UserIn) und die Programmbefehle werden enkodiert und statt einer Dekodierung erfolgt die Verarbeitung vom System nach dessen Regeln (im einfachsten Fall Schlüsselwort-Parsing, Dialog-Manager, Antwort-Generierung). Der Chatbeitrag des Bots wird dekodiert und ausgegeben. Sofern die Userin anthropomorphe Eigenschaften an das System attribuiert, nimmt sie die Interaktion als eine Art der Gesprächssituation wahr und verarbeitet sie kognitiv gemäß ihrer Erfahrungen mit früheren Gesprächssituationen aus der HHC. Sofern sie in der Vergangenheit bereits Erfahrungen mit der Interaktion mit artifiziellen Agenten oder Robotern gemacht hat, werden diese ihr Dialogverhalten mitbestimmen. Auch bezüglich der Nutzung des Kanals spielen Gewohnheiten und Expertise der UserInnen eine Rolle. Sofern ihnen die Kommunikation über ← 60 | 61 → quasi-synchrone Boten-Technologien bekannt ist, werden UserInnen vielleicht auf die o. g. sprachlichen Mittel einer neuen Schriftlichkeit zurückgreifen, die sich je nach Web-Genre und Funktion herausgebildet haben.

Die Diskrepanz zwischen medialer Schriftlichkeit und konzeptioneller Mündlichkeit bei simultaner Kommunikation in Echtzeit wurde vielfach diskutiert (vgl. u. a. Herring 1996, Runkehl et al. 1998, Beißwenger 2007, An­droutsopoulos 2007). Bestimmte sprachliche Merkmale der internet-basierten Kommunikation wurden als Neubildungen aus Gründen der Sprachökonomie (z. B. Reduktionsformen, Inflektive, Ellipsen, Emoticons) oder als Hinweise auf konzeptionelle Mündlichkeit interpretiert (z. B. Großbuchstaben zur Emphase, Iteration von Buchstaben und Satzzeichen). Ihnen läge seitens der UserInnen der Wunsch nach einer symbolischen Überwindung der kommunikativen Restriktionen durch den Kanal zu Grunde (vgl. Androutsopoulos 2007: 3). Mit Hilfe der besonderen sprachlichen Merkmale der CMC werden funktionale Aspekte der quasi-synchronen Kommunikation strukturell manifest und der kommunikative Raum wird um Aspekte einer neuen Schriftlichkeit erweitert, die Elemente der oralen Kommunikation aufgreift und neu interpretiert.

Werden CMC-Phänomene in der chat-basierten HCI verwendet, sind sie als Kanalphänomene zu bewerten und nicht als typische Indikatoren für die Interaktion mit artifiziellen Agenten. Inwiefern CMC-Phänomene in der chat-basierten HCI überhaupt eine Rolle spielen, wird in Kapitel 4.1 diskutiert. Bei der Implementierung artifizieller Dialogagenten ist beim Dialog-Design allerdings darauf zu achten, dass die jeweiligen Auswirkungen unterschiedlicher Kommunikationskanäle auf die Interaktion miteinbezogen werden; d. h., ein Chatbot sollte mit den gängigen sprachlichen Besonderheiten der Chat-Kommunikation umgehen und bspw. die Zeichenkombination ;-) als zwinkernden Smiley erkennen können, der dem UserInnen-Beitrag eine ironische Konnotation hinzufügt.

Da in der chat-basierten HCI die Eingabe über die Tastatur erfolgt, könnten sich allein durch diesen Umstand Probleme ergeben. Bspw. könnten UserInnen Strategien der physikalischen Ökonomie verfolgen, um weniger tippen zu müssen und die Eingabe zu erleichtern. Inwiefern das Inventar der CMC-Phänomene hier zur Ökonomisierung eingesetzt wird, muss quantitativ überprüft werden. Fest steht jedoch, dass der Parsing-Prozess bei den meisten Systemen erschwert wird, wenn im UserInnen-Input Tippfehler, Ellipsen, Emoticons oder Proformen auftauchen. Inkohärente Systemausgaben sind die Folge. Auf diese reagieren die UserInnen mit speziellen Kompensationsstrategien, die noch schwerer zu parsen sind: Repair durch Umformulierungen, knappe Befehlssprache, Abweichen vom eigentlichen Dialogziel usw. Solche Sequenzen von a) Kanalphänomen im Turn ← 61 | 62 → der Userin, b) Parsing-Problem, c) inkohärentem System-Turn, d) Repair seitens der Userin, e) erneutem Parsing-Problem sind unbedingt zu vermeiden, indem die Erkennung von Kanalphänomenen verbessert wird. Aus diesem Grund ist es notwendig, zur Weiterentwicklung von HCI auch die Besonderheiten der chat-basierten CMC zu analysieren.

In der Forschungsliteratur wird (vor allem quasi-synchrone) CMC häufig als medial schriftlich, aber konzeptionell mündlich charakterisiert (z. B. Storrer 2000, 2001; Dürscheid 2003, 2004; Schlobinski 2005). Dabei wird in der deutschsprachigen Literatur häufig mit dem Modell des Nähe- und Distanz-Sprechens von Koch und Oesterreicher (1985) argumentiert, in dem unterschiedlichen Textsorten ein Kontinuum der von den Interagierenden empfundenen Nähe oder Distanz in den jeweiligen Interaktionssituationen gegenübersteht.53 Vor diesem Hintergrund ist eine reflektierte Analyse von HCI-Dialogen hinsichtlich sprachlicher Indikatoren für Nähe- oder Distanzsprache aufschlussreich und soll grundsätzliche Probleme der Interaktion mit dem virtuellen Gegenüber offenlegen (Kapitel 4.4).

1.2.6  Anthropomorphes Design und soziale Effekte

Eine menschenähnliche Wirkung von Dialogagenten wird erzielt durch anthro­pomorphe Avatare, Embodiment, soziables Verhalten, künstliche Emotionen und das Kreieren einer in sich schlüssigen Agenten-Persona. Damit die Illusion einer natürlichen Gesprächssituation gelingt, ist außerdem die Rezeptionshaltung der UserInnen von besonderer Wichtigkeit. Als moderne Form des künstlichen Menschen scheint der virtuelle Agent eine Vielzahl von kulturell gewachsenen sozialen Reaktionen hervorzurufen (vgl. u. a. Krämer 2008, Gong 2008), die bei der Untersuchung von HCI-Dialogen immer miteinbezogen werden müssen. UserInnen treten mit unterschiedlichen Vorannahmen an das ← 62 | 63 → virtuelle Gegenüber heran und betrachten es entweder als einfaches Werkzeug, als soziablen Gesprächspartner (vgl. Fischer 2006, im Druck) oder teilweise sogar als furchteinflößende Entität zwischen Mensch und Ding. Der japanische Robotiker Masahiro Mori (1982) entdeckte den Effekt, dass Menschen sich vor artifiziellen Entitäten (Robotern, Puppen, Masken) besonders fürchten, wenn diese das menschliche Vorbild nur knapp verfehlen. Bei diesem Grad an Anthro­pomorphisierung erfährt die Akzeptanzkurve der UserInnen einen Knick. Es handelt sich hierbei um den berühmten Uncanny-Valley-Effekt. Die ProbandInnen berichteten, dass sie die nahezu menschlich anmutenden Roboterpuppen im Experiment als unheimlich empfanden (vgl. auch Reichard 1978; Bryant 2003).

1.2.6.1  Anthropomorphes Design und Usability

Obgleich Menschen in den meisten Gesprächssituationen mit einem Dialogagenten genau wissen, dass sie mit einem virtuellen System interagieren, nehmen sie die Agenten-Persona sozial affektiv wahr. Das führt zu verschiedenen sozialen Effekten, die ExpertInnen sich zu Nutze machen, um die Usability einer agenten-gestützen Anwendung zu verbessern. So sollen Embodiment und anthropomorphes Design dazu beitragen, dass die HCI einer natürlichen Gesprächssituation ähnlicher und UserInnen-Verhalten damit antizipierbarer wird in Analogie zu vergleichbaren Settings aus der HHC (vgl. Krämer 2008). Zeller fasst die Vorteile einer anthropomorph verkörperten Schnittstelle zusammen:

In der Usability-Forschung ist die Wahrnehmung der Systeme durch die UserInnen daher heute die zu untersuchende Größe. Aus diesem Grund werden immer mehr Studien veröffentlicht, die mit soziologischen und psychologischen Methoden versuchen, dem UserInnen-Verhalten auf die Spur zu kommen, um so das benutzerInnen-freundlichste Schnittstellen-Design für eine bestimmte Anwendung zu finden. Gängige Methoden sind Perzeptionsstudien mit Eye-Trackern, UserInnen-Beobachtungen, UserInnen-Interviews und Experimente mit Wizard-of-Oz-Szenarios.54 Linguistische Studien aus dem Bereich der HCI ← 63 | 64 → sind in der Usability-Forschung vergleichsweise selten (Wagner 2002), sollten aber mit weiterer Verbreitung natürlichsprachlicher Interface-Agenten in den kommenden Jahren an Bedeutung gewinnen. Umgekehrt stellt für die HCI-Forschung das Usability-Engineering noch immer den Hintergrund dar. Wichtig sind besonders bei kommerziellen Anwendungen nicht die Finessen eines möglichst natürlichen Dialog-Designs, sondern die einfachen Fragen: Erhalten potentielle BenutzerInnen die Informationen, die sie brauchen und wie effizient arbeitet das System im Hinblick auf ein gesetztes Ziel, z. B. den Verkauf von Möbeln oder die schnelle Navigation auf einem Mobilgerät (Task-Completion-Rate)?

Die Usability-Forschung bewegt sich im Spannungsfeld zwischen ihrem angestrebten Ideal der übergangslosen Symbiose zwischen Mensch und Computer und ihrem tatsächlichen Forschungsgegenstand: Bots, die je nach Anwendungsgebiet und Stand der Technik als virtuelle Assistenten mit Restriktionen oder allenfalls als einfache Werkzeuge begriffen werden können. Für die HCI können demnach die eingangs erwähnten Star-Trek-Dialoge als Ziel angesehen werden – auch in Bezug auf die Usability.

1.3  Restriktionen artifizieller Dialogsysteme und daraus resultierende theoretische Implikationen für die Analyse von HCI-Dialogen

Die Funktionsweise von Chatbots und ECAs wurde in den vorangegangenen Abschnitten in ihren Grundzügen dargestellt. In diesem Abschnitt sollen die Grenzen dieser Technologien aufgezeigt werden und es soll diskutiert werden, ob eine menschenähnliche HCI überhaupt möglich ist. Auch wenn komplexere Systeme wie IBMs Watson (Ferrucci et al. 2010) die unterschiedlichen technischen Möglichkeiten zur maschinellen Dialogverarbeitung (Mustererkennung, klassische KI, statistische Analyse großer Datenmengen und probabilistische Netzwerkmodelle) verbinden und so zu einer wesentlich besseren Dialogperformanz gelangen als einfache Chatbots, so weisen doch alle künstlichen Dialogagenten gleichermaßen im Vergleich zu ihren menschlichen Dialog-PartnerInnen grundsätzliche Restriktionen auf. Diese Restriktionen wurden im Rahmen der Diskussion um KI bereits in den 1970er und 1980er Jahren erörtert und erlangen ← 64 | 65 → derzeit eine neue Aktualität durch innovative Ansätze zur semantischen Verarbeitung großer Datenmengen (Big-Data-Analysis), lernfähige Systeme und die Erkenntnisse der Neurowissenschaften. Vor diesem Hintergrund sollen im Folgenden die Restriktionen der Systeme herausgearbeitet werden – nicht mit dem Ziel, die grundsätzliche Möglichkeit einer menschenähnlichen KI zu diskutieren, sondern um die Rahmenbedingungen der derzeitigen HCI abzustecken. Diese stellen die Folie dar, auf der die im Kontext dieser Studie analysierten Dialoge interpretiert werden müssen. Da es sich bei den untersuchten Korpora um eine Sammlung von Interaktionen zwischen Mensch und Maschine handelt, liegt der Fokus dieser Arbeit auf der Analyse dialogischer Strukturen. Theoretischer Ausgangspunkt für dieses Vorhaben kann nur die HHC sein, da ein linguistisches Dialogmodell der HCI bislang noch nicht vorliegt. Ein solches Modell soll wie bereits erwähnt in dieser Arbeit aus unterschiedlichen theoretischen Ansätzen der Forschung zur HHC abgeleitet werden. Auf diese Weise kann die Seite der UserInnen als Interagierende in der HCI differenziert modelliert werden. Die Seite der Systeme wird von der jeweiligen Systemarchitektur determiniert, die so auf einer abstrakten Ebene in das Modell inkludiert werden muss. Mechanismen der Interaktion zwischen Mensch und Maschine werden mit dieser Zielsetzung in Kapitel 2 für den jeweiligen Untersuchungsbereich als Hypothesen formuliert, in Kapitel 4 an den empirischen Sprachdaten überprüft und in Kapitel 5.1 zu einem Interaktionsmodell der HCI zusammengeführt.

1.3.1  Theoretische Grundprinzipien der menschlichen Kommunikation

Die Kommunikation unter Menschen kann als ein vielschichtiges System verstanden werden, in dem zwei oder mehr Subjekte kommunikative Handlungen vollziehen unter ständiger Bezugnahme auf ein noch komplexeres Verweissystem. Habermas differenziert zwischen unterschiedlichen Ebenen der Interaktion: die Ebene der Verständigungsprozesse, die Ebene des kommunikativen Handelns als Koordination von Handlungsplänen und die Ebene des Hintergrundwissens als Ressource, „aus der die Interaktionsteilnehmer ihre Interpretation speisen“ (Habermas 1993a: 442). Dabei werden geteilte Grundannahmen über die gemeinsame Lebenswelt im Sinne eines Common Sense als selbstverständlich vorausgesetzt (vgl. Habermas 1993a: 449). Habermas betont die Wichtigkeit der ständigen Bezugnahme auf geteiltes Wissen, das konstitutiv für kommunikatives Handeln ist: „Wenn die sozio-, ethno-, und psycholinguistischen Untersuchungen des letzten Jahrzehnts in einem konvergieren, dann ist es die vielfältig demonstrierte Erkenntnis, daß das kollektive Hintergrund- und Kontextwissen von Sprechern ← 65 | 66 → und Hörern die Deutung ihrer expliziten Äußerungen in außerordentlichen Maße determiniert“ (Habermas 1993a: 449). Bereits Searle (1980) arbeitet die Unmöglichkeit von kontextfreien Bedeutungen kommunikativer Äußerungen heraus, die Habermas als „Relativität der wörtlichen Bedeutung eines Ausdrucks“ fasst (Habermas 1993a: 450). „Die Lebenswelt bildet das intuitiv gegenwärtige, insofern vertraute und transparente, zugleich unübersehbare Netz der Präsuppositionen, die erfüllt sein müssen, damit eine aktuelle Äußerung überhaupt sinnvoll ist, d. h. gültig oder ungültig sein kann“ (Habermas 1993b: 199). Die Lebenswelt ist also jederzeit implizit „im kommunikativen Handeln als Kontext präsent“ (Habermas 1993b: 183). Damit folgt bewusste Kommunikation nicht einfach Stimulus-Respons-Mechanismen, sondern kann nur im Kontext der Lebenswelt und der Interaktionssituation interpretiert werden. Als Interaktionsituation bezeichnet Habermas den „durch Themen herausgehobenen, durch Handlungsziele und – pläne artikulierten Ausschnitt aus lebensweltlichen Verweiszusammenhängen“ (Habermas 1993b: 187). Dabei sind die Grenzen dieses Ausschnitts nicht immer klar definiert.

Der Begriff des kommunikativen Handelns gliedert sich in zwei Bereiche: „den teleologischen Aspekt der Verwirklichung von Zwecken (oder der Durchführung eines Handlungsplans) und den kommunikativen Aspekt der Auslegung der Situation und der Erzielung eines Einverständnisses“ (Habermas 1993b: 193). Dabei ist die Durchführung von Handlungsplänen abhängig von ihrer kommunikativen Artikulation innerhalb des Verweissystems.

Das komplexe Verweissystem, mittels dessen die GesprächspartnerInnen Bezug auf Aspekte ihrer Lebenswelt nehmen, versucht Habermas in seinem 3- Welten-Modell zu fassen (1993b: 193). Während der Kommunikation findet ein wechselseitiger Austausch zwischen den Interagierenden statt unter Bezugnahme auf drei dem Anspruch nach systemisch fassbare Welten: die subjektive, die objektive und die soziale Welt. Jede /r GesprächsteilnehmerIn hat dabei Zugriff auf ihre / seine eigene subjektive Welt sowie auf die geteilte objektive und die geteilte soziale Welt. „Sprecher und Hörer verständigen sich aus ihrer gemeinsamen Lebenswelt heraus über etwas in der objektiven, subjektiven oder sozialen Welt“ (Habermas 1993b: 192). Habermas bezeichnet Kommunikation als „kooperativen Deutungsprozess“, in dem sich die GesprächspartnerInnen in der Regel auf alle drei Welten gleichzeitig beziehen. Denn diese bilden ein „Bezugssystem“ und einen „Interpretationsrahmen“ für Äußerungen, der intersubjektiv gültig ist (Habermas 1993b: 189). Damit verfügen die InteraktionsteilnehmerInnen über ein nicht eindeutig definierbares, dynamisches Weltwissen. ← 66 | 67 →

Abbildung 13: 3-Welten-Modell (Habermas 1993b: 193)

img13

Die Annahmen der Interagierenden müssen sich „gemessen am aktuellen Verständigungsbedarf, hinreichend überlappen“ (Habermas 1993b: 185), um eine gemeinsame Ausgangsbasis zu schaffen, auf der die Kommunikation stattfinden kann. Diese gemeinsame Basis wird in der Gesprächsanalyse als Common Ground bezeichnet (vgl. u. a. Stalnaker 1978; Clark & Marshall 1981; Clark 1985, 1996; Heritage 1988). Es handelt sich dabei nicht um eine klar umrissene Menge von Informationen, sondern Common Ground wird im Gespräch zwischen den Interagierenden immer wieder neu ausgehandelt. Wenn von unterschiedlichen Vorannahmen ausgegangen wird, kommt es zu Störungen im Dialog in Form von Missverständnissen und Common Ground muss durch bewusste Strategien herbeigeführt werden. Habermas spricht hier von „Reparaturleistungen“ (Habermas 1993b: 185), international durchgesetzt hat sich der Terminus Repair aus der Konversationsanalyse (Sacks et al. 1992). Um einer Störung entgegenzuwirken, werden bspw. einzelne Selbstverständlichkeiten aus dem Hintergrundwissen aktiviert und explizit thematisiert, sofern sie für die aktuelle Interaktionssituation relevant sind (Habermas 1993b: 189). In störungsfreien Sequenzen werden ← 67 | 68 → Präsuppositionen aus Common Ground und Lebenswelt sowohl von der Sprecherin als auch von der Hörerin direkt inferiert, ohne dass es der expliziten Metakommunikation bedarf.

Sprache und Lebenswelt bedingen einander in ihrer Form gegenseitig, denn die Lebenswelt bildet nicht nur den Hintergrund jeglichen kommunikativen Handelns, sondern die Sprache beeinflusst durch ihre grammatische Form auch unsere Wahrnehmung derselben. Menschen erwerben ihre grundsätzliche kommunikative Handlungsfähigkeit, indem sie in einer Gesellschaft aufwachsen. Dialogische Interaktion mit einem Erwachsenen in Situationen geteilter Aufmerksamkeit kann als das zentrale Vehikel des kindlichen Spracherwerbs angesehen werden (vgl. Tomasello 2002). Ohne Zugriff auf das geteilte und von Kindheit an erworbene Welt- und Handlungswissen, fehlt Aussagen im Dialog der Interpretationsrahmen.

1.3.2  Grundsätzliche Unterschiede einer Theorie der HHC und einer Theorie der HCI

In diesem Kapitel sollen zunächst die Defizite künstlicher Dialogagenten in einer Interaktionssituation nach dem Modell der HHC herausgearbeitet werden, um dann vor diesem Hintergrund einen Vorschlag zur systematischen Beschreibung der HCI als spezieller Form der Interaktion unter restringierenden Rahmenbedingungen zu machen.

1.3.2.1  Kritik an der Möglichkeit einer menschenähnlichen KI

Um logisch kohärente und situativ angemessene Dialoge mit artifiziellen Dialogagenten zu implementieren, bedarf es also mehr als einer Schlüsselwort­erkennung mit Musterabgleich. Die Modellierung einer starken künstlichen Intelligenz, die über semantisches Wissen vor dem Hintergrund eines sozialen Kontexts verfügt und bewusste Entscheidungen treffen kann, ist unerlässlich, um ein menschenähnliches Gegenüber zu schaffen. Das grundsätzliche Problem der KI und damit auch der HCI kumuliert also in der Frage nach der Modellierbarkeit von menschlichem Denken. Wie die menschliche Kognition organisiert ist und welcher Zusammenhang zwischen neuronalen Strukturen und geistigen Repräsentationen besteht, ist aber bis heute nicht hinreichend geklärt (vgl. Searle 2006: 9). Die traditionelle Kritik an der Möglichkeit einer menschenähnlichen KI fokussiert die Probleme eines materialistischen Computerfunktionalismus, der von der Grundannahme ausgeht, Intelligenz sei rein substanziell fassbar und entsprechend künstlich implementierbar (vgl. Searle 2006: 74ff). Der Turing-Test wurde als adäquates Testverfahren für künstliche Intelligenz kritisiert, da ← 68 | 69 → er nur die Performanz und nicht innere Zustände des Systems evaluiert. Damit ist der ihm zu Grunde liegende Ansatz als behavioristisch zu verwerfen (vgl. Searle 2006: 80). Searle stellt sein berühmtes Gedankenexperiment des chinesischen Zimmers dagegen: Ein Mensch, der kein Chinesisch versteht, sitzt in einem Zimmer und hat Zugriff auf ein Regelwerk zur Kombination von chinesischen Schriftzeichen. Er bekommt Karten mit Zeichen, die er nicht versteht, in das Zimmer hineingereicht, kombiniert diese gemäß den ihm vorliegenden Regeln und reicht die fertigen Zeichenkombinationen wieder aus dem Zimmer heraus. Sein „Output“ besteht dank des Regelwerks aus grammatischen Sätzen des Chinesischen und erweckt den Eindruck er beherrsche die Sprache (vgl. Searle 2006: 98ff). Das Gedankenexperiment veranschaulicht, dass Syntax oder formallogische Kombinatorik von Symbolen nicht zu einer Analyse der semantischen Begriffsumfänge führt. Der Verweis eines jeden Symbols auf einen Begriff mit entsprechender Intension wird im Regelwerk zur Kombination chinesischer Schriftzeichen nicht codiert. Searles Kritik trifft Chatbots und Kombinationsregeln der klassischen KI, da hier Symbole ohne semantische Analyse manipuliert werden. Ob innovative automatische semantische Analysen dieses Defizit ausgleichen können, ist fraglich. Intension und Extension eines Begriffs mit allen unterschiedlichen Konnotationen im kommunikativen Gebrauch mit allen sozialen Implikationen präzise und gleichzeitig flexibel in ein Dialogsystem zu implementieren ist extrem schwer. Allenfalls lernfähige Systeme könnten in Zukunft dieser Aufgabe gewachsen sein. Dennoch wäre die von solchen Systemen erworbene Fertigkeit nicht mit menschlicher Sprachkompetenz zu vergleichen, denn menschliche SprecherInnen sind sich ihrer Sprachhandlungen im Kontext der Interaktionssituation bewusst (Self-Modeling, Partner-Modeling, Situation-Modeling, vgl. Johnson-Laird 1983, Sanford & Garrod 1981, Zwaan & Radvansky 1998). Dieses Bewusstsein konnte bis heute im Materiellen nicht nachgewiesen und folglich nicht künstlich erzeugt werden. „Das Argument des chinesischen Zimmers zeigt, daß menschliche Wesen mit zweierlei Dingen konfrontiert sind: erstens mit den wirklichen Symbolen, deren sich der Mensch bewußt ist, während er oder sie denkt, und zweitens mit der Bedeutung, der Interpretation oder dem Sinn, der mit diesen Symbolen verbunden ist“ (Searle 2006: 115). Welche Rolle das Bewusstsein für die menschliche Kognition allgemein und für Prozesse der Sprachverarbeitung im Besonderen spielt, ist nicht hinreichend geklärt. In den folgende Kapiteln sollen sowohl vorbewusste Mechanismen als auch bewusste Prozesse der menschlichen Dialogverarbeitung in die Analyse miteinbezogen werden. Welche Auswirkung das Fehlen eines Bewusstseins auf die Funktionsweise des Bots hat, welche grundsätzlichen Defizite dies nach sich zieht und wie ← 69 | 70 → sich diese Defizite auf die gesamte Interaktion auswirken, soll im Folgenden umrissen werden.

1.3.2.1.1  Die HCI als Interaktionsform mit Restriktionen

Ein Schlüsselproblem für die Studie liegt in der Gegensätzlichkeit der Forschungsgegenstände Mensch (natürliche Sprache, neuronale Kognition, Bewusstsein) und Maschine (natürliche Sprache im Interface, KI als formale Sprache, kein Bewusstsein). Längst nicht alle Phänomene der natürlichen Sprache können in formale Sprache übersetzt werden. Semantische Begriffe sind abhängig vom Weltwissen der SprecherInnen und oftmals individuell oder situativ unterschiedlich konnotiert. Auch strukturell ist der kreative Umgang mit natürlicher Sprache möglich. Pragmatisches Sprachhandeln ist in einen differenzierten Handlungskontext eingebettet, dessen Variablen noch kein System erfassen kann. So sind bspw. sprachliche Phänomene wie Metaphern oder Ironie zum heutigen Zeitpunkt weder zufriedenstellend systematisiert noch erschöpfend in Form eines Datenkorpus’ zusammengetragen, um sie in einem Text automatisch parsen zu können. Aber auch einfachen Aussagen liegt ein Netz an Präsuppositionen (s. o.) zu Grunde, das einem artifiziellen Dialogsystem nicht ohne weiteres implementiert werden kann.

Menschliches Denken funktioniert grundlegend anders als künstliche Intelligenz. Das gilt auch für kognitive und maschinelle Sprachverarbeitung. Grundsätzlich müssten „mentale Zustände […] in verschiedenen Arten von physischen Strukturen multipel realisierbar sein“ (Searle 2006:83). Allerdings gelingt dies in der HCI nicht. Obgleich in der HCI die Illusion einer natürlichen Gesprächssituation unter Menschen geschaffen werden soll, bringen Mensch und KI also sehr unterschiedliche Voraussetzungen für die Interaktion mit. Durch die restringierten Möglichkeiten des Bots und dem Anspruch der UserInnen auf im Mindesten menschenähnliches Dialog-Verhalten ergibt sich ein Spannungsfeld zwischen den neuralgischen Parametern der HCI. Dabei ist das fehlende Bewusstsein der KI die kritische Komponente: Aus diesem Mangel resultieren alle weiteren Res­triktionen seitens des Bots und die Grenzen seiner Interaktionsfähigkeit.

Die Selbstreferenzialität der Systeme wird zwar in der KI ein immer wichtigeres Thema, da bei fortgeschrittenen Systemen darauf geachtet wird, dass der eigene Systemstatus immer mitgerechnet wird. Das System soll sich selbst in Abgrenzung von der Welt „wahrnehmen“. Dies sei z. B. auch ein Kriterium für „Sociability“ (vgl. Zeller 2005: 24). Doch handelt es sich hierbei nur um eine zusätzliche Repräsentation und nicht um das Bewusstsein eines Verstandes. ← 70 | 71 →

Unter der Voraussetzung eines Bewusstseins handeln Menschen autonom, intentional und spontan. Sie erleben sich selbst in Zeit und Raum als identische Entität, die Erfahrungen machen und sich daran erinnern kann (vgl. Searle 2006: 107). Durch ihre gesellschaftliche und kulturelle Entwicklung haben sie Weltwissen erworben, das objektive, subjektive und soziale Anteile hat und in logisch-semantisch organisierter Form vorliegt. Auch wenn EntwicklerInnen von sophistizierten Systemen versuchen, all diese Aspekte menschlicher Kognition und Grundlagen der Sprachkompetenz im artifiziellen Modell abzubilden, können sie ohne ein Bewusstsein als entscheidende Komponente nicht funktionieren.

a) Autonomie
Agenten-Systeme, die planbasiert unter Berücksichtigung eines einprogrammierten Dialogziels agieren, können unter diesen Prämissen (Plan und Ziel) zwar Entscheidungen treffen, sind dabei aber nicht autonom, sondern allenfalls autopoietisch (vgl. Schatter 2011: 15). Das System ist deterministisch, die Dialoge sind (mit einem unterschiedlichen Grad an Flexibilität) vorformuliert. Der Autonomiebegriff ist in der KI-Forschung folglich anders belegt als in der klassischen Philosophie, wenn er auf Agenten-Systeme angewandt wird. Ein System gibt immer nur aus, was seine EntwicklerInnen der Möglichkeit nach implementiert haben. Zwar sind moderne Systeme so komplex und gehen mit so vielen Wahrscheinlichkeiten um, dass es selbst für die KonstrukteurInnen manchmal nicht trivial ist, Systemreaktionen nachzuvollziehen. Es entsteht der Eindruck von Spontaneität, der sich in vermeintlich freien Entscheidungen manifestiert. Doch das scheinbar intelligente Verhalten ist nachvollziehbares Produkt einer zufälligen Kausalkette oder von probabilistischen Entscheidungen, auf die das System festgelegt ist.
Kant begreift die autonome Person auf Grund ihrer Entscheidungsfreiheit als ethisches Subjekt.
55 „Person ist dasjenige Subjekt dessen Handlung einer Zurechnung fähig ist“ (Kant MdS VI 223). Der Mensch soll aus Einsicht in die Pflicht gegenüber der Menschheit als Totalität so handeln, dass er nicht dem Gesetz der Vernunft zuwider handelt (vgl. Kategorischer Imperativ). Diesem Gedanken liegt zu Grunde, dass Kant den Menschen als autonom begreift. Diese Autonomie besteht darin, dass ein Mensch über einen freien Willen verfügt und sich frei Ziele setzen kann. Ein Bot hat diese Möglichkeit nicht. Handlungsziele sind im Programm entweder klar definiert oder die Auswahl ist auf einen Algorithmus oder ein probabilistisches Modell festgelegt. ← 71 | 72 →

b) Intentionalität
Intentionalität wird mit Searle (2006: 171ff) verstanden als die allgemeine Gerichtetheit von Aussagen. Dabei geht es nicht um eine Absicht, sondern um eine semantische Relation. Aussagen müssen auf etwas gerichtet sein. Das kann ein empirisches Objekt oder ein Handlungsziel gleichermaßen sein. Das menschliche Bewusstsein ist in der Lage, große Mengen intentionaler Bezüge zu koordinieren. Die Zielorientiertheit von planbasierten Agenten-Systemen ist ohne Autonomie und ein Bewusstsein nicht als Intentionalität zu bezeichnen. Zwar werden Assistenzsysteme z. T. als „goal directed“ (Cassell et al. 2000) beschrieben, da ihr Programm einem vordefinierten Handlungsziel folgt, doch darf diese Funktion nicht mit Intentionalität im philosophischen Sinne gleichgesetzt werden.

c) Spontaneität
Wo Menschen spontan aus Erfahrungen semantische Begriffe ableiten können, sind klassische Dialogagenten auf die ihnen einprogrammierten Begriffsumfänge zurückgeworfen. Bei lernfähigen Systemen, wird versucht, die menschliche Fähigkeit zur spontanen semantischen Kategorisierung von Erfahrungen nachzuahmen, doch funktioniert diese Technologie bislang nur bei sehr basalen Anforderungen.
Die Spontaneität der Begriffe (vgl. Kant KrV B 74, B 93) kann als klassisches Problem der Erkenntnisphilosophie angesehen werden, das bereits in der antiken Philosophie (vgl. Platon Menon) diskutiert wurde. Bis heute können LinguistInnen, PsychologInnen und NeurowissenschaftlerInnen nicht genau erklären, wie Kinder ihre ersten Begriffe erwerben. Konfrontiert mit der ihnen noch unbekannten Wahrnehmung der Welt, muss der kindliche Verstand das ununterschiedene Wahrgenommene ordnen. Nur wenn genügend Erfahrungen gesammelt werden, der richtige Input von den Eltern gegeben wird und der kindliche Verstand die Prädisposition mitbringt, unterscheidende Urteile fällen zu können, schafft es das Kind, erste Gegenstände zu erkennen, indem es sie vom Rest der empirischen Wahrnehmung abgrenzt. In diesem Kontext werden auch die ersten Vokabeln erworben. Doch wie genau dieser Prozess verläuft, ist bis heute nicht vollständig klar. Daher erstaunt es nicht, dass Bots bislang nicht in der Lage sind, mittels ihrer Sensoren unbekannte Gegenstände abzugrenzen und zu benennen. Ihnen stehen immer nur die Kategorien zur Verfügung, die Ihr Programm bereits beinhaltet. Sie bringen viel statisches Wissen mit, können sich aber a) nur rudimentär an den dynamischen Dialog anpassen und b) in dessen Verlauf keine neuen Begriffe erwerben.

d) Identität
Erfahrungen können nur von einem Selbst adäquat verarbeitet werden, das sich als ein und dieselbe zeitliche Entität erlebt (Locke Essay: II, 27, 8). Nur so kann es selbständig auf Erlerntes zurückgreifen. Das Bewusstsein für die zeitliche Identität der Person fasst Kant als transzendentale Einheit der Apperzeption. „Das: Ich denke, muss alle meine Vorstellungen begleiten können; denn sonst würde etwas in mir vorgestellt werden, was gar nicht gedacht werden könnte, welches eben so viel heißt, als die Vorstellung würde entweder unmöglich, oder wenigstens für mich nichts sein. “ (Kant KrV: B 131–132) Im 3. Paralogism der Personalität heißt es: „Was sich der numerischen ← 72 | 73 →
Identität seiner selbst in verschiedenen Zeiten bewußt ist, ist so fern eine Person“ (Kant: KrV: A 361). Indem ein Modell des Selbst in einem artifiziellen System mit Zugriff auf gespeicherte Protokolle vergangener Interaktionen angelegt wird, entsteht dadurch aber noch kein sich seiner zeitlichen Identität bewusstes Selbst.
Habermas betont zusätzlich den sozialen Charakter der Identität. Indem menschliche Interagierende „das kulturelle Wissen, aus dem sie schöpfen, durch ihre Verständigungsleistungen hindurch reproduzieren, reproduzieren sie zugleich ihre Zugehörigkeit zu Kollektiven und ihre eigene Identität.“ (Habermas 1993b: 211)

e) Weltwissen
Auf diese Weise kann im Laufe eines langjährigen Lernprozesses Weltwissen in logisch-semantisch kategorisierter Form aufgebaut werden. Auch den modernsten Systemen stehen keine auf diese Weise vernetzten Datenbanken zur Verfügung.
Die Tabelle versucht, die Gegensätze zwischen Mensch und KI im Hinblick auf ihre kognitiven Möglichkeiten und damit auch ihrer Dialogkompetenz zusammenzufassen.

Tabelle 1: Elementare Unterschiede zwischen menschlicher Kognition und KI

MenschSystem
  
AutonomieAutopoiesis
IntentionalitätZielorientiertheit (Goal-Directedness)
SpontaneitätDetermination
Identität der ErfahrungIsolierte Verarbeitungsprozesse
WeltwissenBegrenzte und unstrukturierte Datenbanken

1.3.2.1.2  Person und Persona

Aus diesen grundsätzlichen Unterschieden zwischen Mensch und KI ergibt sich die in der HCI-Forschung übliche begriffliche Unterscheidung zwischen dem Menschen als Person und dem System als Persona.56 Die gesamte Gestaltung einer konsistenten Agenten-Persona unterstützt die Illusion eines menschenähnlichen Gegenübers und evoziert dadurch soziale Wirkungen. Die der Anwendung zu Grunde liegende KI ist dennoch auf die o. g. Restriktionen zurückgeworfen.

Während menschliche Subjekte als Personen besonders durch die Parameter des Bewusstseins, der Autonomie und der daraus resultierenden ethischen Verantwortung definiert sind, zeichnen sich künstliche Personae in erster Linie durch das Fehlen dieser Eigenschaften aus. Auch wenn ihre Avatare ← 73 | 74 → anthropomorph gestaltet sind und ihr Dialog-Design auf eine konsistente Persönlichkeit hinweist, sind heutige Systeme weit davon entfernt, den Status einer Person zugesprochen zu kommen. Denn im Begriff der Person ist die Verantwortung des einzelnen Menschen gegenüber der Menschheit in ihrer Gesamtheit durch Einsicht in eine vernunftgemäße Ethik bereits enthalten. „Handle so, dass du die Menschheit, sowohl in deiner Person, als in der Person eines jeden andern, jederzeit zugleich als Zweck, niemals bloß als Mittel brauchest“ (Kant GMS: BA 66f). Artifizielle Dialogsysteme müssen jedoch als ein solches Mittel verstanden werden, denn laut der Definition der Auslegung der Assistenz-Metapher in der Usability-Forschung sollen sie nichts weiter darstellen als ein intuitiv nutzbares Werkzeug. Spräche man ihnen den Status einer Person zu, wäre dieser Gebrauch ethisch unmöglich. Umgekehrt kommt den Systemen aus den o. g. Gründen die Freiheit nicht zu, sich selbst Handlungsziele zu setzen vor dem Hintergrund des eigenen Weltwissens und der Einsicht in das ethische Gesetz.

Die Grundbedingungen der HCI und der Status des Systems als Werkzeug, das als Persona verkörpert wird, sind damit eindeutig. Ein problematischer Faktor in dieser Konstellation ist allerdings die Rezeptionshaltung der UserInnen, die der Illusion in unterschiedlichem Umfang Glauben schenken. Einige UserInnen fokussieren den Werkzeugcharakter der Anwendungen, während andere dem Dialogsystem spielerisch begegnen. Für manche UserInnen verschwimmt die Grenze zwischen Agenten-Persona als Artefakt und realer Person als AnsprechpartnerIn (vgl. Tewes 2005: 262). Im vorangegangenen Abschnitt wurde gezeigt, dass UserInnen im Dialog vorbewusst soziale Eigenschaften an das System attribuieren und sich entsprechend verhalten. Welchen Ausdruck solche Tendenzen auf der sprachlichen Ebene finden, soll diese Arbeit zeigen.

Welche Konsequenzen die kollektive Behandlung eines Systems als sozialen Akteur für dessen Status als Person hätte, ist bislang nicht geklärt. Bei solchen Diskussionen muss allerdings darauf geachtet werden, dass die Ebene der KI mit ihren Restriktionen, die Ebene der natürlichsprachlichen Performanz und die Ebene der UserInnen-Perzeption nicht vertauscht werden. Denn auch wenn moderne Systeme passagenweise menschenähnlich intelligent wirken, sind sie es im Rahmen der Möglichkeiten ihrer Architektur nicht (vgl. Searles Chinesisches Zimmer). So ist weder das Vorbringen der eigenen Meinung (vgl. Zeller 2005: 25) noch die Verwendung des Personalpronomens der ersten Person in Systembeiträgen (vgl. Wachsmut 2008) ein Anzeichen für ein künstliches Subjekt, das sich seiner selbst bewusst ist, autonom handelt und dem folglich der Status einer Person zugeschrieben werden sollte. Beides steigert sicher die soziale Akzeptanz, jedoch ist der Bot selbstverständlich weder in der Lage, sich auf der Grundlage ← 74 | 75 → von Informationen eine eigene Meinung zu bilden, noch seine eigene Identität zu erleben (vgl. Nagel 1974).

Ob man prognostizieren möchte, dass in ferner Zukunft weit fortgeschrittene Systeme existieren könnten, für die die Bezeichnung als Person adäquat wäre, hängt beim derzeitigen Stand der Forschung mit dem Menschenbild zusammen, das man vertritt. Versteht man z. B. das menschliche Gehirn als rein deterministisches System und das Bewusstsein als dessen Epiphänomen (vgl. z. B. Roth 2001, Kandel 2012), so rückt die Möglichkeit einer menschenähnlichen künstlichen Intelligenz in greifbare Nähe. Die Neurowissenschaften haben die Funktionen des menschlichen Gehirns aber bislang nur zu einem Bruchteil erklärt. Welche kognitiven Prozesse menschlicher Selbstreferenzialität zu Grunde liegen oder wie Spontaneität der Begriffe in Lernprozessen erklärt werden kann, wird zwar diskutiert, ist aber noch nicht hinlänglich erforscht, um daraus Erkenntnisse für eine innovative KI abzuleiten.57

Solange artifizielle Dialogsysteme aber nicht in der Lage sind, aus logisch-semantisch organisiertem Vorwissen inferenzielle Schlüsse abzuleiten und im Hinblick auf gesellschaftliche Zusammenhänge ihre Ziele frei zu wählen, solange sie nur bedingt lernfähig sind und sich ihre Selbstwahrnehmung so sehr von der des Menschen unterscheidet und solange im deterministischen System kein Raum für Spontaneität besteht, solange ist es verfrüht, über ein artifizielles Bewusstsein und über das System als Person oder sozialem Akteur zu diskutieren.

1.3.2.1.3  Kommunikation und Interaktion

Indem der Status als Person für Agenten-Systeme zurückgewiesen wird, folgen Implikationen für eine adäquate Terminologie. Unsere Sprache stellt ein breites Begriffsinventar zur Beschreibung belebter Subjekte als Handelnde zur Verfügung. Für eine unbelebte KI ohne eigenes Bewusstsein, die aber autopoietisch Aktionen auszuführen scheint, fehlt ein adäquates Vokabular. ForscherInnen behelfen sich im aktuellen Diskurs mit Derivationen wie paraintelligent (Schatter 2011: 21) und soziabel (Zeller 2005: 101), durch die die Relation beschrieben werden soll, in der die KI zu menschlicher Intelligenz steht. ← 75 | 76 →

Aus diesem Grund werden Dialoge mit dem virtuellen Gegenüber in dieser Arbeit nicht als Kommunikation oder Konversation bezeichnet, sondern als Interaktion. Bei dieser Unterscheidung steht die Abgrenzung von einem alltagssprachlichen Begriff von Kommunikation unter Menschen im Vordergrund, der die Unterschiede zwischen HCI und HHC betonen soll. Der Begriffsumfang der Interaktion ist hier weiter als der der Kommunikation und kann sogar die Manipulation einer Maschine ohne natürlichsprachliches Interface umfassen. In seiner Grundbedeutung setzt der Begriff der Interaktion allerdings mindestens zwei Handelnde voraus (lat. inter-agere), d. h. unter Bezugnahme auf einen handlungstheoretischen Ansatz kann für ein Dialogsystem nur ein sehr enger Begriff von handeln angesetzt werden.58 Agenten-Systeme sind benannt nach ihrer Funktion, plan-basiert in einem deterministischen System Entscheidungen zu treffen. Darin bestehen ihre Aktionen, die sich von autonomen sozialen AkteurInnen deutlich unterscheiden. Das natürlichsprachliche Interface ist lediglich die Schnittstelle eines binären Programms.59 Insofern ist die HCI nie eine Interaktion unter gleichen InteraktionspartnerInnen (vgl. auch Fischer im Druck). Vielmehr verfügen diese InteraktionspartnerInnen je nach Elaboriertheit des Systems über sehr unterschiedliche Möglichkeiten beim Austausch von Informationen. Obgleich also sowohl HHC als auch HCI zeichenbasiert sind und der Informationsübermittlung dienen, sind die jeweiligen Konstellationen von Interagierenden sehr verschieden.

Vor diesem Hintergrund hat Dreyfus’ Diktum aus dem Jahr 1992, nämlich dass Computer nie eine Konversation führen können würden, bis heute nicht an Gültigkeit verloren. Der Terminus Konversation bezieht sich dabei nicht allein auf ein Oberflächenphänomen, sondern bezieht die unterschiedlichen Voraussetzungen von Mensch und KI mit ein (vgl. auch Button 1990; Button und Sharrock 1995). KI und menschliche Kognition basieren auf sehr unterschiedlichen Strukturen, verfügen über unterschiedliche Funktionen und haben ← 76 | 77 → unterschiedliche Restriktionen (s. o.). Genau in dieser Dichotomie liegt das grundsätzliche Problem der HCI. Zusätzlich weichen die situativen Kontexte, in denen HCI stattfindet, von denen der HHC ab.

Zeller schlägt den Begriff der mutualen Dialogfähigkeit als präzisere Bezeichnung der Möglichkeiten des Systems vor und als Ausweg aus dem Dilemma „Kommunikation vs. Interaktion“ (Zeller 2005: 44). Obwohl diese Formulierung die Begriffe der Kommunikation und Interaktion vermeidet, bezieht sich der Begriff der Fähigkeit gleichermaßen implizit auf ein bewusst handelndes Subjekt und mutual betont eine Form des wechselseitigen Austauschs, die in der HCI nur sehr bedingt möglich ist. Das Prinzip der Intersubjektivität60, das konstitiutiv für die Kommunikation unter Menschen ist, kann auf die HCI nicht übertragen werden. Daraus folgt, dass dynamische Aushandlungsprozesse zur Etablierung von Common Ground (vgl. u. a. Giddens 1984) in der HCI nicht oder nur sehr bedingt stattfinden können. Menschliche GesprächspartnerInnen können bspw. im Dialog implizit vereinbaren, mit welchem Wort oder mit welcher Phrase sie auf einen bestimmten Gegenstand oder Sachverhalt referieren wollen, indem bestimmte Formulierungen eingeführt, übernommen und etabliert werden, ohne dass es eines Metadialogs bedarf (vgl. Pickering & Garrod 2004). Systeme für solche interaktiven Funktionen sensibel zu machen, ist nicht trivial.

Problematisch an der Interaktionssituation HCI ist allerdings, dass sie als interaktiv designt wurde61, um ein der HHC vergleichbares Szenario zu simulieren, und von den NutzerInnen z. T. als sozial wahrgenommen wird. So provoziert natürlichsprachliche HCI einen Konflikt zwischen der objektiven Manipulation einer Maschine und der subjektiven Wahrnehmung der UserInnen. Je gelungener die Illusion ist, desto weniger bewusst wird dieser Konflikt wahrgenommen. Einen Ausweg aus dieser paradoxen Situation stellen Dialog-Designs dar, die nicht das Ziel verfolgen, menschliche Kommunikation täuschend echt zu simulieren, sondern vielmehr versuchen, die besonderen interaktiven Möglichkeiten eines artifiziellen Systems auf die Funktion der jeweiligen Anwendung abzustimmen und dabei das Potenzial des Systems auszunutzen. Wenn also über die sprachliche Interaktion hinaus für eine Anwendung z. B. Grafiken oder Desktop-Icons eine Rolle spielen, können diese zusätzlich miteingebunden werden. Wenn ← 77 | 78 → Sounds oder eine Animation der besseren Usability der Anwendung zuträglich sind, wird ein Teil der Systemsteuerung auf diese Weise abgewickelt. Die Interaktion bekommt auf diese Art und Weise einen multimodalen Charakter, der eine neue Form der Dialogizität markiert.

Der Begriff Dialog verweist in seiner Grundbedeutung lediglich auf den Austausch von Wörtern und ist daher offen genug, um gleichermaßen auf HHC und HCI angewandt zu werden. Die Interpretation des Begriffs Dialog als Interaktion mit einer Maschine hat bereits Eingang in die Wörterbücher gefunden. Das Merriam-Webster-Dictionary definiert dialogue u. a. für den gesprochenen interpersonellen Austausch als „a conversation between two or more persons“ und als „a similar exchange between a person and something else (as a computer)“62. Für das Deutsche finden sich ähnliche Definitionen zum Stichwort Dialog im Duden: „wechselseitige Kommunikation, Austausch von Fragen und Antworten zwischen Mensch und Datenverarbeitungsanlage über Tastatur und Terminal.“63 Der metaphorische Gebrauch des Begriffs Dialog ist also bereits konventionalisiert. Analog dazu soll der Begriff der Interaktion in dieser Arbeit verwendet werden, um auf den Prozess der Ein- und Ausgabe von natürlichsprachlich kodierten Informationen innerhalb der Dialog-Metapher zu verweisen.

1.3.2.2  Die HCI als systematisch erfassbare Interaktionssituation

Im folgenden Abschnitt soll ein erster Versuch unternommen werden, die Interaktionssituation HCI hinsichtlich ihrer Grundbedingungen systematisch zu beschreiben. Dabei wird ein systemtheoretischer Ansatz konstruktivistischen Ansätzen zur Beschreibung von Kommunikation in der HHC vorgezogen. Systemtheoretisch betrachtet wird in dieser Arbeit also von zwei sehr unterschiedlichen Teilsystemen ausgegangen:

  • einem menschlichen Wesen, das sich seiner selbst bewusst ist, als vernunftbegabt und frei begriffen wird und auf ein durch soziales Lernen erworbenes semantisches Wissen zurückgreifen kann. Die kognitive Verarbeitung von Dialogen hat zwar vorbewusste Anteile, liegt aber zu großen Teilen als höhere, bewusste Kognition vor (vgl. Searle 2006).
  • einem mechanistischen System, das sich seiner selbst nicht bewusst ist, ausschließlich deterministischen Regeln folgt und nur sehr begrenzt auf semantisches Wissen zurückgreifen kann. ← 78 | 79 →

Menschen sind auf ihre subjektive Wahrnehmung der Welt angewiesen, interagieren aber in der HCI mit objektiv erfassbaren Maschinen. Ein konstruktivistisches Verständnis von Interaktion als intersubjektivem Aushandlungsprozess zwischen zwei vollständig auf die jeweils individuelle Konstruktion einer Wirklichkeit zurückgeworfenen Subjekten, wird für die Analyse von HCI als im Kern problematisch zurückgewiesen. Menschliche GesprächspartnerInnen nehmen die Welt über ihre Sinne zwar unterschiedlich wahr, haben unterschiedliche Perspektiven auf eine Situation, bringen unterschiedliches Wissen und ihre jeweiligen Erfahrungen mit, sind sich aber trotzdem ähnlich genug, um sich untereinander verständigen zu können. Aushandlungsprozesse sind zwar für Dialoge konstitutiv, um eine gemeinsame Sicht der Dinge zu etablieren, sie wären aber nicht zielführend, wenn die kognitiven Möglichkeiten der GesprächspartnerInnen in ihrer logischen und systematischen Struktur grundverschieden wären. Dass überhaupt eine Verständigung über die sinnlich unterschiedlich perzipierte Wirklichkeit möglich ist, basiert auf der Grundlage, dass Menschen – unabhängig von individuellen Unterschieden in Wahrnehmung und Weltwissen – Einsicht in die basalen Gesetze der Logik haben. Darunter fallen einfache logische Operationen wie das Unterscheiden per se (vgl. Hegel WdL II: 64f), das Kategorisieren von Begriffen und Objekten (vgl. Aristoteles Organon), ein grundsätzliches Verständnis für die semiotische Relation zwischen Begriff und Objekt (vgl. Peirce 1977) sowie das Erkennen von Analogien und das inferentielle Schließen (Aristoteles NE: 1131ff, Metaphysik: 1003a 32ff. Topik I: 1 100a25–27). Unter der Prämisse einer radikal konstruktivistischen Wahrnehmung fehlt die Einsicht in abstrakte Gesetze der Naturkausalität und der logischen Operationen. Menschen sind zwar empirisch auf die individuelle Wahrnehmung angewiesen, können aber mittels ihres Verstandes auf logische Operationen zurückgreifen. Aushandelbar sind konkrete Begriffsumfänge und Inhalte von logischen Operationen. Die basale Struktur einer für alle einsehbaren Logik, nach der die Welt strukturiert ist, muss dagegen notwendig angenommen werden. Ansonsten wäre die Verständigung zwischen Menschen nicht möglich und jede/r wäre auf die eigene Wahrnehmung zurückgeworfen. Allgemeine Aussagen wären nicht mehr möglich und Wissenschaft wäre obsolet. Besonders problematisch werden radikal konstruktivistische Interaktionsmodelle dann, wenn eine/r der Interagierenden ein deterministisches System ist, das als Maschine ohne Bewusstsein gar keinen Zugriff auf eine subjektive Welt hat, nach formallogischen und syntaktischen Regeln funktioniert und semantische Repräsentationen nur schwer verarbeiten kann. Menschen dagegen sind in der Lage, zwischen subjektiver, objektiver und sozialer Welt zu differenzieren. So spielen auf der Ebene ← 79 | 80 → der subjektiven Einschätzungen bspw. Annahmen des Menschen über den Bot eine wichtige Rolle in der HCI. Verschiedene UserInnen attribuieren u. U. ganz unterschiedliche Eigenschaften an ein und dasselbe System. Diese individuellen Unterschiede beziehen sich auf bestimmte Begriffsumfänge, nicht aber auf die logische Form der Attribuierung per se. So werden einem System zwar bisweilen unterschiedliche Eigenschaften zugesprochen, aber die logische Struktur dieser kognitiven Leistung bleibt vergleichbar. Ohne die Einsicht in die Gesetze der Logik wäre also weder die Manipulation noch die Programmierung eines Systems als Objekt der Außenwelt möglich. Die Manipulation wird vom Individuum jedoch in den meisten Fällen als Interaktion wahrgenommen. Was dieser Umstand im Detail für die HCI bedeutet, wird im Verlauf der Studie gezeigt.

NutzerInnen sollen im Folgenden mit Kant als Personen betrachtet werden, die einerseits logikgeleitet agieren und zusätzlich Affekte besitzen, die diese logischen Operationen durchkreuzen können. Ihr Denken folgt entweder Assoziationen oder zieht logische Schlüsse. Dabei ist der Mensch lernfähig und wird in seinem Denken und Handeln von sehr vielen, nicht immer eindeutig nachvollziehbaren äußeren Variablen beeinflusst. Die Verarbeitung natürlicher Sprachdaten erfolgt elektrophysiologisch, teilweise bewusst, teilweise vorbewusst, u. U. repräsentiert in natürlicher Sprache nach logischen Gesetzmäßigkeiten, aber nicht formalsprachlich wie derzeit in den meisten Computern. Gerade in Bezug auf sprachliche Interaktion, ist es heute wichtig, genau zu differenzieren, welche Sprachhandlungen intentional, geplant und bewusst eingeleitet werden und welche u. U. auf vorbewusste Mechanismen zurückzuführen sind. D. h., auch wenn einige Bereiche der menschlichen kognitiven Sprachverarbeitung automatisierte Abläufe darstellen, so wird höhere Kognition, ohne die Sprachfähigkeit nicht möglich wäre, gesteuert von einem Ich, das seine Ziele frei definiert und spontan ändern kann. Intentionalität, nämlich Ziele selbst definieren zu können, und Spontaneität, nämlich eigenständig und ohne Fremdmotivation Ziele zu verändern, werden in dieser Arbeit als kognitive Leistungen des Menschen angesehen, die ihn eindeutig auch von den besten Systemen unterscheiden. Menschen haben also Einsicht in logische Operationen und ihr Denken folgt logischen Gesetzen, ohne aber rein deterministisch zu funktionieren. Durch äußere Anstöße wird die Struktur der kognitiven Datenverarbeitung verändert – sowohl auf der Ebene der Physis (Konnektionen von Synapsen) als auch auf der Ebene der logischen Operationen (Informationszuwachs durch Schlussfolgerungen und Lernen). Die Variablen determinieren das Verhalten aber nur teilweise. Der Mensch muss als offenes sinnverarbeitendes System (vgl. Luhmann 1984) begriffen werden, das sich seiner selbst bewusst und nur in bestimmten Bereichen deterministisch ist. ← 80 | 81 → „Offene Systeme tauschen mit ihrer Umwelt Energie, Materie und gegebenenfalls Informationen aus. Geschlossene Systeme dagegen sind von ihrer Umwelt isoliert“ (Steinbacher, Krohn, Küppers 1999: 1584). Ein Bot soll als semiotisches System (vgl. Luhmann) definiert werden, das seinen Funktionen nach prototypisch in sich geschlossen ist. Allerdings versuchen EntwicklerInnen heute, solche Systeme zu öffnen, indem externe Daten über Kameras, Sensoren oder Spracheingabe einbezogen werden. Solange die Verarbeitung externer Daten jedoch keine Veränderung der Verarbeitungsroutinen selbst nach sich zieht, ist das System nicht im engeren Sinne als offen zu betrachten. Intern erfolgt die Verarbeitung natürlicher Sprachdaten aber deterministisch in Form von formalen Regeln in Programmiersprache durch den Abgleich externer Sprachdaten mit internen Lexika oder sophistizierten Datenbanken zur Erkennung von strukturellen Mustern oder semantischen Relationen.

Auf der Ebene der systemtheoretischen Grundlegung bedeutet das, dass HCI als komplexes Gesamtsystem begriffen werden muss. Dabei ist der Mensch als offenes System und der Bot als geschlossenes System mit Ausgabefunktion zu verstehen. Das Gesamtsystem wird beeinflusst durch die Lebenswelt im Sinne Habermas’, die in Form von intersubjektivem Hintergrundwissen als Interpretationsressource diskursiver Verständigung definiert ist. „Das Alltagswissen der Gesprächspartner bezieht sich auf eine von allen als gültig akzeptierte und im konkreten Interaktionsgeschehen immer wieder konsolidierte Alltagswirklichkeit einer bestimmten Ethnie. […] Diese oberste Wirklichkeit „par excellence“, auf die sich letztlich alle beziehen (können), ist die Wirklichkeit der Alltagswelt“ (Brinker & Sager 1989: 129).

Dieses Weltwissen hat wie bereits erwähnt objektive und intersubjektiv geteilte Anteile. Objektivität gilt in Bezug auf die Naturgesetze und die ihnen inhärenten Kausalitäten sowie in Bezug auf die Gesetze der Logik selbst. Prozesse, die logisch erklärt werden können, sind auch objektiv fassbar. Intersubjektivität besteht zwischen Menschen, die zwar Einsicht in die objektive Welt haben, aber aufgrund ihrer individuellen Wahrnehmung unterschiedliche Perspektiven entwickeln. Diese müssen im Dialog intersubjektiv ausgetauscht werden. Dazu ist es wichtig, eine Vorstellung von der eigenen Perspektive und der des Gegenübers zu haben. Im sog. Self- und Partner-Modeling (Johnson-Laird 1983; Sanford & Garrod 1981; Zwaan & Radvansky 1998) besteht eine der großen Herausforderungen der KI. Der Bot funktioniert nach objektiven Regeln, aber durch die Attribuierung anthropomorpher Eigenschaften kann er von seinen UserInnen als Subjekt in der Interaktion eingestuft werden. Was folgt, ist eine Quasi-Intersubjektivität. ← 81 | 82 →

Thematisch-kontextuelles Hintergrundwissen ist unerlässlich, um Äußerungen in einen kohärenten Bezug zueinander und zur Außenwelt zu setzen. Neben enzyklopädischem Wissen werden prozedurales Wissen und konzeptionelle Deutungsmuster als konstitutiv angenommen (vgl. Linke et al. 2004: 225ff). Das Weltwissen stellt eine Ressource für semantische Begriffe dar. Um diese zu verarbeiten, müssen die den Menschen gemeinsamen Parameter des logischen Denkens als Operatoren zu Verfügung stehen. Hinzu kommen Perzeptionen in Zeit und Raum, die ihrerseits kognitiv verarbeitet werden müssen. Ein Begriff von temporaler und lokaler Relation muss also vorhanden sein.

Zugang zum Weltwissen haben allein die menschlichen Interagierenden. Bots greifen nur sehr eingeschränkt auf Interpretationsressourcen in Form von Wissensrepräsentationen zurück. In der KI werden Versuche unternommen, dieses Defizit zu kompensieren durch komplexe Ontologien, webbasierte Parser oder durch lernfähige Systeme mit probabilistischen Netzwerkmodellen, die lange auf soziale Interaktion trainiert werden. Bislang sind diese Versuche aber wenig erfolgreich, so dass dem Bot keine Wissensgrundlage zur Verfügung steht, aus der geteiltes Wissen per Partner-Modeling abgeleitet oder intersubjektiv ausgehandelt werden kann. Von einem intersubjektiven Hintergrundwissen (Habermas 1993a: 442) oder Common Ground (vgl. u. a. Stalnaker 1978; Clark & Marshall 1981; Clark 1985, 1996; Heritage 1988) kann man mit Bezug auf die Dyade Mensch-Maschine also nicht sprechen. Da dem Bot der Status eines Subjekts nicht zugesprochen werden kann, ist auch der Begriff der Dyade für die HCI problematisch. Je nach Grad der Akzeptanz des Bots durch die UserInnen kann man allenfalls davon sprechen, dass Userin A oder User B die Situation als dyadisch begreift. So kommt dem Bot eine schwer zu definierende Rolle zwischen Gerät und GesprächspartnerIn zu, da Alltagskommunikation in der HCI simuliert wird und auf diese Art habituierte Verhaltensweisen seitens der UserInnen ausgelöst werden (sollen).

Was einen artifiziellen Agenten als Agens einer Sprachhandlung auszeichnen soll, ist in der HCI definiert als „eigenständige, und damit intelligente Problemlösungskompetenz“ (Schatter 2011: 15). Schatter folgert aus diesem Anspruch der EntwicklerInnen von zielorientierten Systemen: „Damit ist die Rolle von Agenten in der Informationstechnik mit der Funktion von Akteuren in der Sozialwissenschaft vergleichbar“ (Schatter 2011: 15). Doch fallen die modernen Systeme weit hinter diesen Anspruch zurück. Hier hilft Habermas‘ Unterscheidung zwischen kommunikativem Handeln und strategischem, erfolgsorientiertem Handeln (s. o.). Während zielorientierte, planbasierte Dialogagenten zu erfolgsorientierten Sprachhandlungen in der Lage sind, können sie auf Grund ihrer Restriktionen ← 82 | 83 → nicht kommunikativ handeln im Sinne sozialer AkteurInnen. „Kommunikatives Handeln [nach Habermas] dient unmittelbar der gemeinsamen Situationsdeutung und der Einigung über gemeinsame Handlungsziele […]“ (Dietz 1999: 1577). Doch wird der Bot nicht als intentional verstanden, kann dieses „Aushandeln“ von Handlungszielen und Strategien nicht wechselseitig erfolgen. Moderne Systeme können u. U. über einige Dialogsequenzen die Illusion schaffen, dass Ziele, Strategien und auch Begriffe ausgehandelt würden, intentionales Handeln im engeren Sinne jedoch ist Dialogagenten nicht möglich. Intendierte Handlungsziele sozialer AkteurInnen können in der HCI entsprechend nicht gleichberechtigt ausgehandelt werden, aber HCI produziert als Gesamtsystem funktionale Handlungseffekte eines menschlichen sozialen Akteurs unter Zuhilfenahme eines soziablen Bots.

Ein formales Verständnis des Gesamtsystems HCI wäre eine hilfreiche Grundlage für die Implementierung innovativer Systeme, doch ist die Formalisierbarkeit menschlicher Handlungen und natürlicher Sprache nur sehr eingeschränkt möglich. Auch wäre theoretisch die Formalisierung der Lebenswelt als Totalität nötig, um die entsprechenden Bedingungen zu schaffen. Bereits Leibniz schickte sich an, die komplette Philosophie mit Hilfe einer universalen Formalsprache auszudrücken (vgl.: characteristica universalis). Doch Kant kommentiert diese Bemühungen insofern, dass Philosophie auf nicht formalisierte Sprache angewiesen und aus prinzipiellen Gründen nicht formalisierbar sei, auch wenn man weder dem Relativismus verfallen, noch den Systemgedanken preisgeben wolle (vgl. Klein 1999: 1582). „Es ist gleich tödlich für den Geist ein System zu haben und keins zu haben. Er wird sich also wohl entschließen müssen, beides zu verbinden“ (Kant K.r.V.). Ein systemtheoretisches Verständnis der HCI kann also immer nur eine Hilfsvorstellung sein, die sich auf den engen Gegenstandsbereich einer konkreten Dialogsituation bezieht. Zahlreiche Variablen, die das NutzerInnen-Verhalten beeinflussen, offenbaren die Durchlässigkeit des Systems und machen eine umfassende Formalisierung unmöglich. So liegt auch „bisher […] eine strikte Durchformulierung einer allgemeinen empirischen Systemtheorie weder für die Naturwissenschaften noch für die Sozialwissenschaften vor“ (Steinbacher, Kohn, Küppers 1999: 1586). Vielmehr existieren unterschiedliche Systemmodelle, die von den Gegebenheiten unterschiedlicher Gegenstandsbereiche bestimmt werden. Für die HCI soll in diesem Sinne ein Modell definiert werden, das Systemcharakter hat für Dialoge zwischen Mensch und Maschine in Abhängigkeit von den hier dargestellten restringierenden Variablen (vgl. Kapitel 5.1). ← 83 | 84 →


9 www.masswerk.at/elizabot/ (Zugriff 12.06.2016).

10 alice.pandorabots.com/ (Zugriff 12.06.2016).

11 www.cleverbot.com/ (Zugriff 12.06.2016).

12 www.chatbots.org/embodied_conversational_interface_agent/(Zugriff 12.06.2016).

13 www.apple.com/de/ios/siri/ (Zugriff 12.06.2016).

14 www.ibm.com/smarterplanet/us/en/ibmwatson/ (Zugriff 12.06.2016).

15 interaktive Spiele im Internet, z. B. World of Warcraft.

16 adler.bundestag.de/ (Zugriff 12.06.2016).

17 www.square-bear.co.uk/mitsuku/chat.htm (Zugriff 12.06.2016).

18 Unter den Termini „Schnittstelle“ oder „Interface“ verstehen wir die Benutzeroberfläche, über die UserInnen den Computer bedienen. Dabei wird der Begriff „Human-Computer-Interface“ allgemein verwendet, während man mit dem gleichbedeutenden, aber anders konnotierten Begriff „Front-End“ implizit Bezug nimmt auf das „Back-End“ als Schnittstelle zwischen Hardware und Software, die den UserInnen nicht zugänglich ist.

19 Der Terminus Assistenzsystem fokussiert die Funktion der Systeme und wird vor allem im Bereich der Usability-Forschung verwendet.

20 Es wird unterschieden zwischen starker KI, deren Zielsetzung autonom denkende Maschinen sind, und schwacher KI, die sich mit allgemeinen Problemlösestrategien beschäftigt.

21 Vgl. z. B. „AI – Künstliche Intelligenz für den eigenen Heim PC“, Nautilus-Magazin 13, 2001.

22 Dabei handelt es sich nicht um ein klassisches KI-Kalkül zur Darstellung logischer Sachverhalte wie z. B. die aussagenstarke, aber rechenintensive Prädikatenlogik PIF oder einfache Fakten Regel Systeme (EFRS). In der Regel sind Bots nicht in deklarativen Programmiersprachen wie Prolog geschrieben, sondern in funktionalen wie AIML, C++ oder Java.

23 Alternativ werden die Begriffe Recognition und Answer verwendet (vgl. Artificial Solutions).

24 Ob die alternierende Generierung mittels Synonymen sinnvoll ist, wird in Kapitel 4 diskutiert.

25 Skript KI, TU Graz, www.iicm.tugraz.at/greif/node5.html (Zugriff 03.10.2015).

26 Der Begriff der Autonomie der selbstbestimmt handelnden Entität wird hier anders verstanden als in der philosophischen Tradition (s. Kapitel 1.3).

27 In der indischen Mythologie versteht man unter einem Avatar die körperliche Repräsentation eines Gottes auf Erden.

28 Diese Bezeichnung wiederum geht zurück auf die Masken im klassischen griechischen Theater.

29 Einige Bots haben eigene Blogs oder Websites, wo sie sich als virtuelle Personae präsentieren. Dort finden sich z. B. Charakteristiken und fiktive Lebensläufe. Man schreibt den Personae Hobbys und Interessen zu, die weit über ihren eigentlichen Anwendungsbereich hinausgehen. So belegt der Chatbot Eve der Firma Yellow Strom, der im Kundendienst eingesetzt wird, laut Charakteristik im WWW privat Tanzkurse, kocht gern und hat einen Freund.

30 ECA ist der gebräuchlichste Terminus im anglophonen Sprachraum innerhalb der wissenschaftlichen Community. Im Deutschen findet man auch statt ECA oft anthropomorpher Interface Agent.

31 Der ECA kann auch als Tier oder Comicfigur verkörpert sein, sogar als Pflanze mit Gesicht (vgl. z. B. Cheeok et al. Metazoa ludens). http://metazoaludens.wikidot.com/ (Zugriff 03.10.2015).

32 Kiwilogic war die Vorgängerfirma von Artificial Solutions.

33 D. h. sowohl das System als auch seine UserInnen können Dialoge eröffnen und initiativ neue Themen ansprechen.

34 Die Firma stellt eine eigene Software zur Programmierung der Bots zur Verfügung. Diese wurde in C++ programmiert, genauso wie die Web-Engine-Anwendungen zum Parsen der UserInnen-Beiträge und zur Auswahl von Antworten aus der Wissensbasis in Echtzeit.

35 www.expo2000.de (nicht mehr aktiv).

36 Sowohl eine deutsche als auch eine englische Version waren während der Expo online. Für die Untersuchung wurden jedoch nur Gesprächsdaten der deutschen Version ausgewertet.

37 http://192.168.100.3/scripts/twipsy/twipsy.dll (Kiwilogic Archiv).

38 www.expo2000.de (heute Exposeum, Zugriff 12.06.2016).

39 Von Karlbot lag sowohl eine deutsche als auch eine englische, chat-basierte Version vor. Darüber hinaus existierte auch ein Voice-Interface. Die Sprachdaten, die in die Untersuchung miteinbezogen wurden, entstammen der deutschen, chat-basierten Version ohne Voice-Interface.

40 www.botspot.com (Zugriff 2002).

41 SFB 673, Alignment in Communication.

42 Offiziell eingeweiht wurde das System am 17. Januar 2004 mit Eröffnung der Ausstellung KI.

43 Ein vergleichbares System gibt es englischer Sprache am MIT (REA, Cassell et al. 2002).

44 Vortragspräsentation an der Leibniz Universität Hannover.

45 Java-kompatible Sprache für BDI-Architekturen (Belief, Desire, Intention, vgl. Rao & Georgeff 1991), die leicht in XML-Formate übersetzt werden kann.

46 Beim vorliegenden Dialogmodell handelt es sich um eine vereinfachte Form des Mehr-Schichten-Modells für multimodale Dialoge (nach Traum & Rickel 2002).

47 vgl. Kopp, Vortrag NEN, Hanse-Wissenschaftskolleg, Delmenhorst, Februar 2007.

48 Multimodal Utterance Representation Markup Language for Conversational Agents.

49 Die im Rahmen der Studie untersuchte Elbot-Version wurde wie Twipsy und Karlbot mit dem Lingubot-Creator in C++ geschrieben. Die neueste Web-Engine wurde in Java programmiert, aber es besteht kein Unterschied in Bezug auf die Interaktionsperformanz.

50 Hier handelt es sich um einen interessanten Schachzug, der Auswirkungen auf die konkrete Gesprächsführung hat. Elbot erforscht seine UserInnen genauso, wie diese ihn testen. Die Überlegung kommt einem philosophischen Gedankenexperiment gleich.

51 Per E-Mail.

52 International ist der Begriff Computer mediated Communication (CMC, Herring 1996) etabliert. Im deutschen Sprachraum findet sich auch internet-basierte Kommunikation (IBK, z. B. Androutsopoulos 2007). Als Pendant zur zu HCI wird in dieser Arbeit die Abkürzung CMC verwendet.

53 Dadurch entstehen Probleme bei der konkreten Zuordnung von Äußerungen zu Situationsparametern und bei der Operationalisierung der verschiedenen Mündlichkeitsmerkmale (Siever, Schlobinski & Runkehl 2005). Aus diesem Grund wurde das Modell mehrfach kritisiert.
Androutsopoulos (2007) hält ein Modell, das entwickelt wurde, bevor CMC in der linguistischen Diskussion ein Rolle spielte, für irreführend bei der adäquaten Beschreibung dieser neuen Phänomene. Sprache der Nähe im Internet sei nicht Merkmal des Mediums selbst und auch nicht Merkmal von bestimmten Textsorten im Netz, sondern in der jeweiligen Interaktionssituation intendiert oder nicht. Doch ob diese Tendenz zu größerer Nähe im virtuellen Raum stärker ist, weil weniger restriktive soziale Parameter greifen oder Sanktionen drohen, bleibt zu diskutieren.

54 Um zu testen, ob eine noch nicht entwickelte Agenten-Software von den zukünftigen UserInnen angenommen wird, sind Wizard-Of-Oz-Experimente in der Usability-Forschung ein probates Mittel. Dabei führt ein versteckter Verbündeter der Versuchsleitung, der „Wizard“, alle Aktionen aus, die das geplante System später ausführen soll. Die Versuchsperson glaubt, sie interagiere bereits mit der innovativen Technologie. So können Probleme der UserInnen-Führung oder der Akzeptanz bemerkt werden, bevor überhaupt ein Prototyp implementiert wurde.

55 Die Begriffe Person und Subjekt implizieren in ihrer fachsprachlichen Bedeutung im philosophischen Diskurs bereits die Autonomie im Handeln und die daraus resultierende Verantwortung. Wenn Schatter Bots also als „artifizielle Subjekte“ (2011: 15 ff) oder „paraintelligente Subjekte“ (2011: 21) bezeichnet, spricht er ihnen indem er den Begriff des Subjekts wählt, implizit eine Autonomie zu, über die die heutigen Systeme jedoch nicht verfügen.

56 Ähnliche semantische Relationen lassen sich zeigen bei den Begriffspaaren anthropomorph vs. menschlich oder soziabel vs. sozial.

57 Allerdings muss bereits heute zwischen „biologisch inspirierten“ und rein „funktionalen“ Design-Überlegungen unterschieden werden (vgl. Dautenhahn et al. 2002). Während sich funktionale Architekturen allein an Aufgabenbereich und Performanz orientieren (z. B. klassische Chatbots), verfügen biologisch inspirierte Architekturen über einen kognitionswissenschaftlichen Unterbau; d. h. sie orientieren sich bspw. an psychologischen oder neuronalen Modellen.

58 Winograd vertrat in einem Interview Anfang der 1990er Jahr die Perspektive, dass die Manipulation einer Maschine über eine Chatbot-Schnittstelle nicht einmal als Interaktion bewertet werden dürfe, da strenggenommen, der Mensch ein komplexes Werkzeug bediene und das System nicht selbständig agiere. Es handele sich mehr um „human-work“ und allenfalls um eine Interaktion „through the computer“ (Preece 1994: 539).

59 Zeller betont die textuelle Basis von Programmcode und Inhalten. „Als primär linguistischer Parameter kommt der Textgestaltung demnach eine besondere Rolle im Schnittstellen-Design zu“ (Zeller 2005: 84). Es handele sich um eine doppelte Textverkapselung (encapsulation): den Text auf der Mikroebene als Programmcode (formal) und den Text auf der Makroebene (natürlichsprachlich) als Trigger für neue Texteingaben.

60 vgl. auch Garfinkel oder Habermas: kommunikatives Handeln.

61 Nass und Moon verwiesen 2000 auf die Tatsache, dass sich hinter jedem System dessen KonstrukteurInnen verbergen. Den Dialog mit dem System könne man demnach quasi als „Statthalter-Dialog“ zur mittelbaren Kommunikation mit den EntwicklerInnen verstehen. Dieses Szenario ist unter pragmatischen Gesichtspunkten dann nicht haltbar, wenn sich die Userin auf die Illusion des artifiziellen Gesprächspartners einlässt.

62 www.merriam-webster.com/dictionary/dialogue?show=0&t=1363949560 (Zugriff 10.01.2016).

63 www.duden.de/rechtschreibung/Dialog (Zugriff 10.01.2016).

← 84 | 85 →

2.  Vier theoretische Ansätze zur Analyse der HCI

Wie menschliche Wesen mit freiem Willen und der Möglichkeit zur spontanen Veränderung ihrer ursprünglichen Dialogziele mit deterministischen Automaten natürlichsprachlich interagieren, ist aus linguistischer Perspektive schwer zu fassen. Zahlreiche Variablen beeinflussen jede konkrete Dialogsequenz. So sind UserInnen-Eingaben abhängig vom Kontext der jeweiligen Anwendung, von Vorannahmen und der Expertise der UserInnen (vgl. Krämer 2008, Fischer im Druck), vom UserInnentyp (vgl. Fischer 2006), von erlernten Frames und Skripts (vgl. Fillmore 1976, Sacks et al. 1992) und von kognitiven Perzeptions- und Produktionsprozessen (vgl. Pickering & Garrod 2004). Außerdem spielt es eine wichtige Rolle, ob die Interaktion im WWW chat-basiert oder medial mündlich über ein Sprachausgabe- und Spracherkennungsmodul erfolgt. Zudem werden Dialoge mit artifiziellen Agenten restringiert durch die begrenzten Möglichkeiten der jeweiligen Systemarchitektur und des konkreten Dialog-Designs. Unter all diesen Prämissen abzustecken, wie sich Menschen im Dialog mit mechanistischen Agenten verhalten, bleibt eine Herausforderung für die Linguistik. Ihr kommt die Aufgabe zu, Dialogtranskripte (Logfiles mit oder ohne Metadaten) mit ihren Methoden zu evaluieren und so erstens Erkenntnisse über menschliches Sprachverhalten in einem sehr speziellen situativen Kontext zu gewinnen und in einem zweiten Schritt dieses Wissen nutzbar zu machen für innovative Dialogdesigns. Denn je antizipierbarer UserInnen-Äußerungen in einem bestimmten Anwendungskontext sind, desto leichter lassen sich robuste Dialoge implementieren. „Furthermore, system designers need to know how interaction can be improved to make it more pleasurable, to recover from errors more gracefully and to anticipate speakers’ strategies and inferences. This includes knowledge about the effects their design decisions may have on potential users in order to take these decisions in a maximally informed way“ (Fischer 2010: 2352).

Dabei stellt sich die Frage, in welchem Maße das UserInnen-Verhalten Architektur und Dialog-Design des Systems widerspiegelt. Bei sehr limitierten Dialog-Desings, die der Navigation über eine Menüabfrage nachempfunden sind (vgl. Twipsy), ist die Dialogführung so eng, dass das UserInnen-Verhalten im wörtlichen Sinne vorprogrammiert ist. UserInnen von Chatbots und ECAs haben hingegen mehr Spielraum. Dieses Spannungsfeld zwischen reaktivem Verhalten zum Dialog-Design und proaktiven innovativen Eingaben gilt es genauer zu definieren. ← 85 | 86 →

2.1  Linguistische und interdisziplinäre Forschungsansätze

Um möglichst viele Ideen zur Antizipierbarkeit von Dialogverläufen für die Überlegungen zur UserInnen-Steuerung nutzbar zu machen, wurden für die Studie diverse Ansätze miteinbezogen, die sich aus äußerst unterschiedlichen Perspektiven mit Kommunikation und Interaktion beschäftigen. Denn sowohl Dialoge unter Menschen als auch mit artifiziellen Agenten können auf unterschiedlichen Ebenen analysiert werden.

„When we speak about discourse or conversational knowledge, we can talk about a number of different levels. At the level of plans and intentions, we can describe a conversation in terms of the high-level goals and plans of the participants. At the level of focus, we can describe a conversation in terms of center of attentional focus. We might call these intentional or attentional models deep discourse structure. At the level of speech acts, we can model the speech act type of each utterance. Or we can model sociolinguistic facts about conversation structure such how participants might expect one type of conversational units to be responsed to by another (adjacency pairs)“ (Jurafsky et al. 1997).64

Grundsätzlich muss unterschieden werden zwischen einer Ebene der Performanz und einer Ebene der Kognition. Auf der kognitiven Ebene sind Prozesse der Sprachproduktion und Perzeption zum besseren Verständnis von Dialogen unter Menschen von Interesse. Auch Vorannahmen über das System, emotionale Aspekte und Technikexpertise spielen eine Rolle. Der menschlichen Kognition steht die KI des Systems gegenüber. Hier liegt der Fokus auf einer Systemarchitektur, die zur logischen Verarbeitung von natürlichsprachlichem Input und zur Generierung des entsprechenden Outputs befähigt. Logisch kohärente Systembeiträge zu erzeugen, ist Ziel dieser Überlegungen. Auf der Ebene der Performanz können strukturelle Besonderheiten der HCI diskutiert werden. Bei den UserInnen sollen konkrete Formulierungen evoziert und die Sprache des Systems so angemessen wie möglich für den entsprechenden Anwendungskontext gestaltet werden. Hierfür sind die Erkenntnisse der Konversationsanalyse besonders relevant. An der Oberfläche des Dialogs können vergleichsweise leicht Veränderungen durch die entsprechende Wortwahl in den Systembeiträgen und die richtigen Schlüsselwortkombinationen vorgenommen werden. Auf diese Art kann jedoch immer nur die Illusion von kohärenten Sequenzen erzeugt werden.

Drei Zugänge wurden aus der Gesprächsforschung zur Mensch-Mensch-Kommunikation in die Untersuchung eingebunden: ← 86 | 87 →

Mittels der oben beschriebenen Ansätze können kognitive, strukturelle, funktionale und logisch-semantische Aspekte der HCI beschrieben werden. Das Ergebnis soll im nächsten Schritt interpretiert werden mit Bezug auf eine seit den ← 87 | 88 → 1980er Jahren geführte Debatte, die in Informationswissenschaften und Linguistik gleichermaßen prominent ist:

Zahlreiche psychologische und soziologische Studien zum NutzerInnen-Verhalten im Dialog mit artifiziellen Agenten haben einige interessante Ergebnisse erbracht, die Aufschluss geben über situative Kontexte von HCI:

Soziale oder psychologische Parameter nehmen Einfluss auf die konkrete Dialogsituation und sind bei der linguistischen Analyse von UserInnen-Sprache unbedingt zu berücksichtigen.

Alle hier vorgestellten linguistischen, informationswissenschaftlichen, psychologischen und soziologischen Ansätze nähern sich der Analyse und Implementierung von HCI-Dialogen aus unterschiedlichen Richtungen und vertreten unterschiedliche Auffassungen über die Beschaffenheit und die Ziele von HCI. Dabei steht die Frage nach der Möglichkeit und Notwendigkeit von anthropomorphem Dialog-Design im Mittelpunkt der Diskussion. So wie ein Avatar menschenähnlich gestaltet sein kann, kann auch ein Dialog mit einem Bot anthropomorph gestaltet werden, indem versucht wird, menschliche Kommunikation so gut wie möglich zu imitieren. Das Ziel solcher Anstrengungen wären die sog. Star-Trek-Dialoge als ideale Simulation menschlicher Kommunikation. Wie in Kapitel 1 bereits angesprochen, ist Star-Trek-Kommunikation allerdings nicht für alle ForscherInnen-Gruppen im Bereich der HCI das erklärte Ziel. Unabhängig davon, dass derzeitige Systeme nicht in der Lage sind, die Illusion von menschlicher Kommunikation über längere Dialogsequenzen aufrechtzuerhalten, gehen vor allem Usability-ExpertInnen davon aus, dass ein System keine Star-Trek-Dialoge führen können muss, um bereichsspezifisch zuverlässig zu funktionieren. Eine bot-basierte E-Learning-Anwendung ← 88 | 89 → muss bspw. den LernerInnen Feedback geben können, braucht aber nicht unbedingt eine Small-Talk-Funktion, und ein sprachgesteuerter Fahrkartenautomat kann mit einer Menü-Abfrage arbeiten, obwohl lange Aufzählungen untypisch für natürlichsprachliche, konzeptionell mündliche Kommunikation sind.

Um HCI analysieren zu können, ist es also zunächst notwendig festzuhalten, dass einem konkreten Dialog-Design sehr unterschiedliche grundsätzliche Entscheidungen zu Grunde liegen können. Entsprechend empfiehlt es sich, systematisch zwischen Ansätzen zu unterscheiden, die von Interesse sind, wenn man ein anthropomorphes Dialog-Design anstrebt, und solchen, bei denen die bereichsspezifische robuste Nutzbarkeit im Vordergrund steht. Das gilt sowohl für Überlegungen zur Entwicklung von Systemen als auch für die Untersuchung bereits bestehender Systeme.

Ist anthropomorphes Dialog-Design das Ziel, so wird davon ausgegangen, dass ideale Systeme sich als soziable Assistenten unter Menschen integrieren können sollten (Companion-Systeme) und von Menschen intuitiv genutzt werden sollten. Dies wäre am ehesten möglich, wenn die HCI einer HHC so nahe wie möglich käme. Das System würde dem Menschen folglich angepasst. Das Ziel der EntwicklerInnen besteht dann darin, dass sich HCI und HHC möglichst ähnlich werden. Die grundsätzlichen linguistischen Forschungsfragen, deren Beantwortung als Vehikel für anthropomorphe Dialog-Designs fungiert, lauten:

Hier liegt die große Herausforderung für die Linguistik im Bereich der Mensch-Maschine-Interaktion.

Diesem Anspruch steht ein grundsätzlich anderes Verständnis von innovativer Technologie entgegen, bei dem der Werkzeug-Charakter auch bei Dialog-Systemen im Vordergrund steht. Man baut auf die Anpassungs- und Lernfähigkeit der UserInnen und geht davon aus, dass diese Strategien entwickeln, sich auf Dialog-Designs einzustellen und so einen neuen sprachlichen Kode zur Interaktion mit dem System erwerben. Dafür genügen oftmals bereits einfache Befehle und Schlüsselwörter. Der Mensch passt sich demnach dem System an. HCI und HHC unterscheiden sich folglich strukturell und / oder ← 89 | 90 → funktional. Die grundsätzlichen linguistischen Forschungsfragen unter dieser Prämisse lauten:

Beide Perspektiven eröffnen Möglichkeiten, zeigen aber auch Probleme und Grenzen auf, die in den folgenden Kapiteln diskutiert werden sollen. Zur Gliederung und Abgrenzung der verschiedenen linguistischen und interdisziplinären Ansätze voneinander, wird eine Kategorisierung nach der Zielsetzung des Dialog-Designs vorgeschlagen:

Tabelle 2: Forschungsansätze zur HCI

Dialog-Design mit Werkzeug-Charakter Anthropomorphes Dialog-Design
Computer-Talk (CT)
  • Kann CT als strukturelle oder funktionale Varietät angenommen werden?
  • Ist die Annahme von CT sinnvoll für ein benutzerInnenfreundliches Design?
Konversationsanalyse (CA)
  • Können Parameter der bedingten Erwartbarkeit (Conditional Relevance) von UserInnen-Äußerungen zu menschenähnlichen Dialogen verhelfen?
  • Können Sprachroutinen oder bereichsspezifische Skripte definiert werden?
Linguistik / InformationswissenschaftLinguistik / Soziologie
Usability
  • Was ist benutzerInnen-freundliches Dialog-Design?
  • Welches System bringt welche Variablen mit sich?
Alignment
  • Welche Rolle spielen vermeintlich vorbewusste Priming-Mechanismen für das Verhalten der UserInnen?
  • Können solche Mechanismen für ein innovatives Dialogdesign genutzt werden?
  • Welche Rolle spielen dabei Zerfallseffekte im Sinne einer Vergessenskurve? ← 90 | 91 →
Informationswissenschaft / PsychologieLinguistik / Psychologie
Soziale Wechselwirkungen
  • Welche UserInnen bringen welche Variablen mit (Alter, Geschlecht, Technikexpertise, UserInnen-Typ, Bewusstsein für Bot-Kommunikation)?
  • Welche sozialen Wirkungen werden von Dialogagenten hervorgerufen (vgl. „Uncanny-Vally“)?
Kohärenz
  • Wie können Kohäsionsmittel an der Textoberfläche zu einem anthropomorphen Dialog-Design beitragen?
  • Wie können inkohärente Sequenzen aufgespürt werden (Kohärenz-Parsing)?
  • Kann ein aussagenlogisches Kalkül zur Generierung von wirklicher Dialog-Kohärenz genutzt werden?
  • Welche Wissensbasis wird dafür benötigt?
Psychologie / SoziologieLinguistik

Die vorliegende Studie versucht all diese Ansätze auf Phänomene der HCI zu beziehen und für Analysen und Entwicklungen in diesem Bereich nutzbar zu machen. Dabei ist klar, dass auch die verschiedenen Ansätze aus den beiden Theoriegruppen (Bot als Werkzeug vs. Bot als GesprächspartnerIn), jeweils gruppen-immanent nicht widerspruchsfrei miteinander verbunden werden können. Modelle wie die klassische Konversationsanalyse und das interaktive Alignment-Modell können nicht systematisch zusammen gedacht werden, da ihnen ganz unterschiedliche Auffassungen von Dialog und Sprachverarbeitung zu Grunde liegen, die in den folgenden Kapiteln differenziert dargestellt werden sollen. Allerdings bringen die o. g. unterschiedlichen Ansätze jeweils interessante Gedanken in die Diskussion um anthropomorphes Dialog-Design ein, die weiterverfolgt und miteinander in Verbindung gesetzt werden sollten. KonstrukteurInnen von Chatbots und ECAs bedienen sich schon lange bei unterschiedlichen Expertisen, um ihre Systeme zu entwickeln. Eine systematische Reflexion dieses technologiehistorischen Topos‘ sowie eine kohärente Verknüpfung der Theorien aus linguistischer Perspektive fehlen bislang. Welche Faktoren haben unter welchen Bedingungen Einfluss auf HCI-Dialoge und welche theoretischen Modelle stellen welche Analysewerkzeuge zur Verfügung? Der theoretische Beitrag dieser Arbeit soll eben in dieser Verknüpfung verschiedener Ansätze liegen und in ihrer Nutzbarmachung sowohl für linguistische Analysen in der HCI als auch für die Implementierung innovativer Systeme.

Die vier linguistischen bzw. linguistisch-interdisziplinären Ansätze aus der Konversationsanalyse, aus der Psycholinguistik zu Alignment, zur Dialog-Kohärenz und zum Computer-Talk sollen in den Kapiteln 2.2 bis 2.5 dargestellt ← 91 | 92 → werden, die soziologischen und psychologischen Aspekte wurden bereits in Kapitel 1 angesprochen und bilden den situativen Rahmen, der in jede Dialog-Analyse miteinbezogen werden muss. Auf der Grundlage der jeweiligen Theorie werden in den Kapiteln 2.2 bis 2.5 Hypothesen für die korpus-basierte Analyse abgeleitet und die zur Überprüfung der Hypothesen erhobenen Untersuchungsparameter vorgestellt. Die kompletten Tag-Sets sowie Definitionen und Beispiele zu allen Untersuchungsparametern finden sich in Kapitel 3.

2.2  Konversationsanalyse in der HCI

Um Dialoge besser maschinell verarbeiten zu können, ist es wichtig, ihren strukturellen Aufbau genau zu verstehen. Sprachliches Verhalten, das regelhaft, routiniert oder konventionalisiert abläuft, lässt sich leichter von einem System verarbeiten als völlig spontane Äußerungen. Indem menschliche Dialoge gegliedert und in einzelne funktionale Einheiten unterteilt werden, wird in der Konversationsanalyse (Conversational Analysis, Conversation Analysis, CA) die Grundlage für eine systematische empirische Untersuchung von Dialogen geschaffen. Besonders interessant für die maschinelle Dialogverarbeitung ist der Zugang der CA deshalb, weil hier die Ebene der Performanz im Vordergrund steht. „Conversation analysis has […] concentrated on the observable, on aspects that leave their traces in the sequential organisation of talk“ (Fischer 2006: 10; vgl. Sacks et al. 1992). Funktionale, psychologische oder soziale Aspekte werden an strukturellen Indikatoren festgemacht, die theoretisch von einem sophistizierten Parser verarbeitet werden könnten. Garfinkel (1972: 321) geht davon aus, dass allgemeines Verstehen „necessarily an operational structure“ aufweist. Eine Reflexion auf die kognitiven Voraussetzungen, die zur Produktion von Dialogbeiträgen führen, findet in der CA nur rudimentär statt.

Auch in der HCI verwenden UserInnen normierte Dialogstrukturen, wie Hutchby (2001) zeigt. Mit Hilfe der CA können also HHC-Dialoge in Teilen operationalisiert werden, um als Vorlage für HCI-Designs zu dienen. Die Methoden der CA können im nächsten Schritt dann auch auf HCI-Dialoge angewandt werden, um diese auszuwerten und zu evaluieren. Darüber hinaus können einige Grundprinzipien der CA als einfache Regel direkt in Dialogsysteme implementiert werden, was auch bereits geschieht (vgl. z. B. Kopp et al. 2004). Gerade für gesteuerte Dialog-Designs mit enger UserInnen-Führung sind routinierte oder konventionalisierte Dialogverläufe von besonderem Interesse, da es hier relevant ist, die nächste UserInnen-Äußerung so exakt wie möglich zu antizipieren.

Ein gutes Beispiel sind musterhafte Begrüßungs- und Verabschiedungssequenzen der Form „Gruß-Gegengruß“, die bei der Programmierung von Bots ← 92 | 93 → und ECAs grundsätzlich Beachtung finden.65 Grüßt das System, so ist der Gegengruß der UserInnen kontextbedingt erwartbar. Dies hängt allerdings von bestimmten Konditionen ab: Übertragen die UserInnen ihr Verhalten aus der HHC auf die HCI? Wie ist der Kontext der Anwendung? Welche Variablen spielen seitens der UserInnen eine Rolle (Vorannhamen, Expertise, UserInnen-Typ)? Hier ist es wichtig, besser zu verstehen, unter welchen Bedingungen UserInnen ihr Verhalten aus der HHC auf die HCI übertragen und inwiefern überhaupt von einer „Übertragung“ gesprochen werden sollte. So kann man die Konditionen definieren, unter denen das Muster „Gruß-Gegengruß“ aus der HHC greift (Conditional Relevance). Während die bedingte Erwartbarkeit für eine gesteuerte UserInnen-Führung ein besonders attraktives Konzept ist, wird für offenere Dialog-Designs eine erweiterte Mustererkennung mit Hilfe der CA angestrebt. Bspw. könnten bei einer Adjazenzellipse (s. u.) in der UserInnen-Eingabe vom Parser zusätzliche Informationen im vorangegangenen System-Beitrag gesucht werden.

In der CA werden Gespräche als Einheit begriffen und auch entsprechend ausgewertet. Die Redebeiträge der Interagierenden werden nicht als isolierte Äußerungen verstanden, sondern vielmehr als in vielerlei Hinsicht miteinander verbunden. Dies erschwert maschinelles Parsing zunächst. Doch im besseren Verständnis der zugrundeliegenden Interaktionsregeln liegt auch eine Chance für verbesserte Parser.

Die konkrete Ausgestaltung einer Äußerung wird in der CA als nicht primär verstanden, sondern hängt ab vom unmittelbaren Kotext und dem jeweiligen räumlichen, zeitlichen und sozialen Kontext, in dem sie getätigt wird. Dialoge werden also auch in diesem System niemals als voraussetzungsfrei verstanden. SprecherInnen einer natürlichen Sprachgemeinschaft haben intuitiven Zugriff auf kontextspezifische Protokolle, da diese von frühester Kindheit an erlernt wurden (vgl. z. B. Tomasello 2002). Die CA stellt Analysemodelle zur Verfügung, um solche kontextsensitiven Protokolle genauer definieren und auf diese Art und Weise analysieren zu können, was SprecherInnen produzieren und warum HörerInnen verstehen, was ihr Gegenüber sagt. Common Ground ist eine Größe, die aus diesem System nicht wegzudenken ist (vgl. Kapitel 2.1). Über geteiltes Wissen und Vorannahmen über die Welt hinaus geht die CA allerdings auch davon aus, dass Individuen im Zuge ihrer Interaktion Strukturen dynamisch und ← 93 | 94 → intersubjektiv etablieren und sich an ihnen bei der Planung ihrer Äußerungen orientieren (vgl. Giddens 1984, vgl. Kapitel 2.4).

Die CA stimmt also mit der soziolinguistischen Grundannahme überein, dass eine intrinsische und kausale Beziehung zwischen Sprache und dem sozialen Kontext besteht, in dem diese produziert wird. Welchen Einfluss unterschiedliche Kontext-Variablen auf die Antizipierbarkeit von Dialogen haben, wird innerhalb der Forschungsgemeinde heute verschieden bewertet. Liddicoat (2007: 11) z. B. spricht sich gegen die Vorhersehbarkeit von Dialogen aus. Was in der Vergangenheit oft als Muster angesehen wurde, sei zu stark kontextabhängig, um als regelhaft im engeren Sinne betrachtet zu werden. Brinker und Sager (1989) setzen die Existenz sprachlicher Routinen zwar voraus, thematisieren aber die Möglichkeit der Modifikation, Reformulierung und Suspendierung von Normen. Und auch Schegloff betont in seinen späteren Schriften die Variabilität von Gesprächssituationen, welche die Vergleichbarkeit erschwere (vgl. z. B. Schegloff 1993: 99).

Das Studium einer Menge von Einzelfällen führt zwar bis zu einem gewissen Grad zur Erkenntnis über systematische Gemeinsamkeiten, doch was sich als systematisch abzeichnet, wird trotzdem von den Bedingungen des jeweiligen Einzelfalls beeinflusst. Definiert man unter diesen Prämissen Muster und Routinen im menschlichen Dialog, handelt es sich dabei nicht um strikte Regeln, sondern vielmehr um mehrheitlich beobachtbare Tendenzen. D. h. auch für die HCI können nur erwartbare Tendenzen für das UserInnenverhalten antizipiert werden. Je kontrollierbarer der situative Kontext und der vom Bot generierte Kotext sind, desto wahrscheinlicher wird die Prognose. Es kann angenommen werden, dass Dialoge mit deterministischen Systemen zu einem höheren Grad vorhersagbar sein müssten als Dialoge unter nicht-deterministischen Menschen. Denn Dialogagenten können nur eine endliche Menge von Gesprächsbeiträgen ausgeben, so dass UserInnen nur einen begrenzten Output vorfinden, auf den sie ihre Gesprächsbeiträge beziehen können.

Methodisch wird in der CA vorausgesetzt, dass jede linguistische Untersuchung auf empirischen Sprachdaten (Transkripten, Logfiles, Korpora) basieren sollte, die in einem natürlichen Setting aufgezeichnet wurden.66 Analysen erfolgen meist qualitativ sowohl auf der Mikro- als auch auf der Makroebene des Dialogs, können aber auch quantifizierbare Aspekte enthalten. Gerade auf der strukturellen Mikroebene ist die Wahrscheinlichkeit hoch, dass für die HCI ← 94 | 95 → operationable Abfolgetendenzen und erweiterte Muster von Gesprächsbeiträgen gefunden werden können.

Vor dem Hintergrund von Common Ground in Form von enzyklopädischem und pragmatischem Wissen sowie Self- und Partner-Modeling während der Interaktion können einige konkrete Beobachtungen an der Mikrostruktur von Dialogen gemacht werden, die eine gewisse Regelhaftigkeit erkennen lassen. Im Folgenden werden die für die empirische Analyse relevanten und korpuslinguistisch erhebbaren, strukturellen Basisprinzipien der CA vorgestellt und ihre Anwendungsmöglichkeiten in der HCI-Forschung diskutiert. Der Fokus liegt dabei auf maschinell erkennbaren Mustern der Turn-Allokation (z. B. Adjazenzellipsen) und sprachlichen Routinen im Gesprächsrahmen (z. B. Gruß-Gegengruß). In jedem Unterkapitel wird so ein Untersuchungsparameter der Korpusstudie vorgestellt.

2.2.1  Turn-Konstruktion und Turn-Allokation

Als strukturelle Basiseinheit kann der Turn (dt. Gesprächsschritt) angesehen werden (vgl. Sacks et al. 1992), der einen Gesprächsbeitrag bis zum SprecherInnen-Wechsel bezeichnet. Gesprächsschritte können unterschiedlich komplex aufgebaut sein. Es gibt initiierende und respondierende bzw. non-resondierende Gesprächsschritte (Brinker & Sager 1989: 71) sowie reaktivierende Gesprächsschritte. Die Turns weisen eine besondere Binnenstruktur auf: Sie bestehen aus sog. Turn-Constructional-Units (TCUs). Diese werden über ihre Möglichkeit zur Komplettierung als abgeschlossene Einheiten definiert. Die Punkte, an denen eine TCU als komplett betrachtet werden kann, werden als Transition-Relevance-Places (TRPs) bezeichnet. Ein Beispiel für diese Definitionsgrundlage findet sich u. a. bei Lerner (1991: C124A/C244A).

(1) D: They haftuh run programs for them to rehabilitate them tuh- to deal with the new materials. And if they ca:n’t,

(2) A: They’re out.

(3) (.)

(4) D: Mm hm,

Dass A Sprecherin Ds begonnene TCU komplettieren kann, spricht dafür, dass die TCU etwas in sich Abgeschlossenes darstellt. Im vorliegenden Beispiel bildet die Syntax des If-Satzes den Rahmen für eine Einheit, die erst dann als komplett zu betrachten ist, wenn der Nebensatz und der Hauptsatz formuliert sind. Wann eine Struktur als komplett bezeichnet werden kann, ist bis heute nicht ← 95 | 96 → vollständig geklärt.67 Vielmehr können allein Möglichkeiten unter bestimmten Einschränkungen diskutiert werden, denn GesprächsteilnehmerInnen können nicht wissen, wie ein Turn enden wird, sondern nur wie er enden könnte (vgl. Liddicoat 2007: 60). Dieses grundsätzliche Definitionsproblem der CA illus­triert plastisch, innerhalb welch enger Parameter Antizipation von Gesprächsbeiträgen lediglich möglich ist – in der HHC wie in der HCI. Empirisch können Komplettierungen allerdings immer wieder nachgewiesen werden und werden als Argument für die Antizipierbarkeit von Dialogbeiträgen ins Feld geführt(vgl. z. B. Bock & Levelt 1994; Garrett 1980).

Für eine KI sind solche Strukturen jedoch immer noch besonders schwer zu parsen, weil der einzelne Turn nicht alle notwendigen Informationen enthält. Die Generierung von Komplettierungen ist auch schwer, da nie eindeutig klar ist, wie komplettiert werden muss. Bei speziellen Konstruktionen, wie z. B. Konstruktionen mit „wenn, dann“, könnte je nach Interaktionssituation so genau antizipiert werden, dass die begonnene Struktur leicht vom Gegenüber vervollständigt werden könnte (s. o.).

Einzelne Komplettierungen konnten im Korpus für die HCI beobachtet werden (s. Kapitel 4). Im nächsten Schritt ist zu überlegen, wie dieses erlernte Gesprächsverhalten der UserInnen für ein anthropomorpheres HCI-Design genutzt werden kann.

2.2.2  Turn-Taking

Der Turn kann als Basiseinheit von HCI-Dialogen grundsätzlich in Analogie zur HHC angenommen werden. Für die Face-to-Face-Kommunikation in der HHC wurden zwei grundsätzliche Wege beschrieben, wie an jedem TRP die nächste Gesprächsteilnehmerin zum Turn kommen kann. Entweder wählt SprecherIn 1 SprecherIn 2 durch eindeutige Adressierung ihres Turns mittels diverser sprachlicher Mittel aus oder SprecherIn 2 ergreift selbst das Wort. Zwischen diesen beiden Möglichkeiten kann nicht immer äquivalent gewählt werden, vielmehr wird die Struktur des Turn-Takings von der Konstruktion der TCUs vorgegeben. Sacks et al. (1974: 704) formulieren eine Reihe von Regeln, welche die Turn-Konstruktion und die Turn-Allokation zueinander in Verbindung setzten. Wie ein Turn konkret formuliert ist, hat Auswirkungen auf das Turn-Taking-Verhalten ← 96 | 97 → der Interagierenden da er Gliederungssignale, Kontaktfunktionen und Schlusssignale enthalten kann (Liddicoat 2007: 68). Unter Anwendung der Konstruktions- und Allokationsregeln können Gespräche von SprecherInnen kooperativ aufgebaut werden. „The components, and the rules which relate them, are not static invariable constructs for organizing talk, but rather are deployable resources which can be used to claim or demonstrate understanding and to organize partizipation“ (Liddicoat 2007: 78).

In Bezug auf die HCI kann man nicht von einem Turn-Taking-System im Sinne der CA sprechen. Vor allem in der computervermittelten, medial schriftlichen HCI ist ein Aushandeln des Turn-Takings bislang nicht möglich. Demnach treten an die Stelle von Turn-Taking-Konventionen strikt begrenzte Regeln für die Allokation durch das Posting per Enter bzw. die Ausgabe des Texts durch das System. Gesplittete Postings seitens der UserInnen sind selten (s. Kapitel 4) und Übertragungstechnologien Keystroke-per-Keystroke werden in Bot-Anwendungen vermieden, um das Parsing nicht zusätzlich zu erschweren. In der medial mündlichen, telefonbasierten HCI wird Barge-In68 de facto meist vermieden.

Gerade für die HCI gilt aber, dass jeder Turn des Bots eindeutig eine Reaktion der UserInnen fordern sollte. Dabei müssen sich Dialog-DesignerInnen auch des Umstands bewusst sein, dass ein eindeutig adressierter Turn andere Wirkungen hervorruft als ein offen gestalteter. Je nach Einsatzbereich des Bots z. B. als persönliche Kundenberatung im 1:1-Gespräch oder als Werbe-Bot in einem Mehrparteien-Chat-Raum, wo andere Konventionen für die Sprachhandlungskoordination gelten, ist dies mehr oder weniger relevant. Sogar eine Verabschiedung durch den Bot evoziert im besten Fall noch die weitere Navigation der UserInnen auf der Website, die dann zwar nicht sprachlich erfolgt, aber am multimodalen Interface durch Anklicken eines Buttons. Inwiefern Sprachhandlungskoordination in den 1:1-Chats aus unterschiedlichen Anwendungskontexten in den Untersuchungskorpora für die UserInnen eine Rolle spielt, muss im Rahmen der empirischen Untersuchung überprüft werden (s. Kapitel 4.1). ← 97 | 98 →

Je nach situativem Kontext und thematischem Inhalt können Turns länger oder kürzer ausfallen. „Turn size is not fixed, but varies“ (Liddicoat 2007: 71). Multi-TCU-Turns sind in der HHC an der Tagesordnung, werden aber in ihrer Länge durch interaktives Aushandeln begrenzt. Laut Sacks führen die Regeln zur Turn-Konstruktion und Allokation in natürlichen Dialogen zu einer limitierten Turn-Länge, da ein Wechsel an jedem TRP theoretisch möglich sei. Da also an jedem TRP die Möglichkeit zur Unterbrechung gegeben ist, bleiben besonders lange Turns in der HHC die Ausnahme. Ein ausgewogenes Verhältnis der Redebeiträge ist die Präferenz (mit einer Reihe kontextabhängiger Einschränkungen). In der HCI findet dieses Prinzip bislang zu wenig Beachtung. Da Barge-In-Techniken komplex in der Umsetzung sind, bringen Bots in der Regel ihre Turns komplett vor, ohne unterbrochen zu werden. Vor allem die schriftliche Kommunikation via Chat eröffnet Dialog-DesignerInnen die Möglichkeit, längere Zusammenhänge oder eine große Menge an Informationen in hochkomplexen Einzel-Turns zusammenzufassen und als einen in sich geschlossenen Text ausgeben zu lassen. Diese Texte sind als eingeschobener Monolog formuliert (Sacks et al. 1992, Barr & Keysar 2004) und in der chat-basierten HCI sehr häufig. Die UserInnen haben keine Möglichkeit, den „Redefluss“ des Systems zu unterbrechen und reagieren frustriert oder einsilbig (s. Kapitel 4.1, 4.4). So gilt Liddicoats Aussage für die HCI nicht: „In all cases, however, being able to produce more than one TCU in a turn is the result of interactional work, not the result of a right to produce more than one TCU“ (Liddicoat 2007: 74). In der HCI liegt der Verteilung des Rederechts vielmehr eine einfache Design-Entscheidung zugrunde, nämlich dass lange System-Turns erwünscht sind, weil sie wichtige Inhalte vermitteln, und lange UserInnen-Turns dagegen unerwünscht, weil sie schwer zu parsen sind. Gerade bei Info-Bots oder in E-Learning-Anwendungen legt es der situative Kontext nahe, dass das System längere Erläuterungen ausgibt. Regeln der Turn-Konstruktion und Allokation können also nur bedingt aus der HHC auf die HCI übertragen werden. Wie UserInnen in der Interaktion mit dem artifiziellen Gegenüber damit umgehen, zeigt die empirische Analyse der Felddaten (Kapitel 4.1).

2.2.3  Adjazenzpaare

Als kleinste pragmatische Einheit der Konversation gilt in der CA der Account. Unter Account wird jede kommunikative Handlung zum Hervorbringen, Sichern oder Wiederherstellen von Sinn subsumiert. Manche Accounts machen bestimmte Aktionen als Folgeaktionen relevant und damit antizipierbar. Diese Relation zwischen Aktionen ist die Basis von Adjazenzpaaren. Auf ← 98 | 99 → der Mikro-Ebene der Interaktion kann auch beobachtet werden, dass benachbarte Turns strukturell eng miteinander verbunden sind. In der synchronen Kommunikation ist es möglich, bspw. auf Fragen aufwandsökonomisch kurz zu antworten. Allein die unmittelbare zeitliche Nähe von Äußerung A (Frage) und Äußerung B (Antwort) ermöglicht ein solches Gesprächsverhalten. Solche vor dem Hintergrund des vorangegangenen Kotextes operationable Ellipsen werden entsprechend als Adjazenzellipsen bezeichnet. Diese Strukturen finden sich in der Face-to-Face-Kommunikation und in der medial schriftlichen Kommunikation, sofern diese kozeptionell mündlich ist.

Der Definition von Sacks und Schegloff (1992) nach, bestehen Adjazenzpaare aus zwei Turns von zwei SprecherInnen, die in ihrer minimalen Form direkt aufeinander folgen, die geordnet sind und die nach unterschiedlichen Paar-Typen differenziert werden können. Dabei stellt die direkte Adjazenz den Regelfall dar, wobei indirekte Adjazenz (z. B. bei eingebetteten Strukturen) jedoch auch möglich ist. Der erste Teil einer Paarsequenz wird als first pair part (FPP) bezeichnet, der zweite Teil als second pair part (SPP). Manche Sprechakte sind in der Regel erste und manche zweite Teile. So geht z. B. einer Antwort prototypisch eine Frage voraus. U. a. folgende Typen von Adjazenzstrukturen werden in der CA nach semantisch-pragmatischen Kriterien unterschieden:

Der erste Teil initiiert die Aktion, die einen zweiten Teil relevant macht. „ […] adjacency pairs have a normative force in organizing conversation in that adjacency pairs set up expectations about how talk will proceed and if these are not met, then the talk is seen as being problematic“ (Liddicoat 2007: 107, vgl. auch Heritage 1984). Nicht auf jedes FPP folgt direkt ein SPP. In sog. „expanding sequences“ vgl. (Liddicoat 2007: 126) wird die Paarsequenz manchmal noch erweitert. Eine mögliche Realisation des FPPs als „attention-getting token“ (vgl. Liddicoat 2007: 126) ruft nicht unbedingt eine sprachliche Reaktion als SPP hervor, sondern erregt eben bestenfalls die Aufmerksamkeit des Gegenübers. Geschieht dies nicht sofort, kann das zu Reihungen von FPPs führen.

(1) A: Hey!

(2) A: Hey, B!

(3) (B schaut von seinem Buch auf.) ← 99 | 100 →

In der HCI werden solche Attention-Getting Tokens manchmal verwendet, um überhaupt das Interesse potentieller UserInnen für das System zu wecken. So macht bspw. der ECA Max der Universität Bielefeld durch Audio-Äußerungen wie „Spiel mit mir!“ oder „Sprich mit mir!“ im Nixdorf Museum in Paderborn auf sich aufmerksam. Bei der Implementierung dieses Verhaltens wurde nicht beachtet, dass erwachsene Menschen Attention-Getting Tokens nicht in Endlosschleife äußern, sofern keine Reaktion erfolgt. Dieses Verhalten erinnert allenfalls an kleine Kinder oder wirkt schlicht unnatürlich. Zwei bis maximal drei Wiederholungen sollten nicht überschritten werden.

Die Struktur der Adjazenzpaare steht in enger Verbindung mit dem Turn-Taking-System, da hier ein SprecherInnen-Wechsel immer relevant ist. Für SPPs gilt, dass theo-retisch immer unterschiedliche Realisationen möglich sind, was die Antizipierbarkeit von SPPs deutlich erschwert. Einfache Behauptungen, sog. Assessments, z. B. fordern eine negative oder positive Evaluation (Heritage 1985). Ihre Folgesequenzen sind daher nur schwer zu antizipieren. Sie sollten in HCI-Designs nicht isoliert verwendet werden, sondern z. B. eher in Kombination mit einer Frage etc., es sei denn die Reaktionen seitens der UserInnen ist für die weitere Entwicklung des Dialogs von nachgeordneter Bedeutung (vgl. Nonsense-Kommunikation bei Unterhaltungsbots).

Biographische Angaben

Netaya Lotze (Autor)

Netaya Lotze ist Sprachwissenschaftlerin mit Schwerpunkt «Neue Medien» und Akademische Rätin an der Universität Münster. Sie studierte Germanistik und Philosophie und promovierte als Stipendiatin der Friedrich-Ebert-Stiftung sowie des Norddeutschen Exzellenznetzwerks. Sie war als Wissenschaftliche Mitarbeiterin an der Leibniz-Universität Hannover tätig.

Zurück

Titel: Chatbots