Show Less
Open access

Chatbots

Eine linguistische Analyse

Series:

Netaya Lotze

Die korpuslinguistische sowie konversationsanalytische Studie thematisiert die Mensch–Maschine-Interaktion mit Chatbots. Diese Dialogsysteme sind auch heute noch störungsanfällig und eine Kommunikation ist nur unter äußerst limitierten Bedingungen möglich. Welche Implikationen dies für das Interaktionsverhalten der UserInnen hat, untersucht die Autorin vor dem Hintergrund der Diskussion um künstliche Intelligenz. Chatbots sind im Web bereits weit verbreitet und ihr Dialog-Design dient als Vorbild für moderne Assistenzsysteme. Da in Zukunft künstliche Intelligenzen eine immer größere Rolle spielen werden, legt diese Auseinandersetzung im Hinblick auf interaktives Alignment und Computer-Talk einen Grundstein zur linguistischen Erforschung von Dialogsystemen.

Show Summary Details
Open access

1. Artifizielle Dialogsysteme – Forschungsansätze und Entwicklungen

← 26 | 27 →

1.  Artifizielle Dialogsysteme – Forschungsansätze und Entwicklungen

Während Weizenbaums (1966)9 berühmtes Chatbot-System ELIZA die Eingaben ihrer KlientInnen nur paraphrasieren und Rückfragen stellen konnte, haben sich Dialog-Systeme zur natürlichsprachlichen Interaktion seitdem weiterentwickelt und ausdifferenziert in zahlreiche bereichsspezifische Varianten. Eine Diversifizierung der Zielsetzungen führte zu unterschiedlichen Design-Überlegungen und damit zu einer umfangreichen Bandbreite von Systemarchitekturen. Dabei existieren momentan einfache Chatbots mit ganz basalen Funktionen zur Spracherkennung und Generierung (ALICE, Wallace 2004)10 neben ambitionierten crowd-sourcing-basierten Systemen (Cleverbot, Carpenter 2010)11, aufwendig animierten Embodied Conversational Agents (REA, Cassell 2004)12, auf statistischen Modellen basierende Assistenz-Systemen (Siri, Apple 2010)13 und hybriden künstlichen Intelligenzen, die unterschiedliche Architekturansätze miteinander verbinden (Watson, IBM, Ferrucci et al. 2010)14.

Im folgenden Kapitel sollen einige der unterschiedlichen Systemtypen mit ihren Architekturen und Dialog-Designs vorgestellt werden. Darüber hinaus soll geklärt werden, welche technischen Entwicklungen und soziokulturellen Tendenzen die Entwicklung einer anthropomorphen Schnittstelle begünstigt haben und welche sozialen Wirkungen die entsprechenden Technologien bei ihren UserInnen hervorrufen. Ziel ist es, die Rahmenbedingungen zu definieren, vor deren Hintergrund jede linguistische Analyse von HCI-Dialogen stattfinden muss. Denn ohne ein genaues Verständnis für die zu Grunde liegenden Technologien und deren soziale Bedeutung, ist eine adäquate Beschreibung der HCI auf sprachlicher Ebene nicht möglich. ← 27 | 28 →

1.1  Die Assistenzmetapher zwischen menschenähnlicher KI und Usability

Als die am weitesten verbreitete Form artifizieller Dialogsysteme kann die am wenigsten aufwendig gestaltete Anwendung, der einfache Chatbot, angesehen werden (vgl. Krämer 2008: 35). Als virtuelle BeraterInnen auf Websites von Firmen und Institutionen im WWW finden sich vermehrt Chatbots, mit denen man über ein natürlichsprachliches Interface mit Ein- und Ausgabefunktion medial schriftlich in Interaktion treten kann. Diese Systeme werden oft durch anthropomorphe oder zoomorphe Darstellungen verkörpert, bevölkern Chatrooms und MMORPGs (Massive Multi-Player Online Role-Playing Games15) und sollen den überzeugenden Eindruck fiktiver oder aber auch realer Charaktere vermitteln. Dabei erstrecken sich die Anwendungsbereiche von virtuellen Freunden zum Plaudern bis zu pädagogischen Tutorial-Systemen oder Infobots wie z. B. Findulin16, der auf der offiziellen Website des Bundestags in Gestalt eines Adlers auf Nachfrage Informationen zur deutschen Verfassung ausgibt.

Da die chat-basierte Interaktion mit artifiziellen Dialogsystemen auf dem heutigen Stand der Technik weniger störungsanfällig ist als es Systeme mit Spracherkennung und Sprachsynthese sind, kann am Beispiel der Chatbots die eigentliche Dialogperformanz der Technologie besonders gut im Hinblick auf logisch-semantisches Parsing und kohärente Antworten evaluiert werden. Auch der bekannteste Test für künstliche Intelligenzen (KIs) mit natürlichsprachlichem Interface wurde für chat-basierte Systeme entwickelt. Es handelt sich dabei um den 1950 von Alan Turing vorgeschlagenen Turing-Test, der besagt, dass eine KI dann als intelligent bezeichnet werden könne, wenn sie in einem verdeckten Experimentaufbau eine Jury von menschlichen InteraktionspartnerInnen davon überzeugen könne, dass sie ein chattender Mensch sei. Der Test wurde mehrfach kritisiert, weil er nicht die Intelligenz der Systeme im Sinne von Kompetenzen und Bewusstsein teste, sondern nur deren Performanz im Sinne von konsistentem Verhalten (vgl. Searle 2006; s. a. Kapitel 1.3). Dennoch wird seit 1991 jährlich der internationale Loebner-Contest nach Vorbild des Turing-Tests durchgeführt, um das System zu prämieren, das die menschenähnlichste Wirkung erzielt. Nach Fred Roberts mit seinem System Elbot und Rollo Carpenter mit Cleverbot war 2013 Steve Worswick mit dem Chatbot Mitsuku17 erfolgreich. ← 28 | 29 →

Abbildung 1: Chatbot Mitsuku

img1

Da chat-basierte Bots also weit verbreitet sind und einen direkten Vergleich der Dialogsoftware ohne Text-to-Speech-Komponenten als Störvariablen zulassen, liegt der Fokus dieser Arbeit auf medial schriftlicher HCI. Trotz dieser Einschränkung wird bei eingehender Recherche klar, dass die Zahl sowohl der einfachen Anwendungen im WWW als auch der ambitionierten Forschungsprojekte auf dem Gebiet der natürlichsprachlichen Dialogsysteme als virtuelle AssistentInnen oder TutorInnen immens ist. Einen Überblick über die aktuelle Forschungslandschaft und die verbreitetsten kommerziellen Bots skizziert Krämer (2008). Dabei stellt sie die technologiehistorischen und soziokulturellen Entwicklungslinien dar, die die Herausbildung einer Interface-Metapher18 in Form von menschenähnlichen Dialog-AssistentInnen19 begünstigt haben. Dabei stehen zwei Aspekte im Vordergrund: ← 29 | 30 →

a) die intuitive Nutzbarkeit einer natürlichsprachlichen Schnittstelle (Usability)

b) die historisch gewachsene sozio-kulturelle Faszination, eine künstliche Intelligenz zu erschaffen

Beide Entwicklungslinien kumulieren in der Assistenzmetapher, die mittlerweile eine vielversprechende Alternative zur Werkzeugmetapher darstellt. Der Entwicklung anthropomorpher Assistenzsysteme ging ein Paradigmenwechsel im Verständnis von benutzerInnen-freundlichem Interface-Design voraus. Die Schnittstelle wurde über verschiedene metaphorische Szenarios leichter bedienbar. So manipulieren wir ganz selbstverständlich Icons auf einem Desktop und lassen uns auf diese Weise auf die Metapher des virtuellen Büroarbeitsplatzes ein. Die Software wird dabei als Werkzeug verstanden (Werkzeugmetapher). Virtuelle HelferInnen als persönliche AssistentInnen in Form von Dialogsystemen mit anthropomorphen Avataren sind also nur ein weiterer Schritt zum innovativen Schnittstellen-Design (Assistenzmetapher). Die HCI-Forschung als eigenständige Disziplin mit Fokus auf Dialogsystemen entwickelte sich schließlich aus der Forschung zur sog. schwachen KI20, der Usability-Forschung, der Forschung zu autonomen Agenten und der Computerlinguistik.

In den vergangenen Jahrzehnten hat die Forschung zu starker und schwacher KI (vgl. Searle 1980) gezeigt, dass Simulationen von Kognition sehr unterschiedlich ausfallen können z. B. als formallogisches Kalkül, als Ontologie oder als probabilistisches Netzwerk-Modell – und dass menschliche Kognition nicht die einzige Möglichkeit der Informationsverarbeitung darstellt. Bezeichnete Manhart in den 1990er Jahren die KI noch euphorisch als aussichtsreiche Bemühung der Menschen, sich ein Ebenbild zu schaffen (vgl. Krämer 2008), so distanzieren sich viele ForscherInnen heute vom Gedanken einer Nachbildung des menschlichen Geistes. Sie sind überzeugt, dass die KI nach ihren eigenen Prinzipien funktioniere und betonen den Werkzeugcharakter der Anwendungen. Auch wenn das Schnittstellen-Design anthropomorph gestaltet ist, wird das nicht unbedingt als Voraussetzung für intuitive Usability im Austausch mit einem intelligenten Gegenüber verstanden. „Die Vorstellungen von erfolgreichem Design wurden sehr lange ausschließlich von einer ingenieurwissenschaftlich ausgerichteten Forschung zu Mensch-Computer-Interaktion geprägt, die selbst in hohem Maße von den sich entwickelnden cognitive sciences beeinflusst war“ (Wagner 2002: 13). In der ← 30 | 31 → Usability-Forschung wurde ein Wechsel von einem technikzentrierten zu einem menschenzentrierten Ansatz vollzogen (vgl. Zühlke 2002), so dass heute sozialwissenschaftliche und psychologische Paradigmen zur Erforschung der Rezeptionshaltung der NutzerInnen in den Fokus rücken.

Andererseits bleibt die Faszination der anthropomorphen Schnittstelle bestehen, die die Kluft zwischen artifizieller Intelligenz und menschlichem Verstand überbrücken soll. So erfährt der Diskurs eine neue Welle des Optimismus durch aktuelle innovative Entwicklungen aus interdisziplinären Forschungsprojekten an der Schnittstelle zwischen KI-Forschung und Neurowissenschaften. Bspw. prognostizierte der Science-Fiction-Autor Vernor Vinge 1993 die Erschaffung einer Superintelligenz noch innerhalb dieses Jahrhunderts und belegt den Zeitpunkt mit dem Begriff der „technologischen Singularität“, da von diesem Moment an alle weiteren Entwicklungen in der Hand dieser übermenschlichen Intelligenz lägen. Die Erschaffung einer Superintelligenz wäre also die letzte Erfindung der Menschheit (vgl. Barrat 2013). Einige renommierte WissenschaftlerInnen halten diese Überlegungen für plausibel. Ray Kurzweil und Peter Diamandis gründeten 2008 die Singularity University (SU) im Silicon Valley, deren Ausrichtung einen Schwerpunkt auf allgemeine KI und menschenähnliche KI legt und auch eine übermenschliche KI prinzipiell für möglich hält. Die Community der TranshumanistInnen strebt die Verbesserung des menschlichen Körpers sowie des menschlichen Geistes durch innovative Technologien an (vgl. u. a. Brockmann 2004). Während sich die technischen Möglichkeiten verändert haben, werden in diesem Kontext die gleichen erkenntnistheoretischen, existenziellen und ethischen Fragen diskutiert wie bereits im Zeitalter der Aufklärung. Bei wachsendem technischem Fortschritt gewinnen diese Fragen notwendig an Relevanz. Doch welche Möglichkeiten hat moderne KI? Um einen Einblick in die Funktionsweise von modernen artifiziellen Dialogsystemen zu bekommen, sollen im Folgenden die Hauptentwicklungslinien der HCI-Forschung nachgezeichnet und einige grundsätzliche Überlegungen zu Systemarchitektur und Dialog-Design dargestellt werden.

1.2  Chatbots und ECAs

1.2.1  Grundlagen der Systemarchitektur und des Dialog-Designs einfacher Chatbots

Die ersten Entwicklungen im Bereich der HCI brachten einfache Chatbots hervor, sog. „computergenerierte Systeme, die in der Lage sind, über Ein- und Ausgabezeile oder durch ein Spracherkennungssystem mit einem menschlichen Nutzer in natürlicher Sprache zu interagieren“ (Tewes 2005: 242). Als Prototyp ← 31 | 32 → dieser basalen Chatbot-Architektur gilt Weizenbaums (1966) Simulation von Therapiegesprächen mit dem System ELIZA, das Schlüsselwörter im UserInnen-Input parsen kann und auf der Basis eines erkannten Schlüsselworts eine Rückfrage generiert. Innerhalb eines deterministischen Systems wird also ein an Schlüsselwörtern orientierter Dialog hervorgebracht (vgl. Klabunde et al. 2004). Das System reagiert auf bestimmte Wörter innerhalb der UserInnen-Eingabe mit der Ausgabe von vorformulierten Turns.

(1) ELIZA: Hi I’m Eliza. Tell me your problem.

(2) UserIn: My best friend hates me.

(3) ELIZA: Why do you say your best friend hates you?

(4) UserIn: She’s not happy to see me anymore.

(5) ELIZA: Can you elaborate on that?

(6) UserIn: She steals my lunch money.

(7) ELIZA: Why do you say your lunch money?

(8) UserIn: Because that’s what she takes from me. […]

(vgl. Tewes 2005: 246)

1.2.1.1  Parsing und Prompting

Das Beispiel illustriert, nach welchen einfachen Regeln ELIZAs Dialog-Design aufgebaut ist: Personalpronomina werden gespiegelt (you statt me) und zusammen mit den entsprechenden Schlüsselwörtern (hate, steal) in vorgefertigte Antwortschablonen eingesetzt (Why do you say X?). ELIZA ist nicht fähig zu proaktiven Turns, Interventionen oder Repair. Kann eine UserInnen-Äußerung nicht geparst werden, wird eine unverfängliche Rückfrage ausgegeben (Can you elaborate on that?). Die Systemarchitektur solcher Chatbots der ersten Generation ist so einfach, dass interessierte SchülerInnen sie heute nachbauen können.21

Der Pattern-Matcher gleicht UserInnen-Eingaben mit Textmustern ab und wählt das Pattern aus, das am besten zu einer Eingabe passt. Nach diesem Muster wird dann die Antwort konstruiert (z. B. Why do you say X?). Dieses Prinzip ist sehr fehleranfällig, sofern es nicht flexibel durch weitere Regeln variiert wird. ← 32 | 33 →

Abbildung 2: Einfache Chatbot-Architektur (Gesellensetter 2004: 18)

img1

(1) Max: Ich habe mehrere Lieblingsfilme. Zum Beispiel Terminator (…). Was ist deiner?

(2) UserIn: och, so verschiedene

(3) Max: Dein Lieblingsfilm ist also och so verschiedene?

(Max 1781–1799)

Misslingt das Schlüsselwort-Parsing, so dass dem Input-Pattern kann kein Output-Pattern zugeordnet werden kann, werden von den meisten Systemen sog. Default-Antworten ausgegeben, um den Dialog aufrechtzuerhalten. Diese sind gewissermaßen das Sicherheitsnetz für die weitere Progression. Problematisch an Default-Antworten ist, dass sie notwendig Gemeinplätze enthalten, die nicht immer einen thematischen Bezug zum vorangegangenen Input haben.

Zu einem Input-Pattern passen verschiedene Output-Patterns, die zyklisch variiert werden, um die Antworten (Prompts) abwechslungsreicher zu gestalten. Zusätzlich wird auf Regeln aus dem Regelspeicher zurückgegriffen, um bspw. Pronomina zu spiegeln. Im Zwischenspeicher können UserInnen-Eingaben abgelegt werden, um später im Dialog auf sie zurückzukommen. Ein Beispiel für einen moderneren Chatbot auf der Basis dieser Grundarchitektur ist das System ALICE, das 1995–2000 von Wallace entwickelt wurde und mehrfach die Loebner-Medaille gewann. Eine moderne Variate mit Spracherkennung steht heute als App (AIVC) für Android-Geräte zur Verfügung. Im Unterschied zu ELIZA kann ALICE proaktiv neue Themen in den Dialog einbringen und ihr System stützt sich auf mehr als 40.000 Regeln und 25.000 sog. Categories zum Musterabgleich. Die Gruppe um Wallace entwickelte auch das XML-Derivat ← 33 | 34 → AIML (Artificial Intelligence Markup Language), der in vielen heutigen Chatbots und ECAs als Auszeichnungssprache verwendet wird.22 In AIML besteht jede der Categories (z. B. Begrüßung) aus einem Pattern (z. B. Guten Tag!) und einem Template (z. B. Hallo! Wie geht es Dir?).23 Allein durch die Menge der Categories ist die Interaktion mit ALICE bedeutend flexibler als bei ELIZA. Flexibilität beim Parsing und Variation im Output wird bei vielen Chatbots zusätzlich durch Sy­nonymlisten, sog. Makros, erzielt, aus denen alternierend neue Lexeme ausgewählt werden können. Makros funktionieren auch auf der Ebene ganzer Phrasen und besonders erfolgreich bei ritualisierten Gesprächssequenzen. Für eine Verabschiedung könnte ein Makro aussehen wie folgt:

<keywords>

bye, cu, cya, exit, quit, ciao, ade, adios, hasta, auf wieder, tschoe, tschues, tschau, und weg, so long, machs gut, bis bald, bis dann, bis spaeter, wiedersehen, hasta*

Der Asterisk (Kleene Operator) steht in AIML als Platzhalter für beliebig viele Zeichen. Das Keyword „hasta*“ würde also bspw. sowohl für „hasta luego“ als auch für „hasta la vista“ zutreffen. Je mehr Synonyme zugeordnet werden können, desto zuverlässiger funktioniert das Parsing.24 Einige moderne Chatbots verfügen zusätzlich über regelbasierte Syntax- und Sprechakt-Parser, die die Auswahl eines Patterns unterstützen. Diese stehen aber noch am Beginn ihrer Entwicklung.

1.2.1.2  Wissensbasen

Die Pattern-Matching-Algorithmen machen ein System weder intelligent noch versetzen sie es in die Lage, natürlichsprachliche Dialoge auf menschenähnlichem Niveau zu führen. Relevanter sind die hinterlegten Wissensbasen, auf die bei elaborierteren Systemen zurückgegriffen wird, und vor allem die interne Organisation von Wissensrepräsentationen. „Grundvoraussetzung für intelligentes ← 34 | 35 → Verhalten von Computer-Systemen ist, daß sie Wissen über ihre Umwelt besitzen“ (Reif 2000)25. Derzeit werden unterschiedliche Ansätze verfolgt. Carpenters Cleverbot recycelt bspw. per Crowd-Sourcing gesammelte Gesprächsbeiträge von früheren UserInnen als eigene Antwort-Turns. Bei Apples Siri werden stochastische Modelle verwendet, um große Datenbanken nach den entsprechenden Informationen abzusuchen. Schwieriger zu implementieren sind nach semantischen Kriterien organisierte Wissensspeicher, die als logikorientierte oder prozedurale Kodes sowie in Form von Frames, semantischen Netzen oder durch Constraints definiert sein können. „Praktisch kann man eine Wissensrepräsentation als die Abbildung eines Ausschnitts der realen Welt bezeichnen“ (Reif 2000). Doch ist dieser verglichen mit den Ressourcen menschlichen Weltwissens verschwindend gering.

1.2.2  Erweiterung der Chatbot-Architektur durch klassische KI: Planbasierte Systeme

Die klassischen Chatbot-Architekturen schaffen (unter idealen Bedingungen) die Illusion von Kohäsion an der Oberfläche des Dialogs durch die Wiederholung einzelner Lexeme oder Phrasen. Je differenzierter ihre Interaktionsmuster definiert sind, desto besser gelingt dies. Die HCI-Forschung beschritt in den 1970er- und 1980er-Jahren außerdem einen anderen Weg, welcher der einer klassischen KI mit aussagenlogischem Kalkül nähersteht. Hier wird mit einem sog. „Austin-Grice-Strawson-Searle-Ansatz“ (vgl. Allen 1978) in Form von Sprechakten, Weltmodellen, Plankonstruktionen und Planerkennung gearbeitet. Semantisches und pragmatisches Wissen werden also miteinbezogen, um wirklich kohärente Abfolgen von Aussagen zu gewährleisten. Welche Veränderungen erwirkt ein erfolgreich ausgeführter Sprechakt in einem SprecherInnen- oder RezipientInnen-Modell? Wie ist die Verbindung zwischen der semantischen und der pragmatischen Bedeutung einer Äußerung? Dieser Ansatz ist in seiner theoretischen Form bedeutend komplexer als ein einfaches Chatbot-Prinzip. In der Vergangenheit wurden ernsthafte Versuche unternommen, Systeme zu konstruieren, die mittels eines logischen Kalküls zu wirklich kohärenten Äußerungen kommen (z. B. OSCAR, Allen et al. 1978; Watson, Ferrucci et al. 2010). Hinzu kommt pragmatisches Wissen in Form von Regeln zur Interpretation und Ausgabe von Sprechakten. Ein solches Kalkül funktioniert allerdings nur innerhalb enger, genau definierter Bedingungen. Um den Fokus zu erweitern, wurde an der Definition verschiedener Präsuppositionen gearbeitet. So werden viele der ← 35 | 36 → heutigen sophistizierteren Systeme als zielorientiert (goal-directed) bezeichnet; d. h. sie orientieren ihre pragmatische Dialogplanung an einem vordefinierten Dialogziel. Inspiriert ist diese Architektur von menschlicher Intentionalität, bildet diese aber nicht ab, da Goals vom System nicht bewusst, eigenständig, spontan und frei neu definiert werden können. Zielorientierung wird modelliert, indem von einem Anfangsstatus und einem Zielstatus ausgegangen wird. Dazwischen liegen die zu definierenden Operatoren (initial stateoperatorsgoal state). Die adäquaten Operatoren werden während der Interaktion ausgewählt. Eine Sequenz von Operatoren wird Plan genannt (vgl. Allen 1978). Man spricht auch von planbasierten Systemen. Die Operatoren erzielen Effekte. So wird ein Weltmodell verändert oder durch den entsprechenden Output die reale Welt selbst.

Eine planbasierte Sprechakttheorie muss in ihrer basalen Form folgendes beinhalten: Ein Planungssystem, eine Sprache zur Beschreibung des Status’ der Welt, eine Sprache für Operatoren und Algorithmen und eine Sprache für Plankonstruktion und Inferenz sowie Definitionen von Sprechakten als Operatoren. Darüber hinaus stellen sich weitere Fragen: Was sind die Effekte dieser Sprechakte? Wann sind sie anzuwenden? Wie können sie in natürlicher Sprache realisiert werden? Es kann z. B. definiert werden, dass auf eine Frage eine Antwort folgt und dass der Informationsgehalt der Antwort die Wissensbasis der RezipientInnen verändert. Unterschiedliche Fragetypen können dabei sprachlich unterschieden und erkannt werden. Die Pläne eines sog. plan-basierten Agenten-Systems können durch die eines anderen beeinflusst werden, wie es auch in der menschlichen Kommunikation möglich ist. Die Operatoren funktionieren allerdings nur unter bestimmten Vorbedingungen.

Zusätzlich werden Präsuppositionen definiert, die Vorannahmen über die Welt und das Gegenüber abbilden sollen. Jeder Agent verfügt über ein Weltmodell und ein PartnerInnen-Modell. Er soll gewissermaßen eine „Vorstellung“ davon haben, was sein Gegenüber weiß oder nicht weiß. „Linguistic utterances are the result of the execution of operators whose effects are mainly on the models that the speaker and hearer maintain of each other“ (Allen et al. 1978: 126). Theoretisch könnten so in einer ganz eindeutig definierten Sprechsituation inferentielle Schlüsse aus dem semantischen Gehalt der Äußerung und den Vorannahmen über den Wissenshorizont des Gegenübers gezogen werden. Allen et al. (1978: 126) führen hierfür folgendes Beispiel an: A fragt B, wo die nächste Tankstelle sei. B inferiert, dass A tanken möchte, und antwortet, dass die Tankstelle bereits geschlossen sei. A weiß daraufhin also, dass es zwar eine Tankstelle in der Nähe gibt, man dort aber im Moment nicht tanken kann. In einem HCI-Dialog mit relativ offenem Fokus funktionieren solche Kalküle jedoch nicht, weil sie eine ← 36 | 37 → enorme Wissensbasis voraussetzen würden, aus der der Bot Annahmen über geteiltes Wissen auswählen können müsste. Ein solches Modell von menschlichem Weltwissen, konnte bislang nicht konstruiert werden. Derzeit ist es modernen ECAs nur sehr basal möglich, dynamische UserInnen-Modelle aufzubauen, mittels derer sie sich an ihre InteraktionspartnerInnen „erinnern“ und auf den Kotext aus dem vorangegangenen Dialogverlauf rekurrieren können. Allgemein orientieren sich moderne Architekturen von ECAs aber an Allens planbasiertem System. Sie kombinieren schwache KI mit differenzierter Schlüsselworterkennung und vereinen so beide Ansätze der HCI-Forschung.

Abbildung 3: Architektur von Dialogsystemen (vgl. Kellner 2004: 535)

img3

Kommen definierte Präsuppositionen in Form von Goals, PartnerInnen oder Sitiations-Modelle hinzu, spricht man von einer sog. BDI-Architektur (Belief, Desire, Intention, vgl. Rao & Georgeff 1991).

1.2.3  Systemtypen und Automatentaxonomie

Aus unterschiedlich differenzierten Systemarchitekturen, verschieden aufwändigen Formen der grafischen Darstellung oder der Verkörperung im Raum sowie diversen Anwendungsbereichen lassen sich verschiedene Systemtypen ableiten. Die Bezeichnungen in der Literatur sind teilweise irreführend und die Übergänge zwischen den Kategorien fließend. Im folgenden Abschnitt sollen die einzelnen Systemklassen vorgestellt und deren jeweiliger Begriffsumfang abgesteckt werden. Dies führt zu einer Taxonomie der unterschiedlichen Systeme (vgl. Zeller 2005, Schatter 2011). ← 37 | 38 →

1.2.3.1  Begriffsdefinitionen

Der wohl unspezifischste Begriff zur Beschreibung einer KI, mit der UserInnen in Interaktion treten können, ist der des Agenten (lat. agere tun, handeln). Agenten-Systeme sind das Ergebnis planbasierter, zielorientierter Architekturen. Steels und Brooks definieren den Begriff wie folgt:

„Autonomous agents are “self-controlling” as opposed to be under the control of an outside agent. To be self-controlling the agent must have relevant self knowledge and motivation, since they are prerequisites of a controller. In other words, an autonomous Agent must “know” what to do to exercise control, and must “want” to exercise control in one way or another” (Steels, Brooks 1994: 85).

Der Agent trifft trifft also Entscheidungen im Hinblick auf ein vordefiniertes Ziel. Die Autonomie26 besteht dabei in der Dynamik der Dialogplanung, durch die Agenten-Systeme flexibel auf ihre Umwelt reagieren können; d. h. sie sollten lernfähig sein und sich an ihre GesprächspartnerInnen anpassen können. Z. T. können sie ihren Status als in der Zeit fortdauernd mitrechnen. Agenten können über eine virtuelle Verkörperung verfügen, dies ist aber nicht obligatorisch. Die sprachliche Interaktion erfolgt chat-basiert medial schriftlich oder mündlich über ein Spracherkennungs- und Sprachsynthese-Modul. Typische Szenarios für den Einsatz von Agenten sind Aufgaben, die kooperativ und kommunikativ gelöst werden müssen.

Während der Terminus Agent ein System beschreibt, das sich hinter verschiedenen Formen von artifiziellen AssistentInnen verbergen kann und deren KI (planbasiert, zielorientiert Entscheidungen treffen) beinhaltet, bezieht sich der Begriff Avatar allein auf die sichtbare, anthropomorphe Schnittstelle. Der Avatar fungiert demnach als Verkörperung des Systems.27 Ein Avatar ist folglich kein System mit Sprachfunktion, sondern lediglich dessen Darstellung als Interface (vgl. Krämer & Bente 2002).

Der Begriff Persona leitet sich von den Dramatis Personae28 eines Theaterstücks ab und weist auf fiktive Charaktere hin, die ausgestaltet werden, um Systeme menschenähnlicher wirken zu lassen. EntwicklerInnen von Dialogsystemen unternehmen Bemühungen, ihre Agenten den NutzerInnen als konsistente ← 38 | 39 → Persönlichkeiten vorzustellen. „Characters have to be realized as distinguishable individuals with their own areas of expertise, interest profiles, personalities, audio/visual appearance“ (André & Rist 2001: 9). Dabei wird ein gewisser Aufwand betrieben, um über die Defizite der KI hinwegzutäuschen. In sophistiziertere Agenten wird konsistentes Verhalten implementiert und auf den Avatar abgestimmt, aber auch einfache Chatbots werden mit Charakteristika versehen, die zum Bild einer stimmigen Persönlichkeit führen sollen. Jeder Redebeitrag des Systems sollte idealerweise zu diesem Eindruck beitragen. Unterstützt wird das Prinzip, ganze Persönlichkeiten zu kreieren, durch Metainformationen zum Bot, die von den EntwicklerInnen oder VertreiberInnen bereitgestellt werden.29

Chatbot ist technologiehistorisch der älteste Begriff für ein Programm mit Dialogfunktion in Form einer Schlüsselworterkennung und vorformulierten Antworten. Chatbots sind ebenfalls virtuell und können sogar auf jegliche Form der Verkörperung verzichten. Auch hinter einem einfachen Eingabe- und Ausgabefeld kann sich ein Chatbot verbergen. Chatbot ist der klassische Begriff, der die eigentliche Funktion des „Plauderns“ in den Vordergrund rückt. Da der Begriff Chatbot wohl der bekannteste Terminus für KIs mit Sprachfunktion ist, wird er heute außerhalb des wissenschaftlichen Diskurses übergeneralisiert gebraucht als Bezeichnung für alle Systeme, mit denen man „plaudern“ kann.

Multifunktionale, multimodale Systeme werden unter ExpertInnen heute als ECAs (Embodied Conversational Agents) bezeichnet.30 Sie verbinden die KI der planbasierten Agentensysteme mit umfangreichen Wissensbasen, anthropomorphen Avataren und zusätzlichen Systemen, die konsistente Verhaltensweisen steuern. Cassell beschreibt ECAs als „computer interfaces that hold up their end of conversation, have bodies and know how to use it for conversational behaviours as a function of the demands of dialogue and emotion, personality, and social convention” (Cassell 2002: 70). Spricht man von einem ECA, ist ein komplexes System mit zahlreichen Subsystemen gemeint, das fortgeschrittener ist, als ein einfacher Chatbot. ECAs sind virtuell verkörpert (Embodiment) und mit Kameras und ← 39 | 40 → Sensoren ausgestattet. Das Embodiment schließt oft ein Modell der Selbstwahrnehmung des Systems im virtuellen Raum ein, das es mittels taktiler Sensorik entwickeln kann. Was als „anthropomorph“ angesehen wird, variiert.31 Wichtig ist, dass die Darstellung Gestik und Mimik zulässt und soziale Effekte hervorruft.

Auch Roboter können natürlichsprachliche Interfaces besitzen oder soziables Verhalten aufweisen (vgl. z. B. die Arbeiten von Breazeal). „In short, a sociable robot is socially intelligent in a human-like way, and interacting with it is like interacting with another person. At the pinnacle of achievement, they could befriend us, as we could them“ (Breazeal 2002a: 1). Dialoge mit solchen Robotern werden als Mensch-Roboter-Interaktion (Human-Robot-Interaction, HRI) bezeichnet. Während virtuelle Agenten nur medial vermittelt Einfluss auf ihre Umgebung nehmen (außer in Virtual-Reality-Anwendungen), manipulieren Roboter die Umwelt direkt und müssen flexibel auf Veränderungen reagieren. In dieser Arbeit liegt der Fokus auf virtuellen Agenten. Ergebnisse aus der Forschung mit sprachgesteuerten Robotern sollen ergänzend einfließen (z. B. Fischer 2006, im Druck; Vollmer et al. 2009).

1.2.4  Die im Rahmen der Studie evaluierten Systeme

Im Rahmen der vorliegenden Studie wurden Interaktionen mit vier unterschiedlich sophistizierten chat-basierten Systemen aus den Jahren 2000 bis 2006 erhoben und analysiert (vgl. Kapitel 3). Bei den älteren Systemen Twipsy und Karlbot (Kiwilogic32, 2000–2002) handelt es sich um einfache Chatbots mit unterschiedlich elaboriertem Dialog-Design. Eines der leistungsstärkeren Systeme im Rahmen dieser Studie ist der ECA Max (Universität Bielefeld, Heinz- Nixdorf-Museum Paderborn 2004). Der Loebner-Preis-Gewinner Elbot (Artificial Solutions 2006) basiert zwar grundsätzlich auf einer Chatbot-Architektur, verfügt aber über umfangreiche Wissensbasen und ein Subsystem zum semantischen Parsing. In Bezug auf das Dialog-Design wurden bei der Gestaltung der Systeme unterschiedliche Strategien verfolgt, die großen Einfluss auf die interaktiven Möglichkeiten der Systeme haben. Sie alle sind zur beidseitig initiativen Interaktion33 in der Lage und kombinieren festgelegte Abfolgen von Sequenzen, ← 40 | 41 → bei denen die UserInnen-Beiträge antizipiert werden müssen (Skripts), mit freien Sequenzen (Parsing & Prompting). Bei den älteren Bots dominiert die Funktion der Ausgabe von themenbezogenen Informationen in Bezug auf ein Schlüsselwort der UserInnen wie bei einer klassischen Suchmaschine. Kombiniert wird diese Funktion mit einer Vielzahl an Entscheidungs- und Ja/Nein-Fragen, mittels derer die UserInnen durch die interne Informationsrepräsentation navigieren können. Der Vorgang gleicht einer natürlichsprachlich und dialogisch vermittelten Menünavigation. Bei Elbot wurde eine freiere UserInnen-Führung auf der Grundlage eines verbesserten Parsers versucht. Das System gibt viele offene Beiträge in Form von einfachen Statements aus. Die fehlende Planbarkeit der Dialoge soll kompensiert werden durch ein Fall-back auf Default-Antworten, die bei Störungen ausgegeben werden, um den Dialog am Laufen zu halten. Max verfügt über eine Vielzahl an Subsystemen, die mehr Freiraum in der Gestaltung des Dialogs ermöglichen. Trotzdem wurde ein hybrider Ansatz verfolgt, bei dem freie und geskriptete Sequenzen je nach Dialogstatus abwechseln (z. B. Small-Talk vs. Informationsvermittlung). Inwiefern sich die unterschiedlichen Voraussetzungen der Systeme auf das Dialogverhalten ihrer UserInnen auswirkt, soll anhand unterschiedlicher linguistischer Untersuchungsparameter analysiert werden (vgl. Kapitel 2 und 4). Zunächst sollen jedoch die Systeme hinsichtlich ihrer Architektur, ihres Dialog-Designs und ihres Anwendungsbereichs vorgestellt werden.

1.2.4.1  Twipsy

Auf der Basis des Lingubot-Creators34, einer Software der Firma Kiwilogic/Artificial Solutions wurde der Chatbot zu Twipsy, dem Maskottchen der Expo 2000, von Dorothee Wagner und Constantin Schmitt entwickelt, und konnte auf der Website der Expo 200035 aufgerufen werden.36 Die Aufgabe des Systems bestand in der Vermittlung von Informationen zur Expo 2000 ohne elaborierte Aufbereitung oder didaktisches Konzept. ← 41 | 42 →

1.2.4.1.1  Systemarchitektur

Die dem Bot zu Grunde liegende Systemarchitektur basiert auf einer Wissensbasis, die mit der sog. Web-Engine von Kiwilogic/Artificial Solutions verarbeitet werden kann. Diese folgt grundsätzlich den bereits beschriebenen Grundprinzipien der einfachen Chatbot-Architektur mit Mustererkennung. Die Knowledge-Library des Lingubot-Creators enthält so genannte Building-Blocks, mit deren Hilfe Parsing-Regeln konstruiert werden können. Die Interaktionsregeln können in logischen Gruppen dargestellt werden. Dies dient jedoch allein der internen Organisation und hat nichts mit dem Parsingprozess an sich zu tun. Auf eine logisch-semantische Kategorisierung kann folglich nicht zurückgegriffen werden.

1.2.4.1.2  Dialog-Design

Innerhalb aller Systeme wird bei Kiwilogic/Artificial Solutions grundsätzlich zwischen aktivem und passivem Wissen unterschieden. Passives Wissen wird von UserInnen aufgerufen, indem ein bestimmter Input eingegeben wird. Hier greift die Schlüsselworterkennung auf Grundlage der Wissensbasen in Verbindung mit den Interaktionsregeln für passives Wissen. Als aktives Wissen werden dagegen Systembeiträge bezeichnet, die ausgegeben werden, wenn eine UserInnen-Eingabe nicht geparst werden konnte; also wenn keine der Interaktionsregeln auf den UserInnen-Input angewandt werden konnte (Default-Antwort). So hat der Bot die Möglichkeit, den Dialog aktiv aufrechtzuerhalten, indem er z. B. ein neues Thema einführt und damit ein anderer Entscheidungsbaum aufgerufen wird.

Das System verfügt über 1.662 Schlüsselbegriffe (Recognitions) und über 2.482 Antwortstämme (Answers) und greift damit auf eine vergleichsweise wenig umfangreiche Wissensbasis zurück. Dabei verfolgt Twipsy als Infobot der Expo immer das Ziel, Informationen über die Expo auszugeben. Freie Smalltalk-Sequenzen sind möglich (Parsing & Prompting), aber sobald ein UserInnen- Beitrag nicht geparst werden kann, lenkt Twipsy das Gespräch wieder auf die Expo 2000 in Hannover und ihre Sehenswürdigkeiten.

(1) Twipsy: Sie können natürlich auch ein Gesprächsthema vorschlagen, aber die EXPO 2000 ist mein absolutes Spezialthema.

(2) UserIn: schnauze lutscher

(3) Twipsy: Suchen Sie noch einen ganz besonderen Tag für Ihren EXPO-Besuch? Dann interessieren Sie bestimmt die sieben Thementage.

(Twipsy-Korpus 198–220)

Von den Small-Talk-Sequenzen abgesehen, folgt die UserInnen-Führung vordefinierten Abfolge-Skripts. Die Themenwahl erfolgt über Dialogbeiträge des Systems, die einer Menü-Abfrage nachempfunden sind. In einer langen Reihe von ← 42 | 43 → Phrasenkoordinationen werden die Interessengebiete der UserInnen abgefragt, zu denen Twipsy potentiell Auskunft geben kann. Zu übergeordneten Kategorien werden im nächsten Systembeitrag Unterkategorien abgefragt.

(1) Twipsy: Interessiert Sie „J. S. Bach“ oder die „Nacht der Nacht“? Möchten Sie „Weltenwandern“ oder im Geiste „Sterne-Galaxien-Utopien“ erforschen? Begeistert Sie der „Trommeltag“, „Children‘s Corner“ oder der „Wald“?

(2) UserIn: wald

(Twipsy-Korpus 780–831)

1.2.4.1.3  Avatar und Eingabekanal

Twipsy ist als bunte, abstrakte Figur grafisch wenig anthropomorph dargestellt, verfügt aber über ein Gesicht mit Augen und Schnabel sowie über zwei unterschiedlich lange Arme bzw. Flügel und zwei kurze Beine. Eingeschränkte Mimik war in der Online-Version zur Expo 2000 möglich. Einzelne Standbilder in unterschiedlichen Positionen mit unterschiedlichem Ausdruck wechselten sich in Abhängigkeit vom jeweiligen Sprach-Output ab. Zusätzlich konnte Twipsy dank einer einfachen Animation zyklisch mit den Augen zwinkern.

Der Chat mit Twipsy konnte in einem separaten Fenster aufgerufen werden. Die Eingabe erfolgte über die Tastatur des heimischen Computers der UserInnen in einem Textfeld und konnte über Enter gepostet werden.

Abbildung 4: Chat-Fenster Twipsy

img4

← 43 | 44 →

1.2.4.1.4  Persona und situativer Kontext

Die Twipsy-Persona wird als quirliges, vogelähnliches Wesen mit sprühendem Temperament vorgestellt. „[Twipsy is] a sprightly little being that filled web site visitors in on the last EXPO news.“37 Diese Charakterzüge sind aber in den Dialogbeiträgen mit Infocharakter nicht konsequent ausgestaltet, so dass der Eindruck von Brüchen im Gesamtkonzept der Persona entsteht.

Twipsy wurde von Dezember 1999 bis Oktober 2000 als Infobot auf der Website der Expo 200038 eingesetzt. Eine konventionelle Navigation mit zusätzlicher Suchfunktionwar auf der fraglichen Internetseite ebenfalls möglich. Eine Interaktion mit dem Chatbot Twipsy war also nicht unbedingt notwendig, um bestimmte Informationen zu finden. Hinter Twipsy als Maskottchen und auch als Chatbot stand ein Marketing-Konzept. Die Expo sollte in vielen Bereichen als zukunftsweisend verstanden werden. Ein artifizieller Dialogagent auf der Website sollte diese Wirkung unterstützen.

Wer also mit Twipsy interagierte, wollte vermutlich die Technologie kennenlernen und sich unterhalten lassen. Konkrete Informationen über die Expo zu erhalten, kann zwar als Dialogziel der meisten NutzerInnen verstanden werden, der Unterhaltungsfaktor spielte aber ebenfalls eine prominente Rolle.

1.2.4.2  Karlbot

Karlbot war die virtuelle Kundenbetreuung von Kiwilogic und Anfang der 2000er Jahre das Aushängeschild der Firma auf ihrer Website. Bei Karlbot in der damaligen Form handelt es sich um einen kommerziellen Chatbot mit Infofunktion, der von Nikolas Prehn, Toby Sharp und Marion Gövert entwickelt wurde.39

1.2.4.2.1  Systemarchitektur

Das System beruht weitgehend auf der gleichen Architektur wie Twipsy mit einigen geringen Abweichungen. Zum damaligen Zeitpunkt war in erster Linie die fotorealistische Animation des Talking-Heads in LifeFX besonders innovativ. Diese wurde kombiniert mit Kiwilogics Lingubot-Back-End und führte zu einer ← 44 | 45 → gut aufeinander abgestimmten Performanz von Sprachausgabe und Animation. Auf der Kiwilogic-Website war leider nur die englische Text-to-Speech-Version mit diesem Feature ausgestattet. Es muss also davon ausgegangen werden, dass die im Rahmen der Studie untersuchten deutschen Logfiles von Dialogen stammen, die von der zweidimensionalen Version begleitet wurden.

1.2.4.2.2  Dialog-Design

Karlbot parst 2.177 Wortformen und verfügt über 3.610 Antwortstämme (Bausteine für die Antwortgenerierung). Das System agiert zielgerichtet und versucht in erster Linie Informationen über Kiwilogic und den Lingubot-Creator auszugeben. Dabei werden z. T. geskriptete Sequenzen mit vordefinierter Abfolge ausgegeben, doch ist die UserInnen-Führung weniger eng als bei Twipsy. So werden z. B. keine Auswahlmöglichkeiten im Sinne einer Menünavigation aufgezählt. Stattdessen erfolgt die Interaktion in erster Line über Parsing & Prompting. Da der Themenbereich Kiwilogic an sich schon einen vergleichsweise engen Fokus darstellt, wurde ein relativ offenes Dialog-Design versucht. Wenige Default-Antworten und stattdessen mehr Rückfragen sollten Karlbot aufrichtig wirken lassen. Das Dialog-Design verfügt also über ein weniger enges Sicherheitsnetz bei Störungen.

1.2.4.2.3  Avatar und Eingabekanal

Die grafische Darstellung ist dem Aussehen des damaligen, realen Vorstandsvorsitzenden von Kiwilogic, Karl-Ludwig von Wendt, nachempfunden. Als klassischer Talking-Head verfügt Karlbot über keinen Körper. Eine Reihe statischer Fotografien von Wendts dienten als Grundlage für die Animation von verschiedenen Gesichtsausdrücken, sog. Stand-Ins, die in Echtzeit auf die Sprachausgabe der englischen Version abgestimmt wurden. Die Grafik konnte sowohl zweidimensional als auch in 3D aufgerufen werden. Anfang der 2000er Jahre hatte Karlbot gerade auf Grund seiner grafischen Darstellung sehr gute Kritiken (vgl. Proffitt 2002).40

Die Eingabe erfolgte über ein Textfeld unterhalb der animierten Grafik und konnte mit Enter gepostet werden. Die Ausgabe des System-Outputs erfolgte in der deutschsprachigen Version medial schriftlich im Hintergrundfeld. ← 45 | 46 →

Abbildung 5: Chat-Fenster Karlbot

img5

1.2.4.2.4  Persona und situativer Kontext

Trotz der begrenzten Fähigkeiten des Bots wirkt die Persona als virtueller CEO von Kiwilogic überzeugend. Ein angemessenes Maß an Distanz zu seinen UserInnen manifestiert sich in formeller Anrede und gehobenem sprachlichen Stil. Karlbot vermeidet allzu private Themen höflich und erklärt stattdessen die Produkte von Kiwilogic kompetent und verkaufsorientiert.

Auf der Website von Kiwilogic gab es keine FAQs und keine Kontaktdaten der Kundenbetreuung. Stattdessen konnte man in einem separaten Fenster mit Karlbot chatten. Zur regulären Kundenbetreuung wurden KundInnen erst dann weitergeleitet, wenn ein Dialog mit Karlbot scheiterte. Das System entlastete auf diese Art MitarbeiterInnen im Kundendienst und war gleichzeitig eine überzeugende Werbung für die von der Firma vertriebene Lingubot-Technologie.

Auf der Seite von Kiwilogic informierten sich potentielle KundInnen, BewerberInnen oder MitarbeiterInnen von Konkurrenzunternehmen sowie interessierte Laien über Dialogsysteme und die dazugehörige Software. ← 46 | 47 →

1.2.4.3  Max

Der ECA Max wurde an der Universität Bielefeld von der Forschungsgruppe um Prof. Dr. Ipke Wachsmuth und Dr. Stefan Kopp entwickelt41. Architektonisch gilt er als eines der differenziertesten Systeme im deutschsprachigen Raum (vgl. Krämer 2008). Seit 2004 wird Max als virtueller Museumsführer im Heinz-Nixdorf-MuseumsForum (HNF) in Paderborn eingesetzt, wo er Exponate erklärt und gleichzeitig selbst als Exponat in der Ausstellung KI gezeigt wird.42

1.2.4.3.1  Systemarchitektur

Da für den täglichen Einsatz im HNF ein stabiles System benötigt wird, haben sich die Entwickler von Max für eine hybride, planbasierte Architektur entschieden, die die Robustheit von Chatbots mit der Multimodalität von ECAs verbinden soll.43 Pläne können dynamisch der jeweiligen Gesprächssituation angepasst werden. Die basalen ECA-Architekturen (vgl. u. a. Cassell et al. 2000; Churchill et al. 2000) wurden außerdem um zusätzliche kognitive Architekturen ergänzt. Das Dialogsystem steht in Verbindung mit einem System zur Gesichtserkennung, das mittels einer Kamera Besucher im Raum orten kann, und mit einem anthropomorphen Agenten, dessen nonverbales Verhalten auf die Dialogsequenzen in Echtzeit abgestimmt wird. Darüber hinaus verfügt Max über ein System zur Abbildung von Emotionen auf dem Agenten (MURML). Jegliches Verhalten wird dynamisch in Abstimmung auf die Dialogsituation generiert.

Abbildung 6: Rahmenarchitektur Max nach Kopp (2007)44

img6

← 47 | 48 →

Die deliberative Komponente besteht aus einem Interpreter, der die UserInnen-Beiträge parst, einem Dialog-Manager, der auf der Grundlage einer Sprechaktanalyse Dialogschritte plant und einem Antwortmodul, mit dessen Hilfe schablonenbasiert Antworten erstellt werden, die dann über eine Text-to-Speech-Komponente in gesprochene Sprache übertragen werden. Der Dialog-Manager greift auf zwei umfangreiche Wissensbasen zurück: 1. dynamisches Wissen; d. h. Wissen über die Dialogsituation, 2. statisches Wissen; d. h. Datenbanken sowohl zum Dialogverhalten an sich als auch enzyklopädisches Wissen in Form von Informationen über die Exponate.

Abbildung 7: Die deliberative Komponente (Gesellensetter 2004: 56)

img7

← 48 | 49 →

1.2.4.3.1.1  Interpreter (Parser)

Der Interpreter in JAM45 kombiniert regel- und planbasierte Ansätze. An der Oberfläche findet eine Mustererkennung statt – wie bei einfachen Chatbot- Systemen. Erst wenn diese fehlschlägt, hilft die Sprechakterkennung auf der zweiten Ebene den Beitrag zu parsen und eine adäquate Antwort zu finden.

Eine UserInnen-Eingabe wird vom Interpreter nicht allein anhand von Schlüsselwörtern geparst, sondern in eine abstrahierte Zwischenrepräsentation übertragen. Diese wird als hierarchische Repräsentation in DiaML dargestellt und dient der Unterscheidung von unterschiedlichen Sprechakten. So wird z. B. grundsätzlich zwischen propositionalen und interaktionalen Äußerungen unterschieden. Die zweistufige Verarbeitung ist vergleichsweise differenziert und klassifiziert UserInnen-Beiträge z. B. als Verneinung, Zustimmung, Selbstbezug oder Bezug auf das System (vgl. Gesellensetter 2004: 51).

Um den UserInnen-Eingaben Sprechakte zuordnen zu können, werden diese auf sog. Modifier abgebildet, d. h. die Eingaben werden mit einer Reihe von Synonymen abgeglichen, denen bereits ein Sprechakt-Tag zugeordnet wurde (z. B. Begrüßung, Verabschiedung, Verneinung Selbstbezug, Bezug auf das System, Zustimmung, Verneinung, positiv/negativ konnotierte Adjektive).

„hallo“, „hi“ Modifier greeting

„ciao“, „tschüß“, … Modifier farewell

„danke“, „merci“ … Modifier thanks

„danke tschüß!“ Modifier thanks, farewell

(Gesellensetter 2004: 64)

Gesellensetter beschreibt die Vorteile des Sprechakt-Parsings wie folgt: „Wird der Text zusammen mit seiner konversationalen Funktion angegeben, so hat dies verschiedene Vorteile: Interpretationsfehler können ausgeschlossen werden, über die Funktion kann ein Kontextbezug hergestellt werden und auch Phänomene, mit denen sich Interpreter im allgemeinen schwer tun, können angegeben werden (z. B. Ironie)“ (Gesellensetter 2004: 55). Inwiefern dieser hohe Anspruch tatsächlich vom System erfüllt werden kann, zeigt die Evaluation im Rahmen dieser Studie (Kapitel 4).

Um das System robust zu gestalten und Verarbeitung in Echtzeit zu gewährleisten, wird kein Syntax-Parser zur Analyse herangezogen, obwohl dies bei modernen ECAs häufig der Fall ist. Max verfügt über 876 domänenunabhängige ← 49 | 50 → Grundpläne und über 1.200 domänenabhängige Pläne, die Regeln für die Interpretation der Inputs und die Auswahl der Antworten implementieren.

1.2.4.3.1.2  Dialog-Manager

Zwischen Eingabeinterpretation und Antwortgenerierung ist der Dialog-Manager geschaltet. Auf der Grundlage der Sprechaktanalyse des Interpreters bereitet er eine adäquate Reaktion auf die UserInnen-Eingabe vor. Der Dialog-Manager kann als Versuch angesehen werden, einzelne Eingaben in Abhängigkeit vom Kotext zu parsen. Dazu erstellt er parallel zur Interaktion ein Dialogmodell über den Dialogverlauf, ein Systemmodell über aktuelle systemimmanente Repräsentationen und ein BenutzerInnen-Modell anhand von gespeicherten Daten zur Charakterisierung der UserInnen.46

Ein immanentes Systemmodell über das eigene Wissen und die eigenen Ziele des Systems ermöglicht – im Rahmen der Möglichkeiten einer KI – die zielorientierte, aus den o. g. Datenbanken gespeiste Gestaltung von Systembeiträgen. Das BenutzerInnen-Modell wird durch Eckdaten zur UserInnen-Persönlichkeit (A ist 15 Jahre alt, kommt aus Bielefeld und flucht viel) erstellt. Die jeweiligen Modelle werden während jedes laufenden Dialoges aktualisiert. Durch diese Komponenten soll eine kohärente Dialogführung gewährleistet werden (vgl. Gesellensetter 2004: 52). Der Dialog-Manager formuliert den Plan für jede nächste Systemäußerung mit ihrer Funktion im Rahmen der Interaktion und als konkreten Antworttext, dessen einzelne Bausteine zwar schablonenbasiert ausgewählt werden, aber kontextspezifisch kombiniert werden können. Dabei wird auf die Wissensbasen zurückgegriffen. Das statische Wissen umfasst Interpretationswissen, Interaktionswissen, Kontrollwissen, Inhaltswissen (Informationen über Exponate), Dialogepisoden und ein Behavior-Lexikon für die Gestik und Mimik des Avatars. Das dynamische Wissen wird vom Dialog-Manager selbst erstellt und beinhaltet Dialogmodell, Systemmodell, BenutzerInnen-Modell und ein Modell des virtuellen Repräsentationsraums. Das Dialogmodell bildet seinem Anspruch nach sowohl Parameter des Turn-Takings als auch des Groundings und der Dialoghistorie ab. Turn-Taking spielt bei der vollständig medial mündlichen Version von Max mit Spracherkennung eine Rolle und wird durch Gestik und Mimik des Avatars kommuniziert. Bei der Version im Nixdorf-Museum erfolgt die Eingabe über eine Tastatur und wird durch Enter gepostet, so dass ← 50 | 51 → Sprachhandlungskoordination hier eine untergeordnete Rolle spielt. Unter Grounding verstehen die Entwickler von Max die Möglichkeit des Systems, ein basales semantisches Modell von aktuellen und früheren Themen zu erstellen. Die Dialoghistorie speichert Dialogsequenzen mit ihren Metainformationen, um auf frühere Turns zurückgreifen zu können, falls ein UserInnen-Beitrag Bezug auf den vorangegangenen Dialogverlauf nimmt. Die Erkennung von anaphorischen Referenzmarkern und der kohärente Rückbezug stellen aber ein Problem dar. Im nächsten Schritt, der Aktionsplanung, wird der Sprechakt mit adäquaten nonverbalen Behaviors kombiniert, so dass Sprache und Avatar gut aufeinander abgestimmt sind und sich kohärent in die Interaktion fügen. Kombiniert werden beide Konzepte an die Antwortgenerierung weitergeleitet.

Die Antwortgenerierung erfolgt analog zur Interpretation der UserInnen-Eingaben in zwei Schritten: als abstrakte Darstellung der Antwort als Sprechakt im Dialogkontext und als schablonenbasierte Antwortgenerierung mit offenen Slots für kontextsensitive Ergänzungen. Über eine Text-to-Speech-Komponente wird der Antworttext in gesprochene Sprache überführt. Dabei werden Zeigegesten und Mimik mit der Sprachausgabe synchronisiert, so dass z. B. im Satz Da ist die Kamera“ die Zeigegeste zeitlich auf die Ausgabe des Adverbs abgestimmt ist.

Die deliberative Komponente kann durch eine Direktverbindung von Interpreter und Antwortgenerierung auf der Basis einfacher Schlüsselworterkennung umgangen werden, wenn eine Sprechaktanalyse scheitert (Hardwired Reaction).

1.2.4.3.2  Dialog-Design

Max’ UserInnen haben die Möglichkeit durch die Einführung neuer Ziele das System dazu zu bringen, die alten Ziele vorerst zurückzustellen. So kann bei Max im HNF z. B. die Ausgabe von Informationen zu den Exponaten durch Zwischenfragen der UserInnen unterbrochen werden, wenn z. B. ein Small-Talk-Thema angesprochen wird oder UserInnen das System beschimpfen. Kann eine Eingabe nicht interpretiert werden, wird im System das frühere Dialogziel wieder aktiv. So können mehrere Dialogziele latent gesetzt sein.

Unter Einbeziehung der Sprechaktanalyse können Paarsequenzen nach folgendem Schema ausgewählt und mit nonverbalem Verhalten kombiniert werden. ← 51 | 52 →

Abbildung 8: Sprechaktanalyse (Gesellensetter 2004: 59)

img8

Max kann zwischen affirmativen und nicht-affirmativen Antworten auf Bestätigungsfragen unterscheiden unter Rückbezug auf den Dialogkontext. So kann unter bestimmten Bedingungen z. B. auch ein „nein“ affirmativ gebraucht werden.

(1) Max: Du warst aber noch nie hier?

(2) UserIn: Nein, noch nie.

Die Präsentation der Exponate nimmt einen großen Teil der kommunikativen Funktionen von Max ein. Diese sind modular gegliedert; d. h., das Präsentationswissen ist als Skript in einer Baumstruktur angelegt. Jede Präsentation ist in unterschiedliche Blöcke unterteilt und kann Stück für Stück von den BesucherInnen aufgerufen werden (Prinzip der Menünavigation). ← 52 | 53 →

Abbildung 9: Präsentationswissen (Gesellensetter 2004: 68)

img9

Die Umsetzung erfolgt durch gezielte, aber unverfänglich formulierte Nachfragen des Systems, wie z. B. „Möchten Sie mehr über x, y, z erfahren?“, „Soll ich das noch mal zusammenfassen?“. Alle Blöcke, die bereits präsentiert wurden, werden als „geteiltes Wissen“ ins Dialogmodell übertragen.

Da Max von vielen Kindern genutzt wird, wurde bei der Programmierung darauf geachtet, dass man mit ihm auch spielen kann. Indem der Spielmodus (Tiere raten) eingeleitet wird, werden weitere Small-Talk-Sequenzen vermieden – ein eleganter Weg, um UserInnen-Verhalten antizipierbarer werden zu lassen.

Max’ Möglichkeiten zur Interaktion kommen nicht durch die Anzahl der Recognitions und der Antwortstämme zum Ausdruck, sondern liegen in den immensen Kombinationsmöglichkeiten und der kotext- und userInnen-sensitiven Architektur des Dialog-Managers. Allerdings schlägt sich dieses Potenzial leider nicht immer in der konkreten Performanz nieder, da die Sprechakterkennung nur zu 40 % zuverlässig funktioniert und Max im Alltagstest häufig die Hardwired Reaction nutzen muss. ← 53 | 54 →

1.2.4.3.3  Avatar und Eingabekanal

Der Avatar ist anthropomorph und dreidimensional animiert. Er stellt einen jungen Mann mit hellem Haar im violetten Pullover dar. Mimik und Gestik sind differenziert auf die akustische Sprachausgabe abgestimmt. Max wird zwar menschenähnlich abgebildet, die Grafik hat aber eher die Ästhetik älterer Computerspiele. Mit Bezug auf Moris Uncanny-Valley-Hypothese (1982, s. u.) hat man den Avatar bewusst grafisch abstrahierter dargestellt als es möglich gewesen wäre.47 Der anthropomorphe Agent erhält die Aktionspläne vom Dialog-Manager und führt bestimmt auf den Sprach-Output der Text-To-Speech-Komponente abgestimmte Behaviors aus. Außerdem können bestimmte reaktive Verhaltensweisen durch die Perzeption über die Kamera ausgelöst werden. Max folgt z. B. seinen UserInnen mit dem Blick. Die Mimik wird zusätzlich von der Emotionskomponente in MURML48 gesteuert. Ein hohes Maß an Freude und ein niedriges an Langeweile löst die Animation eines Lächelns aus.

1.2.4.3.4  Persona und situativer Kontext

Durch die Subsysteme zur Steuerung der Behaviors und das Emotionssystem MURML wird konsistentes Verhalten generiert, das die soziable Wirkung der Agenten-Persona unterstützt. Auch auf einer Meta-Ebene wurde versucht, die Agenten-Persona zu gestalten. Im Gespräch mit Max erfährt man, dass er Hobbys und Lieblingsfilme hat. Die einzelnen Antwortstämme sind sprachlich allerdings vergleichsweise neutral gestaltet, so dass Max auf der sprachlichen Ebene als konsistente Persönlichkeit nicht ganz ausgestaltet wirkt. Als pädagogischer Agent und virtueller Museumsführer soll er eine gewisse Seriosität ausstrahlen, was die Möglichkeiten zur sprachlichen Ausgestaltung limitiert. Dennoch besteht in diesem Punkt Entwicklungspotenzial und eine individuellere sprachliche Gestaltung der einzelnen Antwortstämme könnte zu einer natürlicheren Wirkung beitragen.

Im Museum hat Max seinen Platz in der Ausstellung KI im ersten Stock in einer engen Nische, in der sich oftmals ganze Schulklassen drängen. ← 54 | 55 →

Abbildung 10: Max im Heinz-Nixdorf-MuseumsForum (HNF)

img10

Um trotz dieser widrigen Umstände eine Interaktion mit dem System in Echtzeit gewährleisten zu können, wurden verschiedene Möglichkeiten der Sprachausgabe kombiniert. Mit Max kann man grundsätzlich sowohl über die Tastatur als auch medial mündlich über Spracherkennung und Sprachausgabe interagieren. Da die Spracherkennung jedoch in der vergleichsweise unruhigen Umgebung des HNF Probleme bereitet, steht in diesem Umfeld die chat-basierte Anwendung zur Verfügung. Bei der bereitgestellten Tastatur handelt es sich um eine robuste Variante für öffentliche Terminals (vgl. z. B. Bankautomaten), die dem entsprechend nicht so sensibel ist, wie gängige Tastaturen für private PCs. Die Eingabe wird durch diesen Umstand teilweise erheblich erschwert. Die Ausgabe erfolgt einerseits in einem Chat-Fenster unterhalb der Grafik medial schriftlich, andererseits zusätzlich über eine akustische Sprachausgabe, so dass die UserInnen Max’ Beiträge gleichzeitig hören und lesen können. Diese Variante hat sich für die spezielle Situation im HNF als praktikabel erwiesen. Inwiefern diese ungewöhnliche Konstellation von Informationskanälen Auswirkungen auf die Interaktion zeigt, bleibt zu überprüfen.

1.2.4.4  Elbot

Elbot ist einer der am aufwändigsten und am charmantesten gestalteten, deutschsprachigen Chatbots. Er wurde von dem Informatiker und Psychologen Fred Roberts für Artificial Solutions entwickelt. Besonders viel Arbeit wurde in die sprachliche Gestaltung der Redebeiträge und gesteckt, da sich Elbots konsistent ausgestaltete Persönlichkeit in seinen Äußerungen zeigt. ← 55 | 56 →

1.2.4.4.1  Systemarchitektur

Elbots Systemarchitektur entspricht größtenteils dem Aufbau der Systeme Twip­sy und Karlbot. Session-Manager und Request-Parser laufen unter einer Web-Engine. Interaktionsregeln weisen einem UserInnen-Input eine Antwort aus der Wissensbasis zu.49

Elbot verfügt darüber hinaus über ein so genanntes Knowledge-Grid, ein semantisches Netz, durch das während des laufenden Analyseprozesses einzelnen Wortformen oder Phrasen semantische Informationen zugewiesen werden können. So werden z. B. Hypo- und Hyperonym-Relationen erkannt. In den meisten Fällen greift Elbot also auf komplexe Regeln zurück, die über eine einfache Schlüsselworterkennung hinausgehen. Sie enthalten eine Sammlung an synonymen Phrasen, die eine bestimmte Bedeutung repräsentieren. Außerdem speichert Elbot Dialoginformationen aus dem Kotext. Gespeicherte Informationen, die eindeutig zugeordnet werden können, beziehen sich bei Elbot allerdings nur auf einige Eckdaten wie Name oder Alter der UserInnen. Komplexere Zusammenhänge können nicht gespeichert und auf Anfrage wieder abgerufen werden. Elbot erstellt keine UserInnen-Modelle im Sinne von artifiziellem Partner- Modeling.

Elbot ist aber in der Lage, einige Sprechakte zu erkennen. Bspw. konnte implementiert werden, dass eine Ja/Nein-Frage des / der UserIn alle möglichen Reaktionen auf zwei eindeutige Antworten restringiert. Die kodierten Interaktionsregeln ermöglichen auch eine basale Erkennung von Topologie. Fokussiert wird allerdings auf Semantik. Auf syntaktische Analysen wird verzichtet.

1.2.4.4.2  Dialog-Design

Elbots Dialog-Design beruht in erster Line auf Parsing & Prompting. Engere Dialogskripte werden kaum verwendet, was den UserInnen eine außergewöhnlich freie Interaktion mit dem Bot ermöglicht.

Jede geparste Wortform kann mit einer Repräsentation des kompletten Flexionsparadigmas abgeglichen werden, so dass z. B. Singular und Plural, Präteritum und Präsens oder Duzen und Siezen erkannt werden. Sofern dann ein passender Systembeitrag vorliegt kann die genaue Formulierung feinabgestimmt ausgewählt werden. In Kombination mit einer automatischen Rechtschreibkorrektur ← 56 | 57 → und einem Algorithmus für Orthographietoleranz, verhelfen diese Funktionen dem System zu einer robusten Performanz. Das Lexikon, auf das Elbot zurückgreift, ist sehr umfangreich und auf den Kommunikationskanal abgestimmt, indem Merkmale der Chat-Kommunikation wie Smileys geparst und ausgegeben werden können.

Durch ständige Evaluation der UserInnen-Beiträge wurde Elbots Dialog-Design über viele Jahre kontinuierlich und systematisch weiterentwickelt. Wenn bestimmte Systembeiträge UserInnen-Antworten evozieren, die vom System nicht adäquat verarbeitet werden können, werden sie von den MitarbeiterInnen ausgetauscht oder umformuliert, so dass das System, ohne dass grundsätzliche Veränderungen an der Architektur vorgenommen wurden, immer besser zu funktionieren scheint (vgl. Roberts 2010). Die Weiterentwicklung erfolgt nicht theoriegeleitet, sondern auf der Grundlage von statistischem Datenmaterial. Logfiles werden Dialog für Dialog oder als Gesamtkorpus analysiert. Ergebnis dieser Strategie ist ein Bot mit einer außergewöhnlichen Vielzahl an vorformulierten möglichen Äußerungen sowie zahlreichen Antwortstämmen. Der deutsche Elbot verfügte zum Zeitpunkt der Datenerhebung über 2.417 Recognitions und 4.593 Antwortstämme.

Elbot kann seine UserInnen in ein Assoziationsspiel verwickeln, im Verlauf dessen die GesprächsteilnehmerInnen einen mit dem Vorgängerturn assoziierten Begriff nennen müssen. Elbot spielt jedoch nicht fair, da er besonders unwahrscheinliche Assoziationen ausgibt.

(1) UserIn: hut

(2) Elbot: leichenschau

(Elbot-Korpus 11977–11982)

Fred Roberts hält paradoxe Systembeiträge für eine fruchtbare Ressource zur Simulation von Intelligenz. Elbot wirkt so besonders spontan und eine verwirrte UserInnen-Reaktion wird antizipierbar. Auf paradoxe Systembeiträge folgen in der Regel Rückfragen seitens der UserInnen. Diese können dann von Elbot adäquat beantwortet werden, so dass über eine längere Sequenz hinweg die Illusion besteht, Elbot interagiere intelligent. Darüber hinaus trägt diese Design-Entscheidung zum anarchischen Charme des Bots bei. Diese Wirkung wird zusätzlich unterstützt durch den außergewöhnlichen Umgang mit Störungen. Wird Elbot bspw. von seinen UserInnen beschimpft, schaltet das System in den sog. ELIZA-Modus und „straft“ diese mit Rückfragen und Paraphrasen. ← 57 | 58 →

1.2.4.4.3  Avatar und Eingabekanal

Elbot wird als Comic-Roboter in einer minimalistischen Umgebung dargestellt. Er verfügt über ein Gesicht mit Augen und Mund sowie über zwei stilisierte Arme, so dass mimischer und gestischer Ausdruck möglich sind. Das Eingabefeld befindet sich unter der Grafik; die Ausgabe wird in einer Sprechblase dargestellt.

Abbildung 11: Elbots Avatar

img11

1.2.4.4.4  Persona und situativer Kontext

Die Elbot-Persona wurde phantasievoll ausgestaltet und stellt sich selbst als Diplom-Humanologe vor, der aus seiner Außenperspektive als Roboter die Menschheit erforscht.50 Elbot verfügt über eine eigene Website, auf der er sich mit seinen Hobbys und Interessen vorstellt. Er liest gern Telefonbücher und sammelt Barcodes von Lebensmittelverpackungen, die man auch auf der Seite bewundern kann. Die Persona ist notorisch schlecht gelaunt, zynisch und etwas herablassend und steht damit in krassem Gegensatz zum Gros der Assistenzsysteme und kommerziellen Bots, die gut gelaunt und kooperativ Produkte anpreisen. Fred Roberts betont die Wichtigkeit der Agenten-Persona, denn er sieht in der Gestaltung von konsistentem Bot-Verhalten das Potenzial, antizipierbarere UserInnen-Reaktionen auszulösen. ← 58 | 59 →

„Some basic ideas of motivation and social psychology are powerful in guiding the user to behave predictably, not to trick them into believing the system is human, but to provide entertaining exchanges. These theories apply in social situations, which is what the chat becomes, if the user enters with high expectations, and these expectations are maintained“ (Roberts 2010).51

1.2.5  Probleme der medial vermittelten Kommunikation

Wie die HHC kann auch die HCI medial unterschiedlich vermittelt sein, wobei verschiedene Medien zu jeweils speziellen Besonderheiten führen. So haben telefonbasierte Agenten z. B. mit Problemen des Turn-Takings zu kämpfen, wenn UserInnen dem System ins Wort fallen (Barge-In), während chat-basierte HCI Merkmale der quasi-synchronen, medial schriftlichen, internetbasierten Kommunikation aufweist (vgl. Schlobinski, Siever, Runkehl 1998)52. HRI hingegen zeigt viele Charakteristika der Face-to-Face-Kommunikation (vgl.Vollmer et al. 2009). UserInnen stellen sich also auf die unterschiedlichen Möglichkeiten ein, die die jeweiligen Medien bieten. Da in dieser Arbeit der Fokus auf chat-basierter HCI liegt, müssen deren sprachliche und konzeptionelle Parameter diskutiert werden. Hierbei ist allerdings anzumerken, dass Menschen nicht über eine Chat-Software Kontakt mit dem Bot aufnehmen, sondern die Bot-Software direkt bedienen. Eingabefelder auf dem Interface sollen an Chat-Software erinnern. Dahinter verbirgt sich aber der Bot. Es handelt sich also auch hierbei um eine Illusion. Die UserInnen interagieren zwar mit dem Bot durch medial schriftliche Texteingabe über eine Schnittstelle, die an ein Chat-Interface erinnert, doch chatten sie nicht im eigentlichen Sinne. Dass im Folgenden trotzdem von chat-basierter HCI gesprochen werden kann, liegt darin begründet, dass die Interaktionssituation auf der Seite der UserInnen wie ein Chat wahrgenommen wird.

Allgemein handelt es sich beim Chat um eine quasi-synchrone Boten-Technologie, d. h., die KommunikationspartnerInnen müssen zeitgleich kommunikationsbereit sein. Für die HCI spielt dieser Umstand aber keine prominente Rolle, da die Bot-Software immer bereit ist, sofern sie nicht gewartet wird oder offline ist. Die Übermittlung erfolgt entweder Keystroke-per-Keystroke oder als einmaliges Posting über Enter. Letzteres kann dazu führen, dass UserInnen längere ← 59 | 60 → Beiträge splitten – ein Problem, mit dem moderne Parser umzugehen lernen müssen.

Mehrparteiendialoge sind prototypisch für Chatrooms und teilweise sind in diesen Interaktionsräumen auch Bots anzutreffen. Bei den untersuchten Dialogen handelt es sich allerdings um 1:1-Chats (Mensch-Bot). Für das Vergleichskorpus (Mensch-Mensch) wurden entsprechend ebenfalls 1:1-Chats ausgewählt.

Klassische Sender-Empfänger-Modelle (Shannon & Weaver 1948) gehen von einem Kanal aus, über den die Transmission der Nachricht erfolgt. Für die technische Seite der HCI ist dieses Modell adäquat, da System und Userin ihre Chat-Beiträge über das WWW versenden.

Abbildung 12: Chat-basierte HHC

img12

Aus psycholinguistischer Perspektive sind einfache Sender-Empfänger-Modelle als Erklärungsmodell für dialogische Kommunikation heute umstritten (vgl. Kapitel 2.3). Daher wird bei der Analyse der Logfiles zu den Chats mit unterschiedlichen Agentensystemen mit dem Begriff Kanal auf das Medium referiert; d. h. auf internetbasierte Chat-Kommunikation mit Bot-Software, wobei unterschiedliche UserInnen verschiedene Endgeräte nutzen. Der sprachliche Kode (Eingabe durch UserIn) und die Programmbefehle werden enkodiert und statt einer Dekodierung erfolgt die Verarbeitung vom System nach dessen Regeln (im einfachsten Fall Schlüsselwort-Parsing, Dialog-Manager, Antwort-Generierung). Der Chatbeitrag des Bots wird dekodiert und ausgegeben. Sofern die Userin anthropomorphe Eigenschaften an das System attribuiert, nimmt sie die Interaktion als eine Art der Gesprächssituation wahr und verarbeitet sie kognitiv gemäß ihrer Erfahrungen mit früheren Gesprächssituationen aus der HHC. Sofern sie in der Vergangenheit bereits Erfahrungen mit der Interaktion mit artifiziellen Agenten oder Robotern gemacht hat, werden diese ihr Dialogverhalten mitbestimmen. Auch bezüglich der Nutzung des Kanals spielen Gewohnheiten und Expertise der UserInnen eine Rolle. Sofern ihnen die Kommunikation über ← 60 | 61 → quasi-synchrone Boten-Technologien bekannt ist, werden UserInnen vielleicht auf die o. g. sprachlichen Mittel einer neuen Schriftlichkeit zurückgreifen, die sich je nach Web-Genre und Funktion herausgebildet haben.

Die Diskrepanz zwischen medialer Schriftlichkeit und konzeptioneller Mündlichkeit bei simultaner Kommunikation in Echtzeit wurde vielfach diskutiert (vgl. u. a. Herring 1996, Runkehl et al. 1998, Beißwenger 2007, An­droutsopoulos 2007). Bestimmte sprachliche Merkmale der internet-basierten Kommunikation wurden als Neubildungen aus Gründen der Sprachökonomie (z. B. Reduktionsformen, Inflektive, Ellipsen, Emoticons) oder als Hinweise auf konzeptionelle Mündlichkeit interpretiert (z. B. Großbuchstaben zur Emphase, Iteration von Buchstaben und Satzzeichen). Ihnen läge seitens der UserInnen der Wunsch nach einer symbolischen Überwindung der kommunikativen Restriktionen durch den Kanal zu Grunde (vgl. Androutsopoulos 2007: 3). Mit Hilfe der besonderen sprachlichen Merkmale der CMC werden funktionale Aspekte der quasi-synchronen Kommunikation strukturell manifest und der kommunikative Raum wird um Aspekte einer neuen Schriftlichkeit erweitert, die Elemente der oralen Kommunikation aufgreift und neu interpretiert.

Werden CMC-Phänomene in der chat-basierten HCI verwendet, sind sie als Kanalphänomene zu bewerten und nicht als typische Indikatoren für die Interaktion mit artifiziellen Agenten. Inwiefern CMC-Phänomene in der chat-basierten HCI überhaupt eine Rolle spielen, wird in Kapitel 4.1 diskutiert. Bei der Implementierung artifizieller Dialogagenten ist beim Dialog-Design allerdings darauf zu achten, dass die jeweiligen Auswirkungen unterschiedlicher Kommunikationskanäle auf die Interaktion miteinbezogen werden; d. h., ein Chatbot sollte mit den gängigen sprachlichen Besonderheiten der Chat-Kommunikation umgehen und bspw. die Zeichenkombination ;-) als zwinkernden Smiley erkennen können, der dem UserInnen-Beitrag eine ironische Konnotation hinzufügt.

Da in der chat-basierten HCI die Eingabe über die Tastatur erfolgt, könnten sich allein durch diesen Umstand Probleme ergeben. Bspw. könnten UserInnen Strategien der physikalischen Ökonomie verfolgen, um weniger tippen zu müssen und die Eingabe zu erleichtern. Inwiefern das Inventar der CMC-Phänomene hier zur Ökonomisierung eingesetzt wird, muss quantitativ überprüft werden. Fest steht jedoch, dass der Parsing-Prozess bei den meisten Systemen erschwert wird, wenn im UserInnen-Input Tippfehler, Ellipsen, Emoticons oder Proformen auftauchen. Inkohärente Systemausgaben sind die Folge. Auf diese reagieren die UserInnen mit speziellen Kompensationsstrategien, die noch schwerer zu parsen sind: Repair durch Umformulierungen, knappe Befehlssprache, Abweichen vom eigentlichen Dialogziel usw. Solche Sequenzen von a) Kanalphänomen im Turn ← 61 | 62 → der Userin, b) Parsing-Problem, c) inkohärentem System-Turn, d) Repair seitens der Userin, e) erneutem Parsing-Problem sind unbedingt zu vermeiden, indem die Erkennung von Kanalphänomenen verbessert wird. Aus diesem Grund ist es notwendig, zur Weiterentwicklung von HCI auch die Besonderheiten der chat-basierten CMC zu analysieren.

In der Forschungsliteratur wird (vor allem quasi-synchrone) CMC häufig als medial schriftlich, aber konzeptionell mündlich charakterisiert (z. B. Storrer 2000, 2001; Dürscheid 2003, 2004; Schlobinski 2005). Dabei wird in der deutschsprachigen Literatur häufig mit dem Modell des Nähe- und Distanz-Sprechens von Koch und Oesterreicher (1985) argumentiert, in dem unterschiedlichen Textsorten ein Kontinuum der von den Interagierenden empfundenen Nähe oder Distanz in den jeweiligen Interaktionssituationen gegenübersteht.53 Vor diesem Hintergrund ist eine reflektierte Analyse von HCI-Dialogen hinsichtlich sprachlicher Indikatoren für Nähe- oder Distanzsprache aufschlussreich und soll grundsätzliche Probleme der Interaktion mit dem virtuellen Gegenüber offenlegen (Kapitel 4.4).

1.2.6  Anthropomorphes Design und soziale Effekte

Eine menschenähnliche Wirkung von Dialogagenten wird erzielt durch anthro­pomorphe Avatare, Embodiment, soziables Verhalten, künstliche Emotionen und das Kreieren einer in sich schlüssigen Agenten-Persona. Damit die Illusion einer natürlichen Gesprächssituation gelingt, ist außerdem die Rezeptionshaltung der UserInnen von besonderer Wichtigkeit. Als moderne Form des künstlichen Menschen scheint der virtuelle Agent eine Vielzahl von kulturell gewachsenen sozialen Reaktionen hervorzurufen (vgl. u. a. Krämer 2008, Gong 2008), die bei der Untersuchung von HCI-Dialogen immer miteinbezogen werden müssen. UserInnen treten mit unterschiedlichen Vorannahmen an das ← 62 | 63 → virtuelle Gegenüber heran und betrachten es entweder als einfaches Werkzeug, als soziablen Gesprächspartner (vgl. Fischer 2006, im Druck) oder teilweise sogar als furchteinflößende Entität zwischen Mensch und Ding. Der japanische Robotiker Masahiro Mori (1982) entdeckte den Effekt, dass Menschen sich vor artifiziellen Entitäten (Robotern, Puppen, Masken) besonders fürchten, wenn diese das menschliche Vorbild nur knapp verfehlen. Bei diesem Grad an Anthro­pomorphisierung erfährt die Akzeptanzkurve der UserInnen einen Knick. Es handelt sich hierbei um den berühmten Uncanny-Valley-Effekt. Die ProbandInnen berichteten, dass sie die nahezu menschlich anmutenden Roboterpuppen im Experiment als unheimlich empfanden (vgl. auch Reichard 1978; Bryant 2003).

1.2.6.1  Anthropomorphes Design und Usability

Obgleich Menschen in den meisten Gesprächssituationen mit einem Dialogagenten genau wissen, dass sie mit einem virtuellen System interagieren, nehmen sie die Agenten-Persona sozial affektiv wahr. Das führt zu verschiedenen sozialen Effekten, die ExpertInnen sich zu Nutze machen, um die Usability einer agenten-gestützen Anwendung zu verbessern. So sollen Embodiment und anthropomorphes Design dazu beitragen, dass die HCI einer natürlichen Gesprächssituation ähnlicher und UserInnen-Verhalten damit antizipierbarer wird in Analogie zu vergleichbaren Settings aus der HHC (vgl. Krämer 2008). Zeller fasst die Vorteile einer anthropomorph verkörperten Schnittstelle zusammen:

  • Höhere Aufmerksamkeit der UserInnen: Dialoge werden nicht einfach abgebrochen.
  • Die Interaktion bekommt qualitativ ein höheres Level als allein textbasierte Interaktion (Walker, Sproull, Subramani 1994).
  • Optimierte Reaktionssteuerung: Reaktionen der UserInnen können bis zu einem gewissen Grad kalkuliert werden anhand von ethnologischen und soziologischen Erkenntnissen (Sproull et al. 1996: 100).

In der Usability-Forschung ist die Wahrnehmung der Systeme durch die UserInnen daher heute die zu untersuchende Größe. Aus diesem Grund werden immer mehr Studien veröffentlicht, die mit soziologischen und psychologischen Methoden versuchen, dem UserInnen-Verhalten auf die Spur zu kommen, um so das benutzerInnen-freundlichste Schnittstellen-Design für eine bestimmte Anwendung zu finden. Gängige Methoden sind Perzeptionsstudien mit Eye-Trackern, UserInnen-Beobachtungen, UserInnen-Interviews und Experimente mit Wizard-of-Oz-Szenarios.54 Linguistische Studien aus dem Bereich der HCI ← 63 | 64 → sind in der Usability-Forschung vergleichsweise selten (Wagner 2002), sollten aber mit weiterer Verbreitung natürlichsprachlicher Interface-Agenten in den kommenden Jahren an Bedeutung gewinnen. Umgekehrt stellt für die HCI-Forschung das Usability-Engineering noch immer den Hintergrund dar. Wichtig sind besonders bei kommerziellen Anwendungen nicht die Finessen eines möglichst natürlichen Dialog-Designs, sondern die einfachen Fragen: Erhalten potentielle BenutzerInnen die Informationen, die sie brauchen und wie effizient arbeitet das System im Hinblick auf ein gesetztes Ziel, z. B. den Verkauf von Möbeln oder die schnelle Navigation auf einem Mobilgerät (Task-Completion-Rate)?

Die Usability-Forschung bewegt sich im Spannungsfeld zwischen ihrem angestrebten Ideal der übergangslosen Symbiose zwischen Mensch und Computer und ihrem tatsächlichen Forschungsgegenstand: Bots, die je nach Anwendungsgebiet und Stand der Technik als virtuelle Assistenten mit Restriktionen oder allenfalls als einfache Werkzeuge begriffen werden können. Für die HCI können demnach die eingangs erwähnten Star-Trek-Dialoge als Ziel angesehen werden – auch in Bezug auf die Usability.

1.3  Restriktionen artifizieller Dialogsysteme und daraus resultierende theoretische Implikationen für die Analyse von HCI-Dialogen

Die Funktionsweise von Chatbots und ECAs wurde in den vorangegangenen Abschnitten in ihren Grundzügen dargestellt. In diesem Abschnitt sollen die Grenzen dieser Technologien aufgezeigt werden und es soll diskutiert werden, ob eine menschenähnliche HCI überhaupt möglich ist. Auch wenn komplexere Systeme wie IBMs Watson (Ferrucci et al. 2010) die unterschiedlichen technischen Möglichkeiten zur maschinellen Dialogverarbeitung (Mustererkennung, klassische KI, statistische Analyse großer Datenmengen und probabilistische Netzwerkmodelle) verbinden und so zu einer wesentlich besseren Dialogperformanz gelangen als einfache Chatbots, so weisen doch alle künstlichen Dialogagenten gleichermaßen im Vergleich zu ihren menschlichen Dialog-PartnerInnen grundsätzliche Restriktionen auf. Diese Restriktionen wurden im Rahmen der Diskussion um KI bereits in den 1970er und 1980er Jahren erörtert und erlangen ← 64 | 65 → derzeit eine neue Aktualität durch innovative Ansätze zur semantischen Verarbeitung großer Datenmengen (Big-Data-Analysis), lernfähige Systeme und die Erkenntnisse der Neurowissenschaften. Vor diesem Hintergrund sollen im Folgenden die Restriktionen der Systeme herausgearbeitet werden – nicht mit dem Ziel, die grundsätzliche Möglichkeit einer menschenähnlichen KI zu diskutieren, sondern um die Rahmenbedingungen der derzeitigen HCI abzustecken. Diese stellen die Folie dar, auf der die im Kontext dieser Studie analysierten Dialoge interpretiert werden müssen. Da es sich bei den untersuchten Korpora um eine Sammlung von Interaktionen zwischen Mensch und Maschine handelt, liegt der Fokus dieser Arbeit auf der Analyse dialogischer Strukturen. Theoretischer Ausgangspunkt für dieses Vorhaben kann nur die HHC sein, da ein linguistisches Dialogmodell der HCI bislang noch nicht vorliegt. Ein solches Modell soll wie bereits erwähnt in dieser Arbeit aus unterschiedlichen theoretischen Ansätzen der Forschung zur HHC abgeleitet werden. Auf diese Weise kann die Seite der UserInnen als Interagierende in der HCI differenziert modelliert werden. Die Seite der Systeme wird von der jeweiligen Systemarchitektur determiniert, die so auf einer abstrakten Ebene in das Modell inkludiert werden muss. Mechanismen der Interaktion zwischen Mensch und Maschine werden mit dieser Zielsetzung in Kapitel 2 für den jeweiligen Untersuchungsbereich als Hypothesen formuliert, in Kapitel 4 an den empirischen Sprachdaten überprüft und in Kapitel 5.1 zu einem Interaktionsmodell der HCI zusammengeführt.

1.3.1  Theoretische Grundprinzipien der menschlichen Kommunikation

Die Kommunikation unter Menschen kann als ein vielschichtiges System verstanden werden, in dem zwei oder mehr Subjekte kommunikative Handlungen vollziehen unter ständiger Bezugnahme auf ein noch komplexeres Verweissystem. Habermas differenziert zwischen unterschiedlichen Ebenen der Interaktion: die Ebene der Verständigungsprozesse, die Ebene des kommunikativen Handelns als Koordination von Handlungsplänen und die Ebene des Hintergrundwissens als Ressource, „aus der die Interaktionsteilnehmer ihre Interpretation speisen“ (Habermas 1993a: 442). Dabei werden geteilte Grundannahmen über die gemeinsame Lebenswelt im Sinne eines Common Sense als selbstverständlich vorausgesetzt (vgl. Habermas 1993a: 449). Habermas betont die Wichtigkeit der ständigen Bezugnahme auf geteiltes Wissen, das konstitutiv für kommunikatives Handeln ist: „Wenn die sozio-, ethno-, und psycholinguistischen Untersuchungen des letzten Jahrzehnts in einem konvergieren, dann ist es die vielfältig demonstrierte Erkenntnis, daß das kollektive Hintergrund- und Kontextwissen von Sprechern ← 65 | 66 → und Hörern die Deutung ihrer expliziten Äußerungen in außerordentlichen Maße determiniert“ (Habermas 1993a: 449). Bereits Searle (1980) arbeitet die Unmöglichkeit von kontextfreien Bedeutungen kommunikativer Äußerungen heraus, die Habermas als „Relativität der wörtlichen Bedeutung eines Ausdrucks“ fasst (Habermas 1993a: 450). „Die Lebenswelt bildet das intuitiv gegenwärtige, insofern vertraute und transparente, zugleich unübersehbare Netz der Präsuppositionen, die erfüllt sein müssen, damit eine aktuelle Äußerung überhaupt sinnvoll ist, d. h. gültig oder ungültig sein kann“ (Habermas 1993b: 199). Die Lebenswelt ist also jederzeit implizit „im kommunikativen Handeln als Kontext präsent“ (Habermas 1993b: 183). Damit folgt bewusste Kommunikation nicht einfach Stimulus-Respons-Mechanismen, sondern kann nur im Kontext der Lebenswelt und der Interaktionssituation interpretiert werden. Als Interaktionsituation bezeichnet Habermas den „durch Themen herausgehobenen, durch Handlungsziele und – pläne artikulierten Ausschnitt aus lebensweltlichen Verweiszusammenhängen“ (Habermas 1993b: 187). Dabei sind die Grenzen dieses Ausschnitts nicht immer klar definiert.

Der Begriff des kommunikativen Handelns gliedert sich in zwei Bereiche: „den teleologischen Aspekt der Verwirklichung von Zwecken (oder der Durchführung eines Handlungsplans) und den kommunikativen Aspekt der Auslegung der Situation und der Erzielung eines Einverständnisses“ (Habermas 1993b: 193). Dabei ist die Durchführung von Handlungsplänen abhängig von ihrer kommunikativen Artikulation innerhalb des Verweissystems.

Das komplexe Verweissystem, mittels dessen die GesprächspartnerInnen Bezug auf Aspekte ihrer Lebenswelt nehmen, versucht Habermas in seinem 3- Welten-Modell zu fassen (1993b: 193). Während der Kommunikation findet ein wechselseitiger Austausch zwischen den Interagierenden statt unter Bezugnahme auf drei dem Anspruch nach systemisch fassbare Welten: die subjektive, die objektive und die soziale Welt. Jede /r GesprächsteilnehmerIn hat dabei Zugriff auf ihre / seine eigene subjektive Welt sowie auf die geteilte objektive und die geteilte soziale Welt. „Sprecher und Hörer verständigen sich aus ihrer gemeinsamen Lebenswelt heraus über etwas in der objektiven, subjektiven oder sozialen Welt“ (Habermas 1993b: 192). Habermas bezeichnet Kommunikation als „kooperativen Deutungsprozess“, in dem sich die GesprächspartnerInnen in der Regel auf alle drei Welten gleichzeitig beziehen. Denn diese bilden ein „Bezugssystem“ und einen „Interpretationsrahmen“ für Äußerungen, der intersubjektiv gültig ist (Habermas 1993b: 189). Damit verfügen die InteraktionsteilnehmerInnen über ein nicht eindeutig definierbares, dynamisches Weltwissen. ← 66 | 67 →

Abbildung 13: 3-Welten-Modell (Habermas 1993b: 193)

img13

Die Annahmen der Interagierenden müssen sich „gemessen am aktuellen Verständigungsbedarf, hinreichend überlappen“ (Habermas 1993b: 185), um eine gemeinsame Ausgangsbasis zu schaffen, auf der die Kommunikation stattfinden kann. Diese gemeinsame Basis wird in der Gesprächsanalyse als Common Ground bezeichnet (vgl. u. a. Stalnaker 1978; Clark & Marshall 1981; Clark 1985, 1996; Heritage 1988). Es handelt sich dabei nicht um eine klar umrissene Menge von Informationen, sondern Common Ground wird im Gespräch zwischen den Interagierenden immer wieder neu ausgehandelt. Wenn von unterschiedlichen Vorannahmen ausgegangen wird, kommt es zu Störungen im Dialog in Form von Missverständnissen und Common Ground muss durch bewusste Strategien herbeigeführt werden. Habermas spricht hier von „Reparaturleistungen“ (Habermas 1993b: 185), international durchgesetzt hat sich der Terminus Repair aus der Konversationsanalyse (Sacks et al. 1992). Um einer Störung entgegenzuwirken, werden bspw. einzelne Selbstverständlichkeiten aus dem Hintergrundwissen aktiviert und explizit thematisiert, sofern sie für die aktuelle Interaktionssituation relevant sind (Habermas 1993b: 189). In störungsfreien Sequenzen werden ← 67 | 68 → Präsuppositionen aus Common Ground und Lebenswelt sowohl von der Sprecherin als auch von der Hörerin direkt inferiert, ohne dass es der expliziten Metakommunikation bedarf.

Sprache und Lebenswelt bedingen einander in ihrer Form gegenseitig, denn die Lebenswelt bildet nicht nur den Hintergrund jeglichen kommunikativen Handelns, sondern die Sprache beeinflusst durch ihre grammatische Form auch unsere Wahrnehmung derselben. Menschen erwerben ihre grundsätzliche kommunikative Handlungsfähigkeit, indem sie in einer Gesellschaft aufwachsen. Dialogische Interaktion mit einem Erwachsenen in Situationen geteilter Aufmerksamkeit kann als das zentrale Vehikel des kindlichen Spracherwerbs angesehen werden (vgl. Tomasello 2002). Ohne Zugriff auf das geteilte und von Kindheit an erworbene Welt- und Handlungswissen, fehlt Aussagen im Dialog der Interpretationsrahmen.

1.3.2  Grundsätzliche Unterschiede einer Theorie der HHC und einer Theorie der HCI

In diesem Kapitel sollen zunächst die Defizite künstlicher Dialogagenten in einer Interaktionssituation nach dem Modell der HHC herausgearbeitet werden, um dann vor diesem Hintergrund einen Vorschlag zur systematischen Beschreibung der HCI als spezieller Form der Interaktion unter restringierenden Rahmenbedingungen zu machen.

1.3.2.1  Kritik an der Möglichkeit einer menschenähnlichen KI

Um logisch kohärente und situativ angemessene Dialoge mit artifiziellen Dialogagenten zu implementieren, bedarf es also mehr als einer Schlüsselwort­erkennung mit Musterabgleich. Die Modellierung einer starken künstlichen Intelligenz, die über semantisches Wissen vor dem Hintergrund eines sozialen Kontexts verfügt und bewusste Entscheidungen treffen kann, ist unerlässlich, um ein menschenähnliches Gegenüber zu schaffen. Das grundsätzliche Problem der KI und damit auch der HCI kumuliert also in der Frage nach der Modellierbarkeit von menschlichem Denken. Wie die menschliche Kognition organisiert ist und welcher Zusammenhang zwischen neuronalen Strukturen und geistigen Repräsentationen besteht, ist aber bis heute nicht hinreichend geklärt (vgl. Searle 2006: 9). Die traditionelle Kritik an der Möglichkeit einer menschenähnlichen KI fokussiert die Probleme eines materialistischen Computerfunktionalismus, der von der Grundannahme ausgeht, Intelligenz sei rein substanziell fassbar und entsprechend künstlich implementierbar (vgl. Searle 2006: 74ff). Der Turing-Test wurde als adäquates Testverfahren für künstliche Intelligenz kritisiert, da ← 68 | 69 → er nur die Performanz und nicht innere Zustände des Systems evaluiert. Damit ist der ihm zu Grunde liegende Ansatz als behavioristisch zu verwerfen (vgl. Searle 2006: 80). Searle stellt sein berühmtes Gedankenexperiment des chinesischen Zimmers dagegen: Ein Mensch, der kein Chinesisch versteht, sitzt in einem Zimmer und hat Zugriff auf ein Regelwerk zur Kombination von chinesischen Schriftzeichen. Er bekommt Karten mit Zeichen, die er nicht versteht, in das Zimmer hineingereicht, kombiniert diese gemäß den ihm vorliegenden Regeln und reicht die fertigen Zeichenkombinationen wieder aus dem Zimmer heraus. Sein „Output“ besteht dank des Regelwerks aus grammatischen Sätzen des Chinesischen und erweckt den Eindruck er beherrsche die Sprache (vgl. Searle 2006: 98ff). Das Gedankenexperiment veranschaulicht, dass Syntax oder formallogische Kombinatorik von Symbolen nicht zu einer Analyse der semantischen Begriffsumfänge führt. Der Verweis eines jeden Symbols auf einen Begriff mit entsprechender Intension wird im Regelwerk zur Kombination chinesischer Schriftzeichen nicht codiert. Searles Kritik trifft Chatbots und Kombinationsregeln der klassischen KI, da hier Symbole ohne semantische Analyse manipuliert werden. Ob innovative automatische semantische Analysen dieses Defizit ausgleichen können, ist fraglich. Intension und Extension eines Begriffs mit allen unterschiedlichen Konnotationen im kommunikativen Gebrauch mit allen sozialen Implikationen präzise und gleichzeitig flexibel in ein Dialogsystem zu implementieren ist extrem schwer. Allenfalls lernfähige Systeme könnten in Zukunft dieser Aufgabe gewachsen sein. Dennoch wäre die von solchen Systemen erworbene Fertigkeit nicht mit menschlicher Sprachkompetenz zu vergleichen, denn menschliche SprecherInnen sind sich ihrer Sprachhandlungen im Kontext der Interaktionssituation bewusst (Self-Modeling, Partner-Modeling, Situation-Modeling, vgl. Johnson-Laird 1983, Sanford & Garrod 1981, Zwaan & Radvansky 1998). Dieses Bewusstsein konnte bis heute im Materiellen nicht nachgewiesen und folglich nicht künstlich erzeugt werden. „Das Argument des chinesischen Zimmers zeigt, daß menschliche Wesen mit zweierlei Dingen konfrontiert sind: erstens mit den wirklichen Symbolen, deren sich der Mensch bewußt ist, während er oder sie denkt, und zweitens mit der Bedeutung, der Interpretation oder dem Sinn, der mit diesen Symbolen verbunden ist“ (Searle 2006: 115). Welche Rolle das Bewusstsein für die menschliche Kognition allgemein und für Prozesse der Sprachverarbeitung im Besonderen spielt, ist nicht hinreichend geklärt. In den folgende Kapiteln sollen sowohl vorbewusste Mechanismen als auch bewusste Prozesse der menschlichen Dialogverarbeitung in die Analyse miteinbezogen werden. Welche Auswirkung das Fehlen eines Bewusstseins auf die Funktionsweise des Bots hat, welche grundsätzlichen Defizite dies nach sich zieht und wie ← 69 | 70 → sich diese Defizite auf die gesamte Interaktion auswirken, soll im Folgenden umrissen werden.

1.3.2.1.1  Die HCI als Interaktionsform mit Restriktionen

Ein Schlüsselproblem für die Studie liegt in der Gegensätzlichkeit der Forschungsgegenstände Mensch (natürliche Sprache, neuronale Kognition, Bewusstsein) und Maschine (natürliche Sprache im Interface, KI als formale Sprache, kein Bewusstsein). Längst nicht alle Phänomene der natürlichen Sprache können in formale Sprache übersetzt werden. Semantische Begriffe sind abhängig vom Weltwissen der SprecherInnen und oftmals individuell oder situativ unterschiedlich konnotiert. Auch strukturell ist der kreative Umgang mit natürlicher Sprache möglich. Pragmatisches Sprachhandeln ist in einen differenzierten Handlungskontext eingebettet, dessen Variablen noch kein System erfassen kann. So sind bspw. sprachliche Phänomene wie Metaphern oder Ironie zum heutigen Zeitpunkt weder zufriedenstellend systematisiert noch erschöpfend in Form eines Datenkorpus’ zusammengetragen, um sie in einem Text automatisch parsen zu können. Aber auch einfachen Aussagen liegt ein Netz an Präsuppositionen (s. o.) zu Grunde, das einem artifiziellen Dialogsystem nicht ohne weiteres implementiert werden kann.

Menschliches Denken funktioniert grundlegend anders als künstliche Intelligenz. Das gilt auch für kognitive und maschinelle Sprachverarbeitung. Grundsätzlich müssten „mentale Zustände […] in verschiedenen Arten von physischen Strukturen multipel realisierbar sein“ (Searle 2006:83). Allerdings gelingt dies in der HCI nicht. Obgleich in der HCI die Illusion einer natürlichen Gesprächssituation unter Menschen geschaffen werden soll, bringen Mensch und KI also sehr unterschiedliche Voraussetzungen für die Interaktion mit. Durch die restringierten Möglichkeiten des Bots und dem Anspruch der UserInnen auf im Mindesten menschenähnliches Dialog-Verhalten ergibt sich ein Spannungsfeld zwischen den neuralgischen Parametern der HCI. Dabei ist das fehlende Bewusstsein der KI die kritische Komponente: Aus diesem Mangel resultieren alle weiteren Res­triktionen seitens des Bots und die Grenzen seiner Interaktionsfähigkeit.

Die Selbstreferenzialität der Systeme wird zwar in der KI ein immer wichtigeres Thema, da bei fortgeschrittenen Systemen darauf geachtet wird, dass der eigene Systemstatus immer mitgerechnet wird. Das System soll sich selbst in Abgrenzung von der Welt „wahrnehmen“. Dies sei z. B. auch ein Kriterium für „Sociability“ (vgl. Zeller 2005: 24). Doch handelt es sich hierbei nur um eine zusätzliche Repräsentation und nicht um das Bewusstsein eines Verstandes. ← 70 | 71 →

Unter der Voraussetzung eines Bewusstseins handeln Menschen autonom, intentional und spontan. Sie erleben sich selbst in Zeit und Raum als identische Entität, die Erfahrungen machen und sich daran erinnern kann (vgl. Searle 2006: 107). Durch ihre gesellschaftliche und kulturelle Entwicklung haben sie Weltwissen erworben, das objektive, subjektive und soziale Anteile hat und in logisch-semantisch organisierter Form vorliegt. Auch wenn EntwicklerInnen von sophistizierten Systemen versuchen, all diese Aspekte menschlicher Kognition und Grundlagen der Sprachkompetenz im artifiziellen Modell abzubilden, können sie ohne ein Bewusstsein als entscheidende Komponente nicht funktionieren.

a) Autonomie

Agenten-Systeme, die planbasiert unter Berücksichtigung eines einprogrammierten Dialogziels agieren, können unter diesen Prämissen (Plan und Ziel) zwar Entscheidungen treffen, sind dabei aber nicht autonom, sondern allenfalls autopoietisch (vgl. Schatter 2011: 15). Das System ist deterministisch, die Dialoge sind (mit einem unterschiedlichen Grad an Flexibilität) vorformuliert. Der Autonomiebegriff ist in der KI-Forschung folglich anders belegt als in der klassischen Philosophie, wenn er auf Agenten-Systeme angewandt wird. Ein System gibt immer nur aus, was seine EntwicklerInnen der Möglichkeit nach implementiert haben. Zwar sind moderne Systeme so komplex und gehen mit so vielen Wahrscheinlichkeiten um, dass es selbst für die KonstrukteurInnen manchmal nicht trivial ist, Systemreaktionen nachzuvollziehen. Es entsteht der Eindruck von Spontaneität, der sich in vermeintlich freien Entscheidungen manifestiert. Doch das scheinbar intelligente Verhalten ist nachvollziehbares Produkt einer zufälligen Kausalkette oder von probabilistischen Entscheidungen, auf die das System festgelegt ist.

Kant begreift die autonome Person auf Grund ihrer Entscheidungsfreiheit als ethisches Subjekt.55 „Person ist dasjenige Subjekt dessen Handlung einer Zurechnung fähig ist“ (Kant MdS VI 223). Der Mensch soll aus Einsicht in die Pflicht gegenüber der Menschheit als Totalität so handeln, dass er nicht dem Gesetz der Vernunft zuwider handelt (vgl. Kategorischer Imperativ). Diesem Gedanken liegt zu Grunde, dass Kant den Menschen als autonom begreift. Diese Autonomie besteht darin, dass ein Mensch über einen freien Willen verfügt und sich frei Ziele setzen kann. Ein Bot hat diese Möglichkeit nicht. Handlungsziele sind im Programm entweder klar definiert oder die Auswahl ist auf einen Algorithmus oder ein probabilistisches Modell festgelegt.
← 71 | 72 →

b) Intentionalität

Intentionalität wird mit Searle (2006: 171ff) verstanden als die allgemeine Gerichtetheit von Aussagen. Dabei geht es nicht um eine Absicht, sondern um eine semantische Relation. Aussagen müssen auf etwas gerichtet sein. Das kann ein empirisches Objekt oder ein Handlungsziel gleichermaßen sein. Das menschliche Bewusstsein ist in der Lage, große Mengen intentionaler Bezüge zu koordinieren. Die Zielorientiertheit von planbasierten Agenten-Systemen ist ohne Autonomie und ein Bewusstsein nicht als Intentionalität zu bezeichnen. Zwar werden Assistenzsysteme z. T. als „goal directed“ (Cassell et al. 2000) beschrieben, da ihr Programm einem vordefinierten Handlungsziel folgt, doch darf diese Funktion nicht mit Intentionalität im philosophischen Sinne gleichgesetzt werden.

c) Spontaneität

Wo Menschen spontan aus Erfahrungen semantische Begriffe ableiten können, sind klassische Dialogagenten auf die ihnen einprogrammierten Begriffsumfänge zurückgeworfen. Bei lernfähigen Systemen, wird versucht, die menschliche Fähigkeit zur spontanen semantischen Kategorisierung von Erfahrungen nachzuahmen, doch funktioniert diese Technologie bislang nur bei sehr basalen Anforderungen.

Die Spontaneität der Begriffe (vgl. Kant KrV B 74, B 93) kann als klassisches Problem der Erkenntnisphilosophie angesehen werden, das bereits in der antiken Philosophie (vgl. Platon Menon) diskutiert wurde. Bis heute können LinguistInnen, PsychologInnen und NeurowissenschaftlerInnen nicht genau erklären, wie Kinder ihre ersten Begriffe erwerben. Konfrontiert mit der ihnen noch unbekannten Wahrnehmung der Welt, muss der kindliche Verstand das ununterschiedene Wahrgenommene ordnen. Nur wenn genügend Erfahrungen gesammelt werden, der richtige Input von den Eltern gegeben wird und der kindliche Verstand die Prädisposition mitbringt, unterscheidende Urteile fällen zu können, schafft es das Kind, erste Gegenstände zu erkennen, indem es sie vom Rest der empirischen Wahrnehmung abgrenzt. In diesem Kontext werden auch die ersten Vokabeln erworben. Doch wie genau dieser Prozess verläuft, ist bis heute nicht vollständig klar. Daher erstaunt es nicht, dass Bots bislang nicht in der Lage sind, mittels ihrer Sensoren unbekannte Gegenstände abzugrenzen und zu benennen. Ihnen stehen immer nur die Kategorien zur Verfügung, die Ihr Programm bereits beinhaltet. Sie bringen viel statisches Wissen mit, können sich aber a) nur rudimentär an den dynamischen Dialog anpassen und b) in dessen Verlauf keine neuen Begriffe erwerben.

d) Identität

Erfahrungen können nur von einem Selbst adäquat verarbeitet werden, das sich als ein und dieselbe zeitliche Entität erlebt (Locke Essay: II, 27, 8). Nur so kann es selbständig auf Erlerntes zurückgreifen. Das Bewusstsein für die zeitliche Identität der Person fasst Kant als transzendentale Einheit der Apperzeption. „Das: Ich denke, muss alle meine Vorstellungen begleiten können; denn sonst würde etwas in mir vorgestellt werden, was gar nicht gedacht werden könnte, welches eben so viel heißt, als die Vorstellung würde entweder unmöglich, oder wenigstens für mich nichts sein. “ (Kant KrV: B 131–132) Im 3. Paralogism der Personalität heißt es: „Was sich der numerischen ← 72 | 73 → Identität seiner selbst in verschiedenen Zeiten bewußt ist, ist so fern eine Person“ (Kant: KrV: A 361). Indem ein Modell des Selbst in einem artifiziellen System mit Zugriff auf gespeicherte Protokolle vergangener Interaktionen angelegt wird, entsteht dadurch aber noch kein sich seiner zeitlichen Identität bewusstes Selbst.

Habermas betont zusätzlich den sozialen Charakter der Identität. Indem menschliche Interagierende „das kulturelle Wissen, aus dem sie schöpfen, durch ihre Verständigungsleistungen hindurch reproduzieren, reproduzieren sie zugleich ihre Zugehörigkeit zu Kollektiven und ihre eigene Identität.“ (Habermas 1993b: 211)

e) Weltwissen

Auf diese Weise kann im Laufe eines langjährigen Lernprozesses Weltwissen in logisch-semantisch kategorisierter Form aufgebaut werden. Auch den modernsten Systemen stehen keine auf diese Weise vernetzten Datenbanken zur Verfügung.

Die Tabelle versucht, die Gegensätze zwischen Mensch und KI im Hinblick auf ihre kognitiven Möglichkeiten und damit auch ihrer Dialogkompetenz zusammenzufassen.

Tabelle 1: Elementare Unterschiede zwischen menschlicher Kognition und KI

MenschSystem
  
AutonomieAutopoiesis
IntentionalitätZielorientiertheit (Goal-Directedness)
SpontaneitätDetermination
Identität der ErfahrungIsolierte Verarbeitungsprozesse
WeltwissenBegrenzte und unstrukturierte Datenbanken

1.3.2.1.2  Person und Persona

Aus diesen grundsätzlichen Unterschieden zwischen Mensch und KI ergibt sich die in der HCI-Forschung übliche begriffliche Unterscheidung zwischen dem Menschen als Person und dem System als Persona.56 Die gesamte Gestaltung einer konsistenten Agenten-Persona unterstützt die Illusion eines menschenähnlichen Gegenübers und evoziert dadurch soziale Wirkungen. Die der Anwendung zu Grunde liegende KI ist dennoch auf die o. g. Restriktionen zurückgeworfen.

Während menschliche Subjekte als Personen besonders durch die Parameter des Bewusstseins, der Autonomie und der daraus resultierenden ethischen Verantwortung definiert sind, zeichnen sich künstliche Personae in erster Linie durch das Fehlen dieser Eigenschaften aus. Auch wenn ihre Avatare ← 73 | 74 → anthropomorph gestaltet sind und ihr Dialog-Design auf eine konsistente Persönlichkeit hinweist, sind heutige Systeme weit davon entfernt, den Status einer Person zugesprochen zu kommen. Denn im Begriff der Person ist die Verantwortung des einzelnen Menschen gegenüber der Menschheit in ihrer Gesamtheit durch Einsicht in eine vernunftgemäße Ethik bereits enthalten. „Handle so, dass du die Menschheit, sowohl in deiner Person, als in der Person eines jeden andern, jederzeit zugleich als Zweck, niemals bloß als Mittel brauchest“ (Kant GMS: BA 66f). Artifizielle Dialogsysteme müssen jedoch als ein solches Mittel verstanden werden, denn laut der Definition der Auslegung der Assistenz-Metapher in der Usability-Forschung sollen sie nichts weiter darstellen als ein intuitiv nutzbares Werkzeug. Spräche man ihnen den Status einer Person zu, wäre dieser Gebrauch ethisch unmöglich. Umgekehrt kommt den Systemen aus den o. g. Gründen die Freiheit nicht zu, sich selbst Handlungsziele zu setzen vor dem Hintergrund des eigenen Weltwissens und der Einsicht in das ethische Gesetz.

Die Grundbedingungen der HCI und der Status des Systems als Werkzeug, das als Persona verkörpert wird, sind damit eindeutig. Ein problematischer Faktor in dieser Konstellation ist allerdings die Rezeptionshaltung der UserInnen, die der Illusion in unterschiedlichem Umfang Glauben schenken. Einige UserInnen fokussieren den Werkzeugcharakter der Anwendungen, während andere dem Dialogsystem spielerisch begegnen. Für manche UserInnen verschwimmt die Grenze zwischen Agenten-Persona als Artefakt und realer Person als AnsprechpartnerIn (vgl. Tewes 2005: 262). Im vorangegangenen Abschnitt wurde gezeigt, dass UserInnen im Dialog vorbewusst soziale Eigenschaften an das System attribuieren und sich entsprechend verhalten. Welchen Ausdruck solche Tendenzen auf der sprachlichen Ebene finden, soll diese Arbeit zeigen.

Welche Konsequenzen die kollektive Behandlung eines Systems als sozialen Akteur für dessen Status als Person hätte, ist bislang nicht geklärt. Bei solchen Diskussionen muss allerdings darauf geachtet werden, dass die Ebene der KI mit ihren Restriktionen, die Ebene der natürlichsprachlichen Performanz und die Ebene der UserInnen-Perzeption nicht vertauscht werden. Denn auch wenn moderne Systeme passagenweise menschenähnlich intelligent wirken, sind sie es im Rahmen der Möglichkeiten ihrer Architektur nicht (vgl. Searles Chinesisches Zimmer). So ist weder das Vorbringen der eigenen Meinung (vgl. Zeller 2005: 25) noch die Verwendung des Personalpronomens der ersten Person in Systembeiträgen (vgl. Wachsmut 2008) ein Anzeichen für ein künstliches Subjekt, das sich seiner selbst bewusst ist, autonom handelt und dem folglich der Status einer Person zugeschrieben werden sollte. Beides steigert sicher die soziale Akzeptanz, jedoch ist der Bot selbstverständlich weder in der Lage, sich auf der Grundlage ← 74 | 75 → von Informationen eine eigene Meinung zu bilden, noch seine eigene Identität zu erleben (vgl. Nagel 1974).

Ob man prognostizieren möchte, dass in ferner Zukunft weit fortgeschrittene Systeme existieren könnten, für die die Bezeichnung als Person adäquat wäre, hängt beim derzeitigen Stand der Forschung mit dem Menschenbild zusammen, das man vertritt. Versteht man z. B. das menschliche Gehirn als rein deterministisches System und das Bewusstsein als dessen Epiphänomen (vgl. z. B. Roth 2001, Kandel 2012), so rückt die Möglichkeit einer menschenähnlichen künstlichen Intelligenz in greifbare Nähe. Die Neurowissenschaften haben die Funktionen des menschlichen Gehirns aber bislang nur zu einem Bruchteil erklärt. Welche kognitiven Prozesse menschlicher Selbstreferenzialität zu Grunde liegen oder wie Spontaneität der Begriffe in Lernprozessen erklärt werden kann, wird zwar diskutiert, ist aber noch nicht hinlänglich erforscht, um daraus Erkenntnisse für eine innovative KI abzuleiten.57

Solange artifizielle Dialogsysteme aber nicht in der Lage sind, aus logisch-semantisch organisiertem Vorwissen inferenzielle Schlüsse abzuleiten und im Hinblick auf gesellschaftliche Zusammenhänge ihre Ziele frei zu wählen, solange sie nur bedingt lernfähig sind und sich ihre Selbstwahrnehmung so sehr von der des Menschen unterscheidet und solange im deterministischen System kein Raum für Spontaneität besteht, solange ist es verfrüht, über ein artifizielles Bewusstsein und über das System als Person oder sozialem Akteur zu diskutieren.

1.3.2.1.3  Kommunikation und Interaktion

Indem der Status als Person für Agenten-Systeme zurückgewiesen wird, folgen Implikationen für eine adäquate Terminologie. Unsere Sprache stellt ein breites Begriffsinventar zur Beschreibung belebter Subjekte als Handelnde zur Verfügung. Für eine unbelebte KI ohne eigenes Bewusstsein, die aber autopoietisch Aktionen auszuführen scheint, fehlt ein adäquates Vokabular. ForscherInnen behelfen sich im aktuellen Diskurs mit Derivationen wie paraintelligent (Schatter 2011: 21) und soziabel (Zeller 2005: 101), durch die die Relation beschrieben werden soll, in der die KI zu menschlicher Intelligenz steht. ← 75 | 76 →

Aus diesem Grund werden Dialoge mit dem virtuellen Gegenüber in dieser Arbeit nicht als Kommunikation oder Konversation bezeichnet, sondern als Interaktion. Bei dieser Unterscheidung steht die Abgrenzung von einem alltagssprachlichen Begriff von Kommunikation unter Menschen im Vordergrund, der die Unterschiede zwischen HCI und HHC betonen soll. Der Begriffsumfang der Interaktion ist hier weiter als der der Kommunikation und kann sogar die Manipulation einer Maschine ohne natürlichsprachliches Interface umfassen. In seiner Grundbedeutung setzt der Begriff der Interaktion allerdings mindestens zwei Handelnde voraus (lat. inter-agere), d. h. unter Bezugnahme auf einen handlungstheoretischen Ansatz kann für ein Dialogsystem nur ein sehr enger Begriff von handeln angesetzt werden.58 Agenten-Systeme sind benannt nach ihrer Funktion, plan-basiert in einem deterministischen System Entscheidungen zu treffen. Darin bestehen ihre Aktionen, die sich von autonomen sozialen AkteurInnen deutlich unterscheiden. Das natürlichsprachliche Interface ist lediglich die Schnittstelle eines binären Programms.59 Insofern ist die HCI nie eine Interaktion unter gleichen InteraktionspartnerInnen (vgl. auch Fischer im Druck). Vielmehr verfügen diese InteraktionspartnerInnen je nach Elaboriertheit des Systems über sehr unterschiedliche Möglichkeiten beim Austausch von Informationen. Obgleich also sowohl HHC als auch HCI zeichenbasiert sind und der Informationsübermittlung dienen, sind die jeweiligen Konstellationen von Interagierenden sehr verschieden.

Vor diesem Hintergrund hat Dreyfus’ Diktum aus dem Jahr 1992, nämlich dass Computer nie eine Konversation führen können würden, bis heute nicht an Gültigkeit verloren. Der Terminus Konversation bezieht sich dabei nicht allein auf ein Oberflächenphänomen, sondern bezieht die unterschiedlichen Voraussetzungen von Mensch und KI mit ein (vgl. auch Button 1990; Button und Sharrock 1995). KI und menschliche Kognition basieren auf sehr unterschiedlichen Strukturen, verfügen über unterschiedliche Funktionen und haben ← 76 | 77 → unterschiedliche Restriktionen (s. o.). Genau in dieser Dichotomie liegt das grundsätzliche Problem der HCI. Zusätzlich weichen die situativen Kontexte, in denen HCI stattfindet, von denen der HHC ab.

Zeller schlägt den Begriff der mutualen Dialogfähigkeit als präzisere Bezeichnung der Möglichkeiten des Systems vor und als Ausweg aus dem Dilemma „Kommunikation vs. Interaktion“ (Zeller 2005: 44). Obwohl diese Formulierung die Begriffe der Kommunikation und Interaktion vermeidet, bezieht sich der Begriff der Fähigkeit gleichermaßen implizit auf ein bewusst handelndes Subjekt und mutual betont eine Form des wechselseitigen Austauschs, die in der HCI nur sehr bedingt möglich ist. Das Prinzip der Intersubjektivität60, das konstitiutiv für die Kommunikation unter Menschen ist, kann auf die HCI nicht übertragen werden. Daraus folgt, dass dynamische Aushandlungsprozesse zur Etablierung von Common Ground (vgl. u. a. Giddens 1984) in der HCI nicht oder nur sehr bedingt stattfinden können. Menschliche GesprächspartnerInnen können bspw. im Dialog implizit vereinbaren, mit welchem Wort oder mit welcher Phrase sie auf einen bestimmten Gegenstand oder Sachverhalt referieren wollen, indem bestimmte Formulierungen eingeführt, übernommen und etabliert werden, ohne dass es eines Metadialogs bedarf (vgl. Pickering & Garrod 2004). Systeme für solche interaktiven Funktionen sensibel zu machen, ist nicht trivial.

Problematisch an der Interaktionssituation HCI ist allerdings, dass sie als interaktiv designt wurde61, um ein der HHC vergleichbares Szenario zu simulieren, und von den NutzerInnen z. T. als sozial wahrgenommen wird. So provoziert natürlichsprachliche HCI einen Konflikt zwischen der objektiven Manipulation einer Maschine und der subjektiven Wahrnehmung der UserInnen. Je gelungener die Illusion ist, desto weniger bewusst wird dieser Konflikt wahrgenommen. Einen Ausweg aus dieser paradoxen Situation stellen Dialog-Designs dar, die nicht das Ziel verfolgen, menschliche Kommunikation täuschend echt zu simulieren, sondern vielmehr versuchen, die besonderen interaktiven Möglichkeiten eines artifiziellen Systems auf die Funktion der jeweiligen Anwendung abzustimmen und dabei das Potenzial des Systems auszunutzen. Wenn also über die sprachliche Interaktion hinaus für eine Anwendung z. B. Grafiken oder Desktop-Icons eine Rolle spielen, können diese zusätzlich miteingebunden werden. Wenn ← 77 | 78 → Sounds oder eine Animation der besseren Usability der Anwendung zuträglich sind, wird ein Teil der Systemsteuerung auf diese Weise abgewickelt. Die Interaktion bekommt auf diese Art und Weise einen multimodalen Charakter, der eine neue Form der Dialogizität markiert.

Der Begriff Dialog verweist in seiner Grundbedeutung lediglich auf den Austausch von Wörtern und ist daher offen genug, um gleichermaßen auf HHC und HCI angewandt zu werden. Die Interpretation des Begriffs Dialog als Interaktion mit einer Maschine hat bereits Eingang in die Wörterbücher gefunden. Das Merriam-Webster-Dictionary definiert dialogue u. a. für den gesprochenen interpersonellen Austausch als „a conversation between two or more persons“ und als „a similar exchange between a person and something else (as a computer)“62. Für das Deutsche finden sich ähnliche Definitionen zum Stichwort Dialog im Duden: „wechselseitige Kommunikation, Austausch von Fragen und Antworten zwischen Mensch und Datenverarbeitungsanlage über Tastatur und Terminal.“63 Der metaphorische Gebrauch des Begriffs Dialog ist also bereits konventionalisiert. Analog dazu soll der Begriff der Interaktion in dieser Arbeit verwendet werden, um auf den Prozess der Ein- und Ausgabe von natürlichsprachlich kodierten Informationen innerhalb der Dialog-Metapher zu verweisen.

1.3.2.2  Die HCI als systematisch erfassbare Interaktionssituation

Im folgenden Abschnitt soll ein erster Versuch unternommen werden, die Interaktionssituation HCI hinsichtlich ihrer Grundbedingungen systematisch zu beschreiben. Dabei wird ein systemtheoretischer Ansatz konstruktivistischen Ansätzen zur Beschreibung von Kommunikation in der HHC vorgezogen. Systemtheoretisch betrachtet wird in dieser Arbeit also von zwei sehr unterschiedlichen Teilsystemen ausgegangen:

  • einem menschlichen Wesen, das sich seiner selbst bewusst ist, als vernunftbegabt und frei begriffen wird und auf ein durch soziales Lernen erworbenes semantisches Wissen zurückgreifen kann. Die kognitive Verarbeitung von Dialogen hat zwar vorbewusste Anteile, liegt aber zu großen Teilen als höhere, bewusste Kognition vor (vgl. Searle 2006).
  • einem mechanistischen System, das sich seiner selbst nicht bewusst ist, ausschließlich deterministischen Regeln folgt und nur sehr begrenzt auf semantisches Wissen zurückgreifen kann. ← 78 | 79 →

Menschen sind auf ihre subjektive Wahrnehmung der Welt angewiesen, interagieren aber in der HCI mit objektiv erfassbaren Maschinen. Ein konstruktivistisches Verständnis von Interaktion als intersubjektivem Aushandlungsprozess zwischen zwei vollständig auf die jeweils individuelle Konstruktion einer Wirklichkeit zurückgeworfenen Subjekten, wird für die Analyse von HCI als im Kern problematisch zurückgewiesen. Menschliche GesprächspartnerInnen nehmen die Welt über ihre Sinne zwar unterschiedlich wahr, haben unterschiedliche Perspektiven auf eine Situation, bringen unterschiedliches Wissen und ihre jeweiligen Erfahrungen mit, sind sich aber trotzdem ähnlich genug, um sich untereinander verständigen zu können. Aushandlungsprozesse sind zwar für Dialoge konstitutiv, um eine gemeinsame Sicht der Dinge zu etablieren, sie wären aber nicht zielführend, wenn die kognitiven Möglichkeiten der GesprächspartnerInnen in ihrer logischen und systematischen Struktur grundverschieden wären. Dass überhaupt eine Verständigung über die sinnlich unterschiedlich perzipierte Wirklichkeit möglich ist, basiert auf der Grundlage, dass Menschen – unabhängig von individuellen Unterschieden in Wahrnehmung und Weltwissen – Einsicht in die basalen Gesetze der Logik haben. Darunter fallen einfache logische Operationen wie das Unterscheiden per se (vgl. Hegel WdL II: 64f), das Kategorisieren von Begriffen und Objekten (vgl. Aristoteles Organon), ein grundsätzliches Verständnis für die semiotische Relation zwischen Begriff und Objekt (vgl. Peirce 1977) sowie das Erkennen von Analogien und das inferentielle Schließen (Aristoteles NE: 1131ff, Metaphysik: 1003a 32ff. Topik I: 1 100a25–27). Unter der Prämisse einer radikal konstruktivistischen Wahrnehmung fehlt die Einsicht in abstrakte Gesetze der Naturkausalität und der logischen Operationen. Menschen sind zwar empirisch auf die individuelle Wahrnehmung angewiesen, können aber mittels ihres Verstandes auf logische Operationen zurückgreifen. Aushandelbar sind konkrete Begriffsumfänge und Inhalte von logischen Operationen. Die basale Struktur einer für alle einsehbaren Logik, nach der die Welt strukturiert ist, muss dagegen notwendig angenommen werden. Ansonsten wäre die Verständigung zwischen Menschen nicht möglich und jede/r wäre auf die eigene Wahrnehmung zurückgeworfen. Allgemeine Aussagen wären nicht mehr möglich und Wissenschaft wäre obsolet. Besonders problematisch werden radikal konstruktivistische Interaktionsmodelle dann, wenn eine/r der Interagierenden ein deterministisches System ist, das als Maschine ohne Bewusstsein gar keinen Zugriff auf eine subjektive Welt hat, nach formallogischen und syntaktischen Regeln funktioniert und semantische Repräsentationen nur schwer verarbeiten kann. Menschen dagegen sind in der Lage, zwischen subjektiver, objektiver und sozialer Welt zu differenzieren. So spielen auf der Ebene ← 79 | 80 → der subjektiven Einschätzungen bspw. Annahmen des Menschen über den Bot eine wichtige Rolle in der HCI. Verschiedene UserInnen attribuieren u. U. ganz unterschiedliche Eigenschaften an ein und dasselbe System. Diese individuellen Unterschiede beziehen sich auf bestimmte Begriffsumfänge, nicht aber auf die logische Form der Attribuierung per se. So werden einem System zwar bisweilen unterschiedliche Eigenschaften zugesprochen, aber die logische Struktur dieser kognitiven Leistung bleibt vergleichbar. Ohne die Einsicht in die Gesetze der Logik wäre also weder die Manipulation noch die Programmierung eines Systems als Objekt der Außenwelt möglich. Die Manipulation wird vom Individuum jedoch in den meisten Fällen als Interaktion wahrgenommen. Was dieser Umstand im Detail für die HCI bedeutet, wird im Verlauf der Studie gezeigt.

NutzerInnen sollen im Folgenden mit Kant als Personen betrachtet werden, die einerseits logikgeleitet agieren und zusätzlich Affekte besitzen, die diese logischen Operationen durchkreuzen können. Ihr Denken folgt entweder Assoziationen oder zieht logische Schlüsse. Dabei ist der Mensch lernfähig und wird in seinem Denken und Handeln von sehr vielen, nicht immer eindeutig nachvollziehbaren äußeren Variablen beeinflusst. Die Verarbeitung natürlicher Sprachdaten erfolgt elektrophysiologisch, teilweise bewusst, teilweise vorbewusst, u. U. repräsentiert in natürlicher Sprache nach logischen Gesetzmäßigkeiten, aber nicht formalsprachlich wie derzeit in den meisten Computern. Gerade in Bezug auf sprachliche Interaktion, ist es heute wichtig, genau zu differenzieren, welche Sprachhandlungen intentional, geplant und bewusst eingeleitet werden und welche u. U. auf vorbewusste Mechanismen zurückzuführen sind. D. h., auch wenn einige Bereiche der menschlichen kognitiven Sprachverarbeitung automatisierte Abläufe darstellen, so wird höhere Kognition, ohne die Sprachfähigkeit nicht möglich wäre, gesteuert von einem Ich, das seine Ziele frei definiert und spontan ändern kann. Intentionalität, nämlich Ziele selbst definieren zu können, und Spontaneität, nämlich eigenständig und ohne Fremdmotivation Ziele zu verändern, werden in dieser Arbeit als kognitive Leistungen des Menschen angesehen, die ihn eindeutig auch von den besten Systemen unterscheiden. Menschen haben also Einsicht in logische Operationen und ihr Denken folgt logischen Gesetzen, ohne aber rein deterministisch zu funktionieren. Durch äußere Anstöße wird die Struktur der kognitiven Datenverarbeitung verändert – sowohl auf der Ebene der Physis (Konnektionen von Synapsen) als auch auf der Ebene der logischen Operationen (Informationszuwachs durch Schlussfolgerungen und Lernen). Die Variablen determinieren das Verhalten aber nur teilweise. Der Mensch muss als offenes sinnverarbeitendes System (vgl. Luhmann 1984) begriffen werden, das sich seiner selbst bewusst und nur in bestimmten Bereichen deterministisch ist. ← 80 | 81 → „Offene Systeme tauschen mit ihrer Umwelt Energie, Materie und gegebenenfalls Informationen aus. Geschlossene Systeme dagegen sind von ihrer Umwelt isoliert“ (Steinbacher, Krohn, Küppers 1999: 1584). Ein Bot soll als semiotisches System (vgl. Luhmann) definiert werden, das seinen Funktionen nach prototypisch in sich geschlossen ist. Allerdings versuchen EntwicklerInnen heute, solche Systeme zu öffnen, indem externe Daten über Kameras, Sensoren oder Spracheingabe einbezogen werden. Solange die Verarbeitung externer Daten jedoch keine Veränderung der Verarbeitungsroutinen selbst nach sich zieht, ist das System nicht im engeren Sinne als offen zu betrachten. Intern erfolgt die Verarbeitung natürlicher Sprachdaten aber deterministisch in Form von formalen Regeln in Programmiersprache durch den Abgleich externer Sprachdaten mit internen Lexika oder sophistizierten Datenbanken zur Erkennung von strukturellen Mustern oder semantischen Relationen.

Auf der Ebene der systemtheoretischen Grundlegung bedeutet das, dass HCI als komplexes Gesamtsystem begriffen werden muss. Dabei ist der Mensch als offenes System und der Bot als geschlossenes System mit Ausgabefunktion zu verstehen. Das Gesamtsystem wird beeinflusst durch die Lebenswelt im Sinne Habermas’, die in Form von intersubjektivem Hintergrundwissen als Interpretationsressource diskursiver Verständigung definiert ist. „Das Alltagswissen der Gesprächspartner bezieht sich auf eine von allen als gültig akzeptierte und im konkreten Interaktionsgeschehen immer wieder konsolidierte Alltagswirklichkeit einer bestimmten Ethnie. […] Diese oberste Wirklichkeit „par excellence“, auf die sich letztlich alle beziehen (können), ist die Wirklichkeit der Alltagswelt“ (Brinker & Sager 1989: 129).

Dieses Weltwissen hat wie bereits erwähnt objektive und intersubjektiv geteilte Anteile. Objektivität gilt in Bezug auf die Naturgesetze und die ihnen inhärenten Kausalitäten sowie in Bezug auf die Gesetze der Logik selbst. Prozesse, die logisch erklärt werden können, sind auch objektiv fassbar. Intersubjektivität besteht zwischen Menschen, die zwar Einsicht in die objektive Welt haben, aber aufgrund ihrer individuellen Wahrnehmung unterschiedliche Perspektiven entwickeln. Diese müssen im Dialog intersubjektiv ausgetauscht werden. Dazu ist es wichtig, eine Vorstellung von der eigenen Perspektive und der des Gegenübers zu haben. Im sog. Self- und Partner-Modeling (Johnson-Laird 1983; Sanford & Garrod 1981; Zwaan & Radvansky 1998) besteht eine der großen Herausforderungen der KI. Der Bot funktioniert nach objektiven Regeln, aber durch die Attribuierung anthropomorpher Eigenschaften kann er von seinen UserInnen als Subjekt in der Interaktion eingestuft werden. Was folgt, ist eine Quasi-Intersubjektivität. ← 81 | 82 →

Thematisch-kontextuelles Hintergrundwissen ist unerlässlich, um Äußerungen in einen kohärenten Bezug zueinander und zur Außenwelt zu setzen. Neben enzyklopädischem Wissen werden prozedurales Wissen und konzeptionelle Deutungsmuster als konstitutiv angenommen (vgl. Linke et al. 2004: 225ff). Das Weltwissen stellt eine Ressource für semantische Begriffe dar. Um diese zu verarbeiten, müssen die den Menschen gemeinsamen Parameter des logischen Denkens als Operatoren zu Verfügung stehen. Hinzu kommen Perzeptionen in Zeit und Raum, die ihrerseits kognitiv verarbeitet werden müssen. Ein Begriff von temporaler und lokaler Relation muss also vorhanden sein.

Zugang zum Weltwissen haben allein die menschlichen Interagierenden. Bots greifen nur sehr eingeschränkt auf Interpretationsressourcen in Form von Wissensrepräsentationen zurück. In der KI werden Versuche unternommen, dieses Defizit zu kompensieren durch komplexe Ontologien, webbasierte Parser oder durch lernfähige Systeme mit probabilistischen Netzwerkmodellen, die lange auf soziale Interaktion trainiert werden. Bislang sind diese Versuche aber wenig erfolgreich, so dass dem Bot keine Wissensgrundlage zur Verfügung steht, aus der geteiltes Wissen per Partner-Modeling abgeleitet oder intersubjektiv ausgehandelt werden kann. Von einem intersubjektiven Hintergrundwissen (Habermas 1993a: 442) oder Common Ground (vgl. u. a. Stalnaker 1978; Clark & Marshall 1981; Clark 1985, 1996; Heritage 1988) kann man mit Bezug auf die Dyade Mensch-Maschine also nicht sprechen. Da dem Bot der Status eines Subjekts nicht zugesprochen werden kann, ist auch der Begriff der Dyade für die HCI problematisch. Je nach Grad der Akzeptanz des Bots durch die UserInnen kann man allenfalls davon sprechen, dass Userin A oder User B die Situation als dyadisch begreift. So kommt dem Bot eine schwer zu definierende Rolle zwischen Gerät und GesprächspartnerIn zu, da Alltagskommunikation in der HCI simuliert wird und auf diese Art habituierte Verhaltensweisen seitens der UserInnen ausgelöst werden (sollen).

Was einen artifiziellen Agenten als Agens einer Sprachhandlung auszeichnen soll, ist in der HCI definiert als „eigenständige, und damit intelligente Problemlösungskompetenz“ (Schatter 2011: 15). Schatter folgert aus diesem Anspruch der EntwicklerInnen von zielorientierten Systemen: „Damit ist die Rolle von Agenten in der Informationstechnik mit der Funktion von Akteuren in der Sozialwissenschaft vergleichbar“ (Schatter 2011: 15). Doch fallen die modernen Systeme weit hinter diesen Anspruch zurück. Hier hilft Habermas‘ Unterscheidung zwischen kommunikativem Handeln und strategischem, erfolgsorientiertem Handeln (s. o.). Während zielorientierte, planbasierte Dialogagenten zu erfolgsorientierten Sprachhandlungen in der Lage sind, können sie auf Grund ihrer Restriktionen ← 82 | 83 → nicht kommunikativ handeln im Sinne sozialer AkteurInnen. „Kommunikatives Handeln [nach Habermas] dient unmittelbar der gemeinsamen Situationsdeutung und der Einigung über gemeinsame Handlungsziele […]“ (Dietz 1999: 1577). Doch wird der Bot nicht als intentional verstanden, kann dieses „Aushandeln“ von Handlungszielen und Strategien nicht wechselseitig erfolgen. Moderne Systeme können u. U. über einige Dialogsequenzen die Illusion schaffen, dass Ziele, Strategien und auch Begriffe ausgehandelt würden, intentionales Handeln im engeren Sinne jedoch ist Dialogagenten nicht möglich. Intendierte Handlungsziele sozialer AkteurInnen können in der HCI entsprechend nicht gleichberechtigt ausgehandelt werden, aber HCI produziert als Gesamtsystem funktionale Handlungseffekte eines menschlichen sozialen Akteurs unter Zuhilfenahme eines soziablen Bots.

Ein formales Verständnis des Gesamtsystems HCI wäre eine hilfreiche Grundlage für die Implementierung innovativer Systeme, doch ist die Formalisierbarkeit menschlicher Handlungen und natürlicher Sprache nur sehr eingeschränkt möglich. Auch wäre theoretisch die Formalisierung der Lebenswelt als Totalität nötig, um die entsprechenden Bedingungen zu schaffen. Bereits Leibniz schickte sich an, die komplette Philosophie mit Hilfe einer universalen Formalsprache auszudrücken (vgl.: characteristica universalis). Doch Kant kommentiert diese Bemühungen insofern, dass Philosophie auf nicht formalisierte Sprache angewiesen und aus prinzipiellen Gründen nicht formalisierbar sei, auch wenn man weder dem Relativismus verfallen, noch den Systemgedanken preisgeben wolle (vgl. Klein 1999: 1582). „Es ist gleich tödlich für den Geist ein System zu haben und keins zu haben. Er wird sich also wohl entschließen müssen, beides zu verbinden“ (Kant K.r.V.). Ein systemtheoretisches Verständnis der HCI kann also immer nur eine Hilfsvorstellung sein, die sich auf den engen Gegenstandsbereich einer konkreten Dialogsituation bezieht. Zahlreiche Variablen, die das NutzerInnen-Verhalten beeinflussen, offenbaren die Durchlässigkeit des Systems und machen eine umfassende Formalisierung unmöglich. So liegt auch „bisher […] eine strikte Durchformulierung einer allgemeinen empirischen Systemtheorie weder für die Naturwissenschaften noch für die Sozialwissenschaften vor“ (Steinbacher, Kohn, Küppers 1999: 1586). Vielmehr existieren unterschiedliche Systemmodelle, die von den Gegebenheiten unterschiedlicher Gegenstandsbereiche bestimmt werden. Für die HCI soll in diesem Sinne ein Modell definiert werden, das Systemcharakter hat für Dialoge zwischen Mensch und Maschine in Abhängigkeit von den hier dargestellten restringierenden Variablen (vgl. Kapitel 5.1). ← 83 | 84 →


9 www.masswerk.at/elizabot/ (Zugriff 12.06.2016).

10 alice.pandorabots.com/ (Zugriff 12.06.2016).

11 www.cleverbot.com/ (Zugriff 12.06.2016).

12 www.chatbots.org/embodied_conversational_interface_agent/(Zugriff 12.06.2016).

13 www.apple.com/de/ios/siri/ (Zugriff 12.06.2016).

14 www.ibm.com/smarterplanet/us/en/ibmwatson/ (Zugriff 12.06.2016).

15 interaktive Spiele im Internet, z. B. World of Warcraft.

16 adler.bundestag.de/ (Zugriff 12.06.2016).

17 www.square-bear.co.uk/mitsuku/chat.htm (Zugriff 12.06.2016).

18 Unter den Termini „Schnittstelle“ oder „Interface“ verstehen wir die Benutzeroberfläche, über die UserInnen den Computer bedienen. Dabei wird der Begriff „Human-Computer-Interface“ allgemein verwendet, während man mit dem gleichbedeutenden, aber anders konnotierten Begriff „Front-End“ implizit Bezug nimmt auf das „Back-End“ als Schnittstelle zwischen Hardware und Software, die den UserInnen nicht zugänglich ist.

19 Der Terminus Assistenzsystem fokussiert die Funktion der Systeme und wird vor allem im Bereich der Usability-Forschung verwendet.

20 Es wird unterschieden zwischen starker KI, deren Zielsetzung autonom denkende Maschinen sind, und schwacher KI, die sich mit allgemeinen Problemlösestrategien beschäftigt.

21 Vgl. z. B. „AI – Künstliche Intelligenz für den eigenen Heim PC“, Nautilus-Magazin 13, 2001.

22 Dabei handelt es sich nicht um ein klassisches KI-Kalkül zur Darstellung logischer Sachverhalte wie z. B. die aussagenstarke, aber rechenintensive Prädikatenlogik PIF oder einfache Fakten Regel Systeme (EFRS). In der Regel sind Bots nicht in deklarativen Programmiersprachen wie Prolog geschrieben, sondern in funktionalen wie AIML, C++ oder Java.

23 Alternativ werden die Begriffe Recognition und Answer verwendet (vgl. Artificial Solutions).

24 Ob die alternierende Generierung mittels Synonymen sinnvoll ist, wird in Kapitel 4 diskutiert.

25 Skript KI, TU Graz, www.iicm.tugraz.at/greif/node5.html (Zugriff 03.10.2015).

26 Der Begriff der Autonomie der selbstbestimmt handelnden Entität wird hier anders verstanden als in der philosophischen Tradition (s. Kapitel 1.3).

27 In der indischen Mythologie versteht man unter einem Avatar die körperliche Repräsentation eines Gottes auf Erden.

28 Diese Bezeichnung wiederum geht zurück auf die Masken im klassischen griechischen Theater.

29 Einige Bots haben eigene Blogs oder Websites, wo sie sich als virtuelle Personae präsentieren. Dort finden sich z. B. Charakteristiken und fiktive Lebensläufe. Man schreibt den Personae Hobbys und Interessen zu, die weit über ihren eigentlichen Anwendungsbereich hinausgehen. So belegt der Chatbot Eve der Firma Yellow Strom, der im Kundendienst eingesetzt wird, laut Charakteristik im WWW privat Tanzkurse, kocht gern und hat einen Freund.

30 ECA ist der gebräuchlichste Terminus im anglophonen Sprachraum innerhalb der wissenschaftlichen Community. Im Deutschen findet man auch statt ECA oft anthropomorpher Interface Agent.

31 Der ECA kann auch als Tier oder Comicfigur verkörpert sein, sogar als Pflanze mit Gesicht (vgl. z. B. Cheeok et al. Metazoa ludens). http://metazoaludens.wikidot.com/ (Zugriff 03.10.2015).

32 Kiwilogic war die Vorgängerfirma von Artificial Solutions.

33 D. h. sowohl das System als auch seine UserInnen können Dialoge eröffnen und initiativ neue Themen ansprechen.

34 Die Firma stellt eine eigene Software zur Programmierung der Bots zur Verfügung. Diese wurde in C++ programmiert, genauso wie die Web-Engine-Anwendungen zum Parsen der UserInnen-Beiträge und zur Auswahl von Antworten aus der Wissensbasis in Echtzeit.

35 www.expo2000.de (nicht mehr aktiv).

36 Sowohl eine deutsche als auch eine englische Version waren während der Expo online. Für die Untersuchung wurden jedoch nur Gesprächsdaten der deutschen Version ausgewertet.

37 http://192.168.100.3/scripts/twipsy/twipsy.dll (Kiwilogic Archiv).

38 www.expo2000.de (heute Exposeum, Zugriff 12.06.2016).

39 Von Karlbot lag sowohl eine deutsche als auch eine englische, chat-basierte Version vor. Darüber hinaus existierte auch ein Voice-Interface. Die Sprachdaten, die in die Untersuchung miteinbezogen wurden, entstammen der deutschen, chat-basierten Version ohne Voice-Interface.

40 www.botspot.com (Zugriff 2002).

41 SFB 673, Alignment in Communication.

42 Offiziell eingeweiht wurde das System am 17. Januar 2004 mit Eröffnung der Ausstellung KI.

43 Ein vergleichbares System gibt es englischer Sprache am MIT (REA, Cassell et al. 2002).

44 Vortragspräsentation an der Leibniz Universität Hannover.

45 Java-kompatible Sprache für BDI-Architekturen (Belief, Desire, Intention, vgl. Rao & Georgeff 1991), die leicht in XML-Formate übersetzt werden kann.

46 Beim vorliegenden Dialogmodell handelt es sich um eine vereinfachte Form des Mehr-Schichten-Modells für multimodale Dialoge (nach Traum & Rickel 2002).

47 vgl. Kopp, Vortrag NEN, Hanse-Wissenschaftskolleg, Delmenhorst, Februar 2007.

48 Multimodal Utterance Representation Markup Language for Conversational Agents.

49 Die im Rahmen der Studie untersuchte Elbot-Version wurde wie Twipsy und Karlbot mit dem Lingubot-Creator in C++ geschrieben. Die neueste Web-Engine wurde in Java programmiert, aber es besteht kein Unterschied in Bezug auf die Interaktionsperformanz.

50 Hier handelt es sich um einen interessanten Schachzug, der Auswirkungen auf die konkrete Gesprächsführung hat. Elbot erforscht seine UserInnen genauso, wie diese ihn testen. Die Überlegung kommt einem philosophischen Gedankenexperiment gleich.

51 Per E-Mail.

52 International ist der Begriff Computer mediated Communication (CMC, Herring 1996) etabliert. Im deutschen Sprachraum findet sich auch internet-basierte Kommunikation (IBK, z. B. Androutsopoulos 2007). Als Pendant zur zu HCI wird in dieser Arbeit die Abkürzung CMC verwendet.

53 Dadurch entstehen Probleme bei der konkreten Zuordnung von Äußerungen zu Situationsparametern und bei der Operationalisierung der verschiedenen Mündlichkeitsmerkmale (Siever, Schlobinski & Runkehl 2005). Aus diesem Grund wurde das Modell mehrfach kritisiert.

Androutsopoulos (2007) hält ein Modell, das entwickelt wurde, bevor CMC in der linguistischen Diskussion ein Rolle spielte, für irreführend bei der adäquaten Beschreibung dieser neuen Phänomene. Sprache der Nähe im Internet sei nicht Merkmal des Mediums selbst und auch nicht Merkmal von bestimmten Textsorten im Netz, sondern in der jeweiligen Interaktionssituation intendiert oder nicht. Doch ob diese Tendenz zu größerer Nähe im virtuellen Raum stärker ist, weil weniger restriktive soziale Parameter greifen oder Sanktionen drohen, bleibt zu diskutieren.

54 Um zu testen, ob eine noch nicht entwickelte Agenten-Software von den zukünftigen UserInnen angenommen wird, sind Wizard-Of-Oz-Experimente in der Usability-Forschung ein probates Mittel. Dabei führt ein versteckter Verbündeter der Versuchsleitung, der „Wizard“, alle Aktionen aus, die das geplante System später ausführen soll. Die Versuchsperson glaubt, sie interagiere bereits mit der innovativen Technologie. So können Probleme der UserInnen-Führung oder der Akzeptanz bemerkt werden, bevor überhaupt ein Prototyp implementiert wurde.

55 Die Begriffe Person und Subjekt implizieren in ihrer fachsprachlichen Bedeutung im philosophischen Diskurs bereits die Autonomie im Handeln und die daraus resultierende Verantwortung. Wenn Schatter Bots also als „artifizielle Subjekte“ (2011: 15 ff) oder „paraintelligente Subjekte“ (2011: 21) bezeichnet, spricht er ihnen indem er den Begriff des Subjekts wählt, implizit eine Autonomie zu, über die die heutigen Systeme jedoch nicht verfügen.

56 Ähnliche semantische Relationen lassen sich zeigen bei den Begriffspaaren anthropomorph vs. menschlich oder soziabel vs. sozial.

57 Allerdings muss bereits heute zwischen „biologisch inspirierten“ und rein „funktionalen“ Design-Überlegungen unterschieden werden (vgl. Dautenhahn et al. 2002). Während sich funktionale Architekturen allein an Aufgabenbereich und Performanz orientieren (z. B. klassische Chatbots), verfügen biologisch inspirierte Architekturen über einen kognitionswissenschaftlichen Unterbau; d. h. sie orientieren sich bspw. an psychologischen oder neuronalen Modellen.

58 Winograd vertrat in einem Interview Anfang der 1990er Jahr die Perspektive, dass die Manipulation einer Maschine über eine Chatbot-Schnittstelle nicht einmal als Interaktion bewertet werden dürfe, da strenggenommen, der Mensch ein komplexes Werkzeug bediene und das System nicht selbständig agiere. Es handele sich mehr um „human-work“ und allenfalls um eine Interaktion „through the computer“ (Preece 1994: 539).

59 Zeller betont die textuelle Basis von Programmcode und Inhalten. „Als primär linguistischer Parameter kommt der Textgestaltung demnach eine besondere Rolle im Schnittstellen-Design zu“ (Zeller 2005: 84). Es handele sich um eine doppelte Textverkapselung (encapsulation): den Text auf der Mikroebene als Programmcode (formal) und den Text auf der Makroebene (natürlichsprachlich) als Trigger für neue Texteingaben.

60 vgl. auch Garfinkel oder Habermas: kommunikatives Handeln.

61 Nass und Moon verwiesen 2000 auf die Tatsache, dass sich hinter jedem System dessen KonstrukteurInnen verbergen. Den Dialog mit dem System könne man demnach quasi als „Statthalter-Dialog“ zur mittelbaren Kommunikation mit den EntwicklerInnen verstehen. Dieses Szenario ist unter pragmatischen Gesichtspunkten dann nicht haltbar, wenn sich die Userin auf die Illusion des artifiziellen Gesprächspartners einlässt.

62 www.merriam-webster.com/dictionary/dialogue?show=0&t=1363949560 (Zugriff 10.01.2016).

63 www.duden.de/rechtschreibung/Dialog (Zugriff 10.01.2016).