Show Less
Open access

Chatbots

Eine linguistische Analyse

Series:

Netaya Lotze

Die korpuslinguistische sowie konversationsanalytische Studie thematisiert die Mensch–Maschine-Interaktion mit Chatbots. Diese Dialogsysteme sind auch heute noch störungsanfällig und eine Kommunikation ist nur unter äußerst limitierten Bedingungen möglich. Welche Implikationen dies für das Interaktionsverhalten der UserInnen hat, untersucht die Autorin vor dem Hintergrund der Diskussion um künstliche Intelligenz. Chatbots sind im Web bereits weit verbreitet und ihr Dialog-Design dient als Vorbild für moderne Assistenzsysteme. Da in Zukunft künstliche Intelligenzen eine immer größere Rolle spielen werden, legt diese Auseinandersetzung im Hinblick auf interaktives Alignment und Computer-Talk einen Grundstein zur linguistischen Erforschung von Dialogsystemen.

Show Summary Details
Open access

5. Diskussion der Ergebnisse und Ausblick

← 368 | 369 →

5.  Diskussion der Ergebnisse und Ausblick

5.1  Ein Interaktionsmodell der HCI

In diesem Kapitel soll die HCI als auf unterschiedlichen Betrachtungsebenen heterogene Interaktionsform genau definiert werden. Es wird angestrebt, die HCI auf ihren unterschiedlichen Ebenen in Form eines Interaktionsmodells zu fassen. Darüber hinaus müssen neuralgische Punkte der maschinellen Dialogverarbeitung diskutiert werden, die den derzeitigen Charakter der HCI bestimmen. Psychologische und soziale Wirkungen der Interaktionssituation HCI werden angedacht.

5.1.1  Inkonsistente und sprunghafte HCI

Wie bereits in Kapitel 4.5 beschrieben, handelt es sich aus linguistischer Perspektive beim Begriff der HCI um eine Sammelkategorie unterschiedlicher Interaktionsformen. Da die HCI durch eine beachtliche Zahl dialog-externer und dialog-immanenter Variablen beeinflusst wird und da derzeitige Dialog-Designs nicht zu einheitlichen Interaktionsformen führen, werden UserInnen mit einer Vielzahl an unterschiedlichen Signalen konfrontiert, auf die sie mit unterschiedlichen Strategien reagieren:

  • Übertragung vorbewusster Mechanismen aus der HHC (reaktives Alignment)
  • Übertragung routinierter Abläufen aus der HHC (Gesprächsrahmensequenzen)
  • Übertragung bewusster Strategien aus der HHC (Grounding, Framing und Repair)
  • reaktiver CT (einsilbiges Kommentieren, natürlichsprachliches „Weiterklicken“)
  • proaktiver CT (Tests und Flaming, Weglassen von Höflichkeitsmarkern)

Die jeweiligen Verhaltensweisen werden vom System passagenweise getriggert. Eine einheitliche Interaktionsform ist auf der Grundlage der heutigen Systemarchitekturen und Dialog-Designs nicht möglich. Moderne Systeme nutzen unterschiedliche Strategien für verschiedene Sequenzen des Dialog-Designs. So kann in Gesprächsrahmensequenzen auf Makros zurückgegriffen oder mit Alignment gearbeitet werden, während in der Gesprächsmitte die Präsentation von Inhalten über Skripts mit Small-Talk-Sequenzen als Parsing & Promting abgewechselt wird. Die Heterogenität des UserInnen-Verhaltens ist eine notwendige Folge dieser Design-Entscheidung. Sie kann aber durchaus als Fortschritt gegenüber ← 369 | 370 → einfachen Architekturen in Form einer natürlichsprachlich vermittelten Menü­navigation bewertet werden. Die vorliegende Studie zeigt, dass hybride Systeme UserInnen dazu anregen, mehr Strategien aus der HHC auf die HCI zu übertragen. Die Folge ist allerdings ein heterogener Gesamteindruck, da CT weiterhin eine Rolle spielt. Das Dialog-Design bewegt sich in einem Kontinuum zwischen Dialog und Monolog, zwischen Nähe und Distanz, zwischen konzeptioneller Mündlichkeit und Schriftlichkeit sowie zwischen UserInnen-Führung und freien Passagen in unterschiedlichen Sequenzen des Dialogs. Die daraus resultierende Uneinheitlichkeit der Interaktion, die vorstellbare HHC-Szenarien mit ebenfalls sehr unterschiedlichen Gesprächsphasen in ihrer Diversität bei weitem übertrifft, schafft bei UserInnen den für die HCI typischen Eindruck, der im weiteren Verlauf des Kapitels skizziert werden soll.

Wenn Systemarchitekturen dialogimmanent so starke Wirkungen zeigen, kann das UserInnen-Verhalten dann vollständig aus den Vorgaben des Systems abgeleitet werden? Dann wären HCI-Dialoge vollständig deterministisch und einzelne UserInnen-Turns leicht antizipierbar. Wissenschaftliche Studien in diesem Bereich müssten notwendig auf einen logischen Zirkelschluss hinauslaufen, da die Beschaffenheit der Systeme das UserInnen-Verhalten bereits vorgäbe. Selbstverständlich ist der Handlungsrahmen der menschlichen AkteurInnen nicht in diesem radikalen Maße eingeengt. Wie die Studie gezeigt hat, verhalten sich UserInnen den Systemen gegenüber auch proaktiv, stellen Fragen und führen neue Themen ein. Außerdem verweisen sie bisweilen aus dem deterministischen Rahmen der eigentlichen Interaktionssituation heraus auf ihre eigene Lebenswelt, in der das System nur als Gerät existiert. Und auch beim reaktiven Verhalten ist das Spektrum der möglichen Reaktionen so weit, dass es schwierig ist, UserInnen-Äußerungen zu antizipieren. Bspw. drücken sich UserInnen, die mit konzeptionell schriftlicher Sprache konfrontiert werden, selbst in der Regel nicht genauso aus, sondern zeigen eine Tendenz zur Verknappung. Eine grundsätzliche Tendenz zu einer passiveren Rezeptionshaltung kann bei den neueren Bots aber beobachtet werden.

Dieser Umstand trägt dazu bei, dass UserInnen sich vom System führen lassen und die Interaktion mit den untersuchten neueren Systemen über weite Passagen funktioniert. Auch wenn sie teilweise absurde Züge hat, zeigt sie in diesen Passagen eine interne Kohärenz. Dieses Zusammenspiel von sophistiziertem System und kooperativen UserInnen lässt sich bereits bei Max und Elbot beobachten und ist bei den innovativsten Systemen auf dem Markt (vgl. IBMs Watson, Ferrucci et al. 2010) noch ausgeprägter. ← 370 | 371 →

Doch Brüche in der kohärenten Progression sind zurzeit in der HCI noch unvermeidlich und charakterisieren diese stärker als jeder andere Parameter. Diesen Brüchen kommt insofern eine besondere Relevanz zu, da sie die logische Argumentationslinie eines Dialogs jäh unterbrechen, quasi den „roten Faden“ abreißen, um dann ein neues Thema zu präsentieren. Weder zielorientiertes noch kommunikatives sprachliches Handeln ist unter diesen Bedingungen möglich. Je freier thematische Ausrichtung und UserInnenführung gestaltet sind, desto anfälliger sind die Systeme für Störungen, die zu Inkohärenzen oder Quasi-Kohärenzen führen. Auch der kooperative moderne UserInnen-Typus kann sich mit solchen Störungen nur bedingt arrangieren. Wie in den Kapiteln 2.3 und 4.2 ausgeführt, stellt die Generierung von Dialogkohärenz in der HCI die größte Herausforderung für EntwicklerInnen innovativer Systeme dar. Uns als Menschen stehen enorme Ressourcen von Geburt an erworbenen Wissens zur Verfügung, aus welchen wir schöpfen können, um nicht explizit gemachte Zusatzinformationen für die kohärente Progression kompetent zu ergänzen. Diesen Vorgang in eine Maschine zu implementieren, ist auf dem heutigen Stand der Technik nur sehr bedingt möglich.

Statistisch kann HCI charakterisiert werden durch divergente Werte für strukturelle Phänomene in Bot- und UserInnen-Sprache. Diese Divergenz bildet sich aus, da Bot und UserIn ihre Sprache einander kaum anpassen. Funktional verhalten sich die UserInnen zwar tendenziell reaktiv, dies zieht aber nicht zwangsläufig strukturell viele Konstruktionsübernahmen nach sich, die zu einer Angleichung des Sprachgebrauchs an das System führen würden. Je schlechter das System ist, desto weiter fallen die Werte meist auseinander. Bedeutungen aushandeln kann man auch mit den innovativsten Systemen noch nicht zuverlässig und persistente Strukturen spielen in der HCI auch eine geringere Rolle als in der HHC. Im Grunde wird das adaptive und interaktive Verhalten, das für die HCI so konstitutiv ist, in der HCI in sein Gegenteil verkehrt. Denn die große Mehrheit der Systeme passt sich der Sprache der UserInnen höchstens zufällig in Form von Quasi-Persistenzen an, gibt aber ansonsten Dialogbeiträge völlig isoliert und vorformuliert aus. Die UserInnen scheinen sich diesem Verfahren anzupassen, indem sie ihre Lexik und Syntax dem System ebenfalls weniger anpassen als einem menschlichen Gegenüber. Die sorgfältige Auswahl passender Lexeme mit Rücksicht auf die Parsing-Funktion der Systeme, wie Fischer sie in der oralen HRI findet (Fischer im Druck: 175) spielt eine untergeodnete Rolle und findet sich eher gegenüber den älteren Systemen und bei Repair.

Führt man alle Schwächen und Limitierungen der Systemarchitektur (hybride Architektur als Ursache für heterogene Dialogsequenzen, kein Zugriff auf ← 371 | 372 → Weltwissen, produziert Störungen der logischen Kohärenz) und alle Inkonsistenzen des Dialog-Designs (Dialog-Monolog, Mündlichkeit-Schriftlichkeit, Nähe-Distanz) zusammen, so wird deutlich, dass der heterogene und sprunghafte Charakter der HCI heute eher durch diese konkreten Systemfunktionen bestimmt wird, als durch unabhängige Variablen seitens der UserInnen (Vorannahmen, UserInnen-Typ, Technikexpertise, Gender).

5.1.2  HCI oder CT als funktionales Register

In Rahmen der Diskussion um CT, wird neben dem Begriff des Registers auch teilweise der Begriff der Varietät auf die UserInnen-Sprache angewandt, wobei unterschiedliche Begriffsumfänge angesetzt werden (vgl. Krause & Hitzeberger 1992, Fischer 2006). Im Folgenden soll mit Bezug auf die Ergebnisse der voliegenden Studie geprüft werden, ob die Sprache der Userinnen in der chat-basierten HCI als Varietät oder Register bezeichnet wedren kann.

Die Ergebnisse legen nahe, die HCI in ihrer Gesamtheit weder als funktionale noch als strukturelle Varietät zu bezeichnen. Die Gründe liegen in der Heterogenität der HCI (vgl. Kapitel 4.4.3, vgl. auch Fischer im Druck) und in der fehlenden wechselseitigen Anpassung zwischen Bot und Mensch zur Ausbildung von gemeinsamen neuen sprachlichen Varianten. Um eine bestimmte sprachliche Ausprägung als Varietät bezeichnen zu können, muss diese einheitliche Merkmale aufweisen (vgl. u. a. Dittmar 1997). Die HCI kann also aufgrund ihrer Heterogenität in ihrer Gesamtheit nicht als Varietät bezeichnet werden. Aufgrund des weitgehend fehlenden Austauschs zwischen UserIn und System, ist die wechselseitige Ausbildung neuer Varianten, die zu einer gemeinsamen Varietät führen könnten, unmöglich. Zwar passen sich die UserInnen den wechselhaften Ausprägungen der Systemsprache z. T. an (vgl. reaktives Alignment), doch hat das System aufgrund seiner Restriktionen keine Möglichkeit zur Anpassung an die UserInnen. Mit lernfähigen Systemen wird diesem Problem entgegengewirkt. Doch wie diese Systeme operieren, kann nicht mit der interaktiven Ausbildung einer Varietät verglichen werden. So speichert bspw. Carpenters Cleverbot alle UserInnen-Eingaben in einer Datenbank, um diese in der nächsten vergleichbaren Gesprächssituation als eigenen Turn auszugeben. Dadurch passt sich das System der Sprache seiner UserInnen zwar an, aber eben indem es komplette Turns kopiert und recycelt. Dies ist eine völlig andere Art der Anpassung als Alignment und Aushandlungsprozesse in der HHC.

Auch unter den UserInnen als Gruppe, ist die Ausbildung einer Varietät „HCI“ unwahrscheinlich, da sie nicht in der Gruppe mit einem System interagieren, sondern die HCI in den meisten Fällen dyadisch verläuft. So haben sie in ← 372 | 373 → der Regel keinen Einblick in die Interaktionsstrategien anderer UserInnen und damit keine Möglichkeit, gemeinsame Varianten zu etablieren.

Der enge Bezug auf einen bestimmten situativen Kontext und die festgelegten Rollen der Interagierenden in der HCI sprechen für eine Interpretation als Register. Die Asymmetrie der Interagierenden führt zur strategischen Aktionsplanung der UserInnen auf der Basis von Partnermodellen über die als restringiert eingestuften Sprachfähigkeiten des Bots. Dass unterschiedliche UserInnen bestimmte Verhaltensweisen (Simplifizierungsstrategien) in unterschiedlicher Ausprägung oder Qualität zeigen, steht einer Interpretation der UserInnen-Sprache als Register nicht entgegen. Die Asymmetrie der Interaktionssituation und ihre Abhängigkeit von UserInnen-Typen lassen sich also mit einem weit gefassten, funktionalen Register-Begriff vereinbaren. Problematischer ist, dass die chat-basierte HCI in Abhängigkeit von Sytemarchitektur und Dialog-Design dialogimmanent passagenweise stark variiert. Einheitliche strukturelle Merkmale dieser Interaktionsform zu definieren, ist kaum möglich, denn wenige der untersuchten Parameter der UserInnen-Sprache finden sich in HCI-Dialogen durchgängig. Auch auf der funktionalen Ebene verändert sich das UserInnen-Verhalten je nach dem, welches Dialog-Design in der entsprechenden Passage gerade aktiv ist (passive und aktive Phasen der UserInnen, Phasen der eindeutigen Rollenzuschreibung oder der diesbezüglichen Unsicherheit, Phasen der Anthropomorphisierung oder des Werkzeugcharakters). Das Hauptcharakteristikum der HCI liegt auf Grund von systemimmanent wechselnden Dialog-Designs gerade in ihrer Uneinheitlichkeit. Hinzu kommt der starke Rückbezug der UserInnen-Sprache auf die eigentlichen Funktionen des jeweiligen Systems. Wichtig ist hier nicht, dass jedes System seine eigene UserInnen-Sprache evoziert (unterschiedliche Ausprägungen eines Registers wären vorstellbar), sondern dass die Dialog-Designs passagenweise wechseln. Die UserInnen-Sprache spiegelt die Inkonsistenz der Systeme in ihrer gesamten Heterogenität wider. Die Interpretation als Simplified Register trägt also auch nur passagenweise, nämlich dann, wenn sich UserInnen kooperativ verhalten und sich bewusst verständlich ausdrücken möchten, um das Parsing zu erleichtern. In anderen Passagen dominiert die gedankenlose Übertragung von Verhaltensweisen aus der HHC oder das aktive Erkunden der Systemfunktionen, teilweise mittels aggresiver Sprachhandlungen. Diese dialogimmanente Heterogenität spricht gegen eine Interpretation der UserInnen-Sprache in ihrer Gesamtheit als Simplified Register.

Der traditionell diskutierte CT wurde in Kapitel 4.4 als Teilmenge der heterogenen HCI angenommen. Dieser weist strukturelle und funktionale Kriterien auf, die systematisch erfassbar sind. Denn die Verhaltensformen der NutzerInnen ← 373 | 374 → zeigen ein gemeinsames Repertoire an bewussten, funktionalen Strategien, die bestimmte strukturelle Parameter der UserInnen-Sprache hervorbringen, die z. T. mit den CT-Kriterien nach Womser-Hacker (1992) übereinstimmen. Ein Großteil der lexikalischen und syntaktischen Simplifizierungen sowie Tests und Flaming können durch dieses Konzept erklärt werden. Einige wenige der fraglichen Parameter lassen sich konstant und systemübergreifend nachweisen. Insofern stellen CT und Robot Directed Speech, so wie sie in der Literatur beschrieben wurden nur einen Teilaspekt der chat-basierten HCI dar und greifen nur passagenweise. Charakteristika der Robot Directed Speech finden sich in Simplifizierungsstrategien der UserInnen und allgemein in kooperativem Verhalten. CT in der chat-basierten HCI manifestiet sich aber auch in weniger kooperativer Interaktion. Da sich die funktionale Ausrichtung des CTs mit einer veränderten Rezeptionshaltung der UserInnen ausdifferenziert hat, muss dieser CT nach funktionalen Kriterien noch weiter untergliedert werden in einen proaktiven CT, der auf Vorannahmen der UserInnen gründet, und einen reaktiven CT der in einer passiven Rezeptionshaltung der UserInnen zum Ausdruck kommt. Beide Formen sind auf ein allgemeines Bewusstsein der UserInnen für die Interaktion mit dem artifiziellen Gegenüber zurückzuführen, die in diesen Passagen nur bedingt als sozial wahrgenommen wird. Reaktives Verhalten (natürlichsprachliches Weiterklicken) und proaktives Verhalten (Test und Flaming) zeigen gleichermaßen, dass die HCI von vielen UserInnen als Plattform begriffen zu werden scheint, auf der soziale Verhaltensnormen außer Kraft gesetzt sind. CT bezieht sich also einerseits auf Passagen, in denen UserInnen sich vom System leiten lassen, und andererseits auf Passagen, in denen das System auf seine „Schlagfertigkeit“ getestet wird. Dennoch finden sich auch immer wieder bewusste Simplifizierungsstrategien als kooperatives Verhalten. Die gegensätzlichen Tendenzen des UserInnen-Verhaltens (in Abhängigkeit vom UserInnen-Typ und Dialog-Design) zur Passivität einerseits oder Neugier und Aggression andererseits können als wiederkehrende Funktionen der UserInnen-Sprache interpretiert werden, die stark vom Standard abweichen. Es finden sich also sowohl auf struktureller als auch auf funktionaler Ebene Argumente für die Annahme eines CTs. Bedingung für diese Verhaltensweisen ist ein Bewusstsein für die Interaktion mit einer Maschine, die Wahrnehmung des Systems als defizitären Gesprächspartner und der Interaktionssituation als Raum, in dem das soziale Face keine Rolle spielt. Wird die Interaktionssituation dagegen in stärkerem Maße als sozial wahrgenommen, finden sich mehr Belege für Simplifizierung und kooperatives Verhalten im Sinne einer Robot Directed Speech. ← 374 | 375 →

Der als CT definierter Teilaspekt der HCI könnte im Sinne Dittmars (1997) als Register interpretiert werden. „‚Register‘ (‚auch diatopische Varietät‘) aktiviert eine semantische Konfiguration in einer gegebenen sozialen Situation in Abhängigkeit von einer spezifischen kommunikativen Aufgabe (thematischer Gegenstand, Zweck, Skript), der Beziehungsqualität (Rollenbeziehungen erster und zweiter Ordnung) und der Diskursmodalitäten (Gattungen, Austauschstruktur und kulturelles Wissen)“ (Dittmar 1997: 210). Der hier beschrieben CT kann als situativ bedingt begriffen werden und sein Zweck liegt im Unterhaltungswert und im Austesten der Systemfunktionen. Er wird bestimmt durch ein asymmetrisches Beziehungsverhältnis zu einer künstlichen Entität, deren soziale Rolle nicht eindeutig definiert ist und die nur bedingt Zugriff auf kulturelles Wissen hat. Seitens der Systeme wäre das Register durch deren Restriktionen charakterisiert, seitens der UserInnen durch deren Rezeptionshaltung. Wenn CT also nach soziolinguistischen Kategorien klassifiziert werden soll, dann als Register und nicht als Varietät. Einen Teilaspekt der HCI als eigenständiges Register herauszustellen, ist allerdings ein Konstrukt, das nur trägt, weil die heutige HCI immanent noch sehr heterogen ist. Hybride Systeme bringen hybride Kommunikationsformen mit sich, die passagenweise Anteile eines CTs haben, aber über längere Sequenzen auch völlig natürlich wirken können (z. B. höfiches Grüßen in Gesprächsrahmenseuenzen).

Der im Vergleich zu früheren Studien engere Begriffsumfang von CT, der in dieser Arbeit vertreten wird, ist eine Folge der raschen Entwicklung der Technologien und der Technikrezeption in den vergangenen 20 Jahren. In Bezug auf die UserInnen-Sprache konnte in jedem der untersuchten Teilbereiche eindeutig eine Weiterentwicklung von Twipsy und Karlbot zu Max und Elbot nachgezeichnet werden. Dies spricht gegen einen CT als statische Größe. Zoeppritz’ (1989) Idee von CT als strukturellem Register war in den 1990er Jahren sinnvoll und auf der Basis der Daten von Womser-Hacker (1992) nachvollziehbar, trifft aber in der heutigen technisierten Gesellschaft nicht mehr zu. Und auch die Daten der vorliegenden Studie zeigen deutlich, dass sich die Haltung der UserInnen gegenüber den Systemen verändert hat. Neugier und Furcht werden über weite Strecken abgelöst durch ein Konsumverhalten, bei dem der Bot in erster Linie unterhalten soll. Diese Einstellung ist weit entfernt von der Vorstellung eines strukturellen CTs, den ein Mensch zunächst erwerben muss, um die Maschine mittels dieser Sprachmetapher bedienen zu können. Was die HCI seitens der UserInnen heute beeinflusst, ist subtiler und diverser. Der Geltungsbereich für strukturellen und funktionalen CT schrumpft und wird weiter schrumpfen, je anthropomorpher innovative Systeme in Zukunft sein werden. Technologien, Technikrezeption ← 375 | 376 → und UserInnen-Sprache sind gemeinsam in raschem Wandel begriffen. Dabei verändern sich die strukturellen und funktionalen Merkmale nicht durch interaktive Aushandlungsprozesse innerhalb einer Sprachgemeinschaft, sondern durch technologische Entwicklungen. Die Abhängigkeit der UserInnen-Sprache vom jeweiligen Stand der Technik ist hier direkter als bspw. in der CMC. Unter dieser Bedingung kann CT also nur dann als Register analysiert werden, wenn man einen weiteren Registerbegriff annimmt als üblich.

Solange die Systeme aber in Bezug auf ihre Anwendungsbereiche und Kon­struktion extrem divers und nicht zu einem tragfähigen interaktiven Austausch von semantischen Informationen in der Lage sind, kann sich keine neuartige Varietät „HCI“ herausbilden. Allein ein Teilbereich der HCI nämlich die UserInnen-Sprache des CTs, weist funktionale und strukturelle Merkmale auf, die als Register interpretiert werden können. Sollten sich eines Tages ein einheitlicher Anwendungsbereich für artifizielle Dialogagenten und eine bestimmte Funktionsweise dieser Systeme etabliert haben, könnte sich eine systemübergreifende Varietät für den Umgang mit dem virtuellen Gegenüber an sich entwickeln. Ähnlich wie sich in der CMC eine „neue Form der Schriftlichkeit“ (Androutsopoulos 2007: 26) auszubilden scheint, könnte sich in der HCI eine neue Form der Interaktion herausbilden. Ein wichtiger Schlüssel dazu wäre echte KI, die es den Systemen ermöglichen würde, tatsächlich semantische Informationen auszutauschen. Diese Systeme wären dann aber wahrscheinlich bald auch in der Lage, anthropomorphe Dialoge zu führen, so dass eine spezielle Varietät „HCI“ überflüssig wäre.

5.1.2.1  CT als Simplified Register?

Der Forschungsdiskurs um CT ist seit 1989 geprägt von Analogien, zu denen hier Stellung bezogen werden soll. So wurde CT zuerst mit Foreigner-Talk verglichen (Krause 1992) und später mit Intercultural Communication (vgl. Fischer 2006) und Foreigner Directed Speech (Fischer im Druck). Aufgrund des Kompetenzgefälles zwischen Mensch und Bot wurde CT in der Literatur auch mit Baby-Talk bzw. Motherese bzw. Child Directed Speech assoziiert (vgl. Kritzenberger 1992, Fischer 2006, Vollmer et al. 2009).

Den Simplified Registers gemeinsam ist die Asymmetrie zwischen den Interagierenden und mehr oder weniger eindeutige Tendenzen zur Simplifizierung auf der Grundlage von Partnermodellen (vgl. Fischer im Druck), die in der chat-basierten HCI nur in einzelnen Passagen aufgefunden werden konnte. Obwohl zwischen den Simplified Registers sowohl strukturell als auch funktional große Unterschiede bestehen, finden sich immer wieder Beispiele für ähnliche ← 376 | 377 → Verhaltensweisen in den unterschiedlichen Kontexten. So konnten in der Interaktion mit Robotern einzelne Merkmale der kind-gerichteten Sprache nachgewiesen werden. „In the field of developmental robotics, research often assumes that in human-robot interaction (HRI), robots are treated similar to infants, because their immature cognitive capabilities benefit from this behavior” (Vollmer et al. 2009: 1). Auch die Termini Foreigner-Talk und Foreigner Directed Speech beziehen sich auch auf die Asymmetrie zwischen den Interagierenden, sollten aber im Diskurs um CT vor allem darauf hinweisen, dass Menschen dem artifiziellen Gegenüber als einem unbekannten Gesprächspartner begegneten, dessen sprachliche Fähigkeiten sie nicht genau einschätzen könnten.

Die strukturelle Beschaffenheit des Registers Foreigner-Talk bzw. Foreigner Directed Speech (vgl. Dittmar 1997: 209) wird bestimmt durch die Hypothesen der MuttersprachlerInnen, durch welche Form der Ausdrucksweise ihre Sprache leicht verständlich würde (Grundwortschatz, Infinitive, kurze Sätze etc.; vgl. DePaulo & Coleman 1986). Ob Foreigner-Talk systematisch als Xenolekt gefasst werden kann, wurde diskutiert (vgl. Roche 1987). Mit der Sprache der UserInnen in der HCI weist er in der Tat vor allem funktionale Gemeinsamkeiten auf, denn in beiden Fällen wird das Bestreben verfolgt, Sprache einfacher zu gestalten für ein Gegenüber, dessen Kompetenzen man nicht eindeutig einschätzen kann. Daher produziert man bspw. viele Infinitive oder – im Fall der UserInnen – Ellipsen und Imperative in der Hoffnung, diese würden vom Gegenüber besser verstanden oder zuverlässiger geparst. Strukturelle Merkmale des Foreigner-Talks finden sich allerdings kaum im CT der 1990er Jahre oder der modernen HCI. Syntaktische Simplifizierung wird durch jeweils verschiedene Umstrukturierungen erreicht, auch orientiert sich das Vokabular in der HCI nicht an einem Grundwortschatz (Beispiel: „Sonnenflecken“). Denn die Wortwahl der UserInnen spiegelt den komplexen Input wider, den diese von den modernen Chat-Bots bekommen (besonders in monologischen Passagen). Eine Orientierung am eigenen Vokabular der Bots ist bei den untersuchten Systemen im Gegensatz zu Fischer (2014: 175) als Simplifizierungsstrategie nicht zielführend, da die zum Teil konzeptionell schriftlich gestalteten Systembeiträge lexikalisch sehr vielfältig sind.

Die eigentliche Gemeinsamkeit zwischen CT und Foreigner-Talk bzw. Robot Directed Speech besteht eher darin, dass dieses Unterfangen in beiden Fällen zunächst einseitig motiviert ist. Diese Perspektive fokussiert die MuttersprachlerInnen bzw. die UserInnen und ihre Vorannahmen über die Gesprächssituation. Betrachtet man die Seite des Gegenübers, so wird deutlich, dass sich die Gesprächssituationen jedoch stark voneinander unterscheiden und sich unweigerlich unterschiedlich entwickeln müssen. Zwar besteht in beiden Fällen ← 377 | 378 → ein Kompetenzgefälle zwischen den Interagierenden, jedoch äußert sich dieses unterschiedlich. Sprachlernende verfügen zwar über defizitäre Kenntnisse der Zielsprache, aber haben Zugriff auf (kulturell modifiziertes) Weltwissen, teilen mit ihrem Gegenüber ein Wissen über die Interaktionssituation und sind in ihrer Muttersprache in der Lage, eine Argumentation logisch kohärent aufzubauen. „Kultur nenne ich den Wissensvorrat, aus dem sich die Kommunikationsteilnehmer, indem sie sich über etwas in einer Welt verständigen, mit Interpretationen versorgen“ (Habermas 1993b: 209). Genau dieses Prinzip versagt in der HCI, da Bots nicht auf Weltwissen rekurrieren und keine aussagenlogische Kohärenz erzeugen können. Vielmehr geben sie grammatische Sätze des Deutschen auf hohem Niveau aus, doch es fehlt ihnen an Weltwissen und der Fähigkeit zur logisch kohärenten Argumentation. Bots haben keine eigene Kultur, in der sie aufgewachsen sind, die sie durch Interaktionen mit anderen Bots geprägt hat, durch die ihnen ein Weltwissen vermittelt wurde und von der ausgehend sie losziehen können, um andere Kulturen kennenzulernen. Daher trifft der Begriff der interkulturellen Kommunikation (vgl. Fischer 2006) auch weniger gut auf die HCI zu als die Begriffe der Robot Directed Speech (Fischer im Druck) und des Foreigner-Talks, da letzterer mit seinem engeren Begriffsumfang wenigstens die Einseitigkeit des Unterfangens betont.

Ein wirkliches Inter-agieren (inter-agere: wechselseitig handeln) findet in der HCI streng genommen gar nicht statt. Die UserInnen reagieren kohärent auf die Turns des Bots und wollen interaktiv agieren, doch meist bleibt es bei einzelnen isolierten logisch sinnvollen Turnwechseln. Fehlende thematische Progression führt zu folgendem Schema, das typisch für die HCI ist:

  • Der Bot gibt einen natürlichsprachlichen Turn aus (determinstische Operation), den der Mensch interpretiert.
  • Der Mensch reagiert mit Assoziationen, Referenzen und Inferenzen.
  • Der Bot gibt kein adäquates Feedback.

Die Probleme der HCI lassen sich zu einem großen Teil nicht an der sprachlichen Oberfläche der Einzelbeiträge festmachen, sondern liegen in deren logischer Struktur begründet. Würde man diese Defizite in Bezug auf die Dialogkohärenz auf die HHC übertragen, wäre die angemessene Analogie nicht die der interkulturellen Kommunikation, da für diese zwar sprachliche, nicht aber logische Schwierigkeiten charakteristisch sind. Eine treffendere Analogie könnte der Versuch darstellen, mit einer geistig verwirrten Person zu kommunizieren (vgl. DePaulo & Coleman 1986, vgl. Fischer im Druck). Einige psychische Störungen äußern sich in Form von unlogischen Gedankensprüngen bis hin zu inkohärenter Sprache, während Syntax und Lexik unauffällig bleiben. So wird ← 378 | 379 → z. B. „disorganized speech“ im Diagnostic and Statistical Manual of Mental Disorders (DSM-IV-TR, 2000: 300) als eines der Kriterien für Schizophrenie angegeben (Kriterium A3): „The speech of individuals with schizophrenia may be disorganized in a variety of ways. The person may “slip off the track” from one topic to another (“derailment” or “loose associations”); answers to questions may be obliquely related or completely unrelated (“tangentiality”).” Die hier genannten Parameter treffen auch die elementarsten Probleme der derzeitigen artifiziellen Dialogagenten erschreckend gut. Die Sprache ist zwar auf der Performanzebene grammatisch, aber das Dialogverhalten inkohärent und sprunghaft, da Bots keinen Zugriff auf Weltwissen in Form von Common Ground haben, somit kaum über Präsuppositionen verfügen und keine inferenziellen Schlüsse ziehen können. Mittels des Dialog-Designs wird zwar versucht, durch Default-Antworten darüber hinwegzutäuschen, doch die Gesamtwirkung ist nicht die eines/r Nicht-Muttersprachlers/In sondern die eines/r psychisch Kranken. Geduldige bis amüsierte Reaktionen des Gegenübers sind die Folge. Ist die Störung stark ausgeprägt, versuchen mögliche KommunikationspartnerInnen nicht mehr, logisch sinnvolle Schlüsse durchzusetzen, sondern lassen die Kommunikation relativ passiv laufen, da ihr Sinn nicht in der logisch sinnvollen Übermittlung von Informationen liegt, sondern einen sozialen Wert hat. Reaktive UserInnen zeigen diese Tendenz dem Bot gegenüber ebenfalls. Wenn man also ein analoges Szenario zur HCI sucht, könnte dieses traurige Bild, die elementaren Probleme der heutigen Bots und das reaktive UserInnen-Verhalten illustrieren.

Der Autor Brian Christian (2012: 24ff) benennt die fehlende Kohärenz ebenfalls als Schlüsselproblem der HCI. Am vergleichsweise extremen Beispiel von Cleverbot zeigt er, dass die Konsitenz der Argumentationsline und der Persona ausschlaggebend ist für die natürliche Wirkung einer Dialogsequenz. Anderenfalls wirke die Konversation mit dem Bot wie Nexting, einer Funktion auf Chat-Diensten wie Chatroulette oder Omegle, bei der man als UserIn direkt von einer Konversation in die andere mit einem neuen Gegenüber springen kann. Da sich diese Chats besonders durch ihre Inkohärenz und ihre thematischen Sprünge auszeichnen, gibt es in Netz die Verschwörungstheorie, hinter dem Cleverbot-Interface verberge sich ein Chat mit menschlichen GesprächspartnerInnen, aber automatischem Nexting (Christian 2012: 25). Nur so könnten die zwar anthropomorphen, aber extrem diversen Passagen und die abrupten thematischen Sprünge in der Interaktion mit Cleverbot erklärt werden. Auch wenn die Verschwörungstheorie nicht wahr ist, so trifft sie doch das Kernproblem jeder Interaktion mit einem artifiziellen Agenten auf dem derzeitigen Stand der Technik. Automatisches Nexting ist eine Analogie, die die HCI vergleichsweise gut beschreibt. ← 379 | 380 →

Allerdings sind auch die besten Analogien nur sehr bedingt tragfähig, daher sollte HCI als das verstanden werden, was sie ist: Eine asymmetrische Interaktionsform zwischen einem Menschen und einem artifiziellen System vermittelt durch natürliche Sprache, die userInnen-spezifisch sowie passagenweise stark variieren kann und sich nur in Abhängigkeit von der konkreten Funktionsweise des jeweiligen Systems genauer beschreiben lässt. Typische Merkmale sind große strukturelle Unterschiede zwischen UserInnen- und Systemsprache, inkohärente und quasi-kohärente Turns sowie in einzelnen Passagen Hinweise auf proaktiven (bewusste Simplifizierung, Tests und Flaming) oder reaktiven CT (natürlichsprachliches Weiterklicken).

Was die HCI wirklich prägt, sind also auf langer Strecke weniger die Vorannahmen und die Rezeption der UserInnen (proaktiver und reaktiver CT), sondern die limitierenden Variablen des Systems. Diese zwingen die UserInnen, ihr Verhalten immer wieder zu ändern und ihr bestehendes Parnermodell zu revidieren. Die Verhaltensweisen reichen von vorbewusstem Alignment über bewusste Simplifizierungsstrategien im Sinne einer RDS oder BDS bis zu den modernen Ausprägungen eines CTs. Insbesondere die Systemarchitektur hat weitreichenden Einfluss auf den Verlauf der Dialoge, weil durch das Fehlen ausreichend semantisch kategorisierter Datenbanken dann im eigentlichen Gesprächsverlauf Inkohärenzen, Quasi-Kohärenzen und thematische Sprünge erzeugt werden, die die HCI charakterisieren. Auf der Ebene der Dialogoberfläche spiegelt sich dieser Umstand im Fehlen von struktureller und funktionaler Kohäsion wieder. Diese Defizite führen dazu, dass artifizielle Dialog-Systeme nicht in breiteren Anwendungsbereichen eingesetzt werden können. Freie UserInnen-Führung und Crowd-Sourcing-Ansätze zur Erstellung von Turn-Datenbanken finden sich fast nur im Entertainment-Sektor. Pädagogische Agenten, Pflegeroboter, artifizielle Museumsführer oder Maklerinnen etc. arbeiten mit einer engen UserInnen-Führung und planbasierten Architekturen, um zu kohärenteren Dialogen zu kommen. Dadurch sind sie aber thematisch sehr limitiert. Alle technischen Innovationen, die der Generierung echter Kohärenz zu Gute kommen, stellen einen großen Entwicklungsschritt in Richtung der Erschaffung einer menschähnlichen KI dar.

5.1.3  Das Interaktionsmodell der HCI

Das hier vorgeschlagene Interaktionsmodell der HCI gründet sich auf psycholinguistische und handlungstheoretische Grundannahmen vor dem Hintergrund einer Systemtheorie (vgl. Kapitel 2). Es soll versucht werden, die unterschiedlichen Kräfte, die die HCI beeinflussen, in einem Modell zusammenzufassen, ← 380 | 381 → mit dessen Hilfe die Heterogenität der HCI erklärt werden kann. Das Modell hat nicht den Anspruch auf dem heutigen Stand der Technik in artifizielle Dialogsysteme implementiert werden zu können. Allerdings zeigt es eine Richtung auf, in die eine innovative HCI unter Verwendung starker KI gehen könnte. Vor allem aber können anhand des Modells Vorhersagen über das Verhalten der UserInnen in Abhängigkeit vom Dialog-Design des Systems gemacht werden.

Abbildung 61: Interaktionsmodell der HCI

img88

5.1.3.1  Die Interaktionssituation

Das Interaktionsmodell der HCI umfasst die Seite des Systems als Systemarchitektur und Dialog-Design und die Seite der UserInnen als vorbewusste und bewusste Kognition. Diese Voraussetzungen stellen die Bedingung der Möglichkeit natürlichsprachlicher Interaktion zwischen Mensch und Maschine dar und sollen im Folgenden differenziert beschrieben werden. Systemarchitektur und Dialog-Design beeinflussen unterschiedliche Aspekte der Interaktion. Vorbewusste und bewusste Kognition steuern einerseits Sprachmechanismen und andererseits Strategien des sprachlichen Handelns. Da kognitive und artifizielle Dialogverarbeitung nicht nahtlos ineinandergreifen, kommt es zu Störungen im Dialog oder zu heterogenen Sequenzen. Der Bezugsrahmen für die Interaktionssituation wird in einer an die HCI angepassten Version des 3-Welten-Modells ← 381 | 382 → nach Habermas dargestellt. Dieser Zugang wurde gewählt, da so die Unterschiede zwischen Mensch und System in Bezug auf logisch-semantische Referenzen anschaulich herausgearbeitet werden können.

Für Mensch und Maschine wird je ein internes System angenommen, das der subjektiven Welt bei Habermas entspricht. Im Fall der Maschine trägt der Begriff subjektiv nicht, da es sich bei ihr nicht um ein handelndes Subjekt im engeren Sinne handelt (vgl. Kapitel 1, Kapitel 2.1), vielmehr handelt es sich um die internen Prozesse eines artifiziellen Agenten. Da Habermas versucht, die subjektiven Welten seiner AktantInnen als sehr komplexe Systeme zu begreifen, ist es im Rahmen dieses Modells möglich, eines dieser komplexen Systeme durch das weniger komplexe System einer KI zu ersetzen. Durch die Relationen zwischen systemtheoretisch definierten Persönlichkeitssystemen und ineinandergreifenden Systemen der Umwelt, sollen bei Habermas die Subjekt-Objekt-Beziehungen der Bewusstseinsphilosophie ersetzt werden. Habermas deutet die Interaktionssituation also selbst als System einer Umwelt, in dem die Persönlichkeitssysteme der AktantInnen interagieren unter Bezugnahme auf das Referenzsystem der drei Welten. Es sind folglich in der HHC Referenzen auf die subjektive, interne Welt, die objektive Welt und die soziale Welt möglich. In der HCI haben nur die UserInnen uneingeschränkten Zugriff auf das Referenzsystem. Die Interaktionssituation soll aber dennoch vor dem Hintergrund einer Lebenswelt gedeutet werden, d. h., Vorannahmen der UserInnen über die Lebenswelt beeinflussen die HCI, während die Bots ihrerseits durch ihre Funktionen, Anwendungsbereiche und Entwicklungen die Lebenswelt beeinflussen. Auf der Seite der UserInnen wird also die „Lebenswelt als eine kulturelle Selbstverständlichkeit“ vorausgesetzt (Habermas 1993b: 201), aus der sie Hintergrundinformationen für die logisch-semantische kognitive Verarbeitung des Dialogverlaufs beziehen. Für die Bots sind diese Hintergrundinformationen nur sehr limitiert verfügbar und schwer zu verarbeiten. Denn die Totalität der Lebenswelt mit all ihren Kategorien und Implikationen kann dem artifiziellen System nicht implementiert werden. Die allein für die Interaktionssituation relevanten Informationen zu definieren ist aber auch nicht einfach, da die Grenzen der Interaktionssituation „diffus“ sind (Habermas 1993b: 187) und im Gespräch immer wieder neu ausgehandelt werden.

Die internen Systeme „Mensch“ und „Bot“ sind selbstreferenziell, sofern es sich beim fraglichen Bot um einen ECA mit BDI-Architektur handelt. Zwischen der Selbstreferenzialität des Systems Mensch und des Systems Bot besteht ein qualitativer Unterschied im Hinblick auf Bewusstsein und Intentionalität (vgl. Kapitel 1; Searle 1980, 2006). Die UserInnen verfügen auch über ein Modell der internen Funktionen des Bots (Partner-Modeling), das in der Anfangssequenz ← 382 | 383 → eines Dialogs von Vorannahmen bestimmt wird (Fischer 2006) und im Verlauf der Interaktion modifiziert wird. Einige ECAs verfügen über basale Partnermodelle (vgl. z. B. Max), einfache Chatbots jedoch nicht.

Die Dialogfunktion des Bots wird als deterministisch verstanden. Diese grund­sätzliche Eigenschaft ist je nach Systemarchitektur mehr oder weniger offensichtlich. Planbasierte Systeme verfolgen Handlungspläne im Hinblick auf ein Ziel, dabei sind sie aber nicht autonom, sondern funktionieren immer nur im Rahmen ihres Programms. Menschen sind dagegen auf der Basis ihrer vollständigen Wahrnehmung der Lebenswelt und ihrer sozialen Prägung zu intentionalem Handeln in der Lage.

Die Interaktion erfolgt über einen Kanal. Im Fall der chat-basierten HCI handelt es sich dabei um das Interface der jeweiligen Anwendung mit Chat-Fenster, Keyboard und Eingabemodus sowie ggf. einem Avatar. Der Code, der verwendet wird, ist natürliche Sprache in geschriebener Form. Die verwendeten funktionalen und strukturellen Elemente haben direkte Auswirkungen auf die gesamte Interaktionssituation. Ein gutes Beispiel ist das Kontinuum der Dialogizität, das in der HCI auf sprachlicher Ebene beobachtet werden kann und das Einfluss nimmt auf die Wahrnehmung der UserInnen, auf deren Eingaben und damit auch auf weitere Prozesse des Systems. Monologisch konzipierte System-Turns werden von den UserInnen anders perzipiert als dialogisch konzipierter Output. Eingeschobene monologische Sequenzen kommen auch in HHC-Dialogen vor, sind dort aber in der Regel seltener (vgl. Sacks et al. 1992). Die Psycholinguisten Barr und Keysar (2004) sprechen sich vor dem Hintergrund der Annahme eines dialogischen Kontinuum für ein einfaches Zu- und Abnehmen von Interaktivität aus, das wahrscheinlich mit einer an- oder absteigenden Häufigkeit von Alignment-Prozessen einhergeht. Auch in der HCI findet sich in konzeptionell dialogischen Sequenzen mehr nicht-strategisches, reaktives Alignment. Diese Sequenzen können also von den UserInnen mechanistischer verarbeitet werden. Die Folge sind persistente Strukturen, die von einem Bot mit der entsprechenden Sensitivität für Alignment besser geparst werden können. Eingeschobene Monologe des Systems fördern dagegen reaktiven CT, der u. U. zu einsilbig ist, um sinnvoll geparst zu werden. Dieser geht außerdem mit einer bewussten Reflexion der artifiziellen Dialogsituation einher, die ein systematisches Ineinandergreifen der kognitiven Verarbeitungsprozesse der UserInnen und der KI des Systems zusätzlich erschwert. Auch bewusst eingesetzte Simplifizierungsstrategien förden zwar reibungslose Abläufe, nicht aber natürliche Dialoge. Denn die Interaktion zwischen Mensch und Maschine kann nur da in einem Modell mit fließenden Übergängen erfasst werden, wo die menschliche Kognition auch mechanistisch ← 383 | 384 → abläuft. Bei vorbewussten Alignment-Prozessen könnte also aus dieser Perspektive am ehesten eine tatsächlich interaktive Koordination zwischen einem Menschen und einem alignment-fähigen ECA angenommen werden. Alle Prozesse, die seitens der UserInnen der höheren Kognition bedürfen sind nicht deterministisch, sondern intentional und können daher nicht übergangslos auf Funktionen des Bots bezogen werden. Sie stellen immer Brüche im Modell dar.

Im Anschluss an die Darstellung der Interaktionssituation sollen die einzelnen Interagierenden und die Variablen, die diese beeinflussen, detaillierter beschrieben werden.

5.1.3.2  Der Bot – Interaktion ohne starke KI

Als deterministischer Apparat mit stark limitiertem Zugriff auf die Lebenswelt folgt der Bot seinen inhärenten Interaktionsregeln. Die Systemarchitektur gibt die Struktur vor, in der diese Regeln vorliegen. Funktionale Aspekte der Interaktion werden durch sie gesteuert. Das Dialog-Design hat Einfluss auf die konkreten sprachlichen Strukturen, die produziert werden. Da diese Unterscheidung in Dialogsystemen vorgenommen wird, soll sie für das Interaktionsmodell der HCI übernommen werden. Unterschiedliche Systemarchitekturen haben verschiedene Vor- und Nachteile, die sich in der Progression der Dialoge niederschlagen: Systeme mit natürlichsprachlich vermittelter Menü-Navigation sind offensichtlich deterministisch und funktionieren nur in Bereichen, wo die UserInnen-Beiträge eindeutig antizipiert werden können. Dort funktionieren sie robust und erzeugen kohärente Dialoge. Parsing&Prompting-Systeme mit freier UserInnen-Führung basieren auf Schlüsselwort oder Muster-Erkennung und der Ausgabe von Prompts, die entweder von Dialog-DesignerInnen vorformuliert wurden oder auf Crowd-Sourcing zurückgehen und anhand des erkannten Musters ggf. modifiziert werden. Dies führt zu zahlreichen inkohärenten und quasi-kohärenten Sequenzen und unnatürlich wirkenden thematischen Sprüngen. Der Vorteil liegt in der thematischen Vielfalt und der Offenheit für unterschiedliche Anwendungsbereiche. Wenn in hybriden Systemen beide Strategien geschickt gemischt werden, können längere kohärente Passagen entstehen. Die offenen Sequenzen sind dann störungsanfällig und die geskripteten Sequenzen unflexibel. In vielen ECAs kommen weitere Aspekte wie Handlungspläne und Zielorientierung hinzu, die eine kohärente Dialogprogression begünstigen sollen. Dennoch ist das auf diese Art und Weise simulierte Verhalten nicht adäquat für die Interaktion mit einem menschlichen Gegenüber. Die logischen und semantischen Regeln zur Dialog-Verarbeitung sind bis heute basal und artifizielle Agenten sind nur sehr bedingt kontextsensitiv für die Lebenswelt, vor deren Hintergrund die UserInnen jeden Dialog führen. ← 384 | 385 →

Aus der Interaktionssituation lassen sich drei Grundprobleme der HCI definieren, die mit der Architektur der Bots zusammenhängen. Das erste Grundproblem der HCI liegt darin, dass Interaktionsregeln erst relevant werden, wenn sie intersubjektive Gültigkeit haben (vgl. Habermas 1993b: 33ff; Wittgenstein 1960: 382). Vor dem Hintergrund unterschiedlicher Referenzsysteme verfolgen UserIn und System aber auf dem heutigen Stand der Technik sehr unterschiedliche Regeln. Interaktives Aligment im Austausch mit einem alignment-fähigen System mit entsprechendem Generator für Distanz-Frequenz-Effekte wäre die erste wechselseitig gültige Regel in der HCI, da sie beim Menschen auf dieser vorbewussten Ebene neurologisch u. U. gleichermaßen mechanistisch definiert ist.

Das zweite grundsätzliche Problem der HCI liegt in der Nutzbarmachung von semantischem Wissen. Legt man das 3-Welten-Modell nach Habermas (1995b: 193) zugrunde und versucht es auf die HCI anzuwenden, wird deutlich, dass die meisten Bots überwiegend nur Zugriff auf ihre internen Prozesse und die direkten Eingaben der UserInnen haben. Über Kameras und Sensoren werden u. U. zusätzliche Daten gesammelt, außerdem wird auf enzyklopädisches Wissen in Form von Datenbanken und semantisches Wissen in Form von Regeln oder einfachen semantischen Netzen zurückgegriffen. Aber diese Wissensbasen sind defizitär verglichen mit dem kulturell gewachsenen objektiven und sozialen Wissen der UserInnen. Für diese stehen subjektive, objektive und soziale Welt als Referenzsystem zur Verfügung, was für die Bots nur in äußerst limitierter Form gilt. In erster Linie sind sie zurückgeworfen auf eine subjektive Welt, die gar nicht als subjektiv bezeichnet werden kann, da sie in objektiver Form vorliegt und einen Teil der objektiven Welt (bspw. der EntwicklerInnen, vgl. Nass & Moon 2000) darstellt. Diese vereinfachte Darstellungsform läuft auf eine Paradoxie hinaus, die charakteristisch für die HCI ist: Objektive Regeln werden im Bot als subjektive Welt konstruiert.

Eine soziale, intersubjektive Welt fehlt dem Bot dagegen weitestgehend. Damit kann kein geteiltes Wissen im Sinne eines Common Grounds aufgebaut werden und somit auch keine neue intersubjektive Welt geschaffen werden. Menschen dagegen aktivieren Selbstverständlichkeiten aus der Ressource ihres Hintergrundwissens dann im Gespräch, wenn sie relevant werden (Habermas 1993b: 189). Der Bot hat weder das entsprechende Hintergrundwissen, noch weiß er, wann es relevant wird. Diese Form der Interaktion erinnert an einen Kommunikationsversuch unter radikal konstruktivistischen Bedingungen, da die Interagierenden den Input so unterschiedlich verarbeiten, dass Verständigung streng genommen nicht möglich ist (vgl. Chinesisches Zimmer, Searle 1980, 2006). Die nach menschlichen Maßstäben paradoxe Konstruktion der Systeme, die einen ← 385 | 386 → Ausschnitt der objektiven Welt als subjektive Welt zu verkaufen versuchen, bleibt nicht ohne Wirkung auf die UserInnen. Solange die Illusion trägt, wird der Bot als intentional handelndes Subjekt behandelt (Alignment), sobald aber irgendeine Variable diese Wirkung stört, dominiert seitens der UserInnen der CT in Form von Simplifizierungsstrategien, aggessivem oder passivem Verhalten.

Ein drittes grundsätzliches Problem liegt in der Annahme, dass eine planbasierte Architektur zur Erreichung von kommunikativen Zielen seitens der UserInnen führen könnte. Planbasierte Systeme funktionieren zwar für bestimmte Anwendungsbereiche robust, doch wirkt die Interaktion mit ihnen trotzdem unnatürlich. Indem ein Handlungsplan verfolgt wird kann ein Dialogziel erreicht werden. Damit deckt das System aber nicht alle Aspekte von Interaktion ab. Habermas unterscheidet den teleologischen, also zielgerichteten, Aspekt vom kommunikativen Aspekt einer Konversation unter Menschen. Der Begriff des kommunikativen Handelns verfügt über den „teleologischen Aspekt der Verwirklichung von Zwecken (oder der Durchführung eines Handlungsplans) und den kommunikativen Aspekt der Auslegung der Situation und der Erzielung eines Einverständnisses“ (Habermas 1993b: 193). Schlägt ersterer fehl, wird das Handlungsziel nicht erreicht. Schlägt letzterer fehl, scheitert die Verständigung an sich. Der kommunikative Aspekt muss aber in der HCI notwendig fehlschlagen, da dem Bot nicht ausreichend viel Hintergrundwissen zur Verfügung steht, um die Interaktionssituation deuten zu können. Da beide Aspekte miteinander zusammenhängen, wird durch die Unmöglichkeit über den kommunikativen Aspekt Common Ground zu etablieren, auch der teleologische Handlungsplan durchkreuzt. „Die Beteiligten können ihre Ziele nicht erreichen, wenn sie den für die Handlungsmöglichkeiten der Situation erforderlichen Verständigungsbedarf nicht decken können – jedenfalls können sie ihr Ziel dann nicht mehr auf dem Wege kommunikativen Handelns erreichen“ (Habermas 1993b: 194). Unter diesem Gesichtspunkt betrachtet, hat man langfristig also wahrscheinlich keine Möglichkeit, Systeme ohne strukturiertes semantisches Wissen und ohne komplexe logische Operationen zur Inferenz dieses Wissens zu entwickeln, wenn man von ihnen erwartet, dass sie zielorientiert, aber flexibel funktionieren und natürliche Sprache nutzen sollen. Ein System, bei dem versucht wurde, einen Mittelweg zwischen menschenähnlicher KI und einem einfachen deterministischen Apparat zu beschreiten, ist also aus der Interaktionssituation immanenten Gründen immer störungsanfällig oder sehr eng in seinem thematischen Fokus. Es ist vielerorts nachgewiesen worden, dass artifizielle Dialogagenten soziale Wirkungen bei ihren UserInnen hervorrufen. „Social processes are involved in all aspects of technology” (Hutchby, 2001: 139; vgl. auch Krämer 2008). Daher ist es umso ← 386 | 387 → wichtiger, dass zukünftige System mit einem Hintergrundwissen ausgestattet werden, das ihnen soziale Interaktion ermöglicht. In der heutigen Forschungslandschaft finden sich die unterschiedlichsten Versuche, soziable Interfaces mit anthropomorphen Avataren und Emotionsfunktion zu gestalten. Es ist an der Zeit, den Blick wieder auf starke KI und große Datenbanken zu richten, um die eigentliche Dialogperformanz anthropomorpher zu gestalten. Die grundsätzlichen Restriktionen der KI können dadurch jedoch auch nicht kompensiert werden (vgl. Kapitel 1.3). Durch eine Verlagerung der immanenten Probleme der Interaktion zwischen Mensch und KI auf die Außenwelt (umfangreiche Wissensbasen, soziable Designs) kann aber nicht darüber hinweggetäuscht werden, dass kohärente Kommunikation ohne die semantische Interpretation durch ein Bewusstsein nicht möglich ist.

5.1.3.3  Der Mensch: Vorbewusste und bewusste Kognition

Bis heute verfügen Psychologie und Neurowissenschaften über kein umfassendes Modell der kognitiven Verarbeitung von Dialogen beim Menschen. Klar ist aber, dass sowohl vorbewusste als auch bewusste Prozesse eine Rolle spielen. Diese Differenzierung konnte auch für die HCI nachgewiesen werden, auch wenn weniger Hinweise auf vorbewusste Mechanismen gefunden wurden als in der HHC. Für das Interaktionsmodell Modell der HCI wird diese Unterscheidung übernommen, da sie heterogenes UserInnenverhalten in unterschiedlichen Sequenzen der Interaktion erklärt.

Menschliche Kognition ist bedeutend komplexer als ein Apparat nach behavoristischem Reiz-Reaktions-Schema. Und auch wenn vorbewusstes Alignment in der HCI als reaktives Alignment der UserInnen vorkommt, macht es nur einen Bruchteil der kognitiven Verarbeitung der Interaktion aus. Während Pickering und Garrods Ansatz als mechanistisches Modell auf dieser Micro-Ebene dialogischer Interaktivität rein deterministisch ist, widersprechen BefürworterInnen von Mental-State-Modellen dieser Vorstellung. Man könne Sprachverarbeitung im Dialog nicht verstehen, wenn man nicht die Intentionalität, die Ziele, die Freiheit und die Spontaneität der einzelnen Interagierenden mit einbezöge (vgl. Schegloff 2004). Auch wenn man wie Pickering und Garrod nur strukturelle Aspekte fokussiere, könne man eine Reihe von Dialog-Phänomenen nicht deuten, wenn man die oben genannten Aspekte von vornherein ausschlösse. „[…] one needs to view dialogue as involving updates by each conversationalist of some type of a publicly accessible domain which is relative to each conversationalist and so is parametrizable by unpublicized factors such as individual goals and intentions” (Ginzburg 2004: 198). Nicht immer können Referenzen aus dem Kotext ← 387 | 388 → herausgelesen werden. Potenzielle Mehrdeutigkeiten werden nicht grundsätzlich durch alignte Situationsmodelle aufgehoben. Vielmehr bleibt den HörerInnen die Möglichkeit zur freien Interpretation. Würde man die HCI als Testbett für das Alignment-Modell verstehen, wird ganz klar deutlich, dass persistente Strukturen allein nicht zu einem kohärenten Dialog führen. Nicht einmal alle persistenten Strukturen können als vorbewusstes Alignment interpretiert werden (vgl. Fischer im Druck). Menschen müssen stattdessen als selbstbestimmte Wesen mit freiem Willen verstanden werden. Die mechanistische Ebene der kognitiven Interaktionsverarbeitung lässt sich zwar im Modell gut mit der maschinellen Verarbeitung zusammen denken, aber sie macht eben in der HCI heute noch einen geringeren Teil der kognitiven Leistung aus als in der HHC, da die ungewohnte Interaktionssituation zur kognitiven Re-Interpretation anregt. Dieses Bewusstsein für das artifizielle Gegenüber fördert Partner-Modeling und den Gebrauch von CT. Durch Störungen wird diese Tendenz noch verstärkt und die UserInnen versuchen teilweise vollständigen Common Ground herzustellen (Grounding), was wegen der Restriktionen des Systems notwendig zum Scheitern verurteilt ist. Auch implizit angenommener Common Ground, von dem die UserInnen bei höherer Kognition ausgehen, bevor es zu einer Störung kommt, bedarf eines Hintergrundwissens, das als geteiltes Wissen angenommen wird. Durch das Aufwachsen in einer Gesellschaft (Habermas 1993b) und Situationen geteilter Aufmerksamkeit beim kindlichen Erstspracherwerb (vgl. Tomasello 2002) erwerben Menschen dieses Wissen und haben somit im Modell Zugriff auf alle drei Welten. Sowohl vorbewusste als auch bewusste Prozesse der menschlichen Kognition greifen auf sozio-kulturell erworbenes Hintergrundwissen zurück. „Die wörtlichen Bedeutungen sind relativ zu einem tiefverankerten, impliziten Wissen, von dem wir normalerweise nichts wissen, weil es schlechthin unproblematisch ist und in den Bereich kommunikativer Äußerungen, die gültig oder ungültig sein können, nicht hineinreicht“ (Habermas 1993b: 451). Und so sind die menschlichen Gesprächsbeiträge in der HCI auch wesentlich kontextsensitiver, kürzer und weniger explizit als die der Bots. Auch spiegeln sich in ihnen kulturell gewachsene Vorannahmen wider, die besonders die Anfangssequenzen der Dialoge bestimmen (Fischer 2006). Auch wenn wechselseitige höfliche Begrüßungen auf automatisierte Routinen schließen lassen, finden sich in der direkt anschließenden Phase Fragen und Statements, die sich auf die Neugier der UserInnen oder Zweifel an der Zuverlässigkeit der Systemfunktionen zurückführen lassen. Die UserInnen-Typen PlayerIn und Non-PlayerIn können nach Fischer in der initialen Phase des Dialogs identifiziert werden. Im weiteren Verlauf der Dialoge kann man gegenüber den modereren Bots eine Tendenz zum passiven, ← 388 | 389 → reaktiven UserInnen-Verhalten beobachten, die dazu führt, dass die Grenzen zwischen den beiden Typen verschwimmen. Ein Dialog-Design, das sensitiv auf den UserInnen-Typus reagiert, könnte diese Tendenz eventuell relativieren. Veränderungen des Technologieverständnisses und der Rezeptionshaltung sprechen aber dafür, dass UserInnen-Typen gemeinsam mit den Technologien und Interaktionsformen einem gesellschaftlichen Wandel unterworfen sind. Systeme mit enger UserInnen-Führung und frei designte Systeme mit einer hohen Anfälligkeit für Störungen fördern eine passive, abwartende Haltung der UserInnen und reaktives Interaktionsverhalten. Der Autor Brian Christian beschreibt die moderne Rezeptionshaltung gegenüber intelligenter Software allgemein und beobachtet, dass UserInnen „tired of fighting“ seien (Christian 2012: 18). Sie ließen sich bspw. ihre Wortwahl von Autokorrektursystemen vorschreiben. Diese Tendenz, sich von der Technologie leiten zu lassen findet sich auch in der HCI.

5.1.4  Soziale Wirkungen der HCI: Interaktion im Uncanny Valley

Picard rief 1997 einen neuen Forschungsbereich an der Schnittstelle zwischen KI und Psychologie ins Leben: das Affective Computing. Systeme sollten mittels simulierter Emotionen anthropomorpher wirken und soziabler im Umgang werden. Die Bedeutung von artifiziellen emotionalen Reaktionen und Partnermodellen als virtuelle Form der Empathie für eine reibungslose Interaktion rückte in den Fokus. In den 1990ern war die Forderung nach einer Anpassung der Systeme an die UserInnen (und nicht umgekehrt) ein innovativer Zugang. Heute werden ECAs und soziable Roboter mit basalen Emotionssystemen ausgestattet und ihre Äußerungen inklusive Gestik und Mimik darauf abgestimmt (vgl. Kapitel 1). Dabei hat sich ein freundlicher unkomplizierter Prototyp als Ideal herauskristallisiert, der allgemein auf Akzeptanz stößt. „So ist es angenehm, wenn einfühlsame, tolerante und hilfsbereit-freundliche Geräte genutzt werden können, statt insistierende und aufdringlich-dominante Lösungen vorzufinden. Sozialwissenschaftler sprechen von einer kommunikativen, sozial regulativen und stabilisierenden Funktion der der Emotionen für gesellschaftliche Strukturen, Normen und Verhaltensweisen und begrüßen vorsichtig solche Tendenzen“ (Schatter 2011: 17 über Gerhäuser et al. 2007 und Moldt et al. 2008). Die utopische Version dieses Prototyps manifestiert sich z. B. im Androiden Data aus Star Trek, die dystopische Version wäre Douglas Adams Marvin, der depressive Roboter. Dass ein Assistenzsystem, das schwierig im Umgang ist und psychisch oder sozial gestört wirkt, ein Paradoxon darstellt, ist offensichtlich. Also werden die Bemühungen der EntwicklerInnen in erster Line in sozial angenehme Anwendungen gesteckt. ← 389 | 390 →

Dass anthropomorphe Systeme als soziabel wahrgenommen werden, wurde in zahlreichen Studien nachgewiesen (vgl. Kapitel 1). Krämer (2008: 202) versucht, die soziale Wirkung der Systeme auf die UserInnen und deren Reaktionen in einem Schema zu fassen. Wenn man dieses Schema um die Aspekte der kognitiven Sprachverarbeitung und der Produktion von Sprache ergänzt, stellt es eine sinnvolle Ergänzung zum Interaktionsmodell der HCI dar, indem es die UserInnen-Kognition vor dem Hintergrund der sozialen Welt genauer beleuchtet.

Abbildung 62: Erweiterte schematische Darstellung zu angenommenen sozialen Wirkungen artifizieller Agenten (nach Krämer 2008: 202, Ergänzungen zu (psycho-)linguistischen Aspekten von N. L.)

img89

Krämers Modell fokussiert die Wahrnehmung der UserInnen zu einem bestimmten Zeitpunkt und ist nicht interaktiv angelegt. Dynamische Aspekte der HCI im Dialogverlauf können so nicht erfasst werden. Außerdem berücksichtigt es die Wirkungen von unnatürlichen Cues der Systeme nicht. Wie Störungen im Dialog wahrgenommen werden, kann also mittels dieses Modells nicht erklärt werden. Störungen und damit Brüche (automatisches Nexting) im Dialog sind aber leider heute noch typisch für die HCI. Solange die eigentliche Dialog-Performanz nicht verbessert wird, schlagen alle Bemühungen um Affective Computing fehl. Denn ein System, das inkohärent und sprunghaft argumentiert, ruft ungewollte soziale Wirkungen hervor. Auf einer Metaebene, der Beziehungsebene der Interaktion (Watzlawick et al. 2000: 53ff), evoziert ein solches System bei den UserInnen, das Gefühl, dass mit ihm etwas nicht stimme. Die Persona wirkt auf UserInnen, die anthropomorphe Eigenschaften attribuieren, verwirrt, gestört und inkonsistent. ← 390 | 391 → Dieses Übergangsstadium der Dialogverarbeitung auf dem Weg zu einer menschenähnlichen KI kann als sprachliches Äquivalent zu Moris Uncanny Valley (1982) angesehen werden: Roboterpuppen wirken körperlich eingeschränkt, ungesund und damit gruselig, während das Gesprächsverhalten der Bots geistig eingeschränkt, schizophren und schlimmstenfalls gleichermaßen unheimlich wirkt. Avatare wirken „katatonisch-starr“ (Schatter 2011: 21) und HCI-Dialoge sprunghaft und stockend. Die derzeitigen Systeme verfehlen die Illusion eines menschlichen Gegenübers auf allen Ebenen knapp. So ist es kein Wunder, dass ihr Verhalten als „para-intelligent“ (Schatter 2011: 21) oder quasi-alignt, quasi-interaktiv und quasi-kohärent beschrieben wird. In den griechischen und lateinischen Präfixen wird die Unvollkommenheit der anthropomorphen Wirkung der Systeme erfasst. Deren KI ist der menschlichen Intelligenz nebengeordnet und sie erwecken nur den Schein eines alignten und interaktiven Austauschs, dessen Progression nur beinahe kohärent wirkt. UserInnen bemerken dieses Konstrukt und reagieren in der Regel nicht positiv. „Ein künstliches Subjekt, das menschenähnlich sein will (anthropomorph), wird sehr kritisch von seiner Bezugsperson wahrgenommen: Imperfektes, gekünsteltes, verstelltes Verhalten belastet Kommunikationsakte stark negativ und kann schnell unbehaglich bis unheimlich wirken.“ (Schatter 2011: 17). Die sog. Believability des Systems lässt folglich zu wünschen übrig (vgl. Kapitel 1).

Dass artifizielle Agenten auf einiges UserInnen (vgl. Fischer im Druck) soziale Wirkungen hervorrufen, gilt heute als unbestritten (vgl. Krämer 2008), doch „die psychologischen Auswirkungen sind nicht hinreichend erforscht“ (Schatter 2011: 22). Waren die ersten Deutungen von Attribuierungen menschlicher Eigenschaften an Systeme seitens der UserInnen noch sehr optimistisch (Nass, Isbister & Lee 2000: 5), sind die aktuellen Diskurse differenzierter und kritischer. Wir werden zunehmend mit Entitäten konfrontiert, die menschliches Verhalten bis zu einem gewissen Grad imitieren, aber in den Bereichen, die konstitutiv für menschliche Intelligenz sind, noch weitestgehend versagen. Da die Systeme kaum strukturiert auf kulturell gewachsenes Wissen zurückgreifen können, erwecken sie den Eindruck, dass sie nicht logisch denken könnten. Außerdem ist ihr Erinnerungsvermögen stark limitiert, so dass weder Common Ground noch eine gewachsene konsistente Persona etabliert werden kann. Im Dialog manifestieren sich diese Probleme in Form von thematischen Sprüngen und sinnlosen Assoziationen. UserInnen empfinden das Verhalten solcher Bots als willkürlich und unvorhersehbar. Sich selbst erfahren sie im Dialog als nicht selbstwirksam, was sich im reaktiven, „müden“ (vgl. Christian 2012: 16) Verhalten widerspiegelt. Einige PsychologInnen sind der Meinung, dass diese Form der Interaktion ← 391 | 392 → langfristig gravierendere Auswirkungen auf die menschliche Psyche habe als die meisten Computerspiele (vgl. Christian 2012). Psychologische Perzeptionsstudien sind hier von besonderer Relevanz, denn obgleich die heutigen Systeme ein Übergangsstadium an der Schwelle zum anthropomorphen Design darstellen, ist es unter ExpertInnen äußerst umstritten, ob das ideale Ziel von Star-Trek-Dialogen jemals erreicht werden kann. Unter Umständen müssen wir uns langfristig mit para-intelligenten Quasi-Wesen arrangieren. Daher liegt ein Forschungsdesiderat in Perzeptionsstudien, welche die Auswirkungen heterogener und inkohärenter Interaktionen auf Erwachsene und Kinder untersucht. Alignment in 25 % der Turns in der chat-basierten HCI sprechen dafür, dass Menschen die artifizielle Dialogsituation nicht in jedem Moment der Interaktion vollständig reflektieren.125 Wir kontrollieren unsere Reaktionen auf artifizielle Dialogsysteme also nicht vollständig bewusst. Welche Auswirkungen dieser Umstand auf unsere Psyche und unser Denken hat, sollte untersucht werden, bevor Menschen täglich mit diesen Systemen interagieren und Kinder von pädagogischen Bots in Ihrer Entwicklung begleitet werden. Im schlimmsten Fall könnten letztere die kognitive Entwicklung der SchülerInnen in Bezug auf Argumentationsstrukturen und logisches Denken negativ beeinflussen. Die EntwicklerInnen solcher Systeme sind sich des Problems allerdings durchaus bewusst. Deshalb wird bei pädagogischen Agenten besonderer Wert auf enge UserInnen-Führung und kohärente Muster von Frage-Antwort-Feedback-Sequenzen gelegt (vgl. Zinn, Moore & Core 2002: 574). Doch inwiefern ein „zunehmender Verlust von realen Lebensbezügen, der durch Umgang mit künstlichen Subjekten entsteht“ (Schatter 2011: 21), die kindliche Entwicklung beeinflussen wird, ist nicht hinreichend geklärt. Ein Unterricht, in dem pädagogische Agenten genutzt werden, muss gleichzeitig auch das Verständnis der SchülerInnen für die genutzte Technologie fördern, so dass auch in Bezug auf die Interaktion eine kritische Medienkompetenz ausgebildet wird. Schatter zeichnet ein Szenario von täglichen Begegnungen mit „dauerhaft lächelnden Verkaufsavataren oder humanoiden Servicerobotern“ (Schatter 2011: 22), die als neue Art von Stress empfunden werden könne. Ein größeres Problem scheint aber in den unzureichenden logisch-semantischen Kompetenzen der Systeme zu liegen. Denn die tägliche Begegnung mit verwirrt bis gestört wirkenden InteraktionspartnerInnen und die eigene Kapitulation davor, sind das beunruhigendere Szenario. ← 392 | 393 →

Um zu kohärenteren HCI-Dialogen zu kommen, formuliert Christian (2012) die Forderung nach einer konsistenten Persona, die sich auch im Dialog-Design wiederfinden soll. Eine einzelne, konsistente, einheitliche Identität aufrecht zu erhalten, sei ein wichtiger Aspekt, um den Turing-Test zu bestehen. Darin liegt ein grundsätzliches Problem für lernfähige Systeme auf der Grundlage von Crowd-Sourcing, aber auch für alle anderen Bots, die Störungen im Dialog evozieren. Denn die Defizite jeglicher verfügbaren Dialogsoftware führen zu Parsing-Problemen, damit zu Störungen im Dialogverlauf, die sich in heterogenen, sprunghaften Dialogen manifestieren. Eine konsistente Persona für diese Arten von Systemen müsste diese logisch-semantischen Defizite folglich in ihren Charakter integrieren, wie es bei Elbot versucht wurde. Da es wenige sinnvolle Anwendungsbereiche für anthropomorphe Systeme mit bewusst als gestört designter Persona gibt (vgl. Kapitel 4.5), muss wahrscheinlich mittelfristig zugunsten einer stimmigen Identität ein Teil der Anthropomorphie aufgegeben werden. DiSalvo et al. (2002: 325) sprechen sich dafür aus, dass anthropomorphe Systeme genau so viel Robotness behalten sollten, dass sie keine falschen Erwartungen wecken, und mit genau so viel Humaness ausgestattet werden sollten, dass sie als soziabel wahrgenommen werden. Dies trifft wahrscheinlich auch für die Ebene der Dialogperformanz zu. Es ist zu überlegen, ob ein Mehr an Computerness die Systeme auf dem heutigen Stand glaubwürdiger machen könnte. Bspw. könnten im Rahmen eines zwischen Mensch und Maschine angelegten Designs Fehlermeldungen statt irreführender Default-Antworten ausgegeben werden. Auf diese Art würde der Dialog nicht in eine andere Richtung geleitet, bevor die UserInnen überhaupt die Chance bekommen, Repair einzuleiten. Der müden, reaktiven Rezeptionshaltung der UserInnen könnte durch solche Design-Entscheidungen entgegengewirkt werden und offen kommunizierten Defitizen des Systems könnten kooperative UserInnen-Strategien zur Simplifizierung begegnen, wie es die Experimente von Fischer zu HRI mehrfach gezeigt haben (vgl. Fischer 2006, 2014). Dass mehr offensichtliche Computerness in der Dialogführung aber auch Nachteile hat, liegt auf der Hand und müsste im Einzelfall evaluiert werden. Dieser offen kommunizierte Mittelweg zwischen Humaness und Robotness bzw. Computerness wird bei der Gestaltung von Robotern und Avataren bei den meisten Systemen bereits beschritten, um zu vermeiden, dass NutzerInnen die künstliche Entität als gruselig empfinden. Auf dem momentanen Entwicklungsstand der Systeme, wäre eine vergleichbare Strategie auch für die Dialogführung vernünftig. So besteht eine Chance für die UserInnen, sich bewusst auf den Status Quo einzustellen und ein Simplified Register zu wählen. Vielleicht kristallisieren sich so mit weiterer Verbreitung der Systeme und wachsender ← 393 | 394 → Medienkompetenz der UserInnen mit der Zeit bestimmte uniforme Strategien zum sprachlichen Umgang mit den artifiziellen Übergangsformen heraus, die dann als in sich systematisches Register begriffen werden können. Dieser neue Substandard könnte UserInnen-Beiträge antizipierbarer und die HCI dadurch weniger störungsanfällig machen. Der Erwerb von Medienkompetenz in der Schule und offizielle Regelungen zum Umgang mit artifiziellen Dialogagenten könnten in der Zukunft eine Rolle spielen. Denn wenn ein Punkt erreicht ist, an dem die Weiterentwicklung der Systeme stagniert, werden Menschen versuchen, sich den Gegebenheiten anzupassen und verbindliche Interaktionsregeln formulieren.

Mittelfristig werden die Systeme aber auch ohne starke KI Schritt für Schritt verbessert werden, da ihnen mehr Ressourcen zu Verfügung stehen werden: Eine größere Auswahl an Prompts als Ergebnis von Crowd-Sourcing oder Dialog-Design oder umfangreiche Dialog-Datenbanken sowie Datenbanken mit enzyklopädischem Wissen und ausgefeiltere statistische Modelle und Algoritmen zu deren Auswertung. Mit den verbesserten Technologien wird sich auch die UserInnen-Sprache weiter verändern. Ob dieser Weg allein aber zu Star-Trek-Dialogen führen kann, wird auch von führenden Wissenschaftlern wie Chomsky oder Minsky bezweifelt (vgl. Kapitel 5.3).

5.2  Desiderata und Möglichkeiten zur Weiterentwicklung der Systeme

In diesem Kapitel sollen die aus der korpus-basierten Überblicksstudie abgeleiteten Probleme der aktuellen HCI gesammelt und Lösungsvorschläge aus linguistischer Perspektive angedacht werden.

Im vorangegangenen Kapitel wurde das UserInnen-Verhalten als vornehmlich reaktiv charakterisiert. Die Studie konnte in verschiedenen Untersuchungsbereichen einen Zusammenhang zwischen den Vorgaben des Systems und den Reaktionen der UserInnen nachzeichnen, auch wenn die Bezugsrelation bei den unterschiedlichen analysierten Phänomenen sehr unterschiedlich ausfällt. Dennoch kann bei den wenigsten Untersuchungsparametern angenommen werden, dass das UserInnen-Verhalten unabhängig vom konkreten vorangegangenen System-Turn ist.

Sind nun also die Vorgaben der Systeme unnatürlich gestaltet und werden dem Anwendungskontext nicht gerecht, ist auch nicht mit natürlichem, situativ angemessenen UserInnen-Verhalten zu rechnen. Das Resultat kann nicht als CT im engeren Sinne bezeichnet werden, sondern als eine natürliche Reaktion auf eine unnatürliche Vorgabe. Die pragmatische Gestaltung der Systembeiträge ← 394 | 395 → folgt nicht in erster Line den Anforderungen des Interaktionsszenarios (z. B. Info-Bot an virtuellem Help-Desk), sondern den technischen Möglichkeiten des Bots. Dies führt zu Restriktionen für die Interaktion, die Folgen für den gesamten Dialogverlauf haben – seitens des Systems und seitens der UserInnen. So sind bspw. einsilbige Antworten der NutzerInnen, deren einziger Sinn im Vo­rantreiben der Progression liegt, eine klare Folge von enger UserInnen-Führung auf der Grundlage von Menüpunkten. Aus einer freieren UserInnen-Führung resultieren viele Default-Antworten und thematische Sprünge, denen UserInnen entweder folgen und das eigentliche Dialogziel aus dem Blick verlieren oder Repair einleiten, um zum „roten Faden“ der Interaktion zurückfinden. Wie Goetz et al. (2003) in ihrer „matching hypothesis“ fordern, dass Erscheinungsbild und Verhalten des Bots zum jeweiligen Einsatzbereich passen sollten, gilt auch für das Dialog-Design, dass es auf die Pragmatik der Interaktionssituation ausgelegt sein sollte.

Dabei ist selbstverständlich immer zu beachten, dass Robustheit als Entwicklungsziel bei vielen Anwendungen wichtiger ist als Natürlichkeit. Vor allem auf dem derzeitigen Stand der Technik, auf dem es (noch) nicht möglich ist, mit einem System zu interagieren wie mit einem Menschen, nimmt HCI notwendig eine Zwischenposition zwischen dem Bedienen einer Maschine mit Werkzeugcharakter und der Kommunikation mit einem Assistenten ein. Entwicklungsziel ist die voraussetzungs- und störungsfreie Kommunikation (Star-Trek-Dialoge). Derzeitig bringen die Systeme jedoch noch zu viele Restriktionen mit sich, um Kommunikation auf diesem Niveau zu ermöglichen.

5.2.1  Mögliche Innovationen

Auf der Grundlage der Ergebnisse der Korpusanalyse können zwei Schlüsselprobleme definiert werden. Eines ist lokalisiert in Tiefenstruktur der HCI-Dialoge, das andere an deren Oberfläche.

a) Kohärenz als Schlüsselproblem der Tiefenstruktur

Eine automatische Generierung von kohärenten Anschlüssen ist nur bedingt möglich. Um dieses Grundproblem zu kaschieren, werden bestimme Design-Entscheidungen getroffen, die die HCI prägen. Fördert man robuste, kohärente Progression, müssen UserInnen-Beiträge eindeutig antizipierbar sein. Dafür eignen sich bestimmte Strategien der Dialogführung, die freies, proaktives UserInnen-Verhalten auf ein Minimum beschränken. Dies schlägt sich im Dialog-Design folgendermaßen nieder:
← 395 | 396 →

b) Pragmatik der technischen Restriktion an der Dialogoberfläche

enge UserInnen-Führung oder viele Default-Antworten

lange monologische Sequenzen des Systems (+ konzeptionelle Schriftlichkeit)

viele direkte Fragen

Verzicht auf turn-übergreifende Kohäsion

Aus diesen Parametern resultiert das in dieser Arbeit beschriebene reaktive UserInnen-Verhalten auf unterschiedlichen Niveaus der Bewusstheit.

Besonders die Mischung aus zahlreichen monologischen Sequenzen und vielen Fragen des Bots wirkt in den meisten Settings unangemessen. Höchstens in einem virtuellen Tutorium ist diese pragmatische Konstellation sinnvoll, was dazu beiträgt, dass pädagogische Agenten vergleichsweise gut funktionieren und auf hohe Akzeptanz stoßen. Für Info-Bots besteht dagegen das Desiderat für weniger initiative Fragen und mehr kohärente Antworten. Dies zu realisieren, ist aber alles andere als trivial.

Was kann also unternommen werden, um die o. g. Restriktionen der aktuellen HCI aufzuweichen?

a) Auf der Ebene der Systemarchitektur

Das grundsätzliche Problem, kohärente Verweisrelationen vor dem Hintergrund semantischer Wissensbasen zu implementieren, kann nur mittels starker KI gelöst werden. Desiderate sind hier:

Artifizieller Common Ground, der aus dem Kotext des vorangegangenen Dialogverlaufs abgeleitet wird im Sinne eines semantischen Arbeitsspeichers

Zugriff auf Informationen aus dem Web, die in Echtzeit ausgewertet und in den aktuellen Dialogverlauf inferiert werden können

Kohärenz-Parser als Self-Monitor des Systems für einzelne Dialogsequenzen (vgl. Purandare & Litman 2008: 6), um inkohärente Turn-Wechsel zu erkennen und ggf. Repair einzuleiten

b) Auf der Ebene des Dialog-Designs

Die hier vorgeschlagenen Ansatzpunkte für Innovationen sind technisch einfacher umzusetzen, da sie allein die sprachliche Oberfläche des Dialogs betreffen. Sie werden hier nach den Untersuchungsbereichen der Studie geordnet aufgelistet.

Aus der Konversationsanalyse (CA) entlehnte Untersuchungsparameter

Monologische Sequenzen der Bots sollten in den meisten Szenarien unbedingt vermieden werden. Vor allem lange, konzeptionell schriftlich ← 396 | 397 → gestaltete System-Turns wirken sich negativ auf die unterschiedlichsten Bereiche der Interaktion aus. Sie können ohne Weiteres vermieden werden. In einem ECA könnte die Turnlänge des Systems der jeweiligen Länge des vorangegangenen UserInnen-Turns angepasst werden, um einen natürlicheren Eindruck zu vermitteln.

Situative Angemessenheit ist enorm wichtig für alle Ebenen des Dialog-Designs. Wird sie nicht realisiert, kommt es zu unnatürlichen pragmatischen Konstellationen im Sinne von bspw. proaktiven Fragen des Bots in einem Info-Szenario. Solche Szenarios sollten unbedingt vermieden werden, da ansonsten die Interaktionssituation nicht konsistent wirkt. Dies hat zur Folge, dass z. B. das Info-Szenario als Small-Talk-Situation wahrgenommen wird, was sich in entsprechenden Verhaltensweisen niederschlägt. Zu bevorzugen wäre dann lieber ein situationsbezogenes Skript oder Rückfragen und Gegenfragen.

Isolierte Assessments, also Turns, die nur eine einzelne Meinungsäußerung beinhalten, sollten unbedingt vermieden werden, wenn man antizipierbare Dialogverläufe implementieren möchte. Hier ist die Wahrscheinlichkeit hoch, dass UserInnen mit einer Eingabe reagieren, die nicht geparst werden kann. Anhand des Elbot-Korpus konnte gezeigt werden, dass auf diese Art und Weise inkohärente thematische Progression initiiert wird.

Default-Antworten als isolierte Statements oder Assessments sollten ebenfalls vermieden werden, weil die UserInnen-Reaktion auf eine solche Struktur schlecht vorhergesagt werden kann. Da Default-Antworten dem Störungsmanagement dienen, sollten sie nicht direkt die nächste Störung provozieren. Eine Kombination aus Default-Antwort und Themenwechsel in Form einer Frage mit neu eingeführtem thematischen Fokus wird von UserInnen sehr gut akzeptiert.

Turn-Taking sollte in der HCI auf dem derzeitigen Stand der Technik extern geregelt werden, da die subtilen Regeln zur Vergabe des Rederechts noch nicht in vollem Umfang in Bots implementiert werden konnten und somit Turn-Taking keinen natürlichen Einfluss auf Turn-Längen nehmen kann. Sinnvoller ist es deshalb, ein Maß für die maximale Länge der System-Turns zu ermitteln, indem die Länge des vorangegangenen UserInen-Turns gespiegelt wird (s. o.). In der chat-basierten HCI ist vor diesem Hintergrund auch auf Splitting von Systembeiträgen zu verzichten. Gesplittete Beiträge werden auch von den UserInnen nicht gepostet. ← 397 | 398 →

Grußsequenzen sollten unbedingt kontextsensitiv gestaltet werden. Routinierte Abfolgen von Gruß und Gegengruß funktionieren in neueren Bots bereits gut. Um die Akzeptanz der UserInnen zu erhöhen, können Grußsequenzen in drei Aspekten verbessert werden:

aligntes Grüßen bei nicht-initialem System-Gruß

situative Angemessenheit des Grußes prüfen für konsistentere Persona

Adjazenzpaare stellen auch in der HCI das strukturelle Skelett der Interaktion dar. UserInnen verwenden deutlich mehr Adjazenzellipsen als ganze Sätze. Wenn das Parsing einer solchen Adjazenzellipse scheitert, findet sich die fehlende Information vielleicht im Vorgänger-Turn des Systems. Ein erweiterter Parsing-Algorithmus für ganze Adjazenzpaare könnte zur Anwendung kommen, wenn das Parsing eines elliptischen UserInnen-Turns scheitert.

CMC-Phänomene wie Smileys etc. könnten bei chat-basierter HCI je nach Anwendungskontext in Dialog-Desingns miteinbezogen werden. In einem Small-Talk-Szenario hätten sie Unterhaltungswert. Die gebräuchlichsten Zeichenkombinationen könnten in ein Dialog-Lexikon integriert werden. Obwohl CMC-Phänomene in den untersuchten Korpora keine Rolle spielen, ist auf der Basis der Studie doch anzunehmen, dass UserInnen die entsprechenden Zeichenkombinationen verwenden würden, wenn das System sie vorgibt (Alignment, reaktives Verhalten). Sie könnten Zusatzinformationen über die emotive Konnotation der UserInnen-Beiträge liefern und dem System damit helfen, „zwischen den Zeilen zu lesen“.

Alignment

Lexikalisches Quasi-Alignment des Systems wird bislang nur durch Artefakte der Schlüsselworterkennung generiert. Da UserInnen aber zu Wortformen des Systems alignen, scheint ein Alignment-Generator, der die entsprechenden Distanz-Frequenz-Effekte simuliert, sinnvoll für ECAs. In einfachen Chatbots sollte bei der Generierung von System-Antworten auf jeden Fall darauf geachtet werden, dass einfache Repetitionen der Ausgabe von Synonymen vorgezogen werden, wenn Menschenähnlichkeit signalisiert werden soll.

Syntaktisches Quasi-Alignment zu generieren, ist die größere Herausforderung und wird nicht funktionieren, solange automatische syntaktische Analysen mittels NLP noch unzuverlässig sind. Vor dem Hintergrund der Studie wäre aber idealerweise ein kombinierter Generator für syntaktisches und lexikalisches Alignment mit unterschiedlicher Frequenz für beide Ebenen ratsam. ← 398 | 399 →

Lexikalisches UserInnen-Alignment kann zur Erstellung eines Dialog-Lexikons für priorisiertes Parsing genutzt werden. Von den UserInnen wiederholt gebrauchte Formen (Lexeme oder ganze Phrasen) können auch ohne Alignment-Generator in einem Dialog-Lexikon gespeichert werden – gewissermaßen als impliziter Common Ground.

Kohäsion

Pronominale Referenz sollte innerhalb der System-Turns weitestgehend vermieden werden. Innerhalb geskripteter Passagen wirkt eine Sequenz manchmal natürlicher, wenn das System auf eigene Vorgänger-Turns verweist. Das Parsing von einfachen Proformen muss dann aber stetig verbessert werden, da UserInnen in der chat-basierten HCI ohnehin bereits vergleichsweise viele Proformen gebrauchen und ihr Einsatz in Reaktion mutmaßlich weiter ansteigen würde.

Konjunktionen (z. B. weil, obwohl usw.) können in vielen Fällen logisch nicht verarbeitet werden. Die Studie hat gezeigt, dass UserInnen kaum konjunktional gebundene Ausdrücke verwenden (vor allem keine subordinierten Sätze). Systeme sollten dem entsprechend angepasst werden und ebenfalls weniger konjunktional gebundene Satzgefüge ausgeben, um so einen Stil mit wenigen Verknüpfungen vorzugeben.

Konnektiva (z. B. also) sollten häufiger turn-einleitend verwendet werden. Auch wenn keine semantische Verknüpfung mit dem vorangegangenen UserInen-Turn hergestellt werden kann, schaffen sie dennoch die Illusion von Kohäsion.

Semantische Repräsentationen sind enorm wichtig für eine kohärente thematische Progression. Sie können nur stetig Lexem für Lexem, Phrase für Phrase erweitert werden.

Frames und Skripts sollten in Form von Entscheidungsbäumen für unterschiedliche robuste Dialogverläufe hinterlegt werden, um alternative Progressionen zu erlauben und so einen Mittelweg zwischen geskripteten und freien Dialogen zu schaffen.

Computer-Talk

Die Unhöflichkeit der UserInnen ist ein stark von der HHC abweichendes und vergleichsweise häufiges Phänomen in den untersuchten Korpora. Durch zwei System-Strategien kann ihr vorgebeugt bzw. sie aufgefangen werden, um die Interaktion mit dem System natürlicher wirken zu lassen.

Das Distanzniveau für eine Anwendung sollte in konsistenter Form vorgegeben werden (Kontext, Persona, Avatar, Sprache) ← 399 | 400 →

Flaming kann durch spezielle vorformuliere System-Turns sanktioniert werden, wie es in den meisten Bots schon angelegt ist. Die Sanktionen können härter ausfallen als bisher angelegt (erschrockene oder perplexe Reaktion, Einfordern einer Entschuldigung, Gesprächsabbruch).

Eine Analyse des UserInnen-Typs anhand dialog-initialer Sequenzen ist möglich (vgl. Fischer 2006). Die Erkennung sollte auf der Grundlage einer Sequenz nach der eigentlichen Grußphase erfolgen, da ritualisiertes Verhalten und reaktives Alignment der UserInnen bei initialem System-Gruß typbezogene Effekte überlagern.

Kleine strukturelle Veränderungen im Dialog-Design (z. B. Verzicht auf lange System-Monologe, Repetitionen statt Synonyme) können großen Einfluss haben auf die gesamte Interaktion, da UserInnen einen anthropomorpheren Gesamteindruck von ihrem artifiziellen Gegenüber bekommen. Es ist sehr wahrscheinlich, dass auf diese Weise natürlicheres UserInnen-Verhalten provoziert wird, das im Gegenzug auch leichter antizipierbar ist.

Aus soziologischer Perspektive wurde mehrfach darauf hingewiesen, dass ein konsistentes Gesamtkonzept der Anwendung zu verbesserter Akzeptanz seitens der UserInnen führe (u. a. Krämer 2008). Die Studie zeigt, dass auch die sprachliche Interaktion leidet, wenn die Interaktionssituation als inkonsistent oder pragmatisch unwahrscheinlich wahrgenommen wird. Viele typische Probleme der HCI könnten vermieden werden durch alltagsnähere Gesamtkonzepte, vor deren Hintergrund nicht nur die Agenten-Persona und den Avatar gestaltet werden, sondern auch ein konsistentes pragmatisches Konzept festlegt wird (Frames und Skripts, Distanzniveau, typische Adjazenzstrukturen und Sprechakte usw.).

5.2.1.1  Unlösbare Probleme?

Hilfreich sind die o. g. Empfehlungen zur Steigerung der Akzeptanz der Systeme durch die UserInnen, indem die Illusion von Natürlichkeit unterstrichen wird. Außerdem tragen sie in Bezug auf die Verarbeitung einzelner Strukturen zu größerer Robustheit der Progression bei. Die grundsätzlichen Probleme der HCI, nämlich das Fehlen von Autonomie und Spontaneität, von Weltwissen und Common Ground sowie die begrenzten Möglichkeiten zur Inferenz, sind damit längst nicht gelöst. Darüber hinaus sind einzelne Aspekte der Kommunikation unter Menschen kaum regelbasiert zu fassen, da sie nur vor dem Hintergrund eines kulturell gewachsenen Alltagswissens systematisch erklärt werden können. Das Verweissystem einer kohärenten Interaktion über mehrere Turns ist abhängig von Variablen der Interaktionssituation und der GesprächsteilnehmerInnen sowie einer großen Zahl an aus der Lebenswelt abgeleiteten Präsuppositionen, ← 400 | 401 → die individuell extrem variieren. Turn-Taking ist als System von zahlreichen sozialen Faktoren abhängig, die nur unter Bezugnahme auf die entsprechende kulturelle Prägung definiert werden können. Die konkrete Wortwahl und die damit intendierten Begriffsumfänge eines/r SprecherIn beruhen auf so unterschiedlichen im Laufe eines Lebens erworbenen Assoziationen, dass sie unmöglich exakt abgebildet und für mehrere Interagierende gleichermaßen vorausgesetzt werden können. Und schließlich scheitern die HCI-Dialoge, wie die Studie zeigt, an unterschiedlichen Interpretationen des situativen Kontexts der Anwendung durch a) die EntwicklerInnen und b) die UserInnen. Denn auch Deutungen von Alltagssituationen können bei unterschiedlichen Interagierenden weit auseinander liegen. Hier ist es wichtig, auf explizites Grounding zurückgreifen zu können, zu dem Systeme ohne das entsprechend breite semantische Wissen nicht in der Lage sind. Wird es vor diesem Hintergrund jemals möglich sein, artifizielle Gesprächspartner ohne Restriktionen zu entwickeln?

5.3  Humanoid intelligente Systeme und Superintelligenzen oder Werkzeuge mit verbesserter Usability?

Obwohl Sprachassistenzsysteme, Chatbots, ECAs und soziable Roboter noch längst nicht zuverlässig funktionieren, inspirieren technische Innovationen heute mehr denn je die Phantasie von WissenschaftlerInnen und KünstlerInnen. Schatter fasst die Argumentation wie folgt zusammen: „Transhumanisten und Sciencefiction-Autoren nehmen an, dass die mentalen Eigenschaften des Menschen durch Schaffung einer Superintelligenz übertroffen werden können“ (Schatter 2011: 16). Christian ist sogar der Meinung, dass bereits heute jede Interaktion, die man online führe, gezwungenermaßen ein Turing-Test sei, denn man wisse nie mit Sicherheit, ob ein Chat-Beitrag oder eine Mail automatisch erzeugt worden sei (Christian 2012: 17). Einfache künstliche Intelligenzen haben Einzug genommen in unseren Alltag und beeinflussen unsere täglichen Entscheidungen in Form von Navigationsgeräten oder Autokorrektur-Systemen, die unsere Wahrnehmung der Umwelt prägen und unsere individuelle Art zu schreiben nivellieren (vgl. Christian 2012: 18). Sogar bei der PartnerInnen-Wahl verlassen sich einige Menschen heute bereits auf Algorithmen, die Charaktereigenschaften auf der Basis von psychologischen Modellen vergleichen.

Auch wirklich existenzielle Fragestellungen fallen heute mehr denn je in den Bereich der KI. Einige WissenschaftlerInnen erwarten eine exponentielle Weiterentwicklung innovativer Systeme, die in den nächsten Jahrzehnten zur sog. technologischen Singularität führen soll (vgl. Kurzweil 2005): die Entwicklung einer humanoiden oder übermenschlichen KI. Dabei stellt die Anthropomorphisierung ← 401 | 402 → der Systeme einen ersten Schritt in diese Richtung dar. Doch ist die Diskussion um menschenähnliche oder übermenschliche KI angesichts der offensichtlichen Probleme allein im Bereich der HCI nicht verfrüht? Sprachfähigkeit sollte eine basale Funktion jeder humanoiden KI sein. Die im Rahmen der Studie untersuchten Systeme weisen neben den benannten sprachlichen Problemen auch eine Reihe ganz grundsätzlicher Defizite auf. Auch wenn die sprachliche Performanz besonders elaborierter Systeme wie Watson (Ferrucci et al. 2010) bereits bedeutend besser ist als die der analysierten Bots, konnten die Grundprobleme der KI bis heute nicht gelöst werden. Die KI-Diskussion beschäftigt sich also nach wie vor mit folgenden Punkten:

  • das Problem des Fehlens einer Theory of Mind
  • das Problem der semantischen Verweisrelationen
  • das Problem des Bewusstseins, der Autonomie und der Intentionalität
  • das Problem der ethischen Implikationen

Solange es an einer umfassenden Theorie der menschlichen Kognition mangelt und eine Erklärungslücke zwischen den Ebenen der symbolischen Repräsentation und der elektrophysiologischen Verarbeitung im Gehirn klafft, ist es unmöglich, eine KI nach dem menschlichen Vorbild zu entwickeln.

Die Argumentationslinien im Diskurs um die zeitliche Nähe der technologischen Singularität lassen sich auf zwei Grundannahmen zurückführen, nämlich a) dass Intelligenz ein Emergenzphänomen sei und b) dass Intelligenz vielmehr eine bestimmte Struktur aufweisen müsse, die uns noch nicht vollständig bekannt sei. Allgemein muss aber von einer Identität der Stuktur mit der Information selbst ausgegangen werden, wenn artifitielle Intelligenz als möglich gedacht werden soll (vgl. Searle 2006: 67).

Die Emergenz-Hypothese besagt, dass sich aus einer kritischen Menge bereits definierter semantischer Repräsentationen ein intelligentes Bewusstsein entwickeln könne, sobald ein entsprechender Schwellenwert erreicht sei. Kurzweil (2005) extrapoliert, dass 2020 „die Informationsverarbeitungskapazität eines Menschen durch Computerhardware im Wert von 1000 Dollar substituiert werden könne“ (Schatter 2011: 14). In Kombination mit der entsprechenden Menge an semantischem Input auf der Basis probabilistischer Netzwerke wäre laut Kurzweil auf dieser Grundlage eine menschenähnliche KI bis 2045 möglich.

Die SkeptikerInnen der nahe bevorstehenden technologischen Singularität kritisieren entweder die zeitliche Nähe des existentiellen Ereignisses oder dessen Möglichkeit an sich. Dass der technologische Fortschritt im Bereich der KI in den nächsten 30 Jahren exponentiell verlaufe, wurde mehrfach bezweifelt, da exponentielles Wachstum über einen vergleichsweise langen Zeitraum ← 402 | 403 → allgemein unwahrscheinlich sei (vgl. Davies 2006). KritikerInnen der Möglichkeit von intelligenten Systemen an sich betonen den mechanistischen Charakter jeglicher KI. So versteht Chomsky unter diesem Aspekt die Systeme Watson und Deep Blue als durchaus vergleichbar, obwohl Watson wesentlich sophistizierter ist und andere Strategien nutzt als der Schach-Computer aus den 90er Jahren. Grundsätzlich fehle bislang eine Theory of Mind, die einen Ansatzpunkt zur Entwicklung einer menschenähnlichen KI bieten könne.126 Kurzweil ist dagegen der Meinung, dass mit Netzwerk-Modellen bereits die grundsätzliche Struktur des menschlichen Gehirns auf die KI übertragen werde.127 Funktionale Aspekte der höheren Kognition sind aber noch so unzureichend erforscht, dass sie nicht in die KI übertragen werden können. Dies zeigt sich bspw. an basalen psychologischen Modellen für emotionale Zustände (z. B. Ortony, Clore & Collins 1988), die in ECAs verwendet werden und weder den natürlichen Sachverhalt abbilden noch ein eigenständiges artifizielles Äquivalent darstellen. „Im Ergebnis finden sich oft plakative, unfertige und unbeholfene mechanistische Konzepte, da die Welt der Technik nur wenig mit der Psychologie zu tun hat“ (Schatter 2011: 22, vgl. auch Krämer 2008). Das gleiche Argument kann auch auf die kognitive Verarbeitung von Sprache bezogen werden. Denn auch hier wird deutlich, dass einzelne vorbewusste mechanistische Aspekte der kognitiven Sprachverarbeitung in ein System übertragen werden können, komplexe Strategien wie z. B. Grounding dagegen nicht. Watsons leitender Ingenieur David Ferrucci ist sich über die besondere Schwierigkeit der Dialogverarbeitung im Klaren und hält den Weg zur technologischen Singularität für noch nicht beschritten.128 Beim Versuch natürlichsprachliche Dialogverarbeitung zu implementieren, werden die Erklärungslücken zwischen der Ebene der symbolischen Repräsentation und der Ebene der empirischen Strukturen zur Prozessverarbeitung besonders deutlich. Die sprachlichen Elemente, die an der Oberfläche eines Dialogs zu einer erfolgreichen Interaktion beitragen, können benannt werden. Unterschiedliche Methoden der Verarbeitung stehen zu Verfügung (statistisch, regelbasiert, mit Hilfe von starker KI, im probabilistischen Netzwerk). Doch Regeln zu definieren, wie empirische Verarbeitungsstruktur, semantischer Inhalt und symbolische Repräsentation miteinander in Relation zu setzten sind, ist extrem schwierig. Hier sind die Grenzen der modernen KI noch sehr eng. Menschen lernen ein Leben lang, um kohärente, dem Kontext angemessene Dialoge führen zu können. Die ← 403 | 404 → dazu genutzten kognitiven Strukturen sind Ergebnis von Millionen von Jahren der Evolution. Aus diesem Grund werden lernfähige Systeme diskutiert, die einen jahrelangen Entwicklungsprozess mit ständigem Input oder sogar einen simulierten darwinistischen Evolutionsprozess durchlaufen sollen.

Dadurch würde aber noch nicht das Problem des Bewusstseins und der Autonomie im Sinne eines freien Willens gelöst. Das menschliche Bewusstsein konnte bislang nicht aus der strukturellen Beschaffenheit und den elektrophysiologischen Funktionen des Gehirns abgeleitet werden. Modelle zur Überbrückung dieser Erklärungslücke auf der Ebene der Quantenmechanik bleiben spekulativ (vgl. Penrose-Hameroff-Modell 1996, 2010). Wie das menschliche Bewusstsein arbeitet und ob es ein Emergenzphänomem mit Bezug auf die Gesamtheit der Hirnprozesse ist oder auf Quantenmechanik zurückgeführt werden kann, ist unklar. Entsprechend unwahrscheinlich ist die künstliche Entwicklung eines Bewusstseins in einem probabilistischen Netzwerk innerhalb der nächsten 30 Jahre. Diskussionen um Autonomie und Intentionalität können aber erst vor dem Hintergrund eines Bewusstseins geführt werden.

Die ethischen Implikationen eines künstlichen Bewusstseins, also einer menschenähnlichen oder übermenschlichen KI, werden trotzdem bereits diskutiert. Denn einer solchen Entität müsste der Status einer Person mit allen damit verbundenen Rechten und Pflichten zugeschrieben werden. Barrat (2013) thematisiert die Gefahren einer solchen Entwicklung in seinem Buch Our Final Invention und Sykora gibt zu bedenken: „Als Kippfigur zwischen Ding und Mensch wohnt den anthropomorphen Kreaturen das Potenzial einer Emanzipation von ihren Schöpfern inne“ (Sykora 2000: 118). In der Science-Fiction wird diese Angst bisweilen zu Endzeitszenarien verdichtet, in denen entweder artifizielle, autonome, aber unethische Entitäten die Menschheit bedrohen oder unschuldige Roboter aus Angst vor einer solchen Machtübernahme von den Menschen prophylaktisch versklavt werden. Aus diesem Grund sieht Fukuyama (1992) im Konzept des Transhumanismus auch eine gefährliche Idee, die im Konflikt mit demokratischen Prinzipien stehe.

ExpertInnen sind sich einig, dass Autonomie und Zielorientierung einer KI ohne eine ethische Entscheidungskomponente problematisch wären, daher wird unter dem Label Friendly AI (Yudkowsky 2008)129 versucht, diese zu implementieren. Doch Ethik ist genauso kulturell gewachsen wie Sprache und auch nur vor diesem Hintergrund zu verstehen. Einige sehr allgemeine ethische Regeln lassen sich formulieren, doch im Alltag müssen Einzelfallentscheidungen auf der ← 404 | 405 → Grundlage des Weltwissens und vor dem Hintergrund einer bestimmten Kultur oder Sozietät getroffen werden. Ein wirklich intelligentes, ohne Einschränkungen sprachfähiges System mit ethischem Bewusstsein ist nur auf der Basis kulturellen Lernens denkbar. Eine simulierte kulturelle Entwicklung für eine KI könnte als Lösungsansatz für das Sprachproblem und das Ethikproblem gleichermaßen fungieren.

Die Furcht vor einer Technokratie im abstrakteren Sinne und die freiwillige Unterordnung unter diese Strukturen, ist angesichts der heutigen technisierten Welt nachvollziehbar. Allein die Folgen der täglichen Interaktion mit einem bot-basierten Lernprogramm sind unabsehbar (vgl. Kapitel 5.1). Doch Erkenntnisprozesse werden angetrieben durch den Glauben an eine Omnipotenz von Wissenschaft, der dem technischen Fortschritt immer als treibende Kraft inhärent war (vgl. Standage 2002). In Bezug auf anthropomorphe Systeme konstatierten Elliott und Brzezinski aus diesem Grund bereits Ende der 1990er Jahre: „Designing software as a social interface is not something we can avoid because it happens whether we plan for it or not; we have no choice in doing it but only in doing it right” (Elliott & Brzezinski 1998: 12).

Da die technologische Singularität angesichts des derzeitigen Stands der Forschung noch in weiter Ferne liegt, besteht ein wichtiges Nahziel der HCI-Forschung darin, einen angemessenen Umgang mit dem Zwischencharakter der artifiziellen Dialogagenten zwischen humanoidem Gegenüber und zuverlässig nutzbarem Werkzeug zu finden. Eine junge Generation von UserInnen kann den Systemen mit grundsätzlichem Verständnis für deren Funktionsweise und großer Akzeptanz für ihre Schwächen entgegentreten. In der Interaktion mit Systemen, die nicht natürlicher wirken sollen als sie sind, sondern anwendungsbezogen eine konsistente Erweiterung der klassischen Desktop-Metapher darstellen (z. B. auf einer kommerziellen Website), könnte sich eine effiziente Form der Interaktion herausbilden, die sowohl Elemente der HHC als auch Elemente eines CTs enthält. Voraussetzung dafür wäre seitens des Systems die entsprechende alltagsnahe Einbettung in den Kontext ohne logische Brüche und seitens der UserInnen eine hohe Medienkompetenz und ein Bewusstsein für die Probleme und Möglichkeiten der Interaktion mit dem virtuellen Gegenüber. ← 405 | 406 →


125 Eine im Rahmen einer BA-Arbeit an der Leibniz Universität Hannover durchgeführte Pilotstudie zu Aligment in der Interaktion von Kindern (6–12 Jahre) mit Chatbots gibt Anlass zu der Vermutung, dass die Kinder weniger zum System alignen als Erwachsene (in 14,4 % der Turns; vgl. auch Oviatt 1995).

126 Podcasts eines Interviews für den Blog „Singularity 1 on 1“ (Nikola Danaylov), (Zugriff 08.04.2016) www.youtube.com/watch?v=0kICLG4Zg8s.

127 ebd.: www.youtube.com/watch?v=CEt3x3GJyKY (Zugriff 10.05.2016).

128 ebd.: www.youtube.com/watch?v=OXZGPnlFLT8 (Zugriff 10.05.2016).

129 vgl. yudkowsky.net/rational/overcoming-bias/ (Zugriff 10.05.2016).