Show Less
Open access

Multimodale Kommunikation im Social Web

Forschungsansätze und Analysen zu Text–Bild-Relationen

Series:

Christina Margrit Siever

Multimodalität ist ein typisches Merkmal der Kommunikation im Social Web. Der Fokus dieses Bandes liegt auf der Kommunikation in Foto-Communitys, insbesondere auf den beiden kommunikativen Praktiken des Social Taggings und des Verfassens von Notizen innerhalb von Bildern. Bei den Tags stehen semantische Text-Bild-Relationen im Vordergrund: Tags dienen der Wissensrepräsentation, eine adäquate Versprachlichung der Bilder ist folglich unabdingbar. Notizen-Bild-Relationen sind aus pragmatischer Perspektive von Interesse: Die Informationen eines Kommunikats werden komplementär auf Text und Bild verteilt, was sich in verschiedenen sprachlichen Phänomenen niederschlägt. Ein diachroner Vergleich mit der Postkartenkommunikation sowie ein Exkurs zur Kommunikation mit Emojis runden das Buch ab.
Show Summary Details
Open access

7 Multimodale Kommunikation

7  Multimodale Kommunikation

Weil in der gegenwärtigen Kommunikation neben der Sprache die Modalität des Bildes an Bedeutung gewinnt, verändert sich die kommunikative Landschaft (vgl. Stöckl 2004c: 9). Die Ursachen für diese Veränderung sind soziale, ökonomische, kulturelle und technische Faktoren (vgl. Kress 2010: 5). Der Ausdruck semiotische Landschaft macht deutlich, dass in der Kommunikation – abhängig vom historischen und soziokulturellen Hintergrund – unterschiedliche semiotische Ressourcen verwendet und miteinander kombiniert werden (vgl. Jewitt 2009d: 304; Jaworski, Thurlow 2010: 2). Die Funktion der Schrift ist zweifelsohne eine andere, wenn sie in Kombination mit Bildern auftritt. Insbesondere in neuen Kommunikationsformen wird »die seit der Erfindung des Buchdrucks unangefochtene Monopolstellung von Schrift« (Schmitz 2005: 199) unterminiert. Laut U. Schmitz (2006b: 101) kann aufgrund der genannten rasanten Entwicklungen »Sprachwandel in statu nascendi« beobachtet werden. Es gilt also zu erforschen, wie sich die veränderten Kommunikationsbedingungen auf den Sprachgebrauch auswirken.

Für den genannten Kommunikationswandel müssen zunächst einmal die technischen Voraussetzungen geschaffen sein. Heutzutage sind die »kostengünstige Herstellung, Bearbeitung, Reproduktion und Distribution von Bildmaterial […] eine Selbstverständlichkeit« (Stöckl 2004b: 3) und in Kapitel 4 wurde aufgezeigt, dass im deutschsprachigen Raum sowohl Breitbandinternetanschlüsse als auch Digitalkameras und fotofähige Mobiltelefone zur Standardausstattung von Haushalten gehören. Doch die technischen Möglichkeiten allein führen nicht zu einem Wandel, vielmehr können dafür soziale Gründe ausgemacht werden. Kress (2004: 57) beispielsweise sieht eine mögliche Erklärung im sogenannten Information Overload. Er argumentiert, dass die Modalität Bild besser dazu geeignet sei, große Datenmengen effizient zu verarbeiten. Es sei ergänzt, dass auch dem »communication overload« (Siever 2013: 14) mit Bildern partiell entgegengewirkt werden kann, denn Fotos sind heutzutage mit dem Smartphone schnell erstellt, publiziert und rezipiert. Was die Reaktion auf Bilder und andere Inhalte im Social Web betrifft, so ist ebenfalls zu konstatieren, dass Rating-Systeme eine Lösung des Problems Information Overload darstellen können (vgl. Heckner 2009: 114). In Rating-Systemen werden nonverbale Mittel eingesetzt, d. h. ein einziger Mausklick kann einen Kommentar ersetzen und ist demnach ökonomischer als eine verbal realisierte Bewertung (vgl. dazu ausführlich Kapitel 3.4). ← 243 | 244 →

Zunächst wird im folgenden Teilkapitel auf den sogenanntem pictorial turn (visuelle Wende) eingegangen, denn durch diesen ist multimodale Kommunikation überhaupt erst in größerem Umfang möglich geworden. In Kapitel 7.2 wird erläutert, inwiefern in der Terminologie zu multimodaler Kommunikation linguozentrische Metaphorik verwendet wird und es werden alternative Bezeichnungen vorgeschlagen. Um sodann zu klären, was unter multimodaler Kommunikation verstanden wird, ist es im Kontext der vorliegenden Arbeit erforderlich, auf den Text- und Bildbegriff detaillierter einzugehen. Im Anschluss daran werden das Konzept der Multimodalität sowie intermodale Relationen detailliert dargestellt. Das Kapitel schließt mit einem Überblick über Tendenzen der ikonographetischen, digitalen Kommunikation, in dem einerseits Beispiele aus Flickr angeführt und andererseits Schrift- und Bildzeichen enthaltende Kommunikate von weiteren Kommunikations-(platt-)formen wie WhatsApp, Facebook sowie E-Mail berücksichtigt werden.

7.1  Pictorial und multimodal turn

Die zurzeit steigende Relevanz von Bildern sowohl in der Gesellschaft als auch in der Wissenschaft wird pictorial oder iconic turn genannt. Neben diesen beiden häufig verwendeten Bezeichnungen finden sich darüber hinaus auch imagic oder visualistic turn (vgl. Sachs-Hombach 2009: 7). Mitchell (2009: 321) weist darauf hin, dass der aktuell zu beobachtende turn nicht der einzige seiner Art sei, sondern dass mit pictorial oder visual turn allgemein auf bedeutende Wendepunkte verwiesen werde, bei denen sich die Stellung von Bildern verändere. Es handle sich dabei um Momente, in denen »ein neues Medium, eine technische Erfindung oder eine kulturelle Praxis Symptome von Panik oder Euphorie (gewöhnlich beides) in bezug auf ›das Visuelle‹» (Mitchell 2008: 330) hervorrufen.

Als Beispiel für solche Meilensteine können insbesondere die Erfindung der Fotografie und des Internets angeführt werden (vgl. Bredekamp 2005: 18–21). So ist es wohl kein Zufall, dass die Ausrufung des pictorial turns durch Mitchell (1992) sowie des iconic turns327 durch Boehm (1994) in die Zeit fällt, in der das Internet populär wurde: 1993 war erstmals ein grafikfähiger Webbrowser verfügbar, der es auch Amateuren ermöglichte, das Web zu nutzen. Der Literatur- und Bildwissenschaftler W. J. T. Mitchell (2007: 40) stellt allerdings fest, dass sich ein pictorial turn nicht unbedingt auf eine neue Technologie beziehen muss, sondern er auch durch soziale Veränderungen, in denen Bildängste entstehen, hervorge ← 244 | 245 → rufen werden könne. Hug (2011: 54) spricht nicht von einem turn, sondern von einem Visualisierungsschub328 und unterscheidet dabei quantitative und qualitative Aspekte. Er konstatiert für die quantitative Perspektive, dass die Anzahl der Bilder durch die exzessive Nutzung von Foto- und Videoplattformen im Internet sowie durch die Verbreitung der digitalen Bildbearbeitung stark angestiegen sei, und auch »in qualitativer Hinsicht haben sich Umgangsformen mit Bildern und Sehpraxen in vielen Lebensbereichen geändert« (ebd.: 54).

Wenn sich die Relevanz von Bildern verändert, stellt sich unweigerlich die Frage, inwiefern dadurch die Bedeutung der Sprache tangiert ist. So stellt denn auch Mitchell (2009: 321) fest: »Gewöhnlich beschwören pictorial turns in irgendeiner Weise die Unterscheidung zwischen Worten und Bildern herauf, wobei das Wort mit Gesetz, Lesekompetenz und Elitenherrschaft, das Bild dagegen mit volkstümlichem Aberglauben, Unbildung und Ausschweifung assoziiert wird« (ebd.: 321, Herv. im Original). Gerade im ängstlichen Bestreben, die Sprache vor dem Visuellen schützen zu müssen, sieht Mitchell (2008: 103) ein Indiz für einen sich vollziehenden pictorial turn. Dem Wandel hin zu einer multimodaleren Kommunikation wird also, wie bei anderen Neuerungen auch, von einigen Seiten mit Skepsis begegnet. Eine ähnliche Angst vor Sprachverfall wird im öffentlichen Diskurs in Bezug auf die digitalen Medien bzw. die digitalen Kommunikationsformen geäußert (vgl. Waibel 2010: 230), insbesondere werden negative Auswirkungen auf die Schriftlichkeit außerhalb des Internets befürchtet (vgl. Androutsopoulos 2007: 93). Dass diese Ängste unbegründet sind, konnte jedoch empirisch belegt werden: Das Schreiben in den digitalen Medien hat keinen Einfluss auf das schulische Schreiben (vgl. Dürscheid et al. 2010: 263). Analog sind demnach empirische Studien notwendig, in denen untersucht wird, ob und inwiefern sich die Sprache durch den häufigeren Gebrauch von Bildern verändert.

In den bisherigen Ausführungen wurde lediglich eine Bedeutung des Terminus pictorial turn beleuchtet, nämlich derjenige der quantitativen Zunahme von Bildern sowie deren veränderte Bedeutung in der Gesellschaft. Mitchell (2007: 40) versteht unter pictorial turn allerdings explizit zwei verschiedene Aspekte, so auch einen Paradigmenwechsel in der Wissenschaft: »Das Nachdenken über Bilder [sollte] ebenso aufgewertet werden wie das Denken mit Hilfe von Bildern« (Bachmann-Medick 2010: 329). Voßkamp und Weingart (2005: 7) erachten gerade diese Doppeldeutigkeit des Ausdrucks als Grund für dessen erfolgreiche Etablierung. ← 245 | 246 →

Die Bezeichnungen pictorial bzw. iconic turn sind in Anlehnung an den linguistic turn entstanden, den Richard Rorty 1967 populär gemacht hatte (vgl. Lüdeking 2005: 122). Rorty beschrieb die Philosophiegeschichte als eine Abfolge von Wenden (turns), bei denen alte Problematiken an Relevanz verlieren und stattdessen neue in den Vordergrund treten, wobei der linguistic turn die letzte Wende darstellte (Mitchell 2008: 101). Auf eine kurze Formel gebracht versteht man unter dem linguistic turn, dass »alle Fragen der Philosophie Fragen der Sprache sind« (Boehm 2001: 13). Nicht nur in der Philosophie, sondern in allen Disziplinen müssen »unsere Erkenntnisbemühungen in der Regel als sprachlich vermittelt gesehen werden«. Zudem ist Sprache »kein in der traditionell unterstellten Weise neutrales Ausdrucksmedium zur Formulierung von Erkenntnissen« (Sachs-Hombach 2009: 8), weshalb die Sprachverwendung reflektiert werden muss. Lüdeking (2005: 122) kritisiert, dass der Terminus pictorial turn suggeriere, er liege auf derselben logischen Ebene wie derjenige des linguistic turn. Beim linguistic turn sei es darum gegangen, wie etwas untersucht werden solle; im Zentrum habe folglich nicht ein neuer Forschungsgegenstand, sondern eine neuartige Forschungsmethode gestanden. Beim pictorial turn verhalte es sich genau umgekehrt: Es gehe um die Frage, was untersucht werden soll, d. h. Bilder sollten als Forschungsgegenstand in den Vordergrund gerückt werden (vgl. ebd.: 131).329 Auch Sachs-Hombach (2009: 9) weist darauf hin, dass der pictorial turn nicht mit dem linguistic turn vergleichbar sei: Er gesteht zwar ein, dass Bildern in erkenntnistheoretischen Zusammenhängen wichtige Funktionen zukommen können, doch macht er gleichzeitig auch darauf aufmerksam, dass in der Wissenschaft Bilder stets zusammen mit Sprache aufträten und nicht dieselbe Stellung wie die Sprache hätten. Dennoch wird der iconic turn zuweilen als »Gegenbewegung zum linguistic turn und seinem Diktum von der Sprachabhängigkeit aller Erkenntnis« (Bachmann-Medick 2010: 349) verstanden. Boehm (2007: 29) hingegen sieht den iconic turn nicht als Gegenströmung zum linguistic turn; seiner Ansicht nach ist die »Wende zum Bild […] eine Konsequenz der Wende zur Sprache«. Es sei an dieser Stelle angemerkt, dass Boehm mit dem iconic turn das Ziel verfolgte, analog zur Sprachwissenschaft eine Bildwissenschaft330 zu begründen (vgl. Bachmann-Medick 2010: 329). ← 246 | 247 →

Wie auch der linguistic turn hat der pictorial turn in verschiedenen Wissenschaftsdisziplinen stattgefunden; Mitchell (2008: 279) nennt die Psychoanalyse, Semiotik, Anthropologie, Filmwissenschaft, Genderforschung und die Kulturwissenschaften, Bachmann-Medick (Bachmann-Medick 2010: 353–365) erwähnt außerdem die Ökonomie, Kunstgeschichte, Anthropologie, die Medienwissenschaften, Politikwissenschaft, Rechtswissenschaft, Literaturwissenschaft, die Naturwissenschaften (insbesondere Technik und Medizin), Religionswissenschaft, die Hirnforschung und die Geschichtswissenschaft. Was die Linguistik betrifft, so konstatiert Diekmannshenke (2011: 162), dass nicht die gesamte Disziplin vor einem pictorial turn stehe, sondern Text-Bild-Relationen lediglich in einzelnen Teildisziplinen oder -gebieten besonders relevant seien, beispielsweise in der Medienlinguistik, in der Werbesprachforschung oder in der Politolinguistik. Laut Bucher reicht es jedoch nicht aus, die moderne Kommunikationsgeschichte als pictorial turn zu charakterisieren. Seines Erachtens muss von einem multimodalen Turn die Rede sein: »Der grundlegende Wandel besteht darin, dass neue und neuartige Mischformen der verschiedensten Kommunikationsmodi und -kanäle entstanden sind, die man als multimodale Kommunikationsformen bezeichnen kann« (Bucher 2011b: 123). Ein solcher multimodaler Turn sollte allerdings auch einen »sonic turn« (Bachmann-Medick 2010: 357) einschließen. So moniert Bachmann-Medick (2010: 364), dass bisher das Akustische oftmals ausgeblendet wurde, obwohl es gerade in dynamischen Bildern eine zentrale Stellung einnehme und dass deshalb ein audio-visual turn auszurufen sei.

7.2  Linguozentrische Metaphorik in der Terminologie

Wissenschaftshistorisch gesehen kann die sprachwissenschaftliche Forschung auf eine lange Tradition zurückblicken, während die bildwissenschaftliche Forschung erst seit vergleichsweise kurzer Zeit extensiv betrieben wird. Wenn sich eine Disziplin gerade erst konstituiert oder ein Themengebiet erstmals erforscht wird, geht es unter anderem auch darum, eine adäquate Terminologie zu entwickeln. So konstatieren Klemm und Stöckl (2011: 14) für die sprachwissenschaftliche Forschung zu Sprache-Bild-Kommunikaten, dass die Terminologie noch ausgesprochen uneinheitlich sei. Daher stellt die Vereinheitlichung und Präzisierung der Terminologie ein Forschungsdesiderat der Bildlinguistik dar: »Wir bedürfen einer gemeinsamen ›Sprache‹, um uns über nicht-sprachliche Zeichenmodalitäten zu verständigen« (Stöckl 2011c: 66). Auf dem Weg zu einer einheitlichen Terminologie werden sogenannte semantische Kämpfe ausgetragen. Dabei handelt es sich um Versuche, »in einer Wissensdomäne bestimmte sprachliche Formen als Ausdruck spezifischer, interessensgeleiteter und handlungsleitender Denkmuster ← 247 | 248 → durchzusetzen« (Felder 2006: 14). Nun ist mit Adamzik (2002: 164) anzumerken, dass Terminologien – wie bereits eingangs erwähnt – stets an das Erkenntnisinteresse sowie die Fragestellungen und Theorien gekoppelt sind, weshalb man argumentieren könnte, dass konsensuelle Definitionen und Termini nicht das oberste Ziel sein können. Gleichwohl ist es durchaus sinnvoll, sich auf bestimmte Termini zu einigen, um Wissenschaftlerinnen und Wissenschaftlern aus anderen Disziplinen oder Laiinnen und Laien den Zugang zum Fachgebiet zu erleichtern (vgl. ebd.: 165). Zumindest jedoch sollten semantische Kämpfe – wie dies oftmals geschieht – explizit und nicht implizit ausgetragen werden (vgl. Felder 2006: 13). Gerade wenn Termini nicht klar definiert werden, ist es für Außenstehende schwierig bis unmöglich zu erkennen, dass unter identischen Termini verschiedene Begriffe gefasst werden.331

Analysiert man nun die verwendete Terminologie in den unterschiedlichen Disziplinen, in denen Bilder erforscht werden, fällt auf, dass diese stark linguozentrisch ausfällt. Der Terminus linguozentrisch wird hier in der Bedeutung »aus der Perspektive der Sprache« (Nöth 2000a: 492) gebraucht. In der Literatur ist zwar der Terminus logozentrisch332 gängiger, doch aufgrund seiner Mehrdeutigkeit weniger präzise.333 Die seltener anzutreffende, jedoch eindeutigere Bezeichnung Linguozentrismus findet sich beispielsweise in Nöth (2000b: 468) oder Steinseifer (2010: 327). Die linguozentrische Sichtweise ist keineswegs eine neutrale; vielmehr wird eine Überlegenheit der gesprochenen Sprache sowie der Schrift gegenüber dem Bild präsupponiert (vgl. Stöckl 2004b: 6). Linguozentrismus (Überlegenheit der Sprache) wird demnach als Hyperonym zu Logozentrismus (Überlegenheit der gesprochenen Sprache) sowie Skriptozentrismus (Überlegenheit der geschriebenen Sprache) (vgl. Eichinger 2010: 6) verstanden.

Laut Steinseifer (2010: 327) herrscht Konsens darüber, »dass Bilder keine der doppelten Artikulation und der propositionalen Struktur sprachlicher Zeichen ent ← 248 | 249 → sprechende Struktur aufweisen und es daher auch keine der Sprache vergleichbare Grammatik bzw. Syntax des Bildes gibt.« Wenn also dennoch von einer »Grammatik des Bildes« (Große 2011: 67; Sachs-Hombach, Schirra 2011: 104; Stöckl 2004a: 112), von »Bildgrammatik« (Doelker 2002: 103; Klemm 2011: 188; Ortner 2011: 159; Stöckl 2004a: 112) oder »visueller Grammatik« (Stöckl 2011c: 51) gesprochen wird, können diese Bezeichnungen nur in einem metaphorischen Sinne verstanden werden.334 Jedoch merkt Stöckl (2004a: 112) an, dass diese Metaphorizität nicht allen Forschenden gleich bewusst sei. Der Terminus Grammatik, zunächst ganz allgemein verstanden als »einer Sprache zugrunde liegendes Regelsystem« (Duden 2010), wird deshalb für Bilder verwendet, da diese »kodierte Objekte sind, deren Zeichen bestimmten Regeln folgen« (Stöckl 2011c: 51). Das Tertium Comparationis ist also die Regelhaftigkeit; wenn man jedoch bedenkt, dass die Etymologie von Grammatik auf »grammatikós = die Buchstaben, die Schrift betreffend« (Duden 2012) zurückgeht, ist es fraglich, ob diese metaphorische Übertragung hilfreich ist oder ob es nicht sinnvoller wäre, für die Analyse von Bildern eine separate Terminologie zu entwickeln. Allein die Tatsache, dass der Terminus Grammatik zuweilen in Anführungszeichen gesetzt wird (z. B. Große 2011: 67; Klemm 2011: 188; Stöckl 2004c: 10, 28, Stöckl 2006: 34, Stöckl 2011c: 51, 66), zeigt, dass die Verwendung nicht unproblematisch ist.335 Als Pro-Argument für eine an die Linguistik angelehnte Terminologie wird einerseits vorgebracht, dass diese hilfreich für das Verständnis sei (vgl. Große 2011: 141); andererseits wird argumentiert, die Kritik am »linguistischen Imperialismus« (Frank 2008: 452) sei ungerechtfertigt, da ein großer Teil der Multimodalitätsforschung ihren Ursprung in der Linguistik habe, nämlich insbesondere in der Theorie der sozialen Semiotik, die wiederum auf Hallidays systemisch-funktionaler Linguistik basiert (vgl. Jewitt 2009a: 26). Allerdings bringt eine linguozentrische Sichtweise auf Bilder auch das Problem mit sich, dass man den Bildern möglicherweise nicht gerecht wird:

      »The danger inherent in contrasting two modes, however, is that we tend to somehow look at one mode in terms of another. So, mostly, due to language‘s dominance, we seem ← 249 | 250 → to be asking which linguistic properties images have. Thus we run the risk of overlooking some important design features of images which are outside the linguistic perspective. While a possible denigration of images resulting from this must be avoided, the metaphoric stance of a pictorial language is engrained in our naturally logo-centric take of communication.« (Stöckl 2004c: 18)

Gerade weil die Auffassung von Kommunikation üblicherweise äußerst linguozentrisch ausfällt, sollte dem entgegengewirkt werden, indem man solche Metaphorik im Zusammenhang mit Bildern nach Möglichkeit vermeidet. Im Folgenden wird eine Übersicht über weitere linguozentrische Metaphern gegeben und es werden alternative, neutrale(re) Termini vorgeschlagen.

Ein Grund dafür, dass bei der Analyse von Bildern linguozentrische Metaphorik verwendet wird, kann darin gesehen werden, dass sowohl statische Bilder als auch geschriebene Sprache über den visuellen Sinneskanal rezipiert werden; demnach muss präziser von skriptozentrischen Metaphern gesprochen werden. Zunächst stellt sich somit die Frage, wie die Rezeption von Bildern bezeichnet werden soll: »Der lange Arm des linguistic turn reicht sogar bis hin zu dem Phänomen, dass interdisziplinären Zugängen zur Bildlichkeit oft noch die sprachgeprägte Metapher des Lesens zugrunde liegt und nicht etwa die des Sehens« (Bachmann-Medick 2010: 349). Auch bei der Verwendung der Metapher »Bilder lesen« werden oftmals Anführungsstriche gesetzt (vgl. Ehlich 2005: 57; Stöckl 2011c: 52), was darauf hindeutet, dass sich die Autorinnen und Autoren der Metapher bzw. der unvorteilhaften Wortwahl bewusst sind. Gerade jedoch in didaktisch-pädagogischen Kontexten wird die Metapher häufig ohne Kennzeichnung benutzt (vgl. Dehn 2008: 23; Doelker 2002: 145, Doelker 2011: 24; Holzbrecher 2006: 15; Schmitz 1997: 136). Doelker (2011: 10) bedient sich des Lesebegriffes bewusst, da er das »Bilderlesen als gleichwertige Kulturtechnik wie das Lesen von verbalen Texten […] positionieren und damit in den Alphabetisierungsauftrag der Schule« einbeziehen will. Durch die Metapher erhofft er sich, seine bildungspolitische Forderung eher durchzusetzen. Eine mögliche alternative Bezeichnung für Bilder lesen wäre Bilder ansehen/anschauen. Ehlich (2005: 57) und Stöckl (2004b: 65) sprechen sich gegen diese Phrasen aus, da sie ihnen die mentalen bzw. kognitiven Aktivitäten, die mit der Sinneswahrnehmung einhergehen, zu wenig widerspiegeln, weil also damit die Bedeutungskonstruktion nicht mitgemeint ist. Unter Bildperzeption kann demzufolge die reine sinnliche Wahrnehmung von Bildern ohne Reflexion gefasst werden, während Bildrezeption kognitive Prozesse einschließt.

Im pädagogisch-didaktischen Kontext wird auf weitere skriptozentrische Metaphern zurückgegriffen. So ist beispielsweise die Rede von einer »Bildalphabetisierung« und »visual literacy« (Doelker 2011: 9), im Deutschen wird von visueller Literalität gesprochen. Da Alphabetisieren das Lehren von Lesen und Schreiben ← 250 | 251 → bezeichnet, wäre es sinnvoller, schlicht von Bildlehre oder allenfalls Bildkunde zu sprechen. Der Terminus Literalität ist etymologisch aus dem Lateinischen littera (= Buchstabe) herleitbar. Neuerdings ist der Trend auszumachen, dass der Ausdruck metaphorisch auf verschiedene andere Gebiete übertragen wird (vgl. Hug 2011: 67): »digital literacy« (Jewitt 2009d: 295; Pietraß 2010: 73), »ICT literacy« (Lennon et al. 2003: 8), »media literacy« (Baacke 2007: 98; Spanhel 2011: 95) und »tag literacy« (Guy, Tonkin 2006). Statt »literacy« wird im Deutschen oftmals der Terminus »Kompetenz« verwendet, die genannte »visual literacy« (Dehn 2008: 15; Frederking et al. 2008: 129; Stöckl 2004b: 91) hieße folglich visuelle Kompetenz, die »pictorial literacy« (Weidenmann 2011: 80) entsprechend Bildkompetenz.336 Zwar werden die beiden letztgenannten Termini in derselben Bedeutung verwendet, doch müsste genau genommen der Ausdruck visuelle Kompetenz weiter gefasst werden, da das Adjektiv visuell die Bedeutung »das Sehen betreffend« (Duden 2013) trägt und sich folglich nicht nur auf Bilder, sondern auch auf die visuell zu rezipierende Schrift beziehen kann.337 Visuelle Kompetenz kann also als Teilbereich der »multimodalen Kompetenz« (Stöckl 2011c: 45) oder der »transkriptiven Kompetenz« (Schneider 2009: 73) gesehen werden, die neben dem statischem Bild und der Schrift weitere Modalitäten umfassen kann.338

Insbesondere bei multimodalen Kommunikaten (vgl. Kapitel 2.4), bei denen Text und Bild gemeinsam auftreten, werden Bilder oftmals als Texte bezeichnet.339 Es ist häufig340 die Rede von »multimodalem Text«341, »bimodale[m] Text« (Stöckl ← 251 | 252 → 2004b: 244), »bimodalem Textprodukt« (ebd.: 245), »bimodalem Gesamttext« (ebd.: 251), »Gesamttext«342, von »Sprache-Bild-Texten«343, einem »Sprache-Bild-Gesamttext« (Stöckl 2004a: 112) oder seltener von einem »Supertext« (Fix 1996: 116). Rein von der Etymologie her gesehen wäre nichts dagegen einzuwenden, multimodale Kommunikate als Texte zu bezeichnen, denn lateinisch textus bedeutet Gewebe oder Verbindung, doch der Terminus wird heute hauptsächlich mit schriftlicher, in der Linguistik auch mit medial mündlicher Sprache in Verbindung gebracht, weshalb also mit einer solchen Benennung die linguozentrische Tradition fortgesetzt würde. Adamzik (2002: 174) hält einen Textbegriff, der auch für andere semiotische Systeme verwendet wird, einerseits nicht für konsensfähig, andererseits würde damit der linguistische Textbegriff sich noch weiter vom Alltagsbegriff entfernen, was wiederum die Kommunikation mit der Öffentlichkeit erschwert. Ein weiterer Aspekt, der gegen den Textbegriff für Bilder spricht, ist die Umständlichkeit der Formulierung, wenn stets präzisiert werden muss, welcher Text nun gemeint ist: der Sprach-Text, der Bild-Text oder der Sprache-Bild-Text (vgl. Große 2011: 32–33). Wenn Bilder als Texte betrachtet werden, muss nicht zuletzt gefragt werden, weshalb es des Terminus Bildlinguistik344 überhaupt bedarf, da diese folglich lediglich ein Teilgebiet der Textlinguistik wäre.

Eine weitere skriptozentrische Metapher hat Jäger (2002: 30) mit dem Terminus Transkriptivität geprägt. Beim Ansatz der Transkriptivität geht man »davon aus, dass jede Bedeutungsgenerierung erst durch ›Transkriptions‹-Verfahren der Paraphrase, Explikation, Erläuterung, Kommentierung oder Übersetzung zustande kommt, die ein ›Präskript‹ ›anders lesbar‹ oder ›überhaupt lesbar‹ oder vielleicht auch ›weniger lesbar/unlesbar‹ und damit zu einem ›Skript‹ machen« (Holly 2011b: 35–36). Es gilt dabei zu beachten, dass »die Applikation dieser ← 252 | 253 → Terme aus dem Wortfeld der Skripturalität auch auf nonliterale Symbolsysteme […] dabei ausdrücklich intendiert« (Jäger 2002: 30) ist.

Zum Schluss sei auf eine Metapher hingewiesen, die für multimodale Kommunikate verwendet wird und die nicht linguozentrisch ist: der von Androutsopoulos (2010a: 209; 2010b: 430) geprägte Ausdruck Spektakel. Er versteht darunter multi-modale Kommunikate in Social-Sharing-Communitys: »The spectacle metaphor suggests that these items are displayed to an audience; are viewed rather than read« (Androutsopoulos 2010a: 209). Aufgrund der Etymologie (lat. spectare = schauen bzw. spectaculum = Schauspiel) könnte man den Terminus für Text-Bild-Kommunikate als treffend betrachten. Doch Spektakel werden als Kombinationen von Bild, gesprochener und geschriebener Sprache, Musik und Ton verstanden (vgl. ebd.: 212). Spektakel werden also nicht nur visuell, sondern auch auditiv rezipiert; die Metapher ist demgemäß nicht für alle multimodalen Kommunikate gleich gut geeignet. Androutsopoulos (2010b: 430) selbst begründet die Wahl der Metapher wie folgt: Die Spektakel werden als Unterhaltung wahrgenommen und sind an ein Publikum gerichtet, das mit Kommentaren, Favoriten o. Ä. reagieren soll.

Abschließend kann festgehalten werden, dass die in der Wissenschaft verwendeten linguozentrischen Metaphern in zwei Kategorien eingeteilt werden können: 1) skriptozentrische Metaphern, die sich etymologisch auf die Schrift beziehen, sowie 2) Metaphern, bei denen von der Etymologie her nichts gegen ihre Verwendung im Zusammenhang mit Bildern eingewandt werden kann, die aber dennoch als linguozentrisch bezeichnet werden können, da ihre heutige Semantik sich ebenfalls auf die Schrift bezieht (vgl. Tabelle 20).

Tabelle 20:  Linguozentrische Metaphern

Terminus

Etymologie (vgl. Duden 2007c)

Grammatik

griech. grammatikós (die Buchstaben, die Schrift betreffend)

Transkriptivität (Präskript, Skript)

lat. scriptum (Geschriebenes)

Bildalphabetisierung

griech. Wort aus den Anfangsbuchstaben des griech. Alphabets (álpha und bēta)

Literalität / literacy

lat. littera (Buchstabe)

Text (Gesamttext, Sprache-Bild-Text, Supertext)

lat. textus (Gewebe, Verbindung)

lesen

Wurzel *les- im Gemeingermanischen (verstreut Umherliegendes aufnehmen und zusammentragen, sammeln) ← 253 | 254 →

Bachmann-Medick (2010: 329) konstatiert, dass »die Sprachdominanz der westlichen Kulturen […] die Untersuchung von Bildkulturen lange Zeit an den Rand gedrängt« habe. Seit dem letzten pictorial turn sind Bilder zwar Gegenstand in vielen wissenschaftlichen Disziplinen, doch ist noch stets ein Linguozentrismus zu beobachten, wie die exemplarische Analyse des Metapherngebrauchs gezeigt hat.

7.3  Textbegriff

Für den Textbegriff gilt, was gleichermaßen auch auf den Kommunikations- und den Medienbegriff zutrifft: Es existieren »Hunderte von Textdefinitionen« (Heinemann, Heinemann 2002: 96). Im allgemeinen Sprachgebrauch wird unter Text hauptsächlich schriftliche Sprache verstanden, wie auch ein Blick in den Duden zeigt: »[schriftlich fixierte] im Wortlaut festgelegte, inhaltlich zusammenhängende Folge von Aussagen« (Duden 2012). Die Klammer jedoch weist darauf hin, dass auch mündliche Sprache zuweilen als Text aufgefasst wird. In der Tat ist es nicht einfach, eine klare Grenze zwischen schriftlicher und mündlicher Kommunikation zu ziehen: In Kapitel 2 wurde thematisiert, dass Äußerungsformen nach Koch und Oesterreicher (1994: 588) im Feld medialer und konzeptioneller Mündlichkeit oder Schriftlichkeit verortet werden können. Grenzfälle sind hier insbesondere Kommunikate, die 1) konzeptionell schriftlich und medial mündlich oder 2) konzeptionell mündlich und medial schriftlich sind. Die unter 1) genannten Äußerungsformen umfassen vorgelesene Texte wie beispielsweise wissenschaftliche Vorträge. Als Beispiel für 2) kann der Chat genannt werden (vgl. Dürscheid, Brommer 2009: 6).345 In der vorliegenden Arbeit wird die Medialität der sprachlichen Äußerung als Kriterium zur Einteilung in Mündlichkeit und Schriftlichkeit angewandt; die Konzeption wird auf der Ebene der sprachlichen Analyse berücksichtigt.

Wie bereits in Kapitel 7.2 dargelegt, wird darüber hinaus neuerdings ein semiotisch erweiterter Textbegriff verwendet (vgl. Adamzik 2002: 174). Es wird argumentiert, dass bei der Analyse multimodaler Kommunikation die bisherigen linguistischen Textbegriffe nicht mehr ausreichten: »Texte müssen als Komplexe von Zeichen verschiedener Zeichenvorräte betrachtet werden« (Fix 2001: 118). Solche semiotischen Texte umfassen folglich neben der Sprache sowohl Bild als auch Ton (vgl. Doelker 2011: 10) und werden unter dem Label der neuen Textualität (vgl. Eckkrammer, Held 2006: 4) gehandelt.346 Sämtliche Bestandteile ← 254 | 255 → eines multimodalen Kommunikats als Texte – genauer noch: als Teiltexte – zu bezeichnen, erscheint mir nicht sinnvoll, zumal sich die einzelnen Modalitäten voneinander derart unterscheiden, dass sie nicht mit ein und demselben Terminus benannt werden sollten. Darüber hinaus muss wiederum eine Präzisierung vorgenommen werden, wenn die einzelnen Elemente genannt werden. So verwendet Große (2011: 32) die Termini »Sprach-Text« sowie »Bild-Text«, und Burger und Luginbühl (2014: 99) unterscheiden mit »Text« den verbalen Teil vom Gesamtkommunikat »Medientext«. In der vorliegenden Arbeit wird deshalb nicht von einem erweiterten Textbegriff ausgegangen, denn – wie Adamzik (2002: 175) dargelegt hat – wird in der Linguistik kein erweiterter Textbegriff benötigt, sondern eine erweiterte Sichtweise.

Wetzchewald (2012: 112) weist darauf hin, dass in Text-Bild-Kombinationen oftmals nur einzelne Wörter oder Sätze in Verbindung mit einem Bild stehen. Um die Verwendung des Terminus Text zu rechtfertigen, schlägt er daher vor, dass auch fragmentarische Texte als Texte eingestuft werden sollen. An der Benennung fragmentarisch ist allerdings problematisch, dass man den Text als unvollkommen bezeichnet, obwohl er in Text-Bild-Kommunikaten durch das Bild bzw. genauso das Bild durch den Text vervollständigt wird. Unvollständig ist ein solcher Text lediglich, wenn man ihn aus seinem ursprünglichen Kontext entfernt. Was neben der »Vollständigkeit« den Umfang von Texten betrifft, so wird beim prototypischen Text von verketteten Satzfolgen ausgegangen; Wort- oder Morphemfolgen hingegen, die keine Satzfolge bilden, gelten nicht als Text (vgl. Harweg 1975: 375). Dem prototypischen Text können ferner Randerscheinungen von Textualität gegenübergestellt werden: Unter kleinen Texten versteht Hausendorf »sprachliche Erscheinungsformen […], die in vielerlei Hinsicht unsere Alltagserwartungen an das, was Texte sind und sein können, in Frage stellen« (Hausendorf 2009: 5, ← 255 | 256 → Herv. im Original). Kleine Texte zeichnen sich nicht nur durch ihren geringen Umfang aus, d. h. sie bestehen teilweise nur aus einem einzelnen Wort347 oder Satz, sondern wegen der Kürze auch durch ihre fehlende Komplexität. Sie dienen zudem oft einem praktischen Zweck und die sprachliche Gestaltung ist meist formelhaft (vgl. ebd.: 6). Andernorts ist von Kurztexten die Rede, die Einwortsätze, Antwortpartikeln, Interjektionen oder Imperative umfassen (vgl. Leyhausen 2007: 345).348 Diese kurzen Texte findet man laut Schmitz (2004d: 100) vor allem in »Nebenbei-Medien« wie Plakaten, Flugblättern, Flyern, Aufklebern, Postkarten, Plastiktüten, Verpackungen und Beipackzetteln.

Die in der vorliegenden Arbeit analysierten Texte sind aufgrund ihres Umfangs ebenfalls als Randerscheinungen von Textualität, also als kurze Texte, zu werten (vgl. die Zahlen in Kapitel 9.1). Abschließend sei darauf hingewiesen, dass selbst im Duden kurze Texte, die in Verbindung mit Bildern auftreten, explizit genannt werden. So ist unter dem Lemma Text auch Folgendes zu lesen: »Unterschrift zu einer Illustration, Abbildung« (Duden 2012).

Texte auf Flickr können immer auch Hypertexte sein. Während im Titel keine Hyperlinks angebracht werden können, sind Tags automatisch als Hyperlinks angelegt (vgl. Kapitel 5.3). In der Beschreibung, den Kommentaren und den Notizen besteht die Möglichkeit, Hyperlinks zu erstellen. Hyperlinks sind eine technische Möglichkeit, intertextuelle Bezüge herzustellen. Zwar besteht auch die Option, innerhalb einer Fotoseite Links zu setzen, nämlich auf Kommentare, die mit Permalinks349 versehen sind. Wenn jedoch auf Flickr Hyperlinks verwendet werden, so sind es solche, die auf andere Flickr-Seiten oder auf externe Websites verweisen. Innerhalb einer Fotoseite sind Permalinks auch nicht zu erwarten, da mit sprachlichen Mitteln Bezug auf andere Texte genommen werden kann. Dabei sind implizite von expliziten Bezügen zu unterscheiden:

      »Die Markierungen von Intertextualität können sehr unterschiedlich ausfallen. Sie können explizit sein, wenn auf einen Autor, auf einen bestimmten Text oder auf eine ganze Gruppe von Texten ausdrücklich verwiesen wird. Sie können aber auch implizit sein, wenn nur gewisse Elemente oder Strukturen des Bezugstextes übernommen werden, was vom Leser verlangt, dass er den Bezugstext und/oder den textstrukturel ← 256 | 257 → len Rahmen des Bezugstextes kennt, damit er die notwendigen Relationen herstellen kann« (Ziegler 2004: 164).

Der letztgenannte Punkt stellt eine Schwierigkeit bei der Analyse von Flickr-Seiten dar: Während explizite Bezüge ohne Probleme nachvollzogen werden können, sofern etwaige Hyperlinks noch funktionieren bzw. das Element, auf das verwiesen wird, nicht gelöscht wurde, sind implizite Bezüge weitaus schwieriger zu erforschen. Denn diese können nur erkannt werden, wenn der Referenztext bekannt ist. Auf Flickr kann dies irgendeine andere Fotoseite sein, und die betreffende ausfindig zu machen, kommt einer Suche nach der Nadel im Heuhaufen gleich. Die expliziten und impliziten Bezüge erfüllen laut Janich (2008: 177–178) folgende Funktionen: Zusammenfassung, Nachahmung, Ergänzung, kritische Kommentierung, Verstärkung, argumentative Zuhilfenahme, Nachweis fremder Quellen, Markierung von Verbindlichkeit, Widerspruch, Persiflierung und Parodierung sowie Aufmerksamkeitserregung. Sie alle dienen der »Erweiterung der Bedeutung des eigenen Textes« (ebd.: 178).

Nun lassen sich auf Fotoseiten natürlich nicht nur Bezüge zwischen Texten, sondern auch zwischen Text und Bild oder auch zwischen unterschiedlichen Bildern finden. Da dieser Arbeit ein enger Textbegriff zugrunde liegt, sollen Bezüge zwischen Text und Bild intermodal350 genannt werden (vgl. Kapitel 7.6). Interpikturalität oder Interpiktorialität schließlich sind in Anlehnung an den Terminus Intertextualität gebildete Ausdrücke, die Relationen zwischen Bildern bezeichnen (vgl. Rosen 2003: 161).

7.4  Bildbegriff

Die Frage, was ein Bild sei, ist im Zeitalter der digitalen Technologie noch schwieriger zu beantworten als davor (vgl. Boehm 2007: 31–32). Im vorangegangenen Kapitel haben wir gesehen, dass eine Unterscheidung in Text und Nichttext nicht problemlos vorgenommen werden kann und dass aus diesem Grund oftmals mit der Prototypentheorie gearbeitet wird. Dasselbe gilt analog für den Bildbegriff: Bilder sind über verschiedene Merkmale beschreibbar, die zentral oder peripher sind, wobei gilt, dass selbst zentrale Merkmale nicht zwingend vorhanden sein müssen (vgl. Sandig 2006: 309). Wenn man somit davon ausgeht, dass es prototypische und weniger prototypische Bilder gibt, so bedeutet dies auch, dass eine ← 257 | 258 → klare Abgrenzung in Bilder und Nichtbilder nicht immer möglich ist (vgl. Stöckl 2004b: 105).351 Stöckl (2004b: 110) nimmt eine Dreiteilung in Kern, Zentrum und Rand vor, wobei im Kern die prototypischen Bilder und am Rand eher Grenzfälle bildlicher Darstellungen angeordnet sind. Zum Kernbereich zählen singulär oder multipel denotierende, fotografische Bilder. Singulär denotierend bedeutet, dass mit dem Bild auf bestimmte Objekte, Personen oder Sachverhalte einer realen Welt verwiesen wird, multipel denotierende Bilder referieren auf eine Klasse von Objekten (vgl. ebd.: 110–111). Zum Zentrum rechnet Stöckl fiktionale Bilder (Verweise auf mögliche Welten), ungegenständliche Bilder (auch: abstrakte Bilder) sowie exemplifizierende Bilder (kein Verweis auf konkrete Gegenstände, sondern auf wesentliche Eigenschaften der Gegenstände). Im Randbereich sind logische Bilder wie (Info-)Grafiken, Diagramme und Karten, Ornamente/Verzierungen, graphische Symbole wie beispielsweise Pfeile, Piktogramme sowie Layoutinstrumente (Balken, Rahmen, Kästchen) angesiedelt.

Bisher war stets die Rede von materiellen Bildern, »[von] medialisierte[n], visuelle[n] Bilder[n], die man auch als ›echte‹ Bilder bezeichnen könnte« (ebd.: 90). Solche materiellen Bilder bestehen aus visuellen, zumeist ikonischen Zeichen, die mit einer im weitesten Sinne kommunikativen Absicht verwendet werden (vgl. ebd.: 93). Fix (2011a: 305) moniert, dass in der Sprachwissenschaft der Bildbegriff nicht differenziert wird; so gibt es neben den materiellen Bildern auch mentale oder sprachliche Bilder. Vor dem Hintergrund dieser Differenzierung muss auch das Attribut materiell gesehen werden, das für digitale Bilder nur im übertragenen Sinne gilt (vgl. Stöckl 2004b: 90): Digitale Bilder – genauer: Raster- oder Pixelgrafiken – bestehen aus »Pixeln, einem festen Raster von Bildpunkten in einer Matrix. Man kann sich den Aufbau eines Computerbilds vorstellen wie Punkte in einem Koordinatensystem. Das Bild wird dadurch erzeugt, dass die Bildpunkte mit bestimmten Farb- und Helligkeitswerten an einer bestimmten Stelle in der Matrix platziert werden« (Wetzchewald 2012: 75). In der Terminologie von Mitchell (2008: 20) können digitale Bilder zu den graphischen Bildern gezählt werden. Diese werden unterschieden von optischen, perzeptuellen, geistigen und sprachlichen Bildern. Zu den geistigen – bei Fix: mentalenBildern zählt Mitchell (2008: 21) Träume, Erinnerungen, Ideen und Vorstellungsbilder, zu den sprachlichen Bildern Metaphern. Unter optischen Bildern werden physikalische Phänomene wie Spiegelbilder und Projektionen gefasst (vgl. ebd.: 21). Zu den perzeptuellen Bildern gehören Sinneseindrücke sowie Erscheinungen, die »sich ← 258 | 259 → zwischen uns und die Wirklichkeit drängen und von denen wir so häufig als von ›Bildern‹ sprechen – angefangen bei dem Bild, das uns ein geschickter Schauspieler vermittelt, bis zu den Bildern, die Reklame- und Propagandaexperten für Produkte und Personen kreieren« (ebd.: 21). Zu den graphischen Bildern schließlich rechnet Mitchell (2008: 21) Gemälde, Zeichnungen, aber auch plastische und architektonische Bildlichkeit.352

Nöth (2009: 240) differenziert zwischen einem weiten und einem engen Bildbegriff. Der weite Bildbegriff umfasst nach Nöth mentale Bilder; die sprachlichen, optischen und perzeptuellen Bilder in Mitchells Typologie wären ebenfalls dem weiten Bildbegriff zuzuordnen. Nach der engen Definition, die auch dieser Arbeit zugrunde liegt, umfasst der Bildbegriff lediglich visuelle Artefakte, sprich je nach Terminologie graphische bzw. materielle Bilder. Diese »gehören zweifelsfrei zum prototypischen Kern, wenn sie nicht gar alleine den Prototyp des Bildes ausmachen« (Stöckl 2004b: 91), und treten in den medialen Varianten statisch und dynamisch auf (vgl. Stöckl 2004d: 17).

Doch auch innerhalb der Kategorie der graphischen bzw. materiellen Bilder muss weiter differenziert werden. Eine solche fehlende Differenzierung bezeichnen auch Klemm und Stöckl (2011: 9) als eine Schwachstelle bisheriger bildwissenschaftlicher Bemühungen:

      »Meist ist die Rede von dem Bild. Dabei wird zu oft die Typisiertheit von Bildern und deren Vielfalt von Formen und Funktionen im sozialen Kontext übersehen. Statt kategorielle und pauschalierende Aussagen über Bilder benötigen wir aber Erkenntnisse über konkrete Bildtypen und deren kommunikative Verwendung in fest umrissenen Situationen und Gebrauchsdomänen. (ebd.: 9)

Eine solche Differenzierung kann zum einen in »›technische‹ Bildtypen wie Gemälde, Zeichnung, Fotografie etc.« (Steinseifer 2011a: 183) vorgenommen werden, zum andern können Motiv- und Darstellungstypen wie »Porträt, Landschaft, Historie, Stilleben [sic!] […], Katalogbilder, Karikaturen, Urlaubs- oder Bewerbungsfotos« (ebd.: 183) unterschieden werden. Stöckl (2004b: 124–125) hat ein Mehrebenenmodell der Bildtypologisierung entwickelt. Er unterscheidet darin 1. die Ebene der bildkonstitutiven Faktoren, d. h. die Ebene der Formaspekte, 2. die Ebene der Bildverwendungsfaktoren, sprich funktionale und pragmatische Aspekte des Bildes sowie 3. die Ebene der Bildrezeptionsfaktoren, also perzep ← 259 | 260 → tive und kognitive Operationen der Betrachtenden. Auf der Ebene der bildkonstitutiven Faktoren gibt es die Typologisierungskriterien Bezug des Bildes zur Wirklichkeit (denotierend, fiktional, ungegenständlich), Abbildungs-/Darstellungspraktik (detailgetreu, schematisierend, abstrahierend), Bildinhalte, Farbund Formaspekte, Produktion, Bildqualität sowie Speicher-/Reproduzierbarkeit (vgl. ebd.: 124–125). Zu den Typologisierungskriterien auf der Ebene der Bildverwendungsfaktoren zählen der soziale Verwendungszweck, die Verwendungssituation, der sprachliche Kontext (semiotisch selbst- oder unselbstständig), das multimodale Interface (Verknüpfung mit anderen Modalitäten) und die Übertragungskanäle (ebd.: 124–125). Es sei in diesem Zusammenhang erwähnt, dass viele Bilder für unterschiedliche Zwecke verwendet werden können, unabhängig von der ursprünglich intendierten Funktion (vgl. ebd.: 117).353 Folglich nennt Stöckl (2004b: 108) auch die Faktoren »Polyfunktionalität und Situationsenthobenheit, die Bilder in erster Linie von sprachlichen Texten unterscheiden.« Diese Polyfunktionalität von Bildern kann darauf zurückgeführt werden, dass die Semantik von Bildern polysemer und vager ausfällt als diejenige von Wörtern (vgl. Stöckl 2004c: 17). Die Gestalt- und Kohärenzbildung, die Bildqualität (schnell vs. schwer lesbar) und der Sehprozess bzw. die Sichtbarkeit (Bilder sichtbarer, nicht sichtbarer und so nicht sichtbarer Objekte354) schließlich sind die Typologisierungskriterien der Ebene der Bildrezeptionsfaktoren (vgl. Stöckl 2004b: 124–125). Anhand der genannten Typologisierungskriterien auf den drei verschiedenen Ebenen lässt sich eine Zuordnung konkreter Bilder zu unterschiedlichen Bildsorten vornehmen.

Was die Bilder auf Flickr betrifft, so handelt es sich überwiegend um Fotografien, im erhobenen Kleinkorpus machen sie einen Anteil von 99,3 % aus. Bei den 7 Bildern, die keine Fotos sind, handelt es sich um digital erstellte oder digitalisierte Bilder, also Scans von Postkarten oder Plakaten, Grafiken mit fotografischen Elementen sowie ein Gemälde und eine Infografik. Allerdings ist auch hier die Grenze nicht einfach zu ziehen: Ob ein Plakat fotografiert oder gescannt wird, spielt unter Umständen keine Rolle oder kann auch nicht unbedingt eruiert wer ← 260 | 261 → den.355 Insgesamt dominieren auf Flickr-Seiten jedoch die fotografischen Bilder, seien sie bearbeitet oder unbearbeitet. Während also die technische/mediale Materialität, die Abbildungs-/Darstellungspraktik sowie die Speicher-/Reproduzierbarkeit konstant sind, variieren Aspekte wie Bildinhalt, Farb- und Formaspekte, Bildqualität und Produktion sowie Bezug zur Wirklichkeit (je nach fotografischer Technik bzw. Bildbearbeitung). Auf der funktionalen Ebene ist der Übertragungskanal stets derselbe, doch können sozialer Verwendungszweck, sprachlicher Kontext sowie multimodales Interface unterschiedlich ausfallen.

Aus semiotischer Perspektive kann festgehalten werden, dass Bilder durch die Ähnlichkeit zwischen Zeichen und Bezeichnetem Prototypen ikonischer Zeichen sind, wohingegen bei der Sprache bekanntlich eine arbiträre Relation zwischen dem Zeichen und dem Bezeichneten besteht; sprachliche Zeichen sind demnach prototypisch symbolische Zeichen (vgl. Nöth 2000a: 490). Fotografien lassen sich aus semiotischer Sicht wie folgt verorten:

      »[Fotos] sind insofern ikonische Zeichen, als sie Farb- und Formqualitäten mit ihren Objekten gemeinsam haben und diesen ähnlich sind. […] Bei den Photos ist dieser Einfluß sogar durch physikalische Kausalität mit bestimmt. Insofern als ein Photo in einem Prozeß optischer Kausalitäten das Ergebnis der Projektion der Lichtstrahlen eines singulären und real existierenden Objektes auf ein Negativ ist, ist es sogar ein genuin indexikalisches Zeichen.« (Nöth 2009: 244)

Am Beispiel der Fotografie lässt sich zeigen, dass ein Zeichen gleichzeitig mehreren der drei Zeichenarten, also Ikon, Index und Symbol, zugeordnet werden kann, was oftmals auch der Fall ist (vgl. Wiesing 2013: 217).

Abschließend kann festgehalten werden, dass auf Flickr-Seiten prototypische Bilder (Fotografien) zu finden sind, während die dazugehörigen Texte (Titel, Beschreibung, Tags, Kommentare, Notizen) aufgrund ihrer Kürze nicht als prototypisch bezeichnet werden können.

7.5  Multimodalität

Der Terminus Multimodalität wurde von Stöckl (2011c: 45) als »ein vielleicht hochtrabender und vager Begriff für ein vergleichsweise einfaches und alltägliches ← 261 | 262 → Phänomen« bezeichnet.356 Er fasst darunter Kommunikate und kommunikative Handlungen, die unterschiedliche Zeichensysteme wie Sprache, Bild und Ton enthalten (vgl. ebd.: 45). Fricke (2012: 40) merkt an, dass Stöckl Modalität als Kodalität verstehe.357 Stöckl (2011c: 45) selbst bemängelt am Terminus Multimodalität, dass er Assoziationen zu Sinnesmodalitäten wecke, obwohl Zeichentypen gemeint seien. Ein Blick auf die tabellarische Übersicht zu den verschiedenen Medienbegriffen in Kapitel 2 zeigt, dass es sich um eine Frage der Terminologie handelt: Neben dem Ausdruck Kodalität für den kodebezogenen Medienbegriff wird auch die Alternativbezeichnung Zeichenmodalität verwendet, der biologische Medienbegriff dagegen entspricht der Sinnesmodalität. Der Terminus Multimodalität kann folglich ebenso auf den biologischen wie auf den kodebezogenen Medienbegriff referieren, d. h. es wird zuweilen keine Unterscheidung in Modalität und Kodalität vorgenommen. Gerade weil nebst Zeichenmodalitäten auch Sinnesmodalitäten oftmals als Medien bezeichnet werden, wird statt des Ausdrucks Multimodalität oftmals auch der Terminus Multimedialität verwendet. »Als programmatisches Fahnenwort ersetzt ›Multimodalität‹ in linguistischen Publikationen zunehmend das Wort ›Multimedialität‹ […], das in anderen disziplinären Kontexten weitgehend synonym verwendet wird« (Steinseifer 2011a: 164).358

Die genannte fehlende Differenzierung zwischen Kodalität und Modalität wird von Holly (2010b: 2203) kritisiert; er will den Unterschied zwischen »verschiedene Zeichenarten enthaltend« und »mehrkanalig, verschiedene Sinne ansprechend« durch die Termini Multikodalität und Multimodalität klar hervorheben.359 Auch Ballstaedt (2005: 61) beispielsweise nennt Text-Bild-Kommunikate multikodal, da zwar verschiedene Kodalitäten, aber nur die Modalität des Visuellen beteiligt ist; als multimodal bezeichnet er audiovisuelle Kommunikation. Diese terminologische Präzisierung konnte sich allerdings (noch) nicht durchsetzen (vgl. Steinseifer 2011a: 170). Einen ähnlichen Vorschlag zur terminologischen Distinktion hat Fricke (2012: 50) unterbreitet: Multimodalität im engeren Sinne setzt zwingend den Einsatz mehrerer Sinnesmodalitäten voraus, wobei eine oder mehrere Kodalitäten ← 262 | 263 → möglich sind. Als Beispiel für eine einzige Kodalität können PowerPoint-Vorträge genannt werden, die über die gesprochene Sprache des Vortragenden hinaus auch (und ausschließlich) Texte auf Folien umfassen (vgl. Bucher et al. 2010b: 375). Mehrere Kodalitäten sind bei einem PowerPoint-Vortrag dann vorhanden, wenn auf den Folien zusätzlich Bilder zu sehen sind; in der herkömmlichen Terminologie entspräche dieser Fall der Multimodalität. Bei der Multimodalität im weiteren Sinn müssen laut Fricke (vgl. Tabelle 21) mehrere Kodalitäten beteiligt sein, jedoch nur eine Sinnesmodalität. In der oben genannten Terminologie wäre dies die Multikodalität. Multimodalität im engeren oder weiteren Sinne setzt stets entweder mehrere Modalitäten oder mehrere Kodalitäten voraus. Wenn Kommunikation nur mit einer Kodalität und einer Modalität auskommt, so kann sie als monomodal360 bezeichnet werden (vgl. Fricke 2012: 49). Die Kategorisierung von Fricke erfolgte also über eine Kreuzklassifikation, in der ein Fall von Monomodalität und drei Fälle von Multimodalität vorkommen. Diese drei Varianten werden der Multimodalität im engeren und weiteren Sinne zugeordnet. Fricke misst in ihrer Klassifikation wohl den Sinnesmodalitäten deshalb eine größere Bedeutung zu als den Kodalitäten, weil sie sich ausschließlich für sprachliche Multimodalität interessiert.361 Darunter ist »die Verbindung von lautlichen mit mimischen, gestischen und anderen körperbezogenen Anteilen, und damit auditiver und visueller ›Modalitäten‹ in der Face-to-face-Interaktion« (Steinseifer 2011a: 165) zu verstehen. Interessiert man sich jedoch für Multimodalität im Allgemeinen, ist es meines Erachtens naheliegender, wenn man eine Zwei- und keine Dreiteilung vornehmen will, beim Vorliegen mehrerer Kodalitäten und nur einer Sinnesmodalität oder mehrerer Sinnesmodalitäten und nur einer Kodalität von Multimodalität im weiteren Sinne zu sprechen. Wenn jedoch nicht nur mehrere Sinnesmodalitäten, sondern auch mehrere Kodalitäten an der Kommunikation beteiligt sind, entspräche dies wie auch bei Fricke der Multimodalität im engeren Sinne. In Tabelle 21 sind der Übersicht halber noch einmal die Terminologievorschläge von Werner Holly (WH) und Ellen Fricke (EF) sowie meine Modifikation des Vorschlags von Fricke aufgelistet. ← 263 | 264 →

Tabelle 21:  Kreuzklassifikation von Kodalitäten und (Sinnes-)Modalitäten und entsprechende Termini

eine Kodalität

mehrere Kodalitäten

eine (Sinnes-)Modalität

Monomodalität (WH)

Monomodalität (EF)

Monomodalität (CMS)

Multikodalität (WH)

Multimodalität i.w.S. (EF)

Multimodalität i.w.S. (CMS)

mehrere (Sinnes-)Modalitäten

Multimodalität (WH)

Multimodalität i.e.S. (EF)

Multimodalität i.w.S. (CMS)

– (WH)

Multimodalität i.e.S. (EF)

Multimodalität i.e.S. (CMS)

Bei der Betrachtung von Tabelle 21 wird deutlich, dass auch in Hollys (2010b: 2203) Differenzierung eine terminologische Lücke besteht: Es gibt keinen Terminus für das Vorkommen sowohl mehrerer Kodalitäten als auch mehrerer Modalitäten.362 Zudem dürfte aus den Erläuterungen deutlich geworden sein, dass Multimodalität nicht der stark vereinfachenden Definition von Jewitt (2009c: 1) entspricht: »Put simply, multimodality approaches representation, communication and interaction as something more than language.« Auch bei einem durch Klaviermusik begleiteten Stummfilm handelt es sich um Multimodalität; folglich bedeutet multimodal nicht – wie Jewitt behauptet – mehr als Sprache, sondern generell mehr als eine Kodalität. Treten gesprochene und geschriebene Sprache in Kombination auf, kann das entsprechende Kommunikat ebenfalls als multimodal bezeichnet werden.

Noch nicht erwähnt wurde bisher die Bedeutung des Attributs multi, welches neben viel auch mehrere bedeuten kann (vgl. Duden 2012). In der linguistischen Multimodalitätsforschung wird zuweilen zusätzlich eine Unterscheidung zwischen Bimodalität und Multimodalität (vgl. Schmitz 2011b: 25), bzw. Bimodalität und Bikodalität (vgl. Holly 2005: 340) vorgenommen.

Eine weitere Differenzierung kann zudem bei den Zeichenmodalitäten vollzogen werden: Nach Stöckl (2004d: 17–18) können die zentralen Modalitäten Bild, Sprache, Geräusch und Musik unterschieden werden, die in medialen Varianten auftreten können. Die zentrale Modalität Sprache beispielsweise verfügt über die medialen Varianten gesprochen (auditiv rezipiert) und geschrieben sowie über die bei Stöckl nicht aufgeführte Variante gebärdet (visuell rezipiert); die medialen Varianten der zentralen Modalität Bild lauten statisch und dynamisch. Weiter nennt ← 264 | 265 → Stöckl (2004d: 16) periphere Zeichenmodalitäten, die sich dadurch auszeichnen, »dass sie nur durch die mediale Realisierung einer zentralen Modalität ins Spiel kommen und eng mit dieser Kernmodalität verbunden bleiben.« Die Typographie ist die periphere Zeichenmodalität zur medialen Variante geschrieben der zentralen Modalität Sprache; bei der medialen Variante gesprochen zählen Paraverbales und Nonverbales zu den peripheren Zeichenmodalitäten. Stöckl (2004d: 16–17) weist explizit darauf hin, dass die verwendeten Bezeichnungen zentral bzw. peripher nicht als unterschiedliche Taxierung von Wichtigkeit verstanden werden dürfen. Steinseifer (2011a: 171) bringt dies in der Benennung in autonome bzw. heteronome Modalitäten zum Ausdruck.

Bislang standen multimodale Kommunikate im Vordergrund, die sich durch »die Kopräsenz und wechselseitige Verknüpfung mehrerer Zeichenmodalitäten auf verschiedenen Ebenen (z. B. Semantik, Handlungsfunktion etc.)« (Stöckl 2011c: 47) auszeichnen. Bei der Analyse solcher multimodalen Kommunikate ist von eminenter Wichtigkeit, dass alle Zeichenmodalitäten gleichberechtigt behandelt werden und nicht ein Zeichensystem als Kontext für ein anderes betrachtet wird (vgl. Schneider, Stöckl 2011b: 29). Neben der Bezeichnung für multimodale Kommunikate wird der Terminus Multimodalität zudem in einer weiteren Bedeutung verwendet: Darunter wird eine individuelle sowie auch eine gesamtkulturelle Kompetenz verstanden, den Sinn multimodaler Kommunikate oder auch »eine Regeln folgende und Muster bildende semiotisch-kognitive Aktivität in der Produktion und im Verstehen von Texten« (Stöckl 2011c: 47) zu entschlüsseln. Multimodale Kommunikate tragen folglich keine eindeutige Bedeutung, vielmehr stellen die Rezipierenden des Kommunikats Beziehungen zwischen den einzelnen Modalitäten und dadurch eine Bedeutung her (vgl. Bucher 2007: 68).

Nicht jede Interaktion ist – wie Norris (2004: 3) behauptet – multimodal, doch kann die multimodale Kommunikation durchaus als Standardfall bezeichnet werden (vgl. Schmitz 2011b: 24). Steinseifer (Steinseifer 2011a: 164) stellt ebenfalls fest, dass das Phänomen der Multimodalität keineswegs neu sei, lediglich das Interesse der Sprachwissenschaftlerinnen und Sprachwissenschaftler daran sei ein Novum. Tatsächlich nahm man sich in der Linguistik der Multimodalität lange Zeit nicht an. Die Sprachwissenschaft muss jedoch »endlich die Chance nutzen, eine reduktionistische Sicht auf Sprache zu erweitern und zu einer Beschreibungspraxis vorzustoßen, die das tatsächliche performative Spektrum der Sprachgebräuche erfasst; dazu muss sie ›Sprache und mehr‹ untersuchen« (Holly 2011c: 160).

Wie in Kapitel 1.2 dargelegt, wird dieser Forderung von Holly mittlerweile bis zu einem gewissen Grad entsprochen, doch bis zu einer umfassenden »Mul ← 265 | 266 → timodalitätslinguistik« (Klemm, Stöckl 2011: 15) ist es noch ein weiter Weg. So besteht eine der größten Herausforderungen der heutigen Medienlinguistik laut Stöckl (2012a: 29) darin, die Multimodalität mit adäquaten Methoden in Analysen angemessen zu berücksichtigen. Aus linguistischer Perspektive ist insbesondere zu erforschen, welche Funktionen Sprache in multimodalen Kontexten zukommt. Es ist zu analysieren, ob sich beispielsweise die Sprache an andere Zeichenarten anpasst und deren Eigenschaften übernimmt (vgl. Wetzchewald 2012: 131) oder ob sich für bestimmte Kommunikat-Sorten typische intermodale Bezüge herausbilden (vgl. Stöckl 2012a: 27 und Kapitel 7.6). Dazu wird »eine umfassende Grammatik der verschiedenen semiotischen Modi [benötigt], die die Bedeutungen, den Sinn der vielschichtigen kommunikativen Praktiken und des jeweiligen Zusammenwirkens der semiotischen Modi rekonstruierbar macht« (Bucher 2007: 53–54).

In der Medienlinguistik lassen sich zurzeit drei verschiedene Ansätze zur Multimodalität unterscheiden, und zwar die Sozialsemiotik, die Transkriptivität und eine handlungstheoretisch orientierte Ausrichtung (vgl. Meier 2010: 192). Bucher (2011b: 132) bezeichnet die Sozialsemiotik (Social Semiotics) als eine der einflussreichsten Theorien zur multimodalen Kommunikation. Sie wird in erster Linie von Kress und van Leeuwen vertreten (vgl. Meier 2010: 192), deren Monographie »Reading images. The grammar of visual design« (Kress, Leeuwen 2006) große Beachtung gefunden hat. Der Ansatz zur Multimodalität von Kress und van Leeuwen beruht auf Michael Hallidays systemisch-funktionaler Linguistik. Hallyday plädierte dafür, Sprache als sozial determiniert und Texte als komplexe Zeichen zu verstehen (vgl. Jewitt 2009b: 29): »Mode is a socially shaped and culturally given resource for making meaning. Image, uniting, layout, music, gesture, speech, moving image, soundtrack are examples of modes used in representation and communication. Phenomena which are the product of social and cultural work have meaning in their environments« (Kress 2009: 54, Herv. im Original). So verstehen Kress und van Leeuwen unter Multimodalität den »Gebrauch und [die] Kombination unterschiedlicher Zeichenmodalitäten, wobei eine Zeichenmodalität wie das Bild oder die Sprache als konventionalisierter Gebrauch von bestimmten Zeichenressourcen zu begreifen ist« (Meier 2010: 193).

Der Ansatz der Transkriptivität geht – wie bereits erwähnt – auf Ludwig Jäger (2002; 2010) zurück und ist insbesondere von Werner Holly (2005; 2006; 2007; 2009; 2010a; 2010b; 2011a; 2011b; 2011c) in zahlreichen Arbeiten zur Bedeutungskonstitution im Audiovisuellen aufgegriffen worden. Jäger unterscheidet ← 266 | 267 → intra- und intermediale Verfahren der Transkription.363 Unter intramedialen Verfahren versteht er die Eigenschaft, dass mit Sprache über Sprache kommuniziert, also die Bedeutung von Äußerungen durch Paraphrasierungen, Explikationen oder Erläuterungen eruiert werden kann (vgl. Jäger 2002: 29).364 Bei intermedialen Verfahren wird mindestens ein mediales Kommunikationssystem zur »Kommentierung, Erläuterung, Explikation und Übersetzung (der Semantik) eines ersten Systems« (ebd.: 29) herangezogen:

      »Indem Medien sich und andere Medien remediatisieren, transkribieren sie. Transkription meint dabei nicht einfach die ›Übertragung‹ eines ›Inhaltes‹ aus einem Medium in ein anderes oder aus einem Kode in einen anderen. Tatsächlich bringt die Transkription das Transkribierte in einer gewissen Weise (durch Rekonzeptualisierung bzw. durch Readressierung) erst hervor. Transkription wird also verstanden als elementares Verfahren der Bedeutungsgenerierung, bei der ein Präskript durch Transkription in ein Skript überführt und insofern neu konstituiert wird. Man könnte auch davon sprechen, dass das Präskript durch seine Transkription als Skript (in einer neuen Weise) lesbar gemacht wird.« (Holly, Jäger 2011: 153)

Bucher (2011b: 132–138) lehnt sowohl den Ansatz der sozialen Semiotik als auch denjenigen der Transkriptivität ab. Gegen die Theorie der sozialen Semiotik führt er Einwände empirischer Art an; er führt aus, dass die von Kress und van Leeuwen erörterte Semiotik der Platzierung von Bekanntem und Neuem für deutsche Tageszeitungen nicht stimmt (vgl. ebd.: 133). Darüber hinaus kritisiert er die von Kress und van Leeuwen analysierten Beispiele als »beliebig, willkürlich und übergeneralisiert« (ebd.: 134). Die Kritik am transkriptionstheoretischen Ansatz richtet sich gegen den »Ausgangspunkt der willkürlichen und normativen Bedeutungszuweisung an einzelne Designelemente«, sprich gegen den »repräsentationale[n] Charakter einer semiotischen Zeichentheorie, die allen Elementen der Kommunikation feste Bedeutungen zuweisen muss« (ebd.: 134). Auch kritisiert Bucher (2011b: 136), dass das Konzept der Transkription impliziere, ein Kommunikat habe bereits eine Bedeutung, was jedoch der empirisch nachweisbaren Tatsache widerspreche, dass »Verständnisse von komplexen Kommunikationsangeboten […] erst aus der wechselseitigen Deutung ihrer Einzelelemente [entstehen] und sich nicht aus diesen ableiten und dann zusammensetzen [lassen]« (ebd.: 136). ← 267 | 268 → Bucher (2011b: 137) hält jedoch fest, dass seine Kritik nicht gegen die Transkriptionstheorie an sich gerichtet ist, sondern gegen deren »Übertragbarkeit auf die Beschreibung multimodaler Kommunikationsformen.«

Im handlungstheoretisch orientierten Ansatz geht Bucher schließlich davon aus, dass nicht die einzelnen Teile eines multimodalen Kommunikats wechselseitig voneinander abhängen, sondern der Rezipierende mit dem Kommunikat interagiert:

      »Theoretischer Grundgedanke ist dabei, dass die Rezeption eines multimodalen Angebotes nach dem Modell eines Interaktionsprozesses verstanden werden kann: Der Leser, Zuschauer, Nutzer interagiert mit dem Angebot, indem er es Schritt für Schritt auf der Basis seines Vorwissens, seiner Absichten, seiner Annahmen und seines aktualisierten Wissensbestandes erschließt. Dadurch wird berücksichtigt, dass multimodale Angebote nicht auf einen Schlag erfasst, sondern in einem Prozess erschlossen werden.« (ebd.: 140–141)

Es stehen folglich die multimodalen Textverstehensprozesse im Vordergrund, bei denen die Nicht-Linearität und die Hypertextualität eine zentrale Rolle spielen: Bucher (2011b: 138–139) versteht Multimodalität als Sonderform von nonlinearer Kommunikation, die multimodalen Kommunikate verfügen demnach über hypertext-ähnliche Strukturen. Beim Verstehensprozess von multimodalen Kommunikaten sind zwei Ebenen relevant: Erstens müssen bedeutungstragende Elemente identifiziert und gruppiert werden (sogenanntes Selektionsproblem), zweitens müssen auf der Ebene der Kohärenz die Erschließungspfade (sogenannte Dynamik des Erschließungsprozesses) analysiert werden (vgl. ebd.: 140). Der handlungstheoretisch orientierte Ansatz basiert auf empirisch gewonnenen Erkenntnissen durch Blickaufzeichnungsstudien (vgl. ebd.: 152).

Der von Bucher vertretene handlungstheoretisch orientierte Ansatz führt klar vor Augen, dass Zeichenressourcen erst in einer konkreten Kommunikationssituation Bedeutung erhalten; dies aber ist laut Meier (2010: 195) schon immer der Unterschied zwischen pragmatischen und lexikologisch-semantischen Herangehensweisen gewesen.

Als letztes sei noch auf einen Ansatz hingewiesen, der sich auf die Zeichenmodalitäten Sprache und Bild in den Varianten geschrieben bzw. statisch beschränkt: die sogenannte tertiäre Schriftlichkeit. Darunter versteht U. Schmitz (2006a: 193) Schriftlichkeit,

      »die Schrift als nichtautonomes Element in multimodalen Kontexten, vor allem in Text-Bild-Gefügen erscheinen lässt. Sie kommt in vielen Kommunikationsformen vor, von Texten an Waren über Plakatierung und Beschilderung im öffentlichen Raum bis zu Presse und anderen Papiermedien. Die avantgardistischsten Fälle jedoch finden sich derzeit im World Wide Web.« ← 268 | 269 →

In Anlehnung an Walter Ongs Unterscheidung in zwei Arten von Mündlichkeit365 entwickelte U. Schmitz (2006a: 192) seine Dreiteilung in primäre, sekundäre und tertiäre Schriftlichkeit. Die primäre Schriftlichkeit entspricht der »seit Jahrtausenden praktizierte[n] Schriftform« (Wetzchewald 2012: 131), die auch unter dem Terminus der konzeptionellen Schriftlichkeit gefasst wird. Diese kann unterschieden werden von der »halb-spontane[n] sekundäre[n] Schriftlichkeit (z. B. in Chats), die gewollte Spontaneität auf der Grundlage von schriftgewohnter Reflektiertheit zulässt oder gar kultiviert. Schreiben nimmt hier einige Elemente auf, die man von mündlicher Kommunikation gewohnt ist, oder ahmt sie mit medienmöglichen Mitteln nach« (U. Schmitz 2006a: 192). In Kapitel 3.4 wurde diese Thematik unter dem Terminus der konzeptionellen Mündlichkeit von Texten beleuchtet. Gemeinsam ist der primären und sekundären Schriftlichkeit, dass Schrift autonom ist, im Gegensatz zur tertiären Schriftlichkeit, die mit Bildern koaliert und folglich nichtautonom ist (vgl. für Beispiele Kapitel 9.3.4). Die Kate-gorisierung in primäre, sekundäre und tertiäre Schriftlichkeit suggeriert, dass es sich dabei um drei gleichwertige Ebenen handelt. Die Autonomie der Schrift stellt jedoch eine Dichotomie dar, die in der Terminologie ignoriert wird. Zwar ist meines Erachtens die Terminologie suboptimal gewählt, dennoch macht Schmitz mit dem Konzept der tertiären Schriftlichkeit darauf aufmerksam, dass Schriftlichkeit heutzutage überwiegend als tertiäre Schriftlichkeit auftritt und Schriftlichkeit sich dadurch verändert: »Ihre optische Erscheinungsform wird nicht nur zu dekorativästhetischen Zwecken, sondern in bedeutungsvoller Absicht gestaltet; sie nimmt einige Eigenschaften von Bildern an, geht Koalitionen mit ihnen ein oder ganz in ihnen auf« (ebd.: 193).366 Demgemäß weist Schmitz (2010: 409) darauf hin, dass man künftig »über konzeptionelle Bildlichkeit und konzeptionelle Bi- und Multi-modalität nachdenken« (ebd.: 409) müsse. Die multimodalen Kommunikate, in denen tertiäre Schriftlichkeit auftritt, nennt U. Schmitz (2006a: 202) »Sehflächen«:

      »Wer Text und Bild jedoch über geplantes Design auf einer Sehfläche zu einer integralen Gesamtbotschaft vereint, addiert nicht einfach ihre jeweils besonderen semiotischen ← 269 | 270 → Leistungen, sondern potenziert sie durch wechselseitige Verbindung. Auf Sehflächen sind Texte nicht einfach Texte und Bilder nicht einfach Bilder. Unter dem Einfluss des jeweils anderen Modus verändern sie vielmehr ihre Form und Funktion und gehen als wechselseitig aufeinander bezogene Teile in ein bedeutungsvolleres Ganzes ein.« (Schmitz 2011b: 34)

Die in der vorliegenden Arbeit analysierten Fotoseiten stellen folglich auch »multimodale Sehflächen« (U. Schmitz 2006a: 202) dar, wobei eine Multimodalität im weiteren Sinne – bzw. in Hollys Terminologie – Multikodalität vorliegt, da Sprache in der medialen Variante geschrieben – wie auch die statischen Bilder – visuell rezipiert wird. Durch welche Relationen die beiden Zeichenmodalitäten geschriebene Sprache und statisches Bild verbunden werden können, wird im folgenden Teilkapitel erörtert.

7.6  Intermodale Relationen

In Relationen zwischen Text und Bild können die Schwächen und Grenzen der jeweils anderen Modalität kompensiert werden (vgl. Stöckl 2004c: 19). Es sind in diesem Zusammenhang die semantische Reichweite sowie die kommunikativen Potenziale und Defizite von Text und Bild und somit auch Unterschiede zwischen den beiden Zeichenmodalitäten zu bestimmen (vgl. Schneider, Stöckl 2011b: 27). Tabelle 22 bietet einen Überblick über Unterschiede auf semiotischer, semantischer und pragmatischer Ebene sowie auf der Ebene der Perzeption/Kognition.367

Tabelle 22:  Vergleich der Zeichenmodalitäten Bild und Sprache (Stöckl 2011c: 48–49)

Bild

Sprache

Semiotik (Zeichensystem)

kontinuierlicher Zeichenfluss

diskrete, distinkte Einzelzeichen

Gestalten integrierende Grammatik (schwach)

Kombinationsgrammatik (stark)

räumliche Konfigurationen

lineare Einheiten (syntagmatisch)

ikonisch (wahrmehmungsnah)

arbiträr (wahrnehmungsfern) ← 270 | 271 →

Semantik (Bedeutungspotential)

Bedeutungsüberschuss (semantisch dicht)

Bedeutung fest verankert (semantisch dünn)

vage und unterdeteminiert

präzise und bestimmt (tendenziell)

beschränkter semantischer Spielraum, z. B.: Verneinung, Modalität, abstrakte Referenz, Illokutionen, logische Verbindung von Aussagen

unbeschränkter semantischer Spielraum (tendenziell)

Pragmatik (kommunikative Funktionalität)

Zeigen merkmalsreicher Objekte

Handlungen/Ereignisse in der Zeit darstellen

Anzeigen der Lage von Objekten zueinander im Raum

logische Bezüge zwischen Elementen erklären

vorwiegend emotionale Appelle

alle Illokutionen und Sprechakte möglich

Handlungsanweisungen

Perzeption/Kognition (Verstehen)

simultane, ganzheitliche Wahrnehmung

sukzessive, lineare Wahrnehmung

schnell

langsam (vergleichsweise)

gedächtnis- und wirkungsstark

gedächtnis- und wirkungsschwach

direkt emotionsverbunden

nicht direkt emotionsverbunden

image

image

Bei multimodalen Kommunikaten müssen stets sowohl Text als auch Bild rezipiert und mittels Kognition in einen Zusammenhang gebracht werden. Relationen zwischen verschiedenen Zeichenmodalitäten wie Text und Bild werden also erst durch die Interaktion der Rezipierenden erzeugt: »Nicht Elemente eines Kommunikationsangebotes agieren miteinander, sondern der Rezipient agiert mit den Elementen eines Angebotes auf der Basis seiner in dialogischen Kommunikationen erworbenen Interaktionskompetenz« (Bucher 2011b: 146). Rezipierende können »multiple Lesarten« (Stöckl 2011c: 56) bzw. Rezeptionsarten generieren, was eine Typologie von intermodalen Relationen nicht einfach macht. Bei Produktanalysen wie in der vorliegenden Arbeit wird also von probablen Rezeptionsarten ausgegangen, doch müssen solche nahegelegten Lesarten selbstverständlich ← 271 | 272 → in einem weiteren Schritt durch Produktions-368 und Rezeptionsanalysen369 verifiziert oder modifiziert werden (vgl. Stöckl 2006: 35). Ziel dieser Arbeit ist es nicht, alle möglichen intermodalen Relationen umfassend darzustellen. Vielmehr wird lediglich von Text-Bild-Relationen als Spezialfall intermodaler Relationen im Kontext von Foto-Communitys ausgegangen.

Zunächst einmal kann konstatiert werden, dass sich für Text-Bild-Relationen genauso wenig wie für multimodale Kommunikate (mit dem Spezialfall Text-Bild-Kommunikate) ein konsensueller Terminus durchsetzen konnte. So ist die Rede von

         »Text-Bild-Beziehung« (Bucher 2011b: 128; Diekmannshenke 2011: 162; Hirner 2008: 29; Nöth 2000a: 495; Schmitz 2001b: 209, Schmitz 2005: 209; Wetzchewald 2012: 184)

         »Text-Bild-Relation« (Bucher 2011b: 131; Luginbühl 2011: 258; Nöth 2000b: 484; Runkehl 2011: 217; Wetzchewald 2012: 161)

         »Text-Bild-Verhältnis« (Deppermann, Linke 2010a: XI; Luginbühl 2011: 263; Steinseifer 2010: 328; Wetzchewald 2012: 161)

         »Text-Bild-Verknüpfung« (Demarmels 2007: 158; Hirner 2008: 30; U. Schmitz 2006a: 204)

         »Text-Bild-Zusammenhang« (Adamzik 2002: 173; Bucher 2011b: 125; Sachs-Hombach, Schirra 2011: 99)

         »Text-Bild-Verbindung« (Hoppe et al. 2004: 155)

         »Bild-Text-Beziehung« (Holly 2011b: 36; Nöth 2000a: 482; Schmitz 2001b: 209; Stöckl 2004b: 243).370

Auch hier fällt auf, dass die Autorinnen und Autoren die Bezeichnungen teils synonymisch nebeneinander verwenden. Ein Blick ins Synonymwörterbuch zeigt, dass Relation, Verbindung, Verhältnis und Zusammenhang alle synonym zu ← 272 | 273 → Beziehung sind und Verknüpfung zu Verbindung (Duden 2007d), was also eine alltagssprachliche Nutzung der Ausdrücke in der Wissenschaft impliziert. Wie bereits gesagt, können Text-Bild-Relationen als Sonderfall von »intermodalen Relationen« (Bucher 2011b: 125) angesehen werden. Auch dafür werden zahlreiche Bezeichnungen wie »intermodale Relation« (ebd.: 124) bzw. englisch »intermodal relationship« (Jewitt 2009a: 21), »intermodaler Zusammenhang« (Bucher 2011b: 131–132), »intermodaler Bezug« (Stöckl 2006: 27, Stöckl 2012a: 27), »intermodale Beziehung« (Schneider, Stöckl 2011b: 32) und »intermodale Brücke oder Kontaktstelle« (Stöckl 2006: 27) verwendet. Aus meiner Sicht ist es am sinnvollsten, von intermodalen Relationen zu sprechen, denn das Adjektiv intermodal stellt ein prägnantes, nicht-logozentrisches Attribut dar und der Ausdruck Relation lässt sich aufgrund seiner lateinischen Herkunft problemlos ins Englische oder Französische übersetzen.

Zu den Grundfragen der Bildlinguistik zählt folgende Frage: »Nach welchen Prinzipien und Mustern geschieht die Verknüpfung von Sprache und Bild?« (Klemm, Stöckl 2011: 12). Stöckl (2006: 27) stellt fest, dass die intermodalen Relationen bisher weniger intensiv erforscht wurden als die Funktionsweise der einzelnen Modalitäten. Dies liegt einerseits an der generellen Komplexität der intermodalen Relationen, andererseits auch an der »Textsortengebundenheit und Kontextsensibilität solcher Bezüge« (ebd.: 27). Relationen zwischen Text und statischen Bildern zählen zu den am besten erforschten (vgl. Steinseifer 2011a: 181). Solche Relationen können definiert werden als

      »Verknüpfung von sprachlichen mit bildlichen Zeichen im Rahmen eines Gesamttextes. Größe und Komplexität der kombinierten Zeichenelemente können dabei stark variieren – vom einzelnen Piktogramm, Computericon oder graphischen Zeichenelement (Pfeile, Linien, Balken, Kästchen) bis zur aufwendig gestalteten bildlichen oder graphischen Darstellung und der Bilderfolge einerseits, einem Wort, einer Phrase bzw. dem Satz oder einem ganzen sprachlichen Text andererseits.« (Stöckl 2004b: 243)

Für die vorliegende Untersuchung von Flickr-Seiten sind es auf Seite des Bildes vor allem Fotografien, auf Seite des Textes einzelne Worte oder Kombinationen von Wörtern in Tags sowie kurze Texte in Notizen, die intermodal miteinander verbunden sind. Diese Arten von Relationen können nicht als prototypisch bezeichnet werden; prototypisch sind vielmehr »bebilderte Zeitungs- und Zeitschriftenartikel sowie Werbeanzeigen« (ebd.: 243). Betrachtet man die bisherige Forschung zu intermodalen Relationen, fällt auch auf, dass insbesondere Kommunikate aus der Domäne der Werbung analysiert wurden. Dort lassen sich die auffälligsten und innovativsten Relationen finden, denn »etablierte Normen werden permanent absichtlich gebrochen […] und vordergründige Wirkprinzi ← 273 | 274 → pien werblicher Sprache-Bild-Texte sind Überraschung, Spannung […], Schock, Übertreibung und Paradoxon« (Stöckl 2011c: 53). Solche Relationen entsprechen der kommunikativen Absicht, die hinter Werbeanzeigen steckt. Auf Fotoseiten dahingegen steht die Präsentation des Bildes im Vordergrund, in den dazugehörigen Texten werden Zusatzinformationen vermittelt oder der Inhalt des Bildes wird zum Zweck des Retrievals wiedergegeben, weshalb andere Relationen als in Werbekommunikaten zu erwarten sind.

Typologien von Text-Bild-Relationen können nach syntaktischen, semantischen oder pragmatischen Aspekten klassifiziert werden (vgl. Nöth 2000b: 483).371 Bei der Kategorisierung nach syntaktischen Aspekten wird die räumliche Positionierung372 von Text und Bild untersucht: »Metaphorisch gesprochen ergeben sich hier syntaktische Muster, d. h. Abfolgen oder Konstellationen der beiden Zeichenmodalitäten. Zwei Typen sind hier grundsätzlich zu unterscheiden: Entweder folgt Sprache auf das Bild oder umgekehrt (linearisiertes Muster) oder sie sind räumlich-grafisch ineinander integriert (simultanes Muster)« (Stöckl 2011c: 56). Für die Tags gilt das linearisierte Muster, für die Notizen das simultane Muster. Bereits aufgrund dieser Unterscheidung kann man vermuten, dass bei Notizen eher pragmatische, bei Tags eher semantische Aspekte eine tragende Rolle spielen: Texte, die in Bilder hineingeschrieben werden, werden tendenziell wohl eher deiktisch sein als solche, die neben einem Bild angebracht werden. Zudem dienen die Tags der Wissensrepräsentation, sodass bei Tags semantische Relationen zu erwarten sind.

In den bisherigen Untersuchungen wurde zumeist eine Typologisierung der semantischen Relationen vorgenommen. »Bei dieser Herangehensweise interessiert man sich v. a. für die Verteilung von Informationen auf Sprache und Bild sowie für das generelle semantische Verhältnis sprachlicher und visueller Botschaften zueinander« (Stöckl 2004b: 250). Es wurden dabei meist die Kategorien Redundanz, Dominanz, Komplementarität, Diskrepanz und Kontradiktion unterschieden (vgl. Steinseifer 2011a: 181). Insbesondere beim Retrieval ist die Redundanz von Bedeutung – eine adäquate Wissensrepräsentation setzt voraus, dass die Vertretung (im konkreten Fall: die Tags) das in den Fotos enthaltene Wissen präzise wiedergibt. Muckenhaupt (1986: 238) spricht in diesem Fall von ← 274 | 275 → der Gegenstandskoordination von Text und Bild und meint damit den Umstand, dass »im Text von einem Gegenstand die Rede ist und mit einem Bild dieser Gegenstand gezeigt wird.« Stöckl (2004b: 254) nennt diese Relation Parallelisierung und bezeichnet sie als »unauffälligen Normalfall der Verbindung von Sprache und Bild.« Durch die Aussage, dass sich bei Parallelisierungen Text und Bild in Nuancen unterscheiden können (vgl. ebd.: 254), wird der Aspekt der Redundanz relativiert, sprich die Abgrenzung zur Komplementarität ist nicht eindeutig.

Bei den Notizen ist insbesondere die Komplementarität, d. h. die Verteilung der Information auf Text und Bild, von Bedeutung. Steinseifer (2011a: 181) bezeichnet die Komplementarität als die interessanteste semantische Relation: Sowohl Text als auch Bild sind notwendig, um die Bedeutung des Kommunikats zu verstehen.373 Von der Komplementarität unterscheidet sich die Dominanz dadurch, dass zwar auch Bild und Text für das Verständnis rezipiert werden müssen, dass jedoch eine der Zeichenmodalitäten die größere Bedeutung hat. In der Praxis dürfte es allerdings schwierig sein, die Komplementarität klar von der Dominanz abzugrenzen (vgl. Nöth 2000a: 493). Auch Stöckl (2004b: 244) plädiert dafür, »statt von der Dominanz des sprachlichen oder des bildlichen Textes zu sprechen, […] die generelle Reziprozität semiotischer Prozesse an der Schnittstelle beider Zeichensysteme anzunehmen und diese differenziert zu beschreiben.« Unter Diskrepanz versteht man einen fehlenden semantischen Zusammenhang (vgl. Steinseifer 2011a: 181), wohingegen bei der Kontradiktion sich der Inhalt des Bildes und des Textes widersprechen; ein typischer Fall von Kontradiktion ist die Ironie, welche vor allem in der Werbung als Stilmittel genutzt wird, darüber hinaus aber auch in Karikaturen und Bilderwitzen (vgl. Nöth 2000a: 494).

Die genannten semantischen Relationen können schließlich nochmals zu den Kategorien divergentes (Diskrepanz und Kontradiktion), indirektes Verhältnis (Komplementarität und Dominanz) und direktes Verhältnis (Redundanz) zusammengefasst werden (vgl. Luginbühl 2011: 258). Wie bereits erläutert, sind divergierende Relationen bei Tags und Notizen eher nicht zu erwarten und die indirekten Relationen der generellen Reziprozität können nicht eindeutig voneinander abgegrenzt werden, sodass lediglich noch zwischen direkten und indirekten Relationen differenziert werden kann. Folgt man Ballstaedt (2005: 61), so kann es jedoch keine Redundanz geben, da Text und Bild niemals äquivalent seien. Unter kodaler Komplementarität versteht Ballstaedt (2005: 61) die Tatsache, dass Bild ← 275 | 276 → und Text immer komplementär seien und sich in ihren kommunikativen Funktionen ergänzen würden: »Das Bild kann nicht alles zeigen, was ein Text beschreiben kann (z. B. keine Begründungen, Argumente, Motive, keine allgemeinen Konzepte und Aussagen). Der Text kann nicht alles beschreiben, was ein Bild zeigt (z. B. visuelle Merkmale wie Form, Farbe, Textur und die räumlichen Beziehungen).« Dass Text und Bild zu 100 % redundant sein können, würde wahrscheinlich nie jemand behaupten. Die Redundanz-Relation deshalb als nicht existent zu betrachten, ist meines Erachtens jedoch nicht haltbar. Wenn von Redundanz die Rede ist, so ist damit gemeint, dass ein bestimmter Informationsgehalt sowohl im Bild als auch im Text vorhanden und somit redundant ist. Dies ist insbesondere für Tags relevant, da diese der Wissensrepräsentation dienen und möglichst präzise den Informationsgehalt des Bildes wiedergeben sollten.

Die Typologie nach semantischen Aspekten wurde von verschiedenen Seiten kritisiert. So moniert Stöckl (2004b: 250), dass die Zuordnungen »auf intuitiven und meist recht pauschalen Interpretationen von sprachlichen und bildlichen Textinhalten« beruhten, und auch Bucher (2011b: 130) bemängelt, dass die genannten semantischen Erklärungen zu allgemein und zudem »bereits Generalisierungen eines Verständnisses und nicht dessen Erklärung« seien. Denn die Unterscheidungen der Relationen setzen voraus, dass der Inhalt von Text und Bild unabhängig voneinander und auf einer vergleichbaren Ebene bestimmt werden kann: »Nur wenn beispielsweise feststeht, dass ein Bild etwas zeigt, was durch den Text konkretisiert wird, kann eine supplementäre Relation angenommen werden. Was ein Bild zeigt, ist aber nicht eine Funktion des Bildes, sondern eine Funktion seines Verständnisses, das beispielsweise entscheidend vom Wissen des Betrachters abhängt« (ebd.: 129).

Für Relationen, wie sie in der vorliegenden Arbeit zwischen Tags und Bildern sowie Notizen und Bildern untersucht werden, erscheint die Typologisierung nach den genannten Kategorien wenig ergiebig. Für die Relationen zwischen Tags und Bild können zwar die semantischen Relationen der Redundanz und der Komplementarität herangezogen werden, darüber hinaus muss aber auch danach gefragt werden, welche semantischen Relationen zwischen den einzelnen Tags bestehen (vgl. Kapitel 9.2.3). Bei Relationen zwischen Notizen und Bildern sind – wie in einer Vorstudie zur vorliegenden Analyse gezeigt wurde (vgl. Müller 2012a: 54–69) – insbesondere pragmatische Aspekte von Bedeutung. Wetzchewald (2012: 184) hat darauf hingewiesen, dass »oftmals pragmatische/funktionale Überlegungen zu Text-Bild-Beziehungen gegenüber semantischen und syntaktischen Eigenschaften vernachlässigt« werden, und sich deshalb dieser Thematik ausführlich angenommen (vgl. ebd.: 305–334). ← 276 | 277 →

Insbesondere die Deixis374 und Ellipsen sind in Notizen-Bild-Relationen von besonderer Bedeutung, doch auch Sprecherzuweisungen und Passivkonstruktionen sollen im Folgenden betrachtet werden. Mit Nöth (2001: 5) können drei Arten von Deixis zwischen Text und Bild unterschieden werden: 1. verbale Deixis, 2. symbolische Deixis, bei der Bild und Text durch Linien oder Pfeile verbunden werden, und 3. nonverbal-bildliche Deixis, bei der im Bild nonverbale Elemente vorhanden sind, mit denen auf die dazugehörige verbale Nachricht verwiesen wird. Ein Beispiel für nonverbal-bildliche Deixis ist in Abbildung 35 zu finden: Ein Elektrofachmarkt bietet auf das abgebildete Produkt einen Rabatt an; der im Bild platzierte orangefarbene Pfeil verweist direkt auf den »Gefällt mir«-Button, indirekt aber zugleich auch auf den in orange gesetzten Text »exklusiv für Fans«. Der Pfeil ist demnach als Aufforderung zu interpretieren, dass man vom Rabatt profitieren und deshalb Fan werden soll.

Abbildung 35:  Beispiel für nonverbal-bildliche Deixis

image

Solche nonverbal-bildliche Deixis kommt auf Flickr nicht vor, die verbale und symbolische Deixis jedoch sind für Notizen relevant: Das Notizfeld verbindet den Notiztext mit dem Bild (symbolische Deixis), was dazu führt, dass verbale Deixis nicht zwingend realisiert werden muss, aber dennoch kann. Deiktische Ausdrücke verweisen »auf die personellen, temporalen oder lokalen Charakteristika der Sprechsituation verweisen, z. B. ich – du, jetzt – dann, hier – da« (Dürr, Schlobinski 2006: 294). ← 277 | 278 →

Lokaldeixis375 wird vor allem über Lokaladverbien (z. B. hier, da, dort) realisiert, die bei Flickr-Notizen auf den Ausschnitt des Bildes verweisen, der mit dem Notizfeld markiert wurde: »Im Text kann mithilfe des deiktischen Ausdrucks hier auf Bilder […] textdeiktisch referiert werden, ohne dass der Bezug explizit genannt werden muss. Damit fungiert das Adverb als Junktor zwischen Text und Bild« (Wetzchewald 2012: 328, Herv. im Original). Objektdeixis wird insbesondere über Demonstrativpronomen realisiert, darüber hinaus auch über definite Artikel. Solche Determinantien – wie sie Vater (2005: 105) bezeichnet – können in der Funktion als Demonstrativa in Nominalphrasen eingebettet sein oder eine Nominalphrase für sich bilden. Klein (2001: 580) rechnet die Personaldeixis zur Objektdeixis, doch realisiert wird sie durch Personal- und Possessivpronomen, die »auf die Aktanten in der Gesprächssituation« (Wetzchewald 2012: 323) bzw. allgemeiner auf die Kommunikationssituation referieren.

Abbildung 36:  Lokal-, Personal- und Objektdeixis in einer Flickr-Notiz

image

In Abbildung 36 ist ein Beispiel aus dem in der empirischen Analyse verwendeten Großkorpus für eine Kombination von Lokal-, Personal- und Objektdeixis zu sehen. Das Lokaladverb hier verweist auf die mit dem Notizfeld markierte Stelle, das Personalpronomen ich referiert auf den Verfasser der Notiz: (**)xxSnowChildxx(**)). Die mit einem Demonstrativpronomen gebildete Nominalphrase dieses Foto bezieht sich auf ein weiteres Bild, das über den Ankertext Foto aufgerufen werden kann.

Eine weitere pragmatische Relation kann in Passivkonstruktionen, die kein Agens enthalten, in Verbindung mit einem im Bild realisierten Agens gesehen ← 278 | 279 → werden (vgl. ebd.: 248). Grund für die Nutzung von Passivkonstruktionen in monomodalen Kommunikaten kann sein, dass das Agens unbekannt oder unwichtig ist oder aber die Produzentin oder der Produzent des Satzes das Agens nicht nennen will. In multimodalen Kommunikaten hingegen kann ein Grund für Passivkonstruktionen darin bestehen, dass das Agens nicht verbalisiert werden muss, da es im Bild realisiert wird. In Abbildung 37 ist ein Beispiel aus dem Notizen-Korpus zu sehen. Der Notiztext lautet: »Hier wird gespritzt!« Im Notizfeld dazu kann ein Mädchen als Agens ausgemacht werden.

Abbildung 37:  Passiv mit im Bild realisiertem Agens

image

Solche Relationen sind allerdings äußerst selten; etwas frequenter sind Aktivkonstruktionen zu finden, in denen das Subjekt im Satz getilgt wurde, weil das Agens im Bild zu sehen ist. Wetzchewald (2012: 332) bezeichnet solche pragmatischen Ellipsen ebenfalls als deiktisch. Ellipsen sind insbesondere dann auffällig, wenn das Subjekt getilgt wird. Ein fehlendes Subjekt oder unbesetztes Vorfeld im Aussage-Modus wirken als Auslöser für die Suche nach den fehlenden Informationen (vgl. Zifonun et al. 1997: 415). Geschieht dies im Zusammenhang mit einem Bild, ← 279 | 280 → so bewirkt die Ellipse, dass »der Textrezipient im Kotext nach den ›fehlenden‹ Informationen suchen wird – um bei der visuellen Einheit fündig zu werden« (Geiger, Henn-Memmesheimer 1998: 66). Ellipsen werden demnach verstanden als »Äußerungen, deren syntaktische Form nicht den gängigen Vorstellungen prototypischer Sätze entspricht« (Schmitz 2001a: 424). Im multimodalen Kommunikat wird der Mangel, so die Bedeutung des griechischen »élleipsis« (Duden 2007c), jedoch durch das Bild beseitigt, beziehungsweise es kann auch umgekehrt argumentiert werden, dass in der Sprache keine redundante Information verbalisiert wird. In Abbildung 38 ist in der Notiz ganz rechts das Agens (eine Möwe) mit dem Notizfeld markiert und der Notiztext lautet: »Hat endlich Feierabend und will nach Hause«. An diesem Beispiel zeigt sich, dass solche pragmatischen Ellipsen deiktisch sind: Wäre das Agens im Text realisiert, dann wahrscheinlich mit »die Möwe« oder »diese Möwe« – das getilgte Subjekt ist also deiktisch.

Abbildung 38:  Figurenrede und Tilgung des Subjekts

image

Eine weitere Art der pragmatischen Relation wird unter den Termini »Figurenrede« (Stöckl 2004b: 272) oder »Sprecherzuweisung« (Geiger, Henn-Memmesheimer 1998: 66) gefasst. Gemeint sind damit Relationen, »bei denen das Bild den Urheber des sprachlichen Texts bzw. eines Teils davon darstellt« (Stöckl 2004b: 272). Solche Relationen führen dazu, »dass der Betrachter den Eindruck hat, die im Bild dargestellten Personen äußerten einen Sprechakt« (Wetzchewald 2012: 305). Wetzchewald (2012: 305) spricht von Demand-Bildern, bei denen die ← 280 | 281 → Abgebildeten zumeist in die Kamera blicken und dadurch die Rezipierenden dazu veranlassen, den dazugehörigen Text als Figurenrede zu erachten. Bei Notizen hingegen kann das Feld mit dem Notiztext als Sprech- oder Denkblase interpretiert und deshalb als Figurenrede aufgefasst werden. Stöckl (2004b: 272) nennt die zur Figurenrede gehörende Relation denn auch »Comicmuster des Sprache-Bild-Bezugs«. In Abbildung 38 sind zwei Beispiele für Figurenrede abgebildet, in denen diese zusätzlich durch Anführungszeichen als solche gekennzeichnet ist.

Die erläuterten pragmatischen Text-Bild-Relationen können – aus semantischer Perspektive – allesamt als komplementäre Relationen bezeichnet werden. Die verschiedenen Formen von Deixis können explizite Verweise genannt werden, Ellipsen, Passivkonstruktionen und Sprecherzuweisungen hingegen implizite Verweise.

7.7  Tendenzen digitaler ikonographetischer Kommunikation

Auf Flickr lassen sich ab und zu Kommentare wie »Hallo Kurli! ich image Deinen klasse Photostream!« oder »This is like image« finden. Nicht nur auf Flickr, sondern generell in der digitalen Kommunikation ist ein Trend zu beobachten, dass immer mehr Bildzeichen zusammen mit Schriftzeichen verwendet werden. Ein historischer Vorläufer kann in den sogenannten Mal- oder Bildbriefen (vgl. Wiethölter 2008: 117) gesehen werden. Wiethölter (2008: 117) verwendet im Zusammenhang mit solchen Briefen den Terminus Ikono-Graphie. Die Autorin geht nicht näher auf den von ihr gewählten Ausdruck ein, es ist jedoch zu vermuten, dass sie die Schreibung mit Bindestrich gewählt hat, um den Terminus von der kunsthistorischen Bezeichnung ikonographisch im Sinne von die Ikonographie betreffend abzugrenzen. Trotz der Bindestrichschreibung sollte der Ausdruck meines Erachtens wegen der Verwechslungsgefahr nicht benutzt werden.

Ein spezifischer Terminus für Schrift- und Bildzeichen enthaltende Kommunikate existiert bislang – mit Ausnahme der ungeeignet erscheinenden Bezeichnung von Wiethölter – nicht. Deshalb möchte ich vorschlagen, diese terminologische Lücke mit dem Ausdruck ikonographetische Kommunikate zu füllen. Das Wortbildungselement ikono in der Bedeutung Bild (vgl. Duden 2007b) verweist auf jegliche Bildzeichen, unabhängig davon, ob sie ikonischer oder symbolischer Art sind. Graphetisch soll als zweiter Teil des Kompositums im Sinne des griechischen Wortes graphé für Schrift (Duden 2012) verstanden werden; es referiert demnach auf Schriftzeichen im Allgemeinen. Darüber hinaus bezieht sich graphetisch auf Graphen, die in der Sprachwissenschaft definiert sind als »nicht weiter klassifizierte[…], schriftlich fixierte[…] Zeichen« im Gegensatz zu den Graphemen, den »kleinste[n], bedeutungsunterscheidende[n] Zeichen eines Schriftsystems« (Dürscheid 2012: 291). Die Graphen zählen zu den etischen, Grapheme hingegen ← 281 | 282 → zu den emischen Phänomenen, weshalb auch die Bezeichnung ikonographetisch und nicht ikonographemisch gewählt wurde.376

Um eine historische Perspektive zu den digitalen ikonographetischen Kommunikaten aufzuzeigen, soll zunächst ein Beispiel aus dem oben genannten Bereich der Mal- oder Bildbriefe analysiert werden. Typisch für diese Art von Briefen sind sogenannte Rätsel- oder Rebusbriefe.377 Der in Abbildung 39 zu sehende Brief wurde vom Schwaben Adolf Ruefff (1820–1885) aus Reutlingen an die Schwestern Alma und Bertha Froriep in Berlin gesendet (vgl. Wiethölter 2008: 125).

Abbildung 39:  Rebusbrief von Adolf Rueff an Alma und Bertha Froriep, Mittwoch, 5. Juni 1844378

image ← 282 | 283 →

Die folgende Transkription stammt aus Wiethölter (2008: 125), allerdings wurden die transkribierten Stellen kursiv gesetzt und in eckigen Klammern je eine Ergänzung und eine Korrektur vorgenommen:

Reutlingen d. 5/6 44.

Ihr lieben Berliner Hasen!

Ich glaube Ihr habt mich ganz vergessen, deshalb will ich einen Brief an Euch schreiben über den Ihr Euch den Kopf zerbrechen sollt. Otto allein der große Geselle hat mich schon besucht und mir gesagt, d ihr beschlossen habt, hierher zu spazieren; ich weiß mich darüber vor Freude kaum zu fassen. – Gelt jetzt könnet Ihr wieder in den Garten und Euch der schönen Natur freuen und müsst nicht mehr im Haus bleiben. Frau Klein soll [nur] mit ihren Augen streng auf Euch achthaben, weil Ihr große Waghälse seid, fast [gleich] den sauberen Studenten. Was macht Tante Franzele? Bringet ihr und an alle herzliche Grüße besonders auch an Frau Medizinalrat Froriep und Frau Kameralverwalterin. – Ich will hoffen, d Ihr diesen Brief richtig bekommt, damit Ihr Euch erinnert an Euren Freund Adolf R.

Den verwendeten Bildern kommen zwei Bedeutungen zu: Zum einen werden sie anstelle eines ganzen Wortes verwendet, so in Hasen, Brief, Haus oder Augen. In den meisten Fällen jedoch liegen Rebusse vor, die auf akustischen Analogien basieren und anstelle eines Wortes stehen: Eine Gans für ganz, Sträng(e)379 für streng, eine Sau und Beeren für sauberen. Überwiegend kommen jedoch Verbindungen von Schrift- und Bildzeichen vor wie in image liche für herzliche. Zudem wurden Rebusschreibungen mit Zahlzeichen verwendet wie in m8 für macht oder 1n für einen, analog zu dem häufig zitierten, für die digitalen Medien angeblich typischen n8 für nacht (vgl. Androutsopoulos 2003: 186). Fairon et al. (2006: 31–32) unterscheiden zwischen »›Phonétisation‹ des caractères« und Rebusschreibung. Erstere wird nochmals unterteilt in Buchstaben (h.e.t. für acheter) sowie Ziffern und andere Schriftzeichen (2m1 für demain). Als Beispiel für die Rebusschreibung führen die Autoren das Beispiel mobi* für Mobistar an. Im Weiteren interessieren hier lediglich solche Beispiele der Rebusschreibung, die Bildzeichen enthalten.

Insbesondere für die digitale Kommunikation gilt die folgende Aussage von Schmitz (2003b: 246): »Die seit Jahrhunderten […] gewohnten Grenzen zwischen Schrift und Bild zerfließen. Bilder können – in Smileys, Logos und Piktogrammen – schriftähnliche Funktion annehmen.« Dies wird insbesondere durch die Unicode-Version 6.0 noch verstärkt: In der im Oktober 2010 veröffentlichten Ver ← 283 | 284 → sion sind über 600 sogenannte Emojis aufgenommen worden. Dies erstaunt vor dem Hintergrund, dass Unicode »ein Zeichensatzstandard [ist], der für die Darstellung eines Zeichens zwei Byte verwendet u. dadurch fast alle Schriftsprachen der Welt darstellen kann« (Duden 2007b). Emojis allerdings gehören zu keiner Schriftsprache; der Ausdruck Emoji kommt aus dem Japanischen und bedeutet wörtlich Bild (e) und Buchstabe (moji).380 Ursprünglich nur in Japan verwendet, finden Emojis mittlerweile weltweit Anklang, weshalb sie auch in Unicode standardisiert wurden. Sie sind dort in der »Supplementary Multilingual Plane« im Unicodeblock »Miscellaneous Symbols and Pictographs« zu finden.381 Im Uni-code-Standard ist jedes Zeichen einem bestimmten Codepunkt zugeordnet, der hexadezimal angegeben und mit einem vorangestellten »U+« versehen wird. Die Emojis sind zwischen U+1F300 und U+1F5FF angesiedelt und stellen Gegenstände und Situationen aus dem (japanischen) Alltag dar.382 In Abbildung 40 sind die in Unicode verfügbaren Bildzeichen für Obst abgebildet; alle Unicodezeichen sind stets auch mit einer Beschreibung versehen, was bei manchen Zeichen wie beispielsweise demjenigen für »Fish Cake with Swirl Design« (insbesondere für Europäer) hilfreich sein kann.

Wenn nun die in Abbildung 40 zu sehenden, relativ abstrakt dargestellten Bildzeichen in einer bestimmten Schriftart vorkommen sollen, dann müssen für den Zeichensatz spezifische graphische Darstellungen (Glyphen) der einzelnen Zeichen entwickelt und einem Codepunkt zugewiesen werden. Digitale Texte werden in der Regel als abstrakte Unicodezeichen gespeichert, das Schriftbild variiert je nach Schriftart. ← 284 | 285 →

Abbildung 40:  Fruit symbols im Unicodeblock Miscellaneous Symbols and Pictographs383

image

Segoe UI Emoji ist eine solche Schriftart, die für das Microsoft-Betriebssystem entwickelt wurde und seit Windows 8.1 verfügbar ist (vgl. Abbildung 41). Der Abstraktionsgrad der Abbildungen ist mit demjenigen der Darstellungen im Unicodeblock vergleichbar, die vektorbasierten Emojis sind in der Schriftart Segoe UI Emoji jedoch in Farbe dargestellt.

Abbildung 41:  Fruit symbols in der Schriftart Segoe UI Emoji384

image ← 285 | 286 →

Im Gegensatz zur Schriftart Segoe UI Emoji ist der Zeichensatz von Apple Color Emoji für Apple-Geräte pixelbasiert, d. h. die einzelnen Glyphen sind PNG-Graphiken(vgl. Abbildung 42). Wenn das verwendete Programm eine entsprechende Unterstützung bietet, kann der Zeichensatz wie jeder herkömmliche verwendet werden.385 Emojis können also problemlos zusammen mit Sprachzeichen benutzt werden, was digitale ikonographetische Kommunikation möglich macht. Bei der Instant-Messaging-Anwendung WhatsApp für Smartphones ist die Schriftart Apple Color Emoji implementiert. Diese ermöglicht eine Kommunikation mittels Emojis unabhängig vom Betriebssystem. Hierbei handelt es sich um einen deutlichen Fortschritt im Vergleich zu der ursprünglichen Situation der Verwendung von Emojis in SMS in Japan: Je nach Handymarke und Provider war keine Kompatibilität gegeben (vgl. Schlobinski, Watanabe 2003: 30).386

Abbildung 42:  Fruit symbols in der Schriftart Apple Color Emoji

image

Werden digitale ikonographetische Kommunikate auf WhatsApp erstellt, dann kann zwischen einem Eingabemodus für Sprachzeichen und einem für Emojis hin- und hergewechselt werden. Wie in Abbildung 43 zu sehen ist, sind die Emojis nach Kategorien wie Emoticons, Natur, Ereignisse und Objekte, Verkehr/Orte sowie verschiedene Symbole sortiert387. Innerhalb dieser Kategorien kann geblättert ← 286 | 287 → werden; in Abbildung 43 ist eine Auswahlseite aus dem Bereich Verkehr/Orte zu sehen. Unter dem Uhrzeitensymbol links werden diejenigen Emojis angezeigt, die zuletzt verwendet wurden, was eine effizientere Eingabe gewährleistet.

Abbildung 43:  Emoji-Eingabe in WhatsApp

image

Die Emojis in Abbildung 43 sind teils ikonischer, teils symbolischer Art. So ist das mittlere Zeichen in der ersten Zeile eine ikonische Abbildung eines Hochgeschwindigkeitszuges, wohingegen das mittlere Zeichen der zweiten Zeile symbolisch ist: Es handelt sich um das japanische Zeichen für Anfänger. Dazwischen existieren Zeichen wie beispielsweise die Emoticons, die zwar bestimmte Gesichtsausdrücke ikonisch abbilden, darüber hinaus jedoch symbolisch für bestimmte Emotionen stehen. Es sei an dieser Stelle allerdings angemerkt, dass die Emoticons nicht im Unicodeblock Emojis, sondern in einem separaten namens Smileys (U+1F600 bis U+1F64F) kodiert sind. Emoticons werden im Japanischen Kaomoji (Gesichtszeichen) genannt und werden nicht um 90 Grad gedreht wie Emoticons in der westlichen Welt, beispielsweise ^_^ oder ^^ für ein lächelndes Gesicht oder \(^o^)/ als Ausdruck für Freude (vgl. Schlobinski 2009: 95). Die 1985 erfundenen Kaomojis sind in Japan äußerst beliebt. Bis zu einem gewissen Grad werden sie mittlerweile auch in der westlichen Welt verwendet (vgl. ebd.: 95). So lassen sich auf Flickr einige Nicknames finden, die Kaomojis enthalten: »(image)« oder »© imageOLAYAimage (image)« sowie bereits etwas komplexere wie »imagecolpo d’occhioimage« oder »image. ← 287 | 288 →

In einer kontrastiven Studie zur SMS-Kommunikation im Deutschen und Japanischen wurde festgestellt, dass Kaomojis und Emojis im Japanischen sehr stark genutzt werden: Von 908 japanischen Texten388 enthielten 21,5 % mindestens ein Emoji, was bedeutet, dass sie kommunikativ und funktional von großer Bedeutung sind (vgl. Schlobinski, Watanabe 2003: 30). Die Autoren konnten zwei Funktionen von Emojis ausmachen: Zum einen erfüllen sie eine ähnliche Funktion wie Kaomojis, d. h. die Emojis werden hinter eine bestimmte Textstelle gesetzt: »Der Schreiber bringt seine subjektive Sicht zum Ausdruck, der Sachverhalt wird kommentierend bis bewertend bzw. Gefühlsnuancen ergänzend eingeordnet« (2003: 30). Neben dieser sogenannten Abtönungsfunktion nennen Schlobinski und Watanabe (2003: 30) die Referenzfunktion, d. h. Emojis können die Stelle eines Substantivs besetzen.389

Im deutschsprachigen Raum ist die Verwendung von Emojis erst seit der Unicode-Standardisierung möglich, entsprechende Studien zur Nutzung liegen bisher noch nicht vor. Bereits seit geraumer Zeit stehen jedoch in der westlichen Welt in Chats, in Instant-Messaging-Anwendungen oder bei Facebook Bildzeichen zur Verfügung: »A growing number of signs represent objects of various kinds (such as a heart or beer mug), although the majority mimic facial expressions« (Dresner, Herring 2010: 249). Solche Bildzeichen wie Herzen oder Bierkrüge, die optisch den in Unicode kodierten Emojis sehr ähnlich sind, sollen in der vorliegenden Arbeit ebenfalls als Emojis bezeichnet werden, zumal in Japan selbst einst zahlreiche Emoji-Varianten bestanden haben.390 Allerdings muss angemerkt werden, dass in solchen Anwendungen meist nur eine beschränkte Auswahl an Emojis vorhanden ist, bei Skype beispielsweise kann zwischen 72 Bildzeichen ausgewählt werden, wovon 50 Emoticons darstellen (vgl. Abbildung 44). ← 288 | 289 →

Abbildung 44:  Emojis bei Skype

image

Dresner und Herring (2010: 249) fassen nicht nur Emoticons, sondern alle Bildzeichen unter Emoticons.391 Unter der Portmanteau-Bildung aus englisch emoticon und icon versteht man allerdings eine Zeichenkombination, »mit der […] eine Gefühlsäußerung wiedergegeben werden kann« (Duden 2012). Bildzeichen können zwar zuweilen dafür verwendet werden, doch kommen ihnen darüber hinaus noch andere Funktionen zu. Vielmehr sollten meines Erachtens Emoticons oder Kaomojis hinsichtlich ihrer Funktion als eine Art von Emojis betrachtet werden, deren Übersetzung auf Deutsch Bildzeichen lautet (vgl. Schlobinski 2005: 135). Owoputi et al. (2013: 4) wiederum verstehen unter Emoticon ein Gesicht oder Icon, das mit Alphabet- oder Interpunktionszeichen erstellt wurde, unter Emoji hingegen »symbols rendered in software as small pictures, in line with the text.« Es zeigt sich also, dass die terminologischen Differenzierungen teils auf formalen, teils auf funktionalen Unterscheidungen beruhen. Die Unterscheidung, die Owoputi et al. vorgenommen haben, ist zweifelsohne von großer Relevanz, doch sollen diejenigen Zeichen, die sie unter Emoticons fassen, in der vorliegenden Arbeit unter herkömmlichen Emoticons gefasst werden. Da die meisten Anwendungen heutzutage herkömmliche Emoticons in Bildzeichen umwandeln, spielen sie mittlerweile ohnehin nur noch eine geringe Rolle. ← 289 | 290 →

Schmitz (2011a: 80–81) schließlich spricht in Bezug auf Bildzeichen in der SMS- und Chatkommunikation von Piktogrammen, die in Texte eingebaut werden können. Piktogramme wiederum »verschriften Bedeutungen auf ikonische Weise, also nicht durch arbiträre Schrift, sondern durch stilisierte Abbildungen« (Schmitz 2004c: 62). Unter den Emojis sind jedoch nicht nur ikonische, sondern auch symbolische Bildzeichen zu finden, so beispielsweise ein Notenzeichen, das Musik symbolisieren kann, wie wir im eingangs zitierten Flickr-Kommentar »This is like image« gesehen haben (vgl. auch Abbildung 44). Der Unicodeblock, in dem die Emojis enthalten sind, wurde denn auch – wie bereits erwähnt – »Miscellaneous Symbols and Pictographs« benannt. Die einzelnen Kategorien des Blocks jedoch sind stets mit »symbols« überschrieben, so auch die angeführten »Fruit symbols« (vgl. Fußnote 382), die Obstsorten ikonisch abbilden.392 Vergleicht man die Glyphen der vektorbasierten Schriftart Segoe UI Emoji mit denjenigen der pixelbasierten Apple Color Emoji, wird deutlich, dass der Stilisiertheitsgrad in Segoe UI Emoji deutlich höher ausfällt als in Apple Color Emoji. Folglich kann der Abstraktionsgrad von Emojis nicht allgemein bestimmt werden; vielmehr müssen für eine Bildtypologisierung konkrete Umsetzungen der Unicode-Zeichen betrachtet werden. Stöckl (2004b: 124) setzt beim Bildtypologisierungskriterium Abbildungs- bzw. Darstellungspraktik die Abstufungen detailgetreu, schematisierend, abstrahierend und symbolisch an. Als detailgetreu können Fotografien bezeichnet werden, als schematisierend Zeichnungen, als abstrahierend Piktogramme und als symbolisch Ideogramme (vgl. Abbildung 45).393 ← 290 | 291 →

Abbildung 45:  Ikonische versus symbolische Zeichen394

image

Ikonische Emojis können je nach Schriftart eher als Zeichnung oder als Piktogramm eingestuft werden. Der Großteil der Emojis ist zwar den ikonischen Bildzeichen zuzurechnen, doch existieren auch einige symbolische Emojis (vgl. Abbildung 46). Das in Abbildung 45 zu sehende Marssymbol ist allerdings nicht im Unicodeblock der Emojis, sondern in »Miscellaneous Symbols» zu finden. Das Ideogramm kann definiert werden als »Zeichen, das einen Bedeutungskomplex darstellt (z. B. image)« (Dürscheid 2012: 292). Laut Mitchell (2008: 47) können der Kreis und der Pfeil des Marssymbols als Körper eines Mannes und Phallus interpretiert und somit synekdochisch (pars pro toto) gelesen werden. Das Marssymbol ist jedoch auch als Schild und Speer und demnach metonymisch interpretierbar: Das Symbol »ersetzt die Sache selbst durch mit ihr in einem realen Zusammenhang stehende Dinge« (ebd.: 47).

Unabhängig davon, ob in der digitalen ikonographetischen Kommunikation nun ikonische oder symbolische Zeichen eingesetzt werden, eröffnen sich durch die Unicode-Kodierung der Emojis und die dadurch ermöglichte Verwendung von Bildzeichen in Domänen, die zuvor Sprachzeichen vorbehalten waren, völlig neue Möglichkeiten der Kommunikation. Bereits 1996 merkte Lutz (1996: 1639) an: »Der rege touristische und merkantile Verkehr zwischen den Sprachgebieten hat heute schon eine große Zahl von Piktogrammen (Bildzeichen) hervorgebracht« und Schmitz (2004d: 114) betont, dass Bilder sich über Sprachgrenzen hinweg verwenden und dadurch Globalisierungsprozesse beschleunigen lassen. ← 291 | 292 →

Abbildung 46:  Graphische Umsetzung der Unicodeblöcke »Miscellaneous Symbols» und »Miscellaneous Symbols and Pictographs« in Apple Color Emoji395

image

Es stellt sich in Anbetracht dieser neuen Möglichkeiten erstens die Frage, inwiefern davon Gebrauch gemacht wird; es sind also empirische Untersuchungen notwendig. Zweitens schließt sich daran die Frage an, inwiefern die Verwendung von Emojis bzw. Bildern in der Kommunikation einen Einfluss auf die Schriftlichkeit im Allgemeinen hat. Dass die Schriftlichkeit in ikonographetischer Kommunikation eine andere ist, dürfte unbestritten sein (vgl. auch U. Schmitz 2006b: 90), aber es muss zudem analysiert werden, wie sie sich in solchen Kontexten verändert und ob dies auch in monomodalen Kontexten der Fall ist. Was Spitzmüller (2012b: 128) für die skripturale bzw. graphische Variation festgestellt hat, gilt auch für die digitale ikonographetische Kommunikation: Es handelt sich dabei um »eine sozial relevante kommunikative Praxis«, deren Bedeutung meines Erachtens in den nächsten Jahren noch deutlich zunehmen wird.

Im Folgenden sollen anhand von Beispielen aus WhatsApp und Facebook mögliche Funktionen von Emojis in ikonographetischen Kommunikaten exemplarisch erörtert werden.396 Selbstverständlich müssten in einem weiteren Schritt diese ersten Erkenntnisse quantitativ überprüft werden. Im Gegensatz ← 292 | 293 → zu WhatsApp, in der ikonographetische Kommunikation problemlos möglich ist, da die Schriftart Apple Color Emoji zum Funktionsumfang gehört, muss bei der Verwendung von Emojis bei Facebook in Kauf genommen werden, dass die Bildzeichen nicht von allen rezipierbar sind. Dies mag der erste Grund sein, weshalb Facebook-Nutzende Emojis noch eher selten einsetzen. Als zweiter möglicher Grund kann angeführt werden, dass viele wahrscheinlich gar nicht wissen, dass bei Facebook Emojis seit Mai 2013 unterstützt werden (vgl. Wiese 2013). Auf Flickr konnten zum Zeitpunkt der Datenerhebung für die vorliegende Studie (vgl. Kapitel 9.1) noch keine Emojis angezeigt werden (mittlerweile hingegen schon); dass und wie dennoch Bildzeichen verwendet wurden, werde ich in diesem Kapitel aufzeigen. Auch in E-Mail-Betreffzeilen von Firmen-Newslettern ist eine Tendenz hin zu ikonographetischer Kommunikation auszumachen; einzelne Beispiele werden in den Ausführungen ebenfalls berücksichtigt. Gerade die Nutzung von Bildzeichen in Kommunikations-(platt-)formen, die primär nur schriftbasierte Kommunikation vorsehen, ist ein weiterer Hinweis darauf, dass durch die Möglichkeit zur Verwendung von Emojis ikonographetische Kommunikation weiter zunehmen wird.

Abbildung 47:  Emojis in WhatsApp: Referenz- und Abtönungsfunktion

image

In Abbildung 47 finden wir sowohl die von Schlobinski und Watanabe (2003: 30) genannte Referenzfunktion als auch die Abtönungsfunktion: Die Substantive Fahrrad und Berg sind durch Emojis realisiert, dem hinter dem Satz platzierten Daumen-hoch-Zeichen kommt die Abtönungsfunktion zu, sprich die Aussage wird positiv bewertet. Auch die beiden Bildzeichen für Sonne können als Referenzfunktion gewertet werden. Da das Zeichen jedoch iteriert wurde, kann es als viel Sonne gedeutet werden. Die Nachricht schließt mit zwei Zeichen, die bei Unicode mit »Lächelndes Gesicht mit offenem Mund und kaltem Schweiß« und »Symbol für spritzenden Schweiß« beschrieben sind. Der Smiley erfüllt zum einen eine Abtönungsfunktion, zum andern kann er als ikonisches Abbild desjenigen ← 293 | 294 → verstanden werden, der durch das Fahrradfahren auf einen Berg bei Sonnenschein ins Schwitzen gekommen ist, das »Symbol für spritzenden Schweiß« wirkt dabei – zusammen mit dem Ausrufezeichen – noch verstärkend.

Neben der Referenzfunktion, bei der Substantive durch Emojis ersetzt werden, können Bildzeichen auch Teile von Substantiven, konkret von Komposita ersetzen. Insbesondere in typischen Komposita, sprich in Lexemen, die aus »zwei wortfähigen unmittelbaren Konstituenten« (Fleischer, Barz 2012: 84) bestehen, ist eine Ersetzung einer Konstituente durch ein Emoji zu erwarten. In den in Abbildung 48 zu sehenden Nachrichten ist in einem Fall das Erstglied durch ein Emoji ersetzt, im anderen Fall das Zweitglied. Interessant ist auch, dass beim einen Beispiel ein Bindestrich das Bild- mit dem Sprachzeichen verbindet, beim anderen Beispiel nicht. An einem Korpus wäre zu prüfen, inwiefern sich diesbezüglich Schreibkonventionen herausbilden.

Abbildung 48:  Emojis in Komposita397

image

In der E-Mail-Betreffzeile einer Newsletter-Ausgabe von einer Fluggesellschaft ist ein Beispiel anzutreffen, in dem ein Bildzeichen indirekt zu einem Kompositum führt: »image 3-Tage-Sale! 1 Million zusätzliche Tickets zum Jubelpreis ab 88 EUR«. Das Flugzeug-Zeichen kann einerseits als Index fungieren, es übernimmt die Funktion eines Pfeils und dient dadurch als Eyecatcher. Gleichzeitig kann es jedoch auch als Determinans zu Ticket gelesen werden, die Tickets werden also zu Flugtickets präzisiert. ← 294 | 295 →

Abbildung 49:  Bildzeichen als Derivationsbasis und in Abtönungsfunktion (Facebook)

image

Schließlich können Bildzeichen nicht nur Konstituenten von Komposita, sondern generell Teile von Wörtern substituieren, wie das Adolf Rueff in seinem Rebusbrief (vgl. Abbildung 39) ausgiebig praktiziert hat. In Abbildung 49 ersetzt das Herz-Bildzeichen die substantivische Basis in der Suffixderivation, das Suffix ig ist durch ein Spatium abgetrennt. Im dritten Facebook-Kommentar wurde ebenfalls ein Herz-Bildzeichen verwendet, das der Abtönung oder Dekoration dient.

Abbildung 50:  Emojis als Substitution für Verb und Adjektiv

image

In Abbildung 50 steht jeweils an der Subjektposition ein Emoji für eine Mahlzeit. Interessant ist nun, dass in einer Nachricht das Verb einmal realisiert und einmal durch ein Emoji ersetzt wurde. Das Adjektiv wurde in beiden Fällen durch ein Emoji ersetzt, das im Sinne von super oder ausgezeichnet gedeutet werden kann. Es zeigt sich an diesem Beispiel, dass ganze Propositionen wie »Der Hamburger war ausgezeichnet« in Emojis ausgedrückt werden können. Dennoch bleibt die Aussage vage; so kann beispielsweise nicht bestimmt werden, ob der zeigende Finger als ist oder als war verstanden werden soll. Auch das »Zeichen für alles in Ordnung« (Unicode-Benennung) wird im europäischen Raum üblicherweise nicht wie in Asien als in Ordnung, sondern als ausgezeichnet interpretiert. Die ← 295 | 296 → Interpretation von Bildzeichen ist folglich kulturabhängig und differierende Konventionen können zu Missverständnissen führen.

Abbildung 51:  Frame in den Urlaub fliegen

image

Dem Pfeilzeichen in Abbildung 51 kommt die Funktion einer Präposition zu, während die Palmen und die Sonne einen Frame (Urlaub im Süden) aufrufen: »Frames sind konzeptuelle Wissenseinheiten, die sprachliche Ausdrücke beim Sprachverstehen evozieren, die also Sprachbenutzerinnen und Sprachbenutzer aus ihrem Gedächtnis abrufen, um die Bedeutung eines sprachlichen Ausdrucks zu erfassen. Zu wissen, was ein Ausdruck bedeutet und wie ein Ausdruck zu verwenden ist, heißt demnach, über eine bestimmte kognitive Struktur zu ›verfügen‹, die mit einem Ausdruck konventionell assoziiert ist« (Ziem 2008: 2). Das Flugzeug-Emoji kann sowohl ikonisch als Flug(zeug) als auch als Substitution des Verbs fliegen verstanden werden.

Abbildung 52:  Frame Hochzeit398

image ← 296 | 297 →

In Abbildung 52 wird durch die Emojis Ring, Cocktail, Torte und Smiley mit Herzen der Frame Hochzeit aufgerufen, wobei der Frame im Satz das Verb heiraten substituiert. Das Emoji zzz bildet onomatopoetisch ein Symbol für Schlaf, wir haben hier also nochmals ein Beispiel für ein Kompositum, bei dem die erste Konstituente durch ein Emoji ersetzt wurde.

Abbildung 53:  Frame wechselhaftes Wetter (Facebook)

image

Auch bei Facebook ist ein Beispiel von mehreren Bildzeichen zu finden, die gemeinsam einen Frame aufrufen (vgl. Abbildung 53). Die im Bildtitel enthaltenen ikonischen Zeichen für Wolke, Sonne, Schnee(mann) und Regen(schirm) image, in Abbildung 53 aus Platzgründen nicht abgebildet) entsprechen dem, was man unter dem Frame wechselhaftes Wetter oder April-wetter versteht: »unbeständiges, meist kühles Wetter mit raschem Wechsel zwischen heftigen Schauern und Aufheiterungen, wie es im April häufig ist« (Duden 2012).

Abbildung 54:  Emojis mit Dekorationsfunktion

image

Zuweilen stehen Emojis jedoch auch in dekorativer Form neben Sprachzeichen. Die kommunikative Funktion ist somit eine ästhetische (beispielsweise in Abbildung 54). Zwischen den Emojis und dem Text in Abbildung 54 kann zudem ← 297 | 298 → eine Assoziationsrelation (Weihnachtsbaum – Weihnachten) ausgemacht werden; Weihnachtsbäume gehören also auch zum Frame Weihnachten.

Abbildung 55:  Emojis in kontextualisierender Funktion

image

Die in Abbildung 55 zu sehenden »Streng-Geheim-Zeichen im Kreis« können ebenfalls als Dekoration aufgefasst werden, sie erfüllen aber darüber hinaus auch eine kontextualisierende Funktion: »Es steht zu vermuten, dass wenige der deutschsprachigen Rezipienten sie tatsächlich entziffern können, was […] auch gar nicht nötig ist […]. Insofern haben die [… Emojis] hier primär visuelle bzw. kontextualisierende Funktion« (Spitzmüller 2007: 412). Da die Emojis bei WhatsApp nicht mit Beschreibungen versehen sind, wussten wahrscheinlich weder die Verfasserin noch die Rezipientin, dass es sich bei dem Zeichen um das Streng-geheim-Zeichen handelt.

Abbildung 56:  Weihnachtsbaum aus Emojis

image ← 298 | 299 →

Analog zu herkömmlichen ASCII-Graphiken wurde in Abbildung 56 mittels Emojis – darunter auch das Emoji für Weihnachtsbaum – ein Weihnachtsbaum erstellt.

Abbildung 57:  Redundante Emojis in einem Kettenbrief

image

In Abbildung 57 sind intermodale Relationen auszumachen, die als semantische Redundanz bezeichnet werden können (vgl. Steinseifer 2010: 328): Das Handy wird mit einem Emoji illustriert, Freundin wird durch das Symbol der Händchen haltenden Frauen ausgedrückt. Zwischen glücklich und dem Emoji »Vierblättriges Kleeblatt« besteht eine Pertonymie-Relation, da das vierblättrige Kleeblatt als Symbol für Glück fungiert.

Dass ein und dasselbe Bildzeichen unterschiedliche Funktionen erfüllen kann, soll am Beispiel des Herz-Symbols gezeigt werden. Das Herz ist im Unicode-block der Emojis in 13 verschiedenen Varianten verfügbar: So gibt es ein gelbes, ein blaues, ein purpurnes, ein grünes sowie ein rotes Herz, des Weiteren ein gebrochenes, ein anwachsendes, ein schlagendes, ein funkelndes, ein vom Pfeil durchstochenes und ein mit Schleife versehenes Herz sowie zwei nebeneinander stehende Herzen und zwei sich umeinander drehende Herzen. Bereits im Unicodeblock »Miscellaneous Symbols» sind zwei Herzvarianten (image) kodiert und im Block »Dingbats« findet sich eine weitere (image). Seit der Werbekampagne der ← 299 | 300 → Stadt New York in den 1970-Jahren (I image NY) wird das Herzsymbol in zahlreichen Kontexten als Substitut für das Verb lieben verwendet (vgl. Schmitz 2011a: 80). Bei Flickr beispielsweise findet sich ein Bildtitel »i image MA«, in der dazugehörigen Beschreibung ist zu lesen: »i love (ma)nnheim. one of the best city´s in germany!« Bei Facebook ließ sich in einer Bildunterschrift ein ähnliches Beispiel finden (vgl. Abbildung 58).

Abbildung 58:  Herzsymbol anstelle des Verbs lieben (Facebook)

image

Auch in E-Mail-Betreffzeilen von verschiedenen Newslettern wird das Herzsymbol in der genannten Funktion genutzt: »Wir image diese 5 Herbst-Favoriten in Farbe« oder »Wir image Pampers«. Doch auch als Substantiv-Substitution ist das Herzsymbol anzutreffen: »Tot 50 % korting op alles wat het image begeert!399». Während Herz hier in der Bedeutung »in der Vorstellung dem Herzen [= Organ] zugeordnetes, in ihm lokalisiert gedachtes Zentrum der Empfindungen, des Gefühls, auch des Mutes und der Entschlossenheit« (Duden 2012) verwendet wird, ist im folgenden Beispiel das Herz als Organ gemeint: »image Schützen Sie Ihr Herz mit Red Omega! image«. Das Wort Herz wird selbst nicht substituiert, doch von zwei Herzsymbolen umrahmt, die Information ist also doppelt kodiert. In Flickr-Nutzernamen ist das Herzsymbol ebenfalls äußerst beliebt. In der bereits genannten Funktion als Verbersatz ist es beispielsweise im Nutzernamen »IchimageHamburg« anzutreffen. In manchen Nutzernamen haben Herzen rein dekorative Funktion, so in »imageLaurenimage«, »imageflygalimage« oder »image merly image«. Nutzernamen, die explizit das Wort »heart« enthalten, sind darüber hinaus oft mit einem redundanten Herzsymbol versehen: »wanderingheartimage«, »secretimageheart«, »image black of hearts image« sowie in Kombination mit dem französischen Verb aimer: »Paris Je T’aimeimage«. In »Cimagerm3n« oder »imageimage«400 wird das Herzzeichen als Allograph eingesetzt. Im Beispiel »cuimagere di marmo« (Marmorherz) entspricht das Allograph gleichzeitig als ikonisches Abbild dem ganzen Wort. In den beiden Nutzernamen »image*YOYO(image) Limagev3« und »redearth2LimageveUrLife« schließlich verweist das Allograph auf das Verb love.401 Im Nutzernamen »Climagese – bises & ← 300 | 301 → merci à vous de tt mon image :-)« ist wiederum eine Substantivsubstitution auszumachen. Auch der Beziehungsstatus kann im Nutzernamen ausgedrückt werden, so in »αℓ.hαjяί>T A K E N>image«, wobei das Herzsymbol das Adjektiv vergeben durch das Merkmal verliebt ergänzt. In Kaomojis werden Herzen als Augen des Smileys verwendet wie zum Beispiel in »brigette23 image«. Herz ist schließlich auch eine Farbe im Kartenspiel, neben Karo, Pik und Kreuz: »image Jolly Joker image«.

Abbildung 59:  Reaktion auf eine Facebook-Geburtsanzeige: Facebook-Symbole und Emojis402

image

Auch in Abbildung 59 ist ein Herzzeichen als Facebook-Symbol realisiert; neben den Facebook-Symbolen sind zudem Emojis (Konfettiball und Ballone) zu sehen. Facebook-Symbole sind seit längerem verfügbar – Emojis, wie erwähnt, erst seit Mai 2013. Facebook wandelt einen Teil der Emojis in Facebook-Symbole um, so dass nicht eruiert werden kann, ob auch Facebook-Symbole oder nur Emojis eingegeben worden waren.

Flickr-Tags enthalten ebenfalls Bildzeichen, beispielsweise neben dem image auch image und image. Diese Tags bestehen aus kodierten Einzelzeichen; das Tag image ist aus mehreren Einzelzeichen zusammengesetzt. Als Beispiel für eine Wortsubstitution in Tags sei »I image Köln« genannt, in dekorativer Funktion werden Bildzeichen in folgenden Tags verwendet: »imageEXCELLENTimage«, »imagekartpostalpostcardimage« sowie »imageBeautiflowerimage«. Die meisten Tags, die Bildzeichen enthalten, sind höchstwahrscheinlich sogenannte Identifizierungs-Tags (vgl. Kapitel 5), die innerhalb einer bestimmten Nutzergruppe verwendet werden.

Interessant sind vor allem Bildzeichen, die auf Bilder verweisen, auf Flickr also auf die Fotografien. Als Beispiel sei der Bildtitel »image Palm thicket image« genannt, der zum Foto in Abbildung 60 gehört. Statt ← 301 | 302 → eines Titels im Sinne von »Haus mit Palme« wird der Bildinhalt in einer graphischen Form abgebildet.

Abbildung 60:  Flickr-Foto mit passendem Bildtitel403

image

Die Beispiele zu Flickr haben gezeigt, dass Bildzeichen in verschiedenen Funktionen eingesetzt werden. Zum Zeitpunkt der Datenerhebung waren auf Flickr noch keine Emojis verfügbar. In der Zwischenzeit hat sich dies geändert, und folglich wären neben Text-Bild-Relationen auch Emoji-Bild- sowie Emojis-Text-Bild-Relationen untersuchenswerte Forschungsgegenstände.

Abschließend seien die wichtigsten Funktionen von Bildzeichen nochmals zusammengefasst. In der Literatur wurden als Funktionen von Emojis bisher die Abtönungs- und die Referenzfunktion genannt (vgl. Schlobinski, Watanabe 2003: 30), wobei diese auf die Substitution von Substantiven beschränkt war. Dürscheid et al. (2010: 95) haben bei der Verwendung von Bildelementen in Texten von Jugendlichen drei Kategorien ausgemacht, und zwar die Verzierung, die Kommentierung und die Mitteilung auf der propositionalen Ebene. Die Kommentierung entspricht bei Schlobinski und Watanabe der Abtönungsfunktion, die propositionale Ebene der Substitution. Hinzu kommt bei Dürscheid et al. also die Funktion der Verzierung, die jedoch auch zur Abtönungsfunktion gezählt werden kann, sofern sie einen Bezug zum Text aufweist. Die Verwendung von Allographen ist bei Dürscheid et al. (2010: 95) zwar aufgeführt, bezieht sich jedoch nicht auf Bildzeichen. ← 302 | 303 →

Die Referenzfunktion beschränkt sich nicht nur auf Substantive; die Analyse der ikonographetischen Kommunikate hat ergeben, dass Bildzeichen auch Verben, Adjektive und sogar Präpositionen substituieren können. Die Substitution erfolgt nicht nur auf Wortebene, auch einzelne Konstituenten von Komposita (sowohl Erst- als auch Zweitglieder) oder die substantivische Basis in der Suffix-derivation können durch Emojis ersetzt werden. Auch auf der Ebene der einzelnen Graphen können Bildzeichen als Allographe eingesetzt werden. Ortner 2013 (2013: 54–57) hat für ikonographetische Lexeme, bei denen entweder einzelne Graphe oder ganze Konstituenten eines Wortes durch Bilder ersetzt werden, den Ausdruck Piktolexeme geprägt. Durch die Verwendung von mehreren Emojis schließlich können zudem Frames aufgerufen werden, mit denen sich Wörter substituieren lassen.

Auch die Abtönungsfunktion kann unterschiedlich ausfallen. Die kontextualisierende Funktion kann als Sonderfall der Dekorationsfunktion angesehen werden. Weiterhin ist die Kommentierungsfunktion zu nennen; Kommentierungen umfassen Bewertungen oder Emotionen. Schließlich gibt es Emojis, die in semantischer Redundanz die in Worten gefasste Aussage wiederholen. Solche Emojis können sowohl als Verzierung als auch als Kommentierung angesehen werden, insofern sie verbal Geäußertes bekräftigen.404 Als eine Sonderform der Dekoration können schließlich Emojis genannt werden, die analog zu ASCII-Grafiken Bilder darstellen.

7.8  Synopse

Die Veränderung der kommunikativen Landschaft hin zu einer multimodaleren Kommunikation basiert zum einen auf technischen Neuerungen, zum andern spielen soziale und kulturelle Faktoren eine tragende Rolle. Analog zu der in Kapitel 3.4 gestellten Huhn-Ei-Frage bezüglich der (teil-)automatisierten Kommunikation kann bei Bildern einerseits gefragt werden, ob diese dem Information oder Communication Overload entgegenwirken können, da sie schneller rezipiert werden können, oder ob andererseits durch die enorme Anzahl an Bildern und Text-Bild-Kommunikaten ein Information oder Communication Overload überhaupt erst geschaffen wird. Neben der quantitativen Zunahme an Bildern ist auch eine qualitative auszumachen; in diesem Zusammenhang spricht man vom pictorial ← 303 | 304 → turn. Aus linguistischer Perspektive interessiert dabei besonders, inwiefern sich durch die zunehmende Bedeutung der Bilder die Stellung der (Schrift-)Sprache verändert. Diese Frage muss in Zukunft auf empirischer Basis beantwortet werden, wofür es in einem ersten Schritt konkrete Analysen für den Schriftsprachgebrauch in multimodalen Kommunikaten vorzunehmen gilt, wie es auch in der vorliegenden empirischen Untersuchung zu Flickr-Notizen geschieht. In einem weiteren Schritt muss geprüft werden, ob sich der Schriftsprachgebrauch in multi-modalen von demjenigen in älteren und neueren monomodalen Kommunikaten unterscheidet. Damit verbunden ist die Fragestellung, ob sich die Schriftsprache generell verändert und ob dies gegebenenfalls auf den vermehrten Gebrauch von Bildern in der Kommunikation zurückgeführt werden kann.

Insbesondere in der Medienlinguistik vollzieht sich derzeit ein multimodaler Turn, das heißt es wird versucht, die Multimodalität mit entsprechenden Methoden in Analysen einzubeziehen. Dass die Multimodalität in der Medienlinguistik und speziell in der linguistischen Internetforschung nicht länger ausgeblendet werden kann, wurde in Kapitel 7.7 deutlich. Da die Multimodalität in der Linguistik erst seit Kurzem Beachtung findet, hat sich noch keine einheitliche Terminologie etabliert. Wenn Relationen zwischen Bildern und Texten untersucht werden sollen, ist es meines Erachtens notwendig, für die Analyse von Bildern eigene Kategorien und Terminologien zu schaffen, die von Konzepten und Termini der Sprachwissenschaft unabhängig sind. Ich plädiere also dafür, keine metaphorischen und linguozentrischen Termini für die Bildanalyse zu verwenden, wie es beispielsweise Große (2011) in ihrer Monographie »Bild-Linguistik«405 macht. Meiner Meinung nach können solche Ausdrücke der Spezifik von Bildern nicht gerecht werden. In Kapitel 7.2 wurden in der Literatur verwendete linguozentrische Termini diskutiert, wobei zwischen zwei Arten von Linguozentrismus differenziert werden kann: Zum einen werden skriptozentrische Metaphern genutzt, deren Etymologie auf den Bereich der Schrift zurückgeht, zum andern Metaphern, die von der Etymologie her ohne Weiteres auf Bilder angewandt werden könnten, die aber deshalb als linguozentrisch bezeichnet werden müssen, da sie aufgrund der heutigen Semantik eindeutig mit Schrift assoziiert werden.

In den Kapiteln 7.3 und 7.4 hat sich gezeigt, dass für die vorliegende Arbeit sowohl für den Text- als auch den Bildbegriff die Prototypentheorie herange ← 304 | 305 → zogen werden kann: Während die Bilder auf Flickr (zumeist Fotos) zu den prototypischen Bildern gezählt werden können, handelt es sich bei den Texten auf Flickr keineswegs um prototypische Texte, vielmehr sind es »kleine Texte« (vgl. Hausendorf 2009: 5), die Randphänomene der Textualität darstellen. Der vorliegenden Arbeit liegt sowohl ein enger Textbegriff als auch ein enger Bildbegriff zugrunde: Mit engem Textbegriff ist gemeint, dass unter einem Text ausschließlich Schriftsprache verstanden wird, ein semiotisch erweiterter Textbegriff erscheint aus Gründen der Kritik am Linguozentrismus nicht angebracht. Der enge Bildbegriff umfasst lediglich visuelle Artefakte, nicht aber mentale oder sprachliche Bilder. Materielle Bilder wiederum können und müssen weiter in verschiedene Bildsorten aufgegliedert werden, und zwar erstens nach technischen und zweitens nach inhaltlichen Aspekten. Wenn also von multimodaler Kommunikation die Rede ist, ist dies eine recht allgemeine Bezeichnung, doch auch Text-Bild-Kommunikation ist noch sehr weit gefasst: Je nach Kommunikat-Sorte liegen gänzlich andere intermodale Relationen vor. Dies wurde in bisherigen Arbeiten meines Erachtens noch zu wenig berücksichtigt. Aus diesem Grund wurde auch für die Kombination von Schrift- und Bildzeichen der Terminus ikonographetische Kommunikation eingeführt, auf den im Anschluss noch näher eingegangen wird.

Der Terminus Multimodalität kann – wie ich gezeigt habe – sowohl auf den biologischen als auch den kodebezogenen Medienbegriff bezogen werden. Dies kann darauf zurückgeführt werden, dass in der Literatur oftmals keine Unterscheidung zwischen Modalität und Kodalität vorgenommen wird oder darauf, dass Modalität und Kodalität noch nicht einheitlich verwendet werden (vgl. Klemm, Stöckl 2011: 14). Während Einigkeit darüber herrscht, dass das Vorkommen nur einer Sinnesmodalität und einer Kodalität als Monomodalität bezeichnet werden soll, existieren verschiedene Termini für Kombinationen mehrerer Sinnesmodalitäten und Kodalitäten. Holly (2010b: 2203) unterscheidet Multimodalität (eine Kodalität, mehrere Sinnesmodalitäten) von Multikodalität (mehrere Kodalitäten, eine Sinnesmodalität), wohingegen Fricke (2012: 50) Hollys Multimodalität als Multi-modalität im engeren Sinne, Hollys Multikodalität als Multimodalität im weiteren Sinne bezeichnet. Die in der vorliegenden Arbeit untersuchte Kommunikation kann also – je nach Terminologie – als multikodal oder als multimodal im weiteren Sinne bezeichnet werden, da die beteiligten Kodalitäten beide visuell rezipiert werden. In der Kommunikation bei Flickr sind die zentrale Modalität Bild in der medialen Variante statisch und die zentrale Modalität Sprache in der medialen Variante geschrieben vertreten. Nach diesen terminologischen Klärungen wurden neben Schmitz’ Ansatz der sogenannten tertiären Schriftlichkeit die drei zentralen Ansätze zur Multimodalität skizziert: die Sozialsemiotik nach Gunther Kress ← 305 | 306 → und Theo van Leeuwen, der Ansatz der Transkriptivität nach Ludwig Jäger und Werner Holly sowie die handlungstheoretisch orientierte Ausrichtung, als deren Hauptvertreter Hans-Jürgen Bucher gilt.

Eine der zentralen Fragen in der Mulitmodalitätsforschung ist diejenige nach der Art der intermodalen Relationen in multimodalen Kommunikaten. In intermodalen Relationen können generell Stärken und Schwächen der jeweils anderen Modalitäten ausgeglichen werden. Je nach Textsorte oder Kontext fallen intermodale Relationen jedoch unterschiedlich aus. Ein Desiderat für die zukünftige Forschung ist es deshalb, intermodale Relationen verschiedener Kommunikat-Sorten miteinander zu vergleichen. In der hier vorliegenden Arbeit sind Text-Bild-Relationen als eine spezifische Art von intermodalen Relationen von Interesse, genauer noch geht es um Relationen zwischen Tags und Bildern sowie Notizen und Bildern. Intermodale Relationen werden von den Rezipierenden hergestellt, wobei diese multiple Rezeptionsarten generieren. In der empirischen Analyse handelt es sich folglich um probable Rezeptionsarten, die in einer Rezeptionsanalyse überprüft werden müssten.

Text-Bild-Relationen können nach syntaktischen, semantischen und pragmatischen Aspekten klassifiziert werden. Auf syntaktischer Ebene ist für die vorliegende Analyse relevant, dass die Notizen im Bild, die Tags neben dem Bild platziert sind. Semantische Relationen spielen insbesondere bei den Tags eine zentrale Rolle: Es ist zu untersuchen, inwiefern sich die für das Retrieval wichtige Relation der Redundanz ausmachen lässt, da eine adäquate Wissensrepräsentation diese voraussetzt. Weiterhin ist von Interesse, inwiefern semantische Relationen zwischen den einzelnen Tags, die sich alle auf ein Bild beziehen, zu erkennen sind (vgl. Kapitel 9.2.3). Für die Notizen-Bild-Relationen sind insbesondere pragmatische Aspekte von Bedeutung: Unter expliziten Verweisen wird die Deixis gefasst, unter impliziten versteht man Ellipsen406, Passivkonstruktionen und Sprecherzuweisungen. Alle diese pragmatischen Relationen können aus semantischer Perspektive als komplementär eingestuft werden.

Eine spezifische Art von Text-Bild-Relationen ist in der sognannten ikonographetischen Kommunikation auszumachen, die beispielhaft illustriert, dass die Grenzen zwischen Schrift und Bild zerfließen: Bild- und Schriftzeichen werden in ikonographetischen Kommunikaten zusammen und abwechselnd verwendet. Mit Bildzeichen sind in der digitalen ikonographetischen Kommunikation Emojis ← 306 | 307 → gemeint. Darunter versteht man überwiegend ikonische, aber auch symbolische Bildzeichen, die ursprünglich aus Japan stammen, mittlerweile in Unicode kodiert und in verschiedenen Schriftarten realisiert sind. Solche Emojis können wie jeder herkömmliche Zeichensatz verwendet werden, über die Unicodekodierung rücken also Bildzeichen und Schriftzeichen näher zusammen. Meines Erachtens wird diese Art von Kommunikation in Zukunft noch mehr an Bedeutung gewinnen. Da sie bisher noch nicht benannt wurde, schlage ich vor, diese terminologische Lücke mit dem Ausdruck ikonographetische Kommunikation zu füllen. Emojis umfassen einerseits hauptsächlich Bildzeichen für typische Gegenstände und Situationen aus dem Alltag, andererseits Emoticons, zu denen auch die japanischen Kaomojis gezählt werden.

Anhand einer explorativen Analyse digitaler ikonographetischer Kommunikate konnte gezeigt werden, dass den Emojis im Deutschen nicht nur eine Abtönungs- und Referenzfunktion zukommt, wie dies in einer ebenfalls explorativen Studie für japanische ikonographetische Kurzmitteilungen festgestellt wurde (vgl. Schlobinski, Watanabe 2003: 30), sondern zahlreiche weitere Funktionen. Mit Referenzfunktion bezeichnen Schlobinski und Watanabe (2003: 30) die Substitution von Substantiven. In der Analyse deutschsprachiger ikonographetischer Kommunikate hat sich gezeigt, dass Emojis darüber hinaus auch Verben, Adjektive und Präpositionen substituieren können. Eine weitere Funktion erhalten Emojis, wenn sie zu mehreren auftreten und zusammen einen Frame aufrufen; ein einzelnes Wort kann also auch durch mehrere Emojis ersetzt werden. Auch unterhalb der Lexemebene können Emojis eingesetzt werden. Sie können in Komposita als Erst- oder Zweitglied fungieren oder die Derivationsbasis in der Suffixderivation bilden. Schließlich können (einfachere) Bildzeichen auch als Allimagegrimagephe verwendet werden. Unter der Abtönungsfunktion werden Kommentierungen und Emotionen gefasst, durch die die Einstellung der Kommunizierenden gegenüber dem Kommunizierten ausgedrückt wird. Dazu zählt die Dekorationsfunktion, zu der auch die kontextualisierende Funktion gerechnet werden kann. Eine weitere Form der Dekoration bilden Emoji-Graphiken analog zur sogenannten ASCII-Art, also ein Bild bestehend aus Bildern. In der explorativen Analyse konnte zudem gezeigt werden, dass einem Emoji unterschiedliche Funktionen zukommen können. Zudem wurde dargelegt, dass auch in Kommunikations-(platt-)formen, in denen noch keine Emojis unterstützt werden, eine rege Nutzung von Bildzeichen auszumachen ist, die in herkömmlichen Schriftarten verfügbar sind oder mittels mehrerer einzelner Zeichen erstellt werden. So werden beispielsweise in der Foto-Community Flickr Bildzeichen in Tags, Notizen und Bildtiteln und insbesondere auch in den Nutzernamen verwendet. Im Vergleich zu Kommunikati ← 307 | 308 → onsformen wie zum Beispiel WhatsApp, in denen Emojis zur Verfügung stehen, ist es auf Flickr relativ umständlich, Bildzeichen per Kopieren und Einfügen zu benutzen. Dass dies dennoch praktiziert wird, deute ich als Anzeichen dafür, dass ikonographetische Kommunikation an Bedeutung gewinnen wird, sobald Emojis problemlos verwendet und dekodiert werden können.

Die Tendenz, dass Bilder an Terrain gewinnen, ist nicht nur in der ikonographetischen Kommunikation, sondern in der digitalen Kommunikation generell und insbesondere im Social Web beobachtbar. Anwendungen wie Tumblr, Instagram und Pinterest prosperieren, in der Social-Networking-Community So.cl können Collagen aus bereits publizierten Inhalten erstellt, Playlisten mit verschiedenen Video-Clips zusammengestellt und sogenannte Picotales kreiert werden: Man gibt einen Text ein, zu dem über Bildersuchmaschinen passende Bilder gesucht werden. Diese werden anschließend zusammen mit dem eingegebenen Text ausgegeben (vgl. Abbildung 61).

Abbildung 61:  Beispiel für ein Picotale bei So.cl

image

Zu erwähnen ist außerdem Snapchat, eine 2011 lancierte und an Bedeutung gewinnende Instant-Messaging-Anwendung für Smartphones, mit der Nachrichten – insbesondere Fotos – verschickt werden können, die der Empfängerin oder dem Empfänger nur bis zu maximal 10 Sekunden angezeigt werden.

Zusammenfassend kann festgehalten werden, dass die heutige Gesellschaft »ihre kulturelle Praxis […] in immer stärkerem Maße auf Formen visueller Kommunikation abstellt« (Stöckl 2004b: 64). Dem kann die Tatsache gegenübergestellt werden, dass die »Theorie und Praxis der multimodalen Textanalyse […] erst am Anfang« (Schneider, Stöckl 2011b: 33) stehen. ← 308 | 309 →

Als Einstieg in die Thematik der Bildlinguistik kann der von Diekmannshenke, Klemm und Stöckl (2011) herausgegebene Sammelband empfohlen werden. Die Autorinnen und Autoren der darin enthaltenen Beiträge können als Whos who der Bildlinguistik aufgefasst werden. Es sei zudem auf die kommentierten Literaturhinweise im genannten Sammelband hingewiesen, die einen guten Überblick über relevante Literatur zur Text-Bild-Thematik in der Linguistik und in verwandten Disziplinen bieten. Im Folgenden seien die aus meiner Sicht wichtigsten Arbeiten der linguistischen Multimodalitätsforschung mit Fokus auf die Modalitäten Text und Bild genannt. Im Bereich der Semiotik sind die verschiedenen Arbeiten von Nöth (2005; 2000a; 2000b; 2001; 2004; 2005) zu erwähnen. Aus dem Bereich der sozialen Semiotik sind insbesondere Arbeiten von Kress (2001; 2009; 2010) und van Leeuwen (2005) sowie die von den beiden Autoren verfasste Monographie (Kress, Leeuwen 2006) von Bedeutung. Auch die Arbeiten von Jewitt (2009d; 2009a; 2009b) können in diesem Kontext verortet werden. Zum Ansatz der Transkriptivität können die Arbeiten von Jäger (2002; 2010) sowie diejenigen von Holly (2005; 2006; 2007; 2009; 2010a; 2010b; 2011a; 2011b; 2011c) erwähnt werden. Im Bereich der handlungstheoretisch orientierten Ausrichtung von Multimodalität bzw. der empirischen Rezeptionsforschung seien die Arbeiten Buchers (2007; 2010; 2011a; 2011b; 2013a; 2013b) angeführt. Als Experte für die empirische Produktionsforschung kann Perrin genannt werden, der sich zusammen mit Gnach (2011) auch der multimodalen Kommunikation angenommen hat. Weiter sind die zahlreichen Arbeiten von Stöckl (1998; 2000; 2003; 2004a; 2004b; 2004c; 2005a; 2006; 2009; 2010a; 2010b; 2011b; 2011c; 2011a; 2012a; 2012b) hervorzuheben. Last but not least sei Schmitz erwähnt, der sich bereits 1997 mit Text-Bild-Kommunikaten auseinandergesetzt und seither zahlreiche Publikationen zum Themenbereich Text-Bild veröffentlicht hat (1997; 2001b; 2002; 2003a; 2003b; 2004a; 2004c; 2005; 2006a; 2006b; 2007a; 2007b; 2008; 2010; 2011a; 2011b). Besonders hervorgehoben werden soll der von Schneider und Stöckl (2011a) herausgegebene Sammelband »Medientheorien und Multimodalität«, in dem ein und derselbe TV-Werbespot mittels sieben verschiedener Methoden analysiert wird. Wertvoll ist an dieser Herangehensweise, dass die Stärken und Schwächen der einzelnen Methoden deutlich werden. Im Zusammenhang mit Text-Bild-Kommunikaten muss auch auf die Typographie als periphere Modalität der Schrift hingewiesen werden, die allerdings für die vorliegende Untersuchung keine Rolle spielt, da die Typographie von der Social-Sharing-Community Flickr vorgegeben ist. In diesem Bereich können wiederum Arbeiten von Stöckl (2004d; 2005b), aber in erster Linie diejenigen von Spitzmüller (2007; 2009; 2010; 2012a; 2012b; 2013) genannt werden. ← 309 | 310 →

Was die empirische Erforschung von Text-Bild-Relationen betrifft, so sind die bisher untersuchten Kommunikate hauptsächlich der Werbekommunikation, der massenmedialen Kommunikation, der politischen Kommunikation sowie der Postkartenkommunikation zuzurechnen. Von diesen Bereichen ist die Post-kartenkommunikation der einzige, in dem Laiinnen und Laien kommunizieren. In allen anderen Bereichen sind Kommunikationsprofis am Werk, die über ein bestimmtes Wissen verfügen, das sie bei der Erstellung multimodaler Kommunikate einsetzen. Profis wenden sogenannte Imagerystrategien an; unter Imagery versteht man »die Wirkung von informativen und emotionalen Bildern auf das Verhalten« (Kroeber-Riel 1996: IX). Imagerystrategien sind also die Ziele, die »Imagerywirkungen in den Dienst des Marketings zu stellen. Sie bestehen in organisatorisch abgesicherten Maßnahmen des Marketing, die Kraft der Bildkommunikation zu nutzen, um die Zielgruppen […] zu beeinflussen« (ebd.: 245). Text-Bild-Relationen aus diesen Bereichen dürften demnach anders, wahrscheinlich komplexer ausfallen als solche, die von Kommunikationslaiinnen und -laien hergestellt wurden. Während bei der Postkartenkommunikation die Bilder im Standardfall professionell und die Texte laienhaft407 erstellt worden sind, werden bei der Flickr-Kommunikation sowohl die Bilder als auch die Texte in den meisten Fällen von Laiinnen und Laien angefertigt.

Text-Bild-Relationen in der Werbekommunikation wurden namentlich von Balsliemke (2001), Bucher (2013a), Geiger und Henn-Memmesheimer (1998), Große (2009; 2011: 7), Held (2006), Hepp (2012), Hirner (2008), Schmitz (2011a), Stöckl (2003; 2011b; 2012b), Wyss (2011) und Ziem (2006) untersucht. Auch die äußerst gelungene Monographie zur Unternehmenskommunikation von Wetzchewald (2012) kann zum Bereich der Werbekommunikation gerechnet werden, weil »Unternehmenswebsites ebenfalls werbenden Charakter haben« (ebd.: 304). Die politische Kommunikation hat oftmals ebenfalls werbende oder propagandistische Züge, was auch in den Ausdrücken Wahlwerbung oder Wahlpropaganda anklingt. In diesem Bereich haben sich vor allem Demarmels (2007; 2009), Diekmannshenke (2011) und Klemm (2011) mit Text-Bild-Relationen befasst. Zu intermodalen Relationen in (Online-)Zeitungen und Zeitschriften sei ein Beitrag von Schmitz (Schmitz 2001b) und insbesondere die Monographie von Stöckl (2004b) erwähnt. All diese Kommunikate der Werbekommunikation, der massenmedialen Kommunikation und der politischen Kommunikation ← 310 | 311 → haben ein ›Verkaufsziel‹: Bei der Werbekommunikation sollen die beworbenen Produkte oder Dienstleistungen verkauft werden, bei der politischen Kommunikation geht es um Eigen-PR (für Politikerinnen und Politiker oder Parteien), und massenmediale Produkte müssen derart gestaltet sein, dass sie sich verkaufen. Ist das Ziel der Kommunikate die Gewinnorientierung, so werden sie zu diesem Zweck »professionell gestaltet und besonders stark ästhetisch durchkomponiert« (Wetzchewald 2012: 13), was für laienhaft erstellte Text-Bild-Kommunikate in der Regel nicht gelten dürfte. In diesem Bereich sind lediglich Text-Bild-Relationen der Postkartenkommunikation von Diekmannshenke (2006; 2008) untersucht worden. Text-Bild-Relationen in laienhaft produzierten Kommunikaten stellen folglich ein Forschungsdesiderat dar. ← 311 | 312 → ← 312 | 313 →


327   Die deutsche Übersetzung lautet »ikonische Wendung« (Boehm 2001: 13).

328   Weitere Termini sind »Visualisierungstendenzen« (Große 2011: 12), »visuelle Zeitenwende« (Straßner 2002: 1) oder der vom Philosophen Ferdinand Fellmann verwendete Ausdruck »imagic turn« (Frank 2008: 481).

329   Die von Lüdeking artikulierte Kritik kann nur so verstanden werden, dass er unter dem pictorial turn einen Bedeutungszuwachs von Bildern und nicht einen Paradigmenwechsel in der Wissenschaft versteht.

330   Bachmann-Medick (2010: 336) weist darauf hin, dass somit die Kunstgeschichte ihre Berechtigung verliert und zur Bildwissenschaft wird, wenn nicht mehr nur Kunst, sondern Bilder generell erforscht werden.

331   Vgl. dazu Vater (2000: 12), der dafür plädiert, zwischen Terminus als sprachliche Bezeichnung und Begriff als »Einheit des Denkens« zu unterscheiden.

332   Es sei darauf hingewiesen, dass Logozentrismus zudem in folgender, hier aber nicht gemeinter Bedeutung verwendet wird: »Auffassung, dass die gesprochene Sprache gegenüber der geschriebenen Priorität hat und als alleiniger Untersuchungsgegenstand in der Sprachwissenschaft dienen sollte« (Dürscheid 2012: 293). Wählt man stattdessen den Ausdruck Linguozentrismus, kann diese Doppeldeutigkeit vermieden werden.

333   Nöth (2000a: 492) verwendet an der zitierten Stelle zwar den Terminus logozentrisch, doch schreibt er andernorts auch linguozentristisch (S. 129) und linguozentrisch (S. 229).

334   Verschiedentlich wurde versucht, Kategorien der sprachlichen Grammatik wie Flexion, Syntax, Modus, Tempus usw. für die Analyse von Bildern zu nutzen (vgl. Stöckl 2011c: 51), beispielsweise in Doelker (2002: 12) oder Große (2011: 7). Stöckl (2004b: 68) spricht in diesem Zusammenhang von systemlinguistischen Bildtheorien, da Termini der Sprachwissenschaft in metaphorischem Sinne auf Bilder übertragen werden.

335   Auch Wetzchewald (2012: 200) weist darauf hin, dass in der Monographie von Kress und Van Leeuwen (2006) mit dem Titel »Reading images. The grammar of visual design« der Terminus Grammatik im Zusammenhang mit Bildern stets in Anführungszeichen gesetzt wird.

336   Weidenmann (1988: 15) selbst verwendet im Deutschen den Ausdruck »piktorale Kompetenz«.

337   Es zeigt sich hieran, dass es zwar in der deutschen Sprache Bezeichnungen für das Sehen oder die Sprache betreffend (visuell bzw. verbal) gibt, aber (noch) keine für Bilder betreffend. Das Adjektiv bildlich bedeutet »mithilfe von Bildern erfolgend« (Duden 2012). Auch die in der Literatur anzutreffenden Entlehnungen aus dem englischen pictorial, nämlich »piktorial« (Stöckl 2004b: 111) oder »piktoral« (Fix 2011a: 308), können diese lexikalische Lücke nicht füllen, zumal pictorial am ehesten mit bildlich zu übersetzen ist.

338   Anhand der von Stöckl (2011c: 45) aufgezählten Komponenten der multimodalen Kompetenz wird deutlich, dass er sich auf die visuelle Kompetenz beschränkt.

339   Es stellt sich dabei die Frage, ob Bilder lediglich im metaphorischen Sinne als Texte bezeichnet werden oder ob sie tatsächlich als Texte definiert werden.

340   Laut Wetzchewald (2012: 124) hat sich der Ausdruck multimodaler Text mittlerweile durchgesetzt. Dennoch sind noch stets viele alternative Bezeichnungen in der Literatur anzutreffen.

341   Androutsopoulos 2010b: 430; Bucher 2011b: 124; Eckkrammer, Held 2006: 7; Holly 2010b: 2203; Klemm, Stöckl 2011: 11; Rentel 2011: 64; Schneider, Stöckl 2011b: 12; Stöckl 2004b: 5, Stöckl 2004d: 19, Stöckl 2006: 17, Stöckl 2011a: 178, Stöckl 2011c: 47 und Wetzchewald 2012: 107. Im Englischen entsprechend »multimodal text« (Jewitt 2009d: 304; Martinec, Salway 2005: 337; Stöckl 2004c: 16).

342   Demarmels 2007: 158; Doelker 2002: 145, Doelker 2006: 27, Doelker 2011: 24; Klemm, Stöckl 2011: 9; Ortner 2011: 160; Schneider, Stöckl 2011b: 10; Stöckl 2004b: 34, Stöckl 2006: 24 und Stöckl 2011c: 45, Stöckl 2011a: 180.

343   Diekmannshenke 2011: 162; Große 2009: 154, Große 2011: 33; Klemm, Stöckl 2011: 12; Sandig 2006: 455, Sandig 2000: 4 und Stöckl 2004b: 34, Stöckl 2011c: 58.

344   Der Terminus Bildlinguistik selbst ist metaphorisch zu verstehen, d. h. nicht als Linguistik des Bildes, sondern als Teildisziplin, in der die Bezüge zwischen Sprache und Bild in multimodalen Kommunikaten mithilfe von linguistischen Methoden erforscht werden (Klemm, Stöckl 2011: 9).

345   Für eine kritische Diskussion dieser Thematik siehe Spitzmüller 2014.

346   Der Vollständigkeit halber sei erwähnt, dass es auch Textdefinitionen gibt, die noch bedeutend weiter gefasst sind. So nennt beispielsweise Posner folgende drei Bedingungen, die ein Text erfüllen muss: »1. Er muß ein Artefakt, d. h. Ergebnis absichtlichen Verhaltens sein. 2. Er muß ein Instrument sein, d. h. es muß eine Kultur geben, in der eine Konvention herrscht, die ihm (mindestens) eine Funktion verleiht. 3. Er muß kodiert sein, d. h. es muß eine Kultur geben, in der ein Kode gilt, der ihm ein oder mehrere Signifikate zuordnet« (Posner 1991: 46, Herv. im Original). Die unter der ersten Bedingung genannte Intentionalität allerdings ist so zu verstehen, dass Texte auch Nebenprodukt einer intentionalen Handlung sein können: »In westlichen Kulturen betrachtet man eine von Stöckelschuhen verursachte Folge von Geräuschen als signifikantes Zeichen für die Anwesenheit einer weiblichen Person und daher als Text; in anderen Kulturen wird dasselbe Ereignis höchstens als ungewöhnlicher Lärm wahrgenommen.« (Posner 1991: 46). So ist denn auch im metaphorischen Sinne die Rede von »Kultur als Text« (Alkemeyer 2003: 2826).

347   Einzelne Wörter können jedoch auch als Sätze fungieren. Der wohl bekannteste Einwortsatz des Lateinischen, nämlich der Imperativ »I!« (von ire = gehen), besteht gar nur aus einem einzelnen Buchstaben bzw. Laut.

348   Adamzik (2004: 44) spricht ebenfalls von Kurztexten und erläutert, dass darüber Konsens herrsche, dass sie Randphänomene darstellen.

349   Permalinks sind URLs, mit denen einzelne Elemente einer Website eindeutig und auf Dauer identifizierbar machen (vgl. Gerhards et al. 2008: 131).

350   Wenn von einem kodebezogenen Medienbegriff ausgegangen wird, so findet sich teilweise dafür auch die Bezeichnung intermedial (vgl. Holly 2005: 346; 2007: 234; 2010a: 365; 2011b: 35; 2011c: 158).

351   Als ein Beispiel seien Texte genannt, die fotografiert werden. Formal liegt dann zwar eine Fotografie vor, doch der Inhalt des Bildes ist ein Text.

352   Stöckl (2004b: 90) kommentiert dies zu Recht kritisch: »Skulpturen und Installationen sind […] Grenzfälle materieller Bilder, weil sie aufgrund ihrer Dreidimensionalität wie Wirklichkeit ›gesehen‹ werden, ihr sozialer Verwendungskontext sie aber eher in den Bereich der ›hergestellten‹, medialisierten, künstlerischen Bilder verweist.«

353   Zu verschiedenen allgemeinen sowie kontextabhängigen Bildfunktionen siehe Wetzchewald (2012: 84–90).

354   Bilder so nicht sichtbarer Objekte sind »aus einer Perspektive und mit technischen Mitteln abgebildet, die den Möglichkeiten des menschlichen Auges nicht entsprechen«, der Ausdruck »›Bilder so nicht sichtbarer Objekte‹ verweist auf bildliche Darstellungen, die Perspektiven und Betrachterstandpunkte simulieren, die wir im durchschnittlichen Alltag aus praktischen Gründen der Begrenzung unserer visuellen Erfahrung kaum einnehmen können« (Stöckl 2004b: 120).

355   Interessant in diesem Zusammenhang ist, dass Storrer (2013) für das Erstellen von Screenshots das Verb fotografieren verwendet: »Die Ausschnitte wurden am 15.8.2010 fotografiert.«

356   Stöckl (2011c: 45) merkt zu Recht an, dass der Terminus Multimodalität aus linguistischer Perspektive suboptimal gewählt ist, da Modalität bereits in der grammatischen Terminologie belegt ist.

357   Hartmut Stöckl kann als prominenter Vertreter stellvertretend für viele andere Forschende auf dem Gebiet der Multimodalität genannt werden.

358   1998 beispielsweise sprach Stöckl (1998: 90) noch von »multimedialen Texten«, im Jahr 2003 indes verwendet er den Ausdruck »multimodaler Text« (Stöckl 2003: 305).

359   Im Englischen ist die Rede von modes und codes, im Deutschen ist entsprechend auch zuweilen von Modes und Kodes zu lesen, siehe zum Beispiel Holly (2011c: 151).

360   Androutsopoulos (2000: 343) verwendet den Ausdruck »unimodal«, in der Literatur üblich ist jedoch monomodal.

361   Fricke (2012: 38) klassifiziert redebegleitende Gesten als sprachlich und nicht – wie andere dies teilweise tun – als nonverbal.

362   An anderer Stelle bezeichnet Holly (2005: 340) mangels eines entsprechenden Ausdrucks die Audiovisualität als »Kombination von Sprache und Bild […], die grundsätzlich nicht nur bikodal, sondern auch bimodal ist.«

363   »Der transkriptionstheoretische Ansatz fußt auf einem weiten Medienkonzept, bei dem Zeichen und Medium sich begrifflich überlappen: Hier gibt es prinzipiell keine nicht mediale, d. h. unvermittelte, Kommunikation. Sprache und andere Zeichensysteme werden demnach auch als Medien gefasst« (Schneider, Stöckl 2011b: 16, Herv. im Original).

364   Jäger (2007: 8) versteht demnach »Sprache als Medium«.

365   Die ursprüngliche, natürliche Mündlichkeit kommt ohne technische Hilfsmittel aus, sie kann also den primären Medien zugerechnet werden. Sekundäre Mündlichkeit hingegen ist technisch vermittelt und im Bereich der sekundären oder tertiären Medien anzusiedeln (vgl. U. Schmitz 2006a: 192).

366   Auch die Rezeption von primärer oder sekundärer Schriftlichkeit wird sich wahrscheinlich durch die Rezeptionsgewohnheiten von tertiäre Schriftlichkeit enthaltenden multimodalen Kommunikaten verändern: »Aus dem Linearleser des geordneten Texts wird der Zick-Zack-Scanner der ungegliederten visuellen Zeichenflut« (Stöckl 1998: 75).

367   Für eine ausführlichere Darstellung der Unterschiede zwischen Text und Bild siehe Wetzchewald (2012: 139–146).

368   Als Beispiel für eine Produktionsanalyse sei die Arbeit von Gnach und Perrin genannt, in der 17 verschiedene Text-Bild-Produktionsstrategien unterschieden werden, d. h. »bewusste und deshalb benennbare Vorstellungen davon, wie Produktionsprozesse bzw. Text-Bild-Produkte zu gestalten sind, damit die Prozesse bzw. Produkte geeignet sind, bestimmte Funktionen zu erfüllen« (Gnach, Perrin 2011: 221).

369   Bucher (2011b) beispielsweise analysiert die Verstehensprozesse bei der Rezeption von Text-Bild-Relationen.

370   Darüber hinaus sind weitere Varianten wie »Bild-Wort-Relation« (Doelker 2011: 23), »Wort-Bild-Beziehung« (Geiger, Henn-Memmesheimer 1998: 60) oder »SpracheBild-Relation« (Fricke 2012: 40), »bimodale Beziehung« (Stöckl 2004b: 243) sowie englisch »language-image-link« (Stöckl 2009: 6), »image-text relations« (Martinec, Salway 2005: 337) oder »intersemiotic relations« (Martinec, Salway 2005: 341) zu finden.

371   Stöckl 2011c: 56 nennt die drei Ebenen räumliche Syntax, Informationsgehalt und logisch-rhetorische Operationen; Schneider und Stöckl 2011b: 32 sprechen zudem von Form, Semantik und Funktion.

372   Zugrunde gelegt wird hinsichtlich der Position bzw. Abfolge oftmals die kulturspezifische Leserichtung, also im europäischen Raum beispielsweise von links oben nach rechts unten.

373   Legt man einer Person beispielsweise einen Notiztext von Flickr ohne dazugehöriges Bild vor, kann die Bedeutung nicht erschlossen werden: Bei der Notiz »zupft ihr immer Federn aus« bleibt z. B. unklar, wer Agens und wer Patiens ist (vgl. das Bild in Kapitel 9.3.4 auf S. 290).

374   Wetzchewald (2012: 312) weist darauf hin, dass man sich bis heute in der Linguistik nicht einig sei, ob die Deixis der Semantik oder der Pragmatik zugerechnet werden soll. Er selbst rechnet die Deixis zur Pragmatik, weil Deiktika vom konkreten Verwendungskontext abhängig sind.

375   Teilweise werden in der Literatur stattdessen die Termini Raum- oder Ortsdeixis verwendet (vgl. Wetzchewald 2012: 325).

376   »Als etische Phänomene bezeichnet man physikalisch beobachtbare Gemeinsamkeiten und Zusammenhänge (Phone, Morphe, Graphen), als emische Phänomene Abstraktionsklassen, die unter Berücksichtigung funktionaler Gemeinsamkeiten gebildet wurden (Phoneme, Morpheme, Grapheme).« (Dürscheid 2012: 219, Herv. entfernt).

377   Mitte des 19. Jahrhunderts waren Bilderrätsel in Deutschland äußerst beliebt und wurden insbesondere auch in Briefen verwendet (vgl. Wiethölter 2008: 125).

378   Das Beispiel ist Wiethölter (2008: 125) entnommen, der Brief selbst liegt unter der Signatur A II 171–66-14 im Stadtarchiv Schweinfurt.

379   Gemeint ist damit das Pferdegeschirr, der Vokal fällt in der schwäbischen Mundart weg; ebenfalls auf den Dialekt zurückzuführen ist die Verwendung von ei (als Ei gezeichnet) für eu, Bäck für Bäcker sowie G+Risse für Grüße (vgl. Wiethölter 2008: 125).

380   http://en.wikipedia.org/wiki/Emoji (01.08.2013).

381   Die komplette Liste des Unicodeblockes kann unter http://www.unicode.org/charts/PDF/U1F300.pdf konsultiert werden (01.08.2013).

382   Die Unicodeliste (siehe Fußnote 381) umfasst folgende Kategorien: Weather, landscape, and sky symbols; Globe symbols; Moon, sun, and star symbols; Plant symbols; Fruit and vegetable symbols; Food symbols; Beverage symbols; Celebration symbols; Entertainment symbols; Game symbols; Music symbols; Sport symbols; Building and map symbols; Animal symbols; Animal faces; Facial party symbols; Hand symbols; Clothing and accessories; Portrait and role symbols; Fairy tale symbols; Role symbols; Personal care symbols; Medical symbols; Romance symbols; Heart symbols; Comic style symbols; Japanese school grad symbols; Money symbols; Office symbols; Communication symbols; Audio and video symbols; User interface symbols; Words with arrows, Enclosed alphanumeric symbols; User interface input status symbols; Tool symbols; Geometric shapes; User interface symbols; Religious symbols; Clock face symbols und Cultural symbols.

383   http://www.unicode.org/charts/PDF/U1F300.pdf (01.08.2013).

384   www.typografie.info/3/page/Schriften/fonts.html/_/segoe-ui-emoji-r154 (01.08.2013).

385   http://www.typografie.info/3/page/Schriften/fonts.html/_/apple-color-emoji-r70 (01.08.2013).

386   Schlobinski und Watanabe (2003: 38–39) führen zur Illustration Emoji-Listen dreier verschiedener Provider an.

387   Beispielsweise Verkehrszeichen, Tierkreiszeichen oder Uhrzeitensymbole.

388   In Japan konnten zum Zeitpunkt der Datenerhebung für die Studie entweder providerinterne Kurznachrichten oder auch providerübergreifende Kurz-E-Mails versendet werden; für den kontrastiven Vergleich wurden beide Arten von Nachrichten berücksichtigt (vgl. Schlobinski, Watanabe 2003: 8).

389   Auch in Büchern für Leseanfängerinnen und -Anfänger werden zuweilen konkrete Substantive durch ikonische Bildzeichen ersetzt. Zudem ist »die kreative Substitution von Wörtern durch Bilder ein beliebtes Stilmittel« (Nöth 2000a: 495) in Werbeanzeigen.

390   Für die Datenerhebung und -auswertung ist allerdings durchaus relevant, dass in Unicode kodierte Emojis problemlos kopiert und gespeichert werden können. Dahingegen können nicht-standardisierte Bildzeichen entweder nicht kopiert werden wie bei den Facebook-Symbolen oder aber ein winkender Smiley bei Skype wird beim Kopieren in eine Datenbank oder in ein Textverarbeitungsprogramm in die Zeichenfolge (wave) umgewandelt.

391   Auch in der Anwendung Skype werden sämtliche Bildzeichen unter dem Ausdruck Emoticon gefasst (vgl. Abbildung 44).

392   In der Wissenschaft, der Technik und im Alltag wird der Ausdruck Symbol laut Glück (2010: 691) in Opposition zu Wort zum einen als Oberbegriff zu Logogrammen und Piktogrammen verwendet, zum andern auch für »spezielle Schrift- und Transkriptionszeichen (&, ©, @, […]).«

393   Auch in der Schriftgeschichte ist ein zunehmender Abstraktionsgrad festzustellen, sprich es kann ein »Zusammenhang zwischen einfachen graphisch-bildlichen Formen (Piktographie) und der Entstehung symbolbasierter Schriftsysteme (Logo- bzw. Ideographie)« (Stöckl 2004a: 102) ausgemacht werden.

394   Die Fotografie stammt von Timo Kohlenberg (http://www.flickr.com/photos/hayridetohell/3817786287/), die Zeichnung von Senet (http://commons.wikimedia.org/wiki/File:Boxer_briefs_hand_drawing.JPG). Beide Bilder sind mit der Creative-Commons-Lizenz BY-SA versehen. Die Darstellung entstand in Anlehnung an eine Graphik von Mitchell (2008: 47), der jedoch nur die Kategorie Bild verwendet und nicht zwischen Fotografie und Zeichnung unterscheidet.

395   http://kandanapp.com/images/kandan_1.1_emojis.png (13.08.2013).

396   Die WhatsApp-Beispiele stammen aus einer Sammelaktion im Bekanntenkreis.

397   Übertragung ins Standarddeutsche: 1) Ja, Mama hat es mir gesagt. Schade. Soll ich die image-Windeln trotzdem in Gebenstorf lassen? 2) Huch, was ist denn das image? Ich muss sagen, das Nasenimage steht Mara also noch.

398   Übertragung ins Standarddeutsche: Ui, wirklich? Hast du dich »verdoppelt«? Ich gratuliere dir ganz herzlich!! So schön! Wo wohnst du denn jetzt? Ich fange mal ganz langsam mitimage an im September.. Schon das macht zuweilen zzzlose Nächteimage

399   Übersetzung aus dem Niederländischen: »Bis zu 50 % Rabatt auf alles, was das Herz begehrt!«

400   image ist die thailändische Übersetzung von Honey.

401   Weitere Beispiele für die Verwendung von Bildzeichen als Allographen sind in den Nutzernahmen »jimages h_m [busy]«, »imageNikimageonDCimage« und »imageRimagesesRunDryimage« zu finden.

402   Übertragung ins Standarddeutsche: Ivan als sein Cousin nehme ich ihn am 1. September mit nach Turin, Juve-Lazio anschauen in die Kurve, sodass er schon sein erstes Juve-Spiel gesehen hat – DAVIDE EINER VON UNS.

403   http://www.flickr.com/photos/848/5772741006 (03.08.2013).

404   Insbesondere in Flickr-Namen werden Bildzeichen oft in semantischer Redundanz verwendet, so auch in »imageMariposa Technicolor«, »just a girl image«, »imageSunnyAngelimage«, »Star image«, »Donna di Fiori image«, »When you wish apon a star image« oder »MyCats>^..^<«.

405   Große (2011: 20) geht auf den Titel ihrer Arbeit nirgends explizit ein, doch kann der Ausdruck »Bild-Linguistik« nur als Synonym zu »linguistische Bildanalyse« verstanden werden: »Die linguistische Bildanalyse wird sowohl theoretisch-begrifflich als auch methodisch durch die sprachwissenschaftliche Disziplin der Textlinguistik bestimmt.«

406   Der Ausdruck Ellipse ist in diesem Zusammenhang – wie in Kapitel 7.6 ausgeführt – nicht unproblematisch. Im multimodalen Kommunikat handelt es sich nicht um eine Ellipse, da die in der Sprache nicht gegebene Information im Bild vorhanden ist. Elliptisch sind solche Texte demnach nur, wenn man sie aus dem Kontext entfernt.

407   Laienhaft impliziert hier keine Wertung, sondern meint schlicht »in der Art eines Laien, nicht fachmännisch« (Duden 2012) und nicht »dilettantisch, inkompetent« (Duden 2007b).