Show Less
Open access

La sous-détermination référentielle et les désignateurs vagues en français contemporain

Series:

Laure Anne Johnsen

Cet ouvrage fournit une description de l’expression de la sous-détermination référentielle par les désignateurs vagues en français. La sous-détermination référentielle est couramment attestée dans différents genres de discours, en particulier à l’oral non planifié (par exemple au moyen des expressions « ça/ce », « tout ça », « ils » non introduit, etc.). A partir d’une collection de données authentiques de sources diversifiées, l’auteur met en évidence les circonstances d’apparition des expressions vagues et présente une gamme de stratégies discursives auxquelles celles-ci répondent pour les besoins de la communication. Cet examen permet de dégager les conséquences théoriques de la prise en compte de ce vague référentiel, questionnant les limites des postulats d’identification ou de reprise textuelle bien implantés dans les théories sémantiques et les grammaires.

Show Summary Details
Open access

Introduction générale

| 1 →

Introduction générale

Ja, kann man ein unscharfes Bild immer mit Vorteil durch ein scharfes ersetzen ? Ist das unscharfe nicht oft gerade das, was wir brauchen ? (Wittgenstein 1953 = 2011 : §71)

1. Objet d’étude

La présente étude s’inscrit dans le domaine linguistique de la référence et des expressions référentielles. Ce domaine s’intéresse traditionnellement à la manière dont « le langage entre en relation avec le réel » (Searle 1985 : 236). Les expressions référentielles y apparaissent ainsi comme les moyens d’établir cette relation avec les objets ou référents du monde. Dans les études sur la référence, la plupart largement inspirées des travaux en philosophie, leur fonction est décrite dans une visée essentiellement identificatoire : « [il s’agit] de chercher à comprendre comment, dans un énoncé du type de j’ai perdu un/le/mon chat les différents groupes ou syntagmes nominaux dans lesquels apparaît le nom chat peuvent ou non conduire à l’identification d’un exemplaire particulier de chat » (Charolles 2002 : 9). Les expressions y sont appréhendées selon des critères d’adéquation et de conformité au réel pour accomplir cette tâche à laquelle elles sont vouées.

Or, ces principes rencontrent des limites face à des actes référentiels courants, comme des faits de sous-détermination (e.g. les désignateurs vagues comme (tout) ça, ils non introduit, l’adverbe , les dénominations postiches comme le truc, le machin, etc.). Notre objectif est de confronter ces faits aux théories et postulats existants afin de proposer un modèle plus général pour le traitement des expressions référentielles, qui dépasse les situations « consensuelles » par la prise en ← 1 | 2 → compte des productions réelles des usagers. La sous-détermination qui se manifeste en discours, critiquée depuis toujours par les philosophes et grammairiens, soulève en effet d’intéressantes questions à l’égard du traitement de la référence.

Par sous-détermination référentielle, nous entendons la situation où un référent évoqué n’est pas clairement identifié (indistinction de ses attributs, de ses contours, absence de dénomination, de propriété catégorisante, etc.). En examinant ce genre de cas, nous visons ainsi à remettre en question l’idée que les objets que manipulent les locuteurs dans leurs échanges sont ceux de la réalité et proposons qu’il s’agit d’entités construites dans et par le discours. Dans cette perspective, nous montrons que ces « objets-de-discours » ne sont pas toujours bien délimités ni déterminés et que les expressions référentielles ne reflètent pas une adéquation au réel ou aux seuls intérêts de l’interprète à des fins identificatoires, mais plutôt une adéquation à des objectifs communicationnels variés que nous tâcherons de décrire. Les exemples suivants, tirés respectivement de l’oral non planifié et de l’écrit scientifique, donnent un aperçu du genre de faits qui nous intéressent :

(1) et ce qui me frappe beaucoup c’est que -2 elles arrivent pas à décoller de l- - de de la même idéologie - c’est-à-dire que elles ont l’impression d’avoir gagné une certaine liberté mais - c’est une liberté qui encore fonctionne dans le quotidien - et je pense que m- - malheureusement je pense ça - mais je suis peut-être pessimiste - je pense que le quotidien actuellement ici - maintenant - c’est un truc si frustrant si aliénant - que personne peut épanouir sa personnalité - donc bon c’est c’ c’est vrai que c’est pessimiste (oral, ctfp)

(2) Le rapport « individu-société » est tel que leur dissociation ne peut se concevoir. Cependant, ce rapport a fait problème et fait encore problème pour beaucoup. Comment est-ce possible ? On peut répondre – et cette réponse paraît cohérente – que ce problème est un fait sociologique. (Gurvitch, G., Traité de sociologie : t. 2, 1968, <Frantext)

Ces exemples illustrent l’usage d’expressions qui renvoient à des entités sous-déterminées au moment du pointage référentiel – on sait qu’il ← 2 | 3 → s’agit respectivement d’un objet de pensée (je pense ça) et d’un acte illocutoire (cette réponse) – dont la caractérisation est fournie par le discours dans une étape communicative ultérieure. Par ailleurs, cette caractérisation est créée par le discours, et en cela, les objets ne préexistent pas à l’énonciation mais en sont au contraire fondamentalement dépendants.

Les expressions sous-spécifiées, par leur pauvreté sémantique, représentent à cet égard de bons candidats à la diffusion de la sous-détermination : elles sont susceptibles de renvoyer à des référents non catégorisés et « instables ». Leurs traits peu discriminants (et ici leur nature démonstrative) obligent l’interprète à s’appuyer sur des indices de nature contextuelle plutôt que sur leur conformité à des objets de la réalité tangible. Nous avons pour intention d’inventorier les ressources linguistiques, lexicales ou pronominales, spécialisées dans la sous-détermination référentielle et d’en observer les circonstances d’emploi ainsi que les rendements discursifs. Parmi l’ensemble de ces formes, nous avons choisi d’examiner plus en détail deux types de faits représentatifs de cette situation, particulièrement productifs dans les discours spontanés, à savoir l’emploi de tout ça, notamment dans les configurations d’énumération, et l’emploi de ils à valeur sous-déterminée, souvent rapproché dans la littérature de l’emploi de on dit indéfini. En voici deux exemples représentatifs :

(3) d’accord ces jeunes | _ |3 jouent le jeu ils sont | _ | ils sont enthousiastes ils ils ont de l’énergie ils ont des idées tout ça (oral, ofrom)

(4) ouais c’était vraiment réputé pour être des pistes difficiles | _ | je sais pas si toi tu as eu mais peut-être plus jeune quand même hein | _ | ils ils travaillaient pas les pistes encore euh c’était vraiment des des champs de bosses tu vois (oral, ofrom)

L’emploi de tout ça permet au locuteur de rester évasif sur le référent ébauché par l’énumération des qualités. Quant à l’emploi de ils, il met en jeu un agent dont l’identité n’est pas pertinente pour l’enjeu de la ← 3 | 4 → communication. Les deux expressions ont suscité quelque attention de la part des chercheurs4, sans toutefois que la question de la référence soit au cœur des préoccupations ou que des conséquences en soient tirées sur la description des procédés référentiels en général. Notre intention, à l’inverse, consiste précisément à en évaluer les répercussions pour une théorie de la référence. On voit à cet égard d’emblée que l’emploi de ils ci-dessus se révèle difficilement conciliable avec la notion d’anaphore telle qu’elle est traditionnellement conçue.

Ce travail offre ainsi l’occasion de revenir sur les notions d’anaphore et de deixis systématiquement exploitées dans l’étude des procédés référentiels, malgré les défauts de généralité de leur définition. Nos données interrogent aussi bien la conception textuelle de l’anaphore, fondée sur la présence d’un antécédent dans le contexte verbal, encore fortement ancrée dans les grammaires et la littérature en linguistique tous domaines confondus (sémantique, TAL, psycholinguistique, typologie, grammaire générative, etc.) qu’une conception cognitive de l’opposition deixis/anaphore (nouveauté vs continuité référentielle). Malgré un vif débat sur l’anaphore au cours des dernières décennies du XXe siècle en linguistique française, reflétant des tentatives de renouvellement de la réflexion sur le sujet, les modèles dominants actuels semblent peu enclins à élargir le champ d’observation aux données désormais à disposition. A l’exception du travail en traitement automatique des langues autour du projet ANCOR5, qui met à disposition un corpus en français parlé annoté en chaînes de coréférence, l’étude des expressions référentielles en français n’a semble-t-il pas profité de l’accès de nos jours facilité aux bases de données orales et écrites pour remettre en question ses propres fondements, contrairement à des domaines comme la syntaxe, la lexicographie, la prosodie, etc. qui ont su en tirer parti pour ajuster leurs modèles ou méthodologies respectives. A l’ère des corpus numérisés, il nous paraît donc opportun de faire le point sur l’état des théories en matière de référence. ← 4 | 5 →

2. Méthodologie et données

La démarche adoptée dans ce travail est empirique, consistant à recueillir des faits de langue exclusivement attestés en vue d’une analyse minutieuse tenant compte de leur contexte d’occurrence (à l’exception d’exemples empruntés à des auteurs que nous discutons). La méthode se veut qualitative, pour le choix des exemples retenus : ceux-ci ont été récoltés au cours de notre recherche pour leur valeur heuristique, c’est-à-dire pour leur capacité à révéler des aspects pertinents sur le fonctionnement de la référence en français. Nos données ne représentent donc pas à proprement parler un corpus au sens strict du terme, mais une collection d’exemples soigneusement rassemblés sur des critères qualitatifs. En cela, notre travail n’appartient pas à la linguistique de corpus, mais constitue une étude linguistique sur une sélection de données attestées. Nous faisons en outre le choix de recourir à un ensemble diversifié et ouvert de données. En effet, l’examen des expressions référentielles, dès lors que l’on tient compte des expressions nominales, ne permet tout simplement pas d’exploiter l’extraction automatique de données. D’ailleurs, en se concentrant uniquement sur des faits extractibles, on court le risque de se priver de tout un ensemble de phénomènes qui manifestent des régularités de comportements irréductibles à un repérage automatique (Corminboeuf 2014 : 2378). Nous partons donc dans un premier temps d’une vaste observation à partir de sources diversifiées.

Pour les parties plus empiriques de cette thèse, nous faisons cependant le choix de recourir en priorité à des données d’oral spontané, car ce type de contexte de production reste un champ peu exploré dans le domaine des expressions référentielles en français6. Ce manque d’intérêt s’explique peut-être par l’apparente « pauvreté des chaînes conversationnelles qui sont réduites à l’alternance d’un désignateur et de pronoms » (Corblin 2005 : 253). Si « pauvreté » il y a, jugement qu’il reste à démontrer empiriquement, celle-ci est à notre sens susceptible ← 5 | 6 → d’en dire long sur les pratiques référentielles des locuteurs… Pour notre étude, nous recourons aux bases d’oral suivantes7 :

OFROM (Avanzi, Béguelin & Diémoz 2012–2017) <http://www.unine.ch/ofrom>

PFC (Durand et al. 2002, 2009) <http://www.projet-pfc.net>

CFPP (Branca-Rosoff, Fleury, Lefeuvre, Pires 2012) <http://cfpp2000.univ-paris3.fr/>

CTFP (Blanche-Benveniste et al. 2002)

CRFP (Delic 2004)

Les extraits retenus sont reproduits avec leurs conventions d’origine, une tâche d’uniformisation se révélant trop fastidieuse. Consciente que les exemples sélectionnés peuvent parfois paraître artificiellement coupés de leur contexte, nous indiquons cependant toujours la source à partir de laquelle est – en principe8 – accessible le contexte élargi (texte et audio). Nous reproduisons également ponctuellement, pour leur pertinence, des extraits de conversation recueillis « au vol ».

Concernant l’écrit, ce sont nos lectures quotidiennes en tous genres qui constituent d’abord notre source d’observation, à savoir textes de presse (papier ou web), littéraires, pratiques, administratifs, publicitaires, etc. mais également des extraits provenant de genres plus proches de « l’immédiat » (Koch & Oesterreicher 1985), notamment de genres numériques comme les réseaux sociaux, forums, blogs, courriels, SMS9. Nous avons également recours à la base Frantext (<www.frantext.fr>) pour des recherches de formes particulières. ← 6 | 7 →

Dans un second temps, une fois ciblés les objets d’étude spécifiques, la récolte des données peut évidemment bénéficier de l’extraction automatique dans les bases respectives (e.g. recherches de (tout) ça, ils, on, etc.). Mais les requêtes aboutissant à un nombre trop élevé de résultats pour une analyse contextuelle exhaustive de chaque occurrence, ce sont des critères qualitatifs qui orientent notre tri. En effet, selon nos principes descriptifs, chaque résultat requiert pour son observation la prise en compte d’un contexte large qui peut équivaloir dans certains cas à l’enregistrement entier (ou à des recalibrages de contexte fastidieux dans Frantext). Les données sélectionnées ne peuvent donc prétendre à un reflet représentatif de la distribution des occurrences étudiées, quoique nous fournissions ponctuellement les comptages effectués sur des sous-corpus restreints. Mais de manière générale, nous ne nous attardons pas sur des faits jugés consensuels ou typiques, et favorisons la prise en compte et l’examen de données laissées en marge des descriptions par les chercheurs, sous prétexte de rareté, de manque de pertinence, voire de déviance. Si certains types de sources paraissent plus crédibles à étudier que d’autres selon des préjugés ambiants, nous accordons à l’inverse à tous les faits la même valeur scientifique. D’ailleurs, malgré l’hétérogénéité des sources, les données révèlent des régularités évidentes sur le fonctionnement de la langue, qu’une épuration pourrait conduire à occulter.

3. Organisation du contenu

Cet ouvrage est organisé en trois parties. La première, la plus vaste, consiste en un état des lieux des notions clés de référence et d’anaphore. En effet, il nous a paru opportun de faire de ces deux chapitres des bilans critiques, plutôt que des comptes rendus, des modèles existants – à savoir le traitement vérifonctionnel des expressions référentielles et le rôle du pronom de 3e personne – afin de situer finalement l’approche choisie. Dans ces deux chapitres, nous confrontons l’état de la recherche à des données ← 7 | 8 → authentiques et délibérément gênantes pour les théories existantes, afin de mettre en évidence les aspects qui nécessitent à nos yeux plus ample réflexion dans la perspective d’un modèle général de la référence.

La deuxième partie présente et caractérise la notion de sous-détermination référentielle tout en en fournissant une illustration. En précisant la notion et ses circonstances d’apparition, nous proposons une modélisation de trois types de manifestation de la sous-détermination, à la suite de quoi nous présentons un inventaire des ressources susceptibles de l’exprimer.

Enfin, la troisième partie est dédiée à deux études de cas. Les deux chapitres portent respectivement sur l’usage de tout ça, en particulier dans les structures d’énumération et sur l’emploi de ils dont la valeur demeure sous-déterminée. Ces deux chapitres ont pour enjeu de dégager les facteurs contextuels, accidentels ou stratégiques, qui favorisent la mise en œuvre des procédés de sous-détermination.

*

Cette étude sur la sous-détermination, qui vise à une meilleure compréhension des mécanismes référentiels en contexte, intéressera les linguistes travaillant dans le domaine de la référence, de la cohérence, de la structure informationnelle et du français parlé. Plus généralement, le sujet se situe aux croisements de plusieurs disciplines, comme la sémantique, la pragmatique, la syntaxe de l’oral, l’analyse du discours et la linguistique interactionnelle. Cette thèse trouvera également des échos parmi les didacticiens de la langue. En effet, on constate dans les manuels ou usuels de grammaire l’insuffisance des ressources disponibles pour l’enseignement des procédés de cohérence, en particulier des expressions anaphoriques, invariablement abordées en termes de dépendance à une séquence textuelle. L’ouvrage pourra encore intéresser les chercheurs en TAL qui travaillent sur la résolution automatique d’anaphores et d’expressions coréférentielles par ordinateur. En effet, la plupart des faits que nous étudions échappent aux algorithmes développés par les ingénieurs en vue de la reconnaissance des expressions et constituent donc une difficulté majeure dans leur travail. Une analyse fouillée du phénomène de la sous-détermination permettra, nous l’espérons, d’apporter de l’eau au moulin des recherches sur la référence.


2 Selon les conventions de transcription de Blanche-Benveniste et al. (2002), ce signe indique une pause brève et lorsqu’il est redoublé, une pause plus longue.

3 Indication d’une pause dans la base OFROM (Avanzi, Béguelin & Diémoz 2012–2017).

4 Bilger (1989), Ferré (2011), Secova (2014) pout tout ça, Kleiber (1992b), Cabredo Hofherr (2003, 2014), Siewierska (2010, 2011), Siewierska & Papasthati (2011) sur ils ou les indices de 3e personne du pluriel à travers les langues.

5 <http://tln.li.univ-tours.fr/Tln_Corpus_Ancor.html>.

6 Outre le projet ANCOR d’annotation de chaînes de coréférence déjà mentionné, il faut évoquer, pour ce qui concerne l’anglais parlé, le travail précurseur sur l’anaphore de Fox (1987).

7 Le projet ORFEO (Benzitoun, Debaisieux & Deulofeu 2016) (https://www.ortolang.fr/market/corpora/cefc-orfeo) met à la disposition du public depuis fin 2018 une masse de données échantillonnées sans précédent en français parlé et écrit provenant de nombreux corpus (dont ceux cités ici sauf PFC et CTFP). Le présent ouvrage, au vu du calendrier, n’a malheureusement pas pu bénéficier de cette ressource scientifique.

8 À l’exception de CRFP, qui n’est pas en accès libre, mais dont nous n’avons reproduit que trois exemples et dont nous pouvons fournir un contexte élargi sur demande.

9 Swiss SMS corpus : <https://sms.linguistik.uzh.ch> (Stark et al. 2009–2014) ; 88milSMS : <http://88milsms.huma-num.fr/index.html> (Panckhurst, Détrie, Lopez, Moïse, Roche, Verine 2014).