Show Less
Open access

La variation pluridimensionnelle

Une analyse de la négation en français

Series:

Charlotte Meisner

Cet ouvrage présente une nouvelle approche originelle à la vielle question de la variation du ne de négation en français moderne. Soigneusement établie sur un corpus de langue parlée, l’auteur présente l’hypothèse de la variation linguistique pluridimensionnelle : le clitique négatif ne est parfois réalisé, comme dans la phrase ma mère ne vient pas, mais très souvent omis, surtout dans la communication informelle : je viens pas. Comme toute variable linguistique, le ne de négation est soumis à un ensemble d’influences potentielles. À l’aide d’une analyse multifactorielle, Charlotte Meisner montre que la variation pluridimensionnelle du ne de négation est déterminée par un facteur-clé sous-jacent : la prosodie du français moderne.

Show Summary Details
Open access

3. Méthodologie : le corpus

3. Méthodologie: le corpus

3.1  Comment accéder au corpus?

Le corpus à la base de cette étude et le manuel d’utilisation sont disponibles en ligne sous: <http://server.linguistik.uzh.ch/cmeisner2013-tzero>

login : « TZ-Reader »

mot de passe « TZero@ling! »

3.2  Le corpus: motivation, conception et possibilités de requête72

La base de données T-zéro est née de la nécessité de créer un corpus qui permette une analyse détaillée de la variable ±ne, c’est-à-dire un corpus qui permette l’étude de l’axe intrapersonnel de la variation linguistique et qui soit transcrit phonétiquement afin de relever les réalisations concrètes des formes linguistiques. Ces deux critères sont indispensables pour l’analyse des facteurs extralinguistiques (par exemple un locuteur dans différentes situations de communication) et linguistiques (par exemple la réalisation des clitiques sujet) qui déterminent la variable ±ne. De plus, il était souhaitable que notre corpus contienne également des données de Suisse romande. Avant la création de T-zéro, aucun corpus ne correspondait à nos besoins, et cela malgré la présence considérable de moyens et de grands corpus du français oral, leur croissante disponibilité en ligne et l’évolution des systèmes de transcription. ← 113 | 114

   (98)     Comparaison d’une sélection de corpus du français oral

image

Dans le tableau (98), nous présentons une brève sélection des corpus oraux du français (pour un panorama des corpus existants cf. Bilger 2002, Cappeau/Gadet 2007, Pusch 2002, 2007, Pusch/Kabatek 2005 éd., Pusch/Kabatek 2005). Nous citons, tout d’abord, l’ouvrage de Ludwig (1988) en tant que représentant d’une multitude d’excellents corpus récoltés, transcrits et décrits par un auteur ou une petite équipe de recherche, et publiés sous forme de livre (cf. également Blanche-Benveniste et al. éd. 2002). Les trois corpus suivants, C-ORAL-ROM (cf. Cresti/Moneglia 2005), CIEL_F75 et PFC76 (cf. Durand et al. 2002, 2005, 2009), sont de larges projets de recherche internationaux, financés par divers fonds nationaux, européens ou privés et effectués par des équipes régionales qui s’accordent sur des standards méthodologiques communs. Ces projets permettent la documentation d’une quantité considérable de données linguistiques du français oral à travers les continents (le PFC comporte plus de 70 points d’enquête) et les situations de communication (CIEL_F vise à documenter une multitude de situations naturelles). Malgré les avantages évidents des corpus exis ← 114 | 115 tants, ceux-ci manquent d’un axe intrapersonnel qui permette l’observation de la même personne dans diverses situations et d’une transcription phonétique.

Pour cette raison, nous avons créé la base de données T-zéro, qui permet d’abord le double contraste sur l’axe diatopique (Suisse77 vs. France) et intrapersonnel (c’est-à-dire entre les mêmes locuteurs dans deux situations de communication), puis d’éclairer sous un nouveau jour l’influence de la réalisation phonétique des clitiques sur ±ne.

T-zéro permet le stockage et l’analyse de trois types de données: a) linguistiques, b) sociodémographiques et c) situationnelles. Celles-ci figurent respectivement dans les trois masques de saisie qui sont représentés en (99): le masque vert comporte les données linguistiques, le masque rose est réservé aux données sociodémographiques et le jaune décrit les situations de communication.

   (99)     Les types de données stockées dans T-zéro

   image

← 115 | 116

Les masques de saisie sont interconnectés et la structure de la base de données permet d’opérer un changement dynamique entre les différents masques, voire entre les types de données. Ceci permet de choisir (au moins) trois points de départ différents pour une analyse. De cette façon, en partant d’une construction verbale (CV) déterminée, cf. (99)a, nous pouvons examiner les données sociodémographiques du locuteur qui l’a produite ou la comparer avec d’autres énoncés produits dans la même situation. Il est également possible de partir d’un locuteur et de comparer sa production langagière dans différentes situations. Finalement, nous pouvons choisir une situation déterminée et nous intéresser aux différents locuteurs enregistrés ou aux CVs qui ont été produites dans cette situation. Les résultats des requêtes peuvent être exportés sous divers formats78, ce qui permet l’analyse à l’aide de logiciels statistiques comme Excel, SPSS ou R.

3.3  Description sociodémographique de T-zéro

T-zéro contient les données sociodémographiques de 72 locuteurs et locutrices, dont la majorité provient de France79. Toutefois, le déséquilibre80 géographique n’altère aucunement les données linguistiques ← 116 | 117 brutes, car les locuteurs suisses, bien que numériquement inférieurs, manifestent une production linguistique très active. Ainsi, T-zéro permet la comparaison de quantités presque égales de données françaises et suisses :

   (100)     Situations et lieux d’enregistrement dans T-zéro

   image

La démographie de T-zéro s’explique par l’objectif du projet de comparer des situations d’examens avec des conversations et des discussions. Les situations d’examen se produisent dans le milieu universitaire et scolaire, où plusieurs étudiants et élèves sont interrogés par un nombre restreint de professeurs ou chargés de cours. La majorité des locuteurs enregistrés sur T-zéro est donc constituée par des jeunes de 14 à 18 ans suivis par des jeunes adultes de 19 à 24 ans. On compte six locuteurs de entre 25 à 34 ans et les groupes de 35 ans et plus ne se composent que d’une seule personne par groupe. Ce sont les groupes des jeunes gens de 18 à 24 ans qui produisent la majorité des données linguistiques stockées dans T-zéro.

La plupart des locuteurs enregistrés sont des lycéens d’Île-de-France et des étudiants universitaires de Neuchâtel, tandis qu’une minorité de locuteurs est constituée par des professeurs de lycée, des assistants-doctorants et un professeur d’université. Dans l’ensemble, les ← 117 | 118 locuteurs jeunes dominent clairement la structure d’âge de T-zéro81, même si ce déséquilibre est quelque peu contrecarré par une production orale plus active des locuteurs âgés dans leur fonction d’examinateurs.

Étant donné que la majorité des locuteurs n’exerce aucune profession salariée, les revenus des participants n’ont pas été retenus. Toutefois, la provenance géographique exacte des locuteurs nous permet de retenir quelques informations concernant la structure sociale de la population enregistrée.

   (101)   La provenance géographique et sociale des locueurs82

   image

Selon l’Institut national de la statistique et des études économiques (INSEE) de France, en 2008, le revenu moyen par ménage à Clichysous-Bois était de 18’586.51 Francs Suisses (= 15’541 Euro83) par an et comptait parmi les plus faibles en Île-de-France en 201184. Quant au ← 118 | 119 taux de chômage dans cette commune, il est de 21,2 % en 200785. À Livry Gargan, en revanche, le revenu moyen annuel en 2008 est de 28 893.53 CHF (= 24’156 Euro86), dépassant ainsi la moyenne du département de Seine-Saint-Denis, dont les deux communes font partie87, qui s’élève à 23,625.32 CHF (= 19’749 Euro88) par an. Dans cette commune, le taux de chômage s’élève à 9,5% en 200789.

En Suisse romande, par contre, le revenu moyen annuel par ménage s’élève à 78’09690 CHF et le taux de chômage dans le canton de Neuchâtel est de 6,4 %91 en 2010. Un ménage moyen en Suisse romande gagne donc en trois mois environ le même montant qu’un ménage moyen à Clichy-sous-Bois en un an. En termes de revenus moyens, nous constatons donc que les locuteurs suisses que nous avons enregistrés sont nettement plus aisés que ceux français. Cependant, il est nécessaire de noter que le coût de la vie en Suisse est l’un des plus élevés en Europe92 : selon Eurostat, les coûts des produits alimentaires, du logement et de la santé sont entre 30% et 60% plus élevés par rapport à la moyenne européenne. En France, les mêmes coûts ne dépassent la moyenne européenne que de 3% à 24%.

Compte tenu de ces chiffres, une comparaison directe du niveau social entre les deux points d’enregistrement en France, à savoir Clichysous-Bois et Livry Gargan, et le point d’enregistrement à Neuchâtel, ← 119 | 120 en Suisse romande, semble difficile, voire impossible. D’une manière générale, nous pouvons toutefois conclure que les conditions de vie à Clichy-sous-Bois sont précaires, à Livry Gargan défavorisées et à Neuchâtel relativement bonnes.

En ce qui concerne les langues maternelles des locuteurs, nous observons dans le diagramme (102) que la majorité (81%) indique uniquement le français comme langue maternelle.

   (102)   Les langues maternelles des locuteurs dans T-zéro

   image

Dans le diagramme (102), nous trouvons une liste des autres langues qui ont été indiquées comme langues maternelles. Certains locuteurs parlent le francoprovençal, le créole martiniquais ou le suisse allemand comme L1 et ont appris le français comme L2. Néanmoins, comme ils habitent dans une région francophone, leur performance est comparable à celle des natifs. D’autres locuteurs sont bilingues et indiquent, en combinaison avec le français, le turc, l’arabe, le suisse-allemand ou l’anglais comme seconde langue maternelle. Dans l’ensemble, le français est la langue maternelle prépondérante du corpus, mais les locuteurs bilingues et de L2 avancés forment un sous-ensemble important d’environ 20%. Nous avons inclus ces locuteurs dans notre corpus, car le plurilinguisme est désormais une réalité dans les régions francophones. Ce qui revient à dire que, surtout dans les régions étudiées ici, les locuteurs bilingues et non-natifs contribuent eux aussi à la variation et aux changements linguistiques du français. ← 120 | 121

3.4  Description des situations d’enregistrement

La dimension intrapersonnelle de T-zéro concerne la variation entre les différentes situations de communication. Nous visons, de cette façon, à caractériser les situations de communication enregistrées dans le cadre du modèle de Koch/Oesterreicher (2001, 22011). Ce modèle permet la combinaison libre de divers paramètres communicatifs et fournit ainsi une base idéale pour la description des situations de communication qui nous intéressent. Dans le continuum entre l’immédiat et la distance communicative en (103), les situations pertinentes pour notre analyse apparaissent en caractères gras.

   (103)   Le continuum entre l’immédiat et la distance communicative ( face-toface93)

image

← 121 | 122

Deux situations du continuum apparaissent dans notre analyse : la situation la plus proche du pôle de l’immédiat, c’est-à-dire la conversation spontanée entre amis ou connaissances, et la situation de l’examen oral, que nous avons ajoutée au continuum de Koch/Oesterreicher (2001 : 585-586) et qui représente, dans notre analyse, le domaine de la distance communicative. Dans l’ensemble, T-zéro comprend quatre types de situations, qui sont représentés de manière quantitativement équilibrée:

   (104)   Les types de situation présents dans le corpus

   image

Une moitié des données linguistiques appartient au domaine de la distance communicative et l’autre à celui de l’immédiat communicatif. Les premières ont été enregistrées lors d’examens oraux et les dernières pendant des conversations et discussions entre amis et connaissances ou avec la chercheuse, que les élèves connaissent en tant qu’assistante de langue. Une moitié des données a été collectée en France et l’autre en Suisse.

3.4.1  La distance communicative: l’examen oral

L’examen oral a été choisi comme situation exemplaire de la distance communicative. Cette situation unit, malgré la présence de certains aspects de l’immédiat communicatif, un nombre élevé de caractéristiques du domaine de la distance. Voici le relief conceptionnel de cette situation, établi d’après le modèle de Koch/Oesterreicher (2001, 22011) : ← 122 | 123

   (105)   Le relief conceptionnel de l’examen oral

    image

Le côté gauche de la figure (105) montre l’ensemble des caractéristiques de l’immédiat communicatif, tandis que le côté droit unit les traits typiques de la distance communicative. Le caractère graduel de neuf des dix paramètres (seule la coprésence spatio-temporelle est binaire) permet l’établissement d’un profil communicatif individuel pour les différentes situations enregistrées.

Pour la situation de l’examen oral, la majorité des paramètres est fixée plutôt proche du pôle de la distance communicative. Malgré ce classement général, le relief manifeste trois valeurs qui se trouvent dans le domaine de l’immédiat, à savoir, les paramètres (1) communication privée, (3) émotionnalité forte et (6) coprésence spatio-temporelle. Le fait, éventuellement surprenant, que les situations d’examen sont classées comme ‘privées’ dépend de la définition du paramètre privé vs. public par Koch/Oesterreicher (22011 : 17)95 : dans le cas de l’examen oral, il serait éventuellement plus clair de parler d’une communication non-publique que d’une communication privée. Vu que les candidats peuvent être stressés lors d’un examen oral, car ils soumis à une grande ← 123 | 124 pression et se trouvent dans une situation de compétition, nous fixons le paramètre de l’émotion un peu plus proche du pôle de l’immédiat que de celui de la distance communicative96.

Quant au paramètre (2), les relations entre les interlocuteurs sont caractérisées par la hiérarchie institutionnellement fixée: ainsi, les chercheurs se trouvent sous la tutelle des professeurs universitaires et ces deux groupes dominent les étudiants. Similairement, les professeurs scolaires sont des personnes hiérarchiquement supérieures par rapport aux élèves. De plus, les candidats et les examinateurs ne se connaissent pas dans tous les cas. Par conséquent, ce paramètre est l’un des plus proches du pôle de la distance.

La variété linguistique envisagée pendant les examens est clairement le français standard. Toutefois, la production verbale spontanée est soumise aux effets de performance (reformulations, interruptions, pauses etc.). Les paramètres (4) et (5) de l’ancrage situationnel, actionnel et référentiel sont classés au niveau intermédiaire entre les pôles de l’immédiat et de la distance, car les examens portent d’un côté sur des extraits de texte et des matériaux que les candidats ont sous les yeux, ce qui implique un certain ancrage dans la situation concrète, alors que d’autres questions dépassent la situation de l’examen en faisant référence à des cours antérieurs.

La coopération communicative (7) est plutôt réduite, du moins du côté de l’examinateur. De plus, à cause des rôles clairement distribués entre les deux participants (l’examinateur pose les questions; le candidat y répond), le système de prise de parole, caractéristique d’un dialogue (8), est également fortement réglementé. Même si le déroulement détaillé de l’examen reste imprévisible pour tous les participants, il s’agit toutefois d’une communication bien préparée à l’avance (9), dont la fixation thématique (10) est très élevée. ← 124 | 125

Dans l’ensemble, et contrairement aux discours fortement ritualisés, qui sont typiques de la distance communicative, comme un sermon, une conférence scientifique ou une lecture à haute voix d’un texte de loi (cf. Koch/Oesterreicher 2001 : 585-586), l’examen oral offre la possibilité idéale d’observer un langage dialogique et spontané, même dans le domaine de distance.

3.4.2  L’immédiat communicatif: conversations et discussions

Le domaine de l’immédiat est représenté par deux situations de communication : d’une part, les conversations libres entre deux et six personnes (élèves, étudiants et chercheurs) et d’autre part, les discussions en groupe qui ont eu lieu pendant les cours de la chercheuse, qui travaille comme assistante d’allemand dans les deux lycées en France (17% du corpus).

Les conversations ont lieu dans une salle d’attente ou dans une petite cafétéria avant et après les examens. Celles-ci se caractérisent par le profil communicatif en (106), qui est relativement proche du pôle de l’immédiat.

   (106)   Le relief conceptionnel des conversations

    image

← 125 | 126

Les conversations sont menées par un nombre restreint d’interlocuteurs et ont donc lieu dans un cadre privé (1). Les degrés d’intimité (2) entre les interlocuteurs sont variés: les élèves se voient tous les jours et se connaissent plus ou moins bien, et la plupart des étudiants se fréquente depuis environ un an. Les chercheurs sont des collègues qui travaillent ensemble pendant des périodes variées et certains d’entre eux entrent également en contact privé. Dû à sa complexité, le réseau des contacts entre les interlocuteurs est difficile à déterminer et, par conséquent, nous nous limitons à noter une complicité élevée à l’intérieur des groupes d’élèves, d’étudiants et de chercheurs. Les thèmes de certaines conversations suggèrent effectivement l’existence d’amitiés profondes parmi certains participants, tandis que d’autres semblent être de simples connaissances. Vu la nature hétérogène des relations entre les participants de l’étude, nous fixons le paramètre à la moitié de l’immédiat, mais pas trop près de ce pôle.

Les émotions (3) montrées par les interlocuteurs dépendent du contexte concret, mais celles-ci sont généralement moyennes. L’ancrage actionnel, situationnel et référentiel des conversations est plus fort (4) que dans les examens: les discussions tournent souvent autour des référents immédiatement présents (les personnes, les examens passés ou à venir, les objets sous les yeux etc.). Les sujets discutés varient librement (5) et concernent tous les aspects de la vie scolaire ou estudiantine quotidienne : les examens passés, les projets pour l’été ou pour le week-end, des petites anecdotes privées, les examens et les cours de l’année académique ainsi que les rumeurs concernant les professeurs et les autres élèves ou étudiants.

Le relief conceptionnel des discussions sous (107) ressemble fortement à celui des conversations. La plupart des paramètres sont fixés dans la moitié gauche de la figure, d’où découle le classement général comme situation de l’immédiat communicatif.

← 126 | 127

   (107)   Relief conceptionnel des discussions en classe

    image

Les cours ont lieu en petits groupes de 5 à 10 élèves, qui se voient tous les jours et se connaissent bien, et dans une atmosphère détendue, conçue intentionnellement comme contrepoids aux autres cours scolaires très stricts. Le paramètre (1) est donc fixé au milieu entre les deux pôles de la communication privée et publique.

Néanmoins, et contrairement aux conversations, les discussions sont surveillées par une assistante de langue, la chercheuse, qui fait partie du corps enseignant, et qui reste donc un personnage respectable pour les élèves. Généralement, les émotions montrées par les interlocuteurs sont modérées, mais elles peuvent varier en fonction du sujet discuté97. Par conséquent, les paramètres (2) et (3) sont fixés au milieu du continuum.

L’ancrage actionnel, situationnel (4) et référentiel (5) est plutôt fort, car les discussions portent souvent sur des matériels présents dans la salle de cours ou sur les actions des interlocuteurs mêmes. Comme cela est typique dans le domaine de l’immédiat, les interlocuteurs sont également coprésents (6) pendant les discussions. La conception du cours prévoit d’inspirer la confiance des élèves et de cultiver leurs capacités d’expression libre, ce qui implique une coopération communicative élevée (7). Les sujets abordés pendant les cours concernent tous ← 127 | 128 les aspects de la vie quotidienne des adolescents: l’amour, la littérature et la musique allemande ainsi que la politique ou l’actualité. Toutefois, la liberté thématique des cours est restreinte par rapport aux conversations, puisque les matériels mis en place par l’assistante imposent des thématiques concrètes pour la discussion. Le paramètre (10) est, par conséquent, classé comme moyen.

En résumant, les conversations et les discussions, qui représentent le domaine de l’immédiat communicatif, manifestent des reliefs conceptionnels similaires mais pas identiques. Ceci permet, d’une part, d’analyser un domaine communicatif dans sa profondeur et, d’autre part, de détecter d’éventuelles micro-différences entre les deux types de situations.

3.5  Le protocole d’enregistrement

Notre position en tant qu’assistante d’allemand98 (octobre 2007 – mars 2008) dans deux lycées d’Île-de-France, plus précisément à Livry Gargan et à Clichy-sous-Bois, nous a permis de gagner la confiance du rectorat, des professeurs et des élèves, et de les motiver à participer aux enregistrements des situations d’examen99 et de conversations privées ou en classe. Par la suite, une coopération entre l’institut des langues romanes de l’Université de Zurich et l’Université de Neuchâtel a permis d’effectuer un enregistrement similaire le 4 et 5 juin 2009 en Suisse. Dans l’ensemble, 48 heures de production langagière ont été enregistrées et transcrites partiellement (cf. section 3.7) : 28.28 heures en Îlede-France et 19.69 heures à Neuchâtel. ← 128 | 129

Après le consentement des responsables au niveau scolaire et universitaire, nous avons présenté le projet de recherche aux locuteurs restants. Ceux qui souhaitaient y participer ont alors signé une déclaration de consentement pour l’enregistrement d’un examen et/ou d’une conversation et rempli un questionnaire sociolinguistique (cf. Baude 2007). Les locuteurs ont été informés qu’il s’agissait d’un projet purement linguistique, que ni le contenu ni la note de l’examen n’auraient une influence sur l’analyse, que la participation était anonyme et volontaire, et que toutes les données personnelles resteraient confidentielles et seraient anonymisées avant la publication. Si les locuteurs étaient mineurs au moment de l’enregistrement, les parents ont signé la déclaration à leur place.

Après la procédure d’information et de consentement, les enregistreurs ont été installés, aussi discrètement que possible, au milieu des salles et directement allumés avant le début de l’examen ou de la conversation.

Le paradoxe de l’observateur (cf. Labov 1972b : 209) a pu être partiellement franchi par le fait que la chercheuse s’est absentée pendant l’enregistrement des examens et que les élèves la connaissaient bien et ne la ressentaient donc pas comme un intrus dans leur vie scolaire quotidienne. De plus, certains élèves ont assumé que l’intérêt scientifique d’une chercheuse allemande ne pouvait porter que sur la langue allemande et ainsi, bon nombre de participants se sont forcés davantage à ‘bien’ parler en allemand, sans accorder beaucoup d’attention à leur production linguistique en français, ce qui correspond parfaitement à l’objectif de notre étude. Néanmoins, le risque minimal de toute analyse de corpus persiste, à savoir que le comportement observé des locuteurs ne soit pas identique à celui inobservé. ← 129 | 130

3.6  Le protocole de transcription

La majorité des corpus oraux modernes est transcrite dans une orthographe standard adaptée aux particularités de la langue phonique (cf. Baude 2006, Bilger 2008, Cresti/Moneglia 2005, Durand et al. 2005). Ceci signifie que les éléments absents, comme par exemple les ne de négation ou les explétifs supprimés, ne sont généralement pas restitués:

   (108)   La transcription en orthographe standard adaptée

   a.     je pense pas qu’il y en ait une description où les corps sont autant décrits (0288)

   b.     y a tout ce qu’il faut (0002)

Nous avons adapté cette pratique bien établie pour la transcription de notre corpus, mais, en même temps, nous sommes allés encore plus loin. Dans T-zéro, chaque entrée en orthographe standard est redoublée par une transcription en alphabet phonétique international (API):

   (109)   La transcription en API100

   image

Tant la lisibilité des données comme l’exactitude de la transcription sont assurées par cette double transcription. La transcription orthographique, qui a l’avantage de présenter les données sous une forme bien connue et facilement déchiffrable, présente l’inconvénient de dissimuler la forme exacte sous laquelle certains éléments grammaticaux sont réalisés, ce qui vaut avant tout pour les clitiques. En effet, si nous comparons la représentation du pronom je en (108)a et (109)a, nous observons que la transcription orthographique je pense ne témoigne rien sur la forme image qui est réellement produite. Bien évidemment, l’orthographe standard permettrait la représentation de certaines va ← 130 | 131 riantes de clitiques, comme par exemple j’pense, mais cette transcription serait toujours moins exacte que celle en API. Seule cette dernière permet d’expliciter que la variante [image] pour je comporte non seulement l’omission du schwa [imageimage] → [image], mais également l’assourdissement de la fricative post-alvéolaire [image] → [image].

La transcription en API est une transcription phonétique acoustique étroite, c’est-à-dire que nous représentons le plus fidèlement possible le signal acoustique discerné par les transcripteurs à l’aide des symboles de l’API, mais sans signes diacritiques. Ceci signifie que la réalisation des clitiques, les contractions clitique+verbe, les élisions vocaliques, les omissions de consonnes finales, le degré d’ouverture des voyelles E et O, et les géminés sont transcrits selon les conventions de la phonétique acoustique.

En revanche, la prosodie, les signaux de l’organisation de la prise de parole (euh, hmm) et les marqueurs de discours et d’autre matériel lexical syntaxiquement non-intégré et non-adjacent à une construction verbale ne sont pas transcrits. La transcription phonétique ne comprend donc pas d’espace blanc. Les pauses longues sont marquées par une barre, tandis que les micro-pauses ne sont pas transcrites (sauf si elles semblent pertinentes pour l’analyse). Afin de documenter un maximum de locuteurs, nous avons décidé de transcrire seulement quelques minutes par enregistrement. La transcription porte uniquement sur les parties dialogiques menées en français, tandis que les lectures d’extraits de textes et les fragments de discours uniquement en langue allemande sont supprimés. Le protocole de transcription complet, comprenant des exemples pour les deux systèmes de transcription, se trouve dans l’annexe V.

Compte tenu des déficits de la transcription orthographique par rapport à celle phonétique, l’on pourrait alors se demander pourquoi la première est tout de même appliquée. Cela s’explique par le fait que nous avons constaté qu’une simple transcription phonétique n’est pas suffisante non plus. En effet, même les lecteurs expérimentés ont du mal à lire des passages moyens ou longs en API, comme celui dans l’exemple (109). De plus, la recherche dans le corpus serait très pénible: comme nous ne pouvons pas connaître d’avance toutes les variantes phonétiques d’une forme, il serait difficile, voire impossible de les trouver par une simple ← 131 | 132 requête. La combinaison des deux systèmes de transcription permet donc de compenser les inconvénients de chacun d’entre eux et de créer ainsi une base de données solide pour l’analyse envisagée.

3.7  Le protocole pour l’analyse de la variable ±ne dans T-zéro

Afin d’identifier les données de base pour l’analyse de corpus, une requête qui porte sur toutes les constructions verbales contenant un terme négatif est lancée sur T-zéro. À l’aide d’une recherche dans Tzéro, Filemaker fait apparaître une liste de toutes les entrées dans lesquelles ce champ a été rempli. L’export des données sous forme d’un fichier Excel est possible. Toutes les données linguistiques et extralinguistiques spécifiées par rapport aux entrées négatives figurent dans le tableau exporté.

La dernière étape avant de commencer l’analyse consiste en la suppression des constructions négatives dans lesquelles l’on ne distingue pas clairement si ne est réalisé ou non. Ceci signifie que tous les cas où la réalisation de ne pourrait être confondue avec une liaison, comme par exemple dans on (n’)a pas vu image, sont exclus du calcul. À ce sujet, Fonseca-Greber (2007) constate qu’il serait possible de distinguer à l’aide de la longueur du son [n] s’il s’agit d’une liaison ou d’une particule de négation :

   (110)   With respect to the on ±ne sequences […] it appears possible to distinguish between the on –ne sequences and geminated on +ne sequences in pre-vocalic contexts, given the added length in the geminate sequences. (Fonseca-Greber 2007 : 256)

Fonseca-Greber (2007) suggère que les [n] de négation qui suivent on seraient ‘géminés’ et, par conséquent, plus longs que les [n] de liaison, mais cette hypothèse n’a pas été confirmée lors de notre analyse. ← 132 | 133

Au niveau phonologique, il semble peu convainquant que les séquences on+ne soient réellement géminées. Si ne est produit, comme en (111)a, il n’y a aucune liaison, car le pronom on est suivi par la consonne [n] du ne et la consonne latente [n] dans on reste muette. Autrement dit, la liaison est bloquée par la présence de ne. Par contre, si ne est absent, comme en (111)b, une liaison obligatoire est produite, déclenchée par la voyelle [a] qui suit on.

   image

Le troisième cas décrit par Fonseca-Greber (2007) et illustré en (111)c, à savoir la coprésence des deux [n] de négation et de liaison, est, à notre avis, agrammatical et ne se produit jamais. Nous soutenons, par contre, que les [n] du ne et de la liaison apparaissent en distribution complémentaire dans les contextes prévocaliques:

   (112)   La distribution complémentaire des [n] de négaion et de liaison

    image

Il n’y a donc aucune motivation phonologique à assumer une différence phonétique entre les [n] de négation et de liaison.

Néanmoins, l’on peut se demander s’il ne serait quand-même pas possible que les [n] de négation soient effectifvement plus longs, comme le suggère Fonseca-Greber (2007). Afin d’établir si une telle différence de longueur existe, nous avons comparé les deux types de [n] à l’aide du lociciel d’analyse phonétique PRAAT101,102. Les figures en (113) montrent que le [n] qui apparait dans une construction sans négation, représenté sous forme de barre noire en (113)a, est même un ← 133 | 134 peu plus long que le [n] dont le statut reste ambigu et oscille entre celui de négation et de liaison en (113)b.

   (113)   Comparaison des [n] prévocaliques avec et sans négation

   a.     sans négation: on a [imagen a]

    image

   b.     avec négation: on (n’)a plus [imagen aply]

    image

A notre avis, il n’y a donc aucun moyen de distinction entre les [n] de négation et ceux de liaison dans les contextes prévocaliques négatifs. Par conséquent, et suivant la pratique d’Ashby (1976), (1981), (2001), Armstrong (2002), Armstrong/Smith (2002), Coveney (22002), Dufter/Stark (2007) et Hansen/Malderez (2004), ces cas ambigus sont exclus de notre analyse. ← 134 | 135

3.8  Les tests statistiques pour l’analyse descriptive

Conformément aux pratiques courantes de la linguistique de corpus moderne, nous appliquerons des tests de signifiance sur nos résultats. La sélection de ces tests demande une considération prudente des données envisagées. Comme il est usuel en linguistique de corpus, la nature des données analysées dans cette thèse est statistiquement exigeante et les données linguistiques comportent une série de particularités : premièrement, et contrairement aux sciences, les données linguistiques ont très rarement une distribution normale103, ce qui exclut bon nombre de tests statistiques courants (par exemple le test t). Deuxièmement, beaucoup de corpus contiennent des documents ou des textes de différents types et de différents auteurs. Dans T-zéro nous avons contrôlé le nombre d’énoncés par situation et par provenance des locuteurs, mais il y a toujours des individus qui parlent plus que d’autres ou qui utilisent d’avantage de négations.

Le premier défi peut être surmonté par la sélection d’un test qui ne demande pas de distribution normale, comme le test chi-carré de Pearson. Ce test nous aide à décider si les différences en termes de réalisation de ne que nous observons entre différents groupes de locuteurs ou entre diverses constructions syntaxiques sont dues à une coïncidence ou à une vraie influence du facteur en question. Supposons qu’un facteur quelconque (par exemple l’âge des locuteurs) n’ait aucune influence sur la réalisation de ne. Cette assomption est appelée hypothèse nulle (H0). Si H0 était pertinente, nous nous attendrions à une distribution à peu près similaire des réalisations et omissions de ne à travers les différents groupes testés. Par contre, dans la réalité, nous allons presque toujours observer des fluctuations aléatoires entre différents groupes qui apparaissent même si le facteur testé n’est pas vraiment pertinent. Le test ← 135 | 136 chi-carré compare donc les valeurs attendues selon l’hypothèse nulle avec les valeurs réellement observées. À l’aide du test, la probabilité (p) que H0 soit correcte est calculée. Si H0 est correcte, les différences observées sont alors aléatoires. Par contre, si le facteur en question est pertinent, H0 doit être réfutée. Suivant la pratique commune en statistique, nous considérons comme statistiquement signifiante une différence entre plusieurs groupes s’il y a moins de 5% de probabilité que H0 soit valide (donc si p < 0.05).104

La deuxième difficulté est dépassée en variant les tests appliqués. Dans un premier temps, la signifiance des facteurs individuels en fonction des données brutes est calculée à l’aide d’un calculateur chi-carré en ligne105. Ce test est valide si les valeurs attendues dépassent une fréquence de 5 occurrences, et c’est donc pour cette raison que certains groupes ont été regroupés (p.ex. les professeurs du lycée et de l’université) ou exclus (par exemple le type de phrase non identifiable) pour le calcul des tests.

Dans un second temps, nous calculons, pour les variables qui se sont montrées significatives, les moyennes des locuteurs par variante afin de les comparer. De cette façon, nous pouvons exclure qu’à l’intérieur des groupes les résultats soient biaisés par un déséquilibre entre les locuteurs qui produisent beaucoup de négations et ceux qui n’en produisent que peu. Cette deuxième étape n’est possible que lorsqu’il s’agit de variables sociodémographiques ou linguistiques récurrentes dans chaque énoncé (comme le type de sujet) et est exécutée (le cas échéant) à l’aide du logiciel statistique et de programmation R. Nous nous servons plus précisément des fonctions wilcox.test, kruskal.test et friedman.test, afin d’établir des différences significatives entre les moyennes des groupes de locuteurs par variable. Le test de Wilcox s’applique aux variables extralinguistiques binaires (par exemple le sexe des locuteurs) et le test de Kruskal-Wallis à celles qui comprennent plus ← 136 | 137 de deux variantes. Pour tester l’influence des variables linguistiques, nous utilisons le test de Friedman.

Dans l’analyse présenté en chapitre 4, nous noterons le type de test, les variantes comparées et la base du calcul (données brutes ou moyennes des locuteurs) dans les notes en bas de pages relatives aux valeurs p. Les valeurs p sans aucune note dérivent des tests chi-carré de Pearson basés sur les résultats bruts des variantes notées dans le tableau.

3.9  Résumé du chapitre 3

Au cours de ce chapitre, nous avons décrit la conception et la genèse du corpus T-zéro (disponible sous <http://server.linguistik.uzh.ch/cmeisner2013-tzero>, login : « TZ-Reader », mot de passe « TZero@ling! »), les données qu’il contient ainsi que les modalités de recherche qu’il offre. De plus, les protocoles méthodologiques pour l’enregistrement, la transcription et l’analyse de la variable ±ne et les tests statistiques utilisés dans l’analyse descriptive ont été expliqués en détail.

Malgré l’existence de nombreux corpus du français oral, c’est seulement à partir de la création de T-zéro qu’un corpus phonétiquement transcrit permet d’envisager le double contraste de la variation ±ne sur l’axe diatopique (Suisse vs. France) et intrapersonnel (un locuteur dans deux situations).

Le corpus comprend environ 16 150 mots produits par 72 locuteurs et locutrices de Suisse et de France. Une moitié des données linguistiques appartient au domaine de la distance communicative (les examens oraux) et l’autre à celui de l’immédiat communicatif (les conversations libres en groupe entre élèves, étudiants et chercheurs ainsi que les discussions qui ont eu lieu pendant les cours de l’assistante d’allemand). Les situations sont classées selon le modèle de Koch/Oesterreicher (22011).

Vu que la comparaison sur l’axe intrapersonnel est l’un des objectifs principaux de la création du corpus, sa composition sociodémographique ← 137 | 138 s’explique par la sélection des situations enregistrées: les examens, qui offrent la possibilité d’observer, même dans la distance communicative, un langage dialogique et spontané, ont lieudans le milieu universitaire et scolaire, où plusieurs étudiants et élèves sont interrogés par un nombre restreint de professeurs ou chargés de cours. Par conséquent, la plupart des locuteurs en T-zéro est relativement jeune. En ce qui concerne la langue des locuteurs, la plupart indique le français comme seule langue maternelle, mais environ 20% des locuteurs sont bilingues ou se sont installés dans une zone francophone à l’âge adolescent.

T-zéro permet l’analyse et l’exportation des données linguistiques, sociodémographiques et situationnelles, accessibles à travers les masques constructions verbales (vert), personnes (rose) et enregistrements (jaune). De cette façon, la base de données offre même aux chercheurs inexpérimentés en linguistique de corpus la possibilité de lancer des requêtes (socio)linguistiques exigeantes.

Le protocole d’enregistrement suit la pratique internationalement reconnue, qui demande, par exemple, une déclaration de consentement des participants, et qui cherche à minimiser le paradoxe de l’observateur.

Le système de transcription de T-zéro est assez complexe: d’une part, nous suivons la pratique établie en linguistique de corpus de transcrire en orthographe standard adaptée, mais d’autre part, nous ajoutons une transcription phonétique en API. Ce type de transcription permet à la fois une lecture facile et une représentation fidèle des données linguistiques.

Pour l’analyse de la variable ±ne envisagée dans ce travail, toutes les constructions négatives sont identifiées et exportées. Étant donné qu’il semble impossible de désambiguïser les cas où la réalisation de ne pourrait être confondue avec une liaison, comme dans on (n’)a pas vu image, ceux-ci sont sont exclus après une brève discussion de la problématique. La signification statistique des résultats obtenus dans l’analyse de corpus sera évidemment testée statistiquement par les tests chi-carré appropriés. ← 138 | 139 →


72       Je remercie toutes les personnes qui ont contribué à la création de ce corpus, avant tout les participants, et en particulier Aurélia Robert-Tissot et David Paul Gerards, qui m’ont soutenue dans la transcription des données.

73       2 locuteurs/2 situations.

74       1 locuteur/2 situations.

75       Corpus International Ecologique de la Langue Française (<http://www.ciel-f.org/>).

76       Projet Phonologie du Français Contemporain (<http://www.projet-pfc.net/>).

77       Les situations de communication enregistrées pour le PFC en Suisse (un texte lu, une liste de mots, une discussion libre et une discussion guidée) ne correspondent pas aux pôles de l’immédiat et de la distance.

78       *.tab ; *.csv; *.mer; *.htm ; *.fp7 ; *.xml ; *.xls ; *.xlsx.

79       L’expression de provenance se réfère ici au pays dans lequel les locuteurs habitent au moment des enregistrements. Pour la majorité des locuteurs, cet endroit correspond au lieu de naissance et d’enfance, mais il existe cependant quelques exceptions, signalées dans le champ remarques du masque de saisie rose.

80       Nous tenons à signaler que la répartition entre les hommes et les femmes est inégale. Il y a une présence relativement faible de CVs produites par des hommes (seulement 23% en FR et CH au total), ce qui est dû à trois facteurs: premièrement, il y a généralement une faible représentation d’hommes dans la population enregistrée (au moment de l’enregistrement, la quantité de femmes était nettement supérieure à celle des hommes, et cela aussi bien dans les deux lycées d’Île-de-France qu’à l’institut universitaire de Neuchâtel); deuxièmement, les hommes parlent moins (du moins pendant les enregistrements), en effet, dans T-zéro, la part des CVs produites par des hommes (23%) est inférieure à la part des hommes enregistrés (33%); finalement, la création d’un corpus est toujours assujettie à la participation des volontaires qui se font enregistrer. Toutefois, la représentation inégale des sexes dans T-zéro est reflétée de manière uniforme aussi bien en Suisse qu’en France et les comparaisons entre les deux pays quant au comportement linguistique des deux sexes restent ainsi possibles.

81       Nous tenons à noter que T-zéro offre l’option d’inclure ou d’exclure, pour les analyses, certains groupes d’âge ainsi que des groupes formés en fonction de n’importe quel autre facteur démographique.

82       Sources des cartes: <http://fr.wikipedia.org/wiki/Fichier:Revenus_%C3%A0_Paris_et_Petite_Couronne.JPG>, et<http://www.surface.ch/ne/map-district.htm>, consultées le 18 mars 2011.

83       Calculé à l’aide du taux du change du 29 juin 2011 (1 EUR = 1.19612 CHF).

84       Cf. <http://www.statistiques-locales.insee.fr/FICHES/RS/DEP/93/COM/RS_COM93014.pdf>, consulté le 07 mars 2011.

85       Cf. <http://www.statistiques-locales.insee.fr/FICHES/DL/DEP/93/COM/DL_COM93014.pdf>, consulté le 07 mars 2011.

86       Calculé à l’aide du taux de change du 29 juin 2011 (1 EUR = 1.19612 CHF)

87       Cf. <http://www.statistiques-locales.insee.fr/FICHES/RS/DEP/93/COM/RS_COM93046.pdf>, consulté le 07 mars 2011.

88       Calculé à l’aide du taux de change du 29 juin 2011 (1 EUR = 1.19612 CHF).

89       Cf. <http://www.statistiques-locales.insee.fr/FICHES/DL/DEP/93/COM/DL_COM93046.pdf>, consulté le 07 mars 2011.

90       Le revenu mensuel en Suisse romande entre 2006 et 2008 était de 6 508 Francs suisses selon l’office fédéral de la statistique, cf. <http://www.bfs.admin.ch/bfs/portal/fr/index/themen/20/02/blank/key/einkommen0/niveau.Document.137707.xls>, consulté le 18 mars 2011.

91       <http://www.bfs.admin.ch/bfs/portal/fr/index/themen/03/03/blank/key/registrierte_arbeitslose/nach kanton.html>, consulté le 18 mars 2011.

92       <http://www.travailler-en-suisse.ch/html/cout-vie-en-suisse.html>, consulté le 18 mars 2011.

93       Koch/Oesterreicher (2001 : 586) mentionnent également la situation coup de téléphone, qui a été supprimée ici, car nous nous intéressons à la communication directe, i. e. face-to-face, (cf. aussi la discussion dans Meisner 2010 : 1952 sur la non-pertinence du facteur téléphone pour la réalisation de ne).

94       Koch/Oesterreicher (2001 : 586) considèrent l’interview de presse de manière résultative, c’est-à-dire uniquement comme forme de réalisation graphique (par exemple dans les journaux). Par contre, nous nous référons au processus de l’interrogation et considérons donc la situation de l’interview comme conversation phonique.

95       Les examens oraux ont lieu en présence d’un public très restreint : seuls les candidats et un ou deux professeurs ou chargés de cours sont présents. La situation est donc classée, selon les critères de Koch/Oesterreicher (22011 : 7), comme une communication privée.

96       Il faut noter que l’attitude des candidats dans une telle situation varie considérablement en fonction de chaque individu: certains ont le trac ou sont angoissés, d’autres s’agitent ou s’énervent et d’autres encore se montrent disciplinés, détendus ou impassibles.

97       Les discussions concernant les sujets comme la religion et l’amour ont parfois provoqué des réactions très fortes de la part des élèves.

98       Des informations détaillées sur le programme des assistants de langue sont à trouver sous: <http://www.kmk-pad.org/programme/dtsch-fsa.html>.

99       Seul l’un des deux lycées ayant participé au projet a autorisé l’enregistrement d’examens oraux. Tous les enregistrements français d’examens oraux proviennent donc du lycée de Livry Gargan.

100    Je tiens à remercier Elissa Pustka pour ses suggestions utiles quant à la transcription phonétique.

101    Cf. <http://www.fon.hum.uva.nl/praat/>.

102    Je remercie Stephan Schmid pour son précieux conseil quant à cette comparaison.

103    En théorie des probabilités, on assume qu’une variable aléatoire suit la loi normale gaussienne. Par exemple, le quotient intellectuel des êtres humains a une distribution normale: un grand nombre de personnes manifestent une intelligence moyenne et un nombre restreint de personnes possèdent une intelligence supérieure et inférieure à la norme.

104    Nous tenons à noter que la conclusion inverse n’est pas admise: une valeur p plus grande que 0.05 n’implique pas que le facteur en question n’est pas un effet significatif, mais seulement que nous ne pouvons pas prouver sa signifiance.

105    <http://www.physics.csbsju.edu/stats/contingency_NROW_NCOLUMN_form.html>.