Contenu du sommaire : Les chaînes de référence en corpus

Revue Langue française Mir@bel
Numéro no 195, septembre 2017
Titre du numéro Les chaînes de référence en corpus
Texte intégral en ligne Accessible sur l'internet
  • Les chaînes de référence : annotation, application et questions théoriques - Catherine Schnedecker, Julie Glikman, Frédéric Landragin p. 5-16 accès libre avec résumé avec résumé en anglais
    Dans cet article de présentation du numéro, nous commençons par définir la notion de chaîne de référence, puis nous proposons une revue des méthodes et des approches de l'étude des chaînes de référence. Nous montrons que les approches linguistiques prédominantes ne suffisent pas à prendre en considération les spécificités discursives et les liens étroits entre chaînes et genres textuels. Nous montrons également que les approches de la linguistique de corpus et du traitement automatique des langues suivent des voies opérationnelles qui s'éloignent de la complexité du phénomène linguistique initial et se focalisent sur d'autres langues que le français. Nous mettons alors en avant la démarche qui a réuni les auteurs des articles de ce numéro et qui est en partie matérialisée dans le projet ANR Democrat.
    This volume introductory article starts with a definition of the notion of reference chain, and continues with an overview of the methods and approaches for the study of reference chains. We show that the predominant linguistic approaches are not sufficient to take into account the discursive specificities of reference chains, as well as the links between them and text genres. We also show that corpus linguistics and mostly natural language processing approaches are more and more operational and sometimes forget the complexity of the initial linguistic phenomena. Moreover, they mainly focus on languages other than French. Then, we highlight the demarche that brought together the authors of these volume articles, which is partly implemented in the Democrat ANR project.
  • Analyse, visualisation et identification automatique des chaînes de coréférences : des questions interdépendantes ? - Frédéric Landragin p. 17-34 accès libre avec résumé avec résumé en anglais
    Une chaîne de coréférences est une structure qui regroupe un ensemble d'expressions référentielles (ou mentions, ou maillons) désignant toutes la même entité extralinguistique. Chaque maillon peut être enrichi par des annotations linguistiques, de même que les relations reliant certains maillons. En conséquence, il est difficile d'appréhender une telle structure et d'en tirer directement des analyses. Nous présentons des repères méthodologiques importants pour favoriser l'exploitation d'un corpus annoté en chaînes, tout en précisant les liens opérant entre linguistique théorique, linguistique de corpus outillée et traitement automatique.
    A coreference chain groups a set of referring expressions (or mentions) that all refer to the same extra-linguistic entity. Each mention may be annotated with linguistic interpretations, as well as links between mentions. As a consequence, one can find difficult to apprehend and quickly analyse a coreference chain. We present methodological prerequisites, so that the resulting annotated corpus can be exploited as well for machine learning purpose than for linguistic deep analyses. We therefore give precisions on the links that put together theoretical linguistics, computer-aided corpus linguistics, and natural language processing.
  • Chaînes de référence et lisibilité des textes : le projet ALLuSIF - Amalia Todirascu, Thomas François, Delphine Bernhard, Nuria Gala, Anne-Laure Ligozat, Ratiba Khobzi p. 35-52 accès libre avec résumé avec résumé en anglais
    Nous étudions les indicateurs de la cohésion (chaînes de référence et anaphoriques) par rapport à la complexité des textes au sein de deux corpus français qui s'adressent à plusieurs types de public (enfants/adultes pour le premier, apprenants de FLE pour le second). Cette étude a comme objectif la modélisation des aspects de cohésion textuelle des textes en vue de faciliter leur accessibilité pour les lecteurs. Pour ce faire, nous avons annoté les chaînes de référence dans les deux corpus. Nous comparons les propriétés de ces chaînes (longueur, nature des maillons, fonctions syntaxiques), en relation avec le niveau de difficulté, dans des textes informatifs et narratifs.
    We study the cohesion markers (such as reference chains and anaphora), and their relation with text complexity, in two corpora addressing various audiences (children/adults for the first, French L2 learners for the second). This study aims to model some aspects of text cohesion to improve text readability for target lecturers. First, we annotate reference chains in the two corpora. We compare the properties of these chains (such as length of chains, type of mentions, syntactic functions), according to text complexity, in informative and narrative texts.
  • Les chaînes de référence : une configuration d'indices pour distinguer et identifier les genres textuels - Catherine Schnedecker p. 53-72 accès libre avec résumé avec résumé en anglais
    Par contraste avec les approches dites « paradigmatiques » ou « syntagmatiques » qui corrèlent faits de langue et genres textuels (ou discursifs), nous illustrons, en prenant l'exemple des chaînes de référence, une approche « configurationnelle » qui permet de manière plus opératoire de distinguer les genres (ici des faits divers et des incipit de contes de Fées). Cette approche combine la dimension quantitative des approches paradigmatiques par le dénombrement de certaines catégories grammaticales et lexicales, ainsi que l'approche syntagmatique due naturellement à la linéarité des chaînes de référence et ce que celle-ci implique (longueur et portée des chaînes, distance entre les maillons, etc.).
    By contrast to the approaches known as “paradigmatic” or “syntagmatic” which correlate linguistic phenomena and textual (or discursive) genres, we illustrate, by taking the example of the referential chains, a “configurational” approach which makes it possible in a more operational way to distinguish the genres (here of the news in brief and the incipit of fairy tales). This approach combines the quantitative dimension of the paradigmatic approaches by the enumeration of certain categories grammatical and lexical, as well as the syntagmatic approach due naturally to the linearity of the coreference chains and what this one implies (length and range of the chains, outdistances between the links, etc.).
  • Chaînes de référence et point de vue dans la fiction littéraire : le cas des nouvelles courtes - Emmanuel Baumer p. 73-90 accès libre avec résumé avec résumé en anglais
    Dans cet article, avec l'aide de certains outils de la Théorie des Opérations Énonciatives (TOE), nous proposons de suivre le fonctionnement des chaînes de référence (CR) renvoyant aux personnages principaux (animés humains) dans un micro-corpus constitué de onze nouvelles contemporaines courtes (6 500 caractères espaces compris maximum), afin d'étudier les interactions entre ces CR et le point de vue narratif (PDV) dans ces brefs récits. Nous ferons également quelques remarques sur l'influence du genre textuel sur les CR en comparant cette sous-catégorie de fiction littéraire à un corpus de nouvelles « standard », plus développées.
    Using some tools of Culioli's Theory of Enunciative Operations, this paper analyses the referential chains corresponding to the main characters, in a micro-corpus of eleven contemporary “short short stories” (6 500 characters with spaces), in order to study the interactions between these referential chains and narrative point of view. The influence of text genre on referential chains will also be analysed by comparing this sub-category of literary fiction with another corpus of “standard” short stories.
  • Les chaînes de référence dans les récits brefs en français : étude diachronique (XIIIe-XVIe s.) - Vanessa Obry, Julie Glikman, Céline Guillot-Barbance, Bénédicte Pincemin p. 91-110 accès libre avec résumé avec résumé en anglais
    Cet article s'intéresse aux chaînes de référence dans un corpus de textes narratifs brefs à tonalité comique composés entre le début du XVIIIe et le milieu du XVIe siècle. Seuls les référents animés humains ont été pris en compte dans l'analyse. Le corpus a été manuellement annoté grâce au logiciel ANALEC et analysé via la plateforme TXM. Nous décrivons les paramètres de variation des chaînes de référence en proposant un ensemble de mesures permettant la comparaison des résultats avec des études sur d'autres genres et d'autres périodes : la densité référentielle, le nombre de chaînes, leur longueur, le coefficient de stabilité référentielle ou la diversité des désignations des référents, la catégorie grammaticale des maillons et la nature du premier maillon. L'analyse outillée du corpus permet de dégager plusieurs spécificités et évolutions des chaînes de référence dans les genres brefs.
    This paper investigates coreference chains in a corpus of short humorous narrative texts in French from the early 13th to the mid-15th century. The study is restricted to human referents. Using ANALEC to manually encode our description, we analyze our data by means of the TXM software. The study establishes the variation parameters that allow for a comparison of our results with the results obtained in other studies so-called ‘referential density', the number of chains, their lengths, the referential stability coefficient or the variety in the denominations of the referents, the grammatical category of the links in the coreferential chains and the part-of-speech of the first mention. The analysis of the corpus by means of the tools mentioned above enables us to establish a number of specific characteristics and diachronic changes in coreferential chains in short texts.
  • Facteurs discursifs et contraintes syntaxiques : aspects diachroniques de la relation de cataphore - Bernard Combettes p. 111-130 accès libre avec résumé avec résumé en anglais
    Cet article retrace l'évolution de la cataphore intraphrastique dans l'histoire du français en prenant en compte trois structures syntaxiques différentes. On observe la relation cataphorique dans les énoncés qui présentent l'ordre subordonnée + principale (Quand il n'a rien à faire, X lit.). Sont ensuite examinés deux cas d'anaphore sous-jacente, avec les constructions détachées en zone initiale (Attentif, X écoutait…) et les circonstanciels de manière antéposés (D'une voix forte, X dit…). On essaye de montrer que, durant une longue période, l'emploi de l'anaphore placée dans le constituant qui ouvre l'énoncé est en fait réglé par la coréférence avec le contexte gauche, ce qui ne permet pas de considérer qu'il y a relation cataphorique. Ce n'est qu'au XIXe siècle qu'apparaîtront les premiers indices d'une véritable « anticipation » du référent, ce qui rattache cette évolution à la formation de la « phrase complexe » moderne.
    This article traces the evolution of intraphrastic cataphore in the history of French by taking into account three different syntactic structures. We first observe cataphoric relation in the utterances that present subordinate clause + main clause order (Quand il n'a rien à faire, X lit). We then examine two cases of underlying anaphora, with detached constructions in the initial zone (Attentif, X écoutait…) and fronted manner adverbials (D'une voix forte, X dit…). We try to show that, for a long period, the use of the anaphor placed in the constituent that opens the utterance is in fact regulated by coreferential relation with the left context, which does not allow to consider that there is a cataphoric relation. It was only during the course of the 19th century that the first signs of a real “anticipation” of the referent began to appear, which relates this evolution to the formation of the modern “complex sentence”.