Contenu du sommaire : Un corpus annoté en chaînes de référence et son exploitation : le projet DEMOCRAT

Revue	Langages
Numéro	no 224, décembre 2021
Titre du numéro	Un corpus annoté en chaînes de référence et son exploitation : le projet DEMOCRAT
Texte intégral en ligne	Accès réservé

Éditorial - Catherine Schnedecker, Céline Vaguer p. 5-9
Le corpus DEMOCRAT et son exploitation. Présentation - Frédéric Landragin p. 11-24
Élaboration du corpus DEMOCRAT : procédures d'annotation et d'évaluation - Matthieu Quignard, Marine Le Mené, Frédéric Landragin p. 25-46
S'il existe déjà plusieurs corpus annotés manuellement en expressions référentielles et en chaînes de référence, il n'en existe aucun pour la langue française, ou alors pour des annotations qui relèvent plus de l'anaphore que de la coréférence. Le projet DEMOCRAT a produit un tel corpus, avec qui plus est une dimension diachronique. Sa conception a posé un ensemble de difficultés non seulement linguistiques mais aussi au niveau de l'homogénéité des annotations, de leur vérification et de l'évaluation de leur qualité. C'est cette dimension que nous proposons ici d'explorer et de discuter, en nous focalisant sur les conventions d'annotation et l'évaluation des annotations obtenues, procédure impliquant un calcul de l'accord inter-annotateurs. Cet article met ainsi en perspective le contenu du corpus democrat, pour légitimer les exploitations qui en seront faites.
There already exists several corpora that have been manually annotated in referring expressions and coreference chains. Nevertheless, none of them focuses on French language (or for annotations that are related to anaphora more than coreference). The DEMOCRAT project has produced such a corpus, with also a diachronic dimension. Its conception raised numerous difficulties, not only linguistic, but also in terms of the homogeneity of the annotations, as well as their verification and the evaluation of their quality. It is this dimension that we explore and discuss here, including concerns about annotation conventions and the evaluation of the annotations, a procedure involving the computation of the inter-annotators agreement. Thus, this article discusses the constitution and content of the democrat corpus, in order to legitimise the exploitations that will be made of it.
La coréférence floue dans les chaînes du corpus DEMOCRAT - Marine Delaborde p. 47-65
Les expressions référentielles qui désignent exactement le même référent constituent les maillons d'une chaîne de coréférence. Il arrive que le référent d'une expression soit difficile à identifier précisément et soit impliqué dans une relation de coréférence floue. Ce phénomène ne pose pas de problème lors de la lecture d'un texte mais peut générer des difficultés lors de l'annotation de corpus en coréférence. Nous proposons une analyse de l'annotation de certains marqueurs vecteurs de flou référentiel dans le corpus democrat, annoté en coréférence stricte. Ces marqueurs ont généré des conduites d'annotation différentes. Pour homogénéiser ces conduites, nous proposons des précisions à ajouter au manuel d'annotation ainsi que la prise en compte de la coréférence floue dans le schéma d'annotation.
A coreference chain designates the set of referential expressions that refer to the same exact referent. The referent of an expression is sometimes difficult to identify with precision and involved in a fuzzy coreference relationship. For a reader, this lack of precision does not necessarily create difficulties, but it may generate complications during the coreference annotation. We provide an analysis of the annotation of some markers that generate referential fuzziness in the democrat corpus, annotated in strict coreference. These markers have generated different annotation behaviors. In order to homogenize these behaviors, we propose precisions to be added to the annotation manual and the consideration of fuzzy coreference in the annotation scheme.
Introduction des référents et premier maillon de suites coréférentielles : la réalité des textes - Hélène Manuélian, Catherine Schnedecker p. 67-86
De nombreux travaux s'accordent pour considérer que l'introduction des référents dans un texte opère notamment au moyen de SN indéfinis, ce que modulent la plupart des études sur corpus, peu nombreuses pour ce qui est du français. L'objectif de cet article est de faire le point sur les modalités d'introduction référentielle à partir du corpus democrat où, dans une dizaine de textes de genres variés du XXe siècle, nous recensons les 960 ‹premières mentions› pour montrer que les SN indéfinis ne servent pas massivement de premier maillon et que les catégories utilisées à cette fin dépendent des genres/domaines de discours et de la catégorie ontologique des référents.
Many studies agree in considering that the introduction of referents in a text operates by very specific linguistic means, in particular indefinite NPs. Other work on corpus slightly modifies this assertion, but few of them focus on contemporary French. Therefore, using the democrat corpus, our objective is to observe real data. Using parts of texts of the 20th century, we will carry out a precise inventory of 960 “first mentions”. We study texts of various genres to identify the grammatical categories used and their proportion. On the basis of both a quantitative and qualitative analysis, we thus show, firstly, that the indefinite NPs, are note many as predicted, secondly, that the categories used in the “first mentions” largely depend on the genres of discourse and the referent ontological status, a parameter ignored in most of the previous works mentioned in this paper.
Le rôle des chaînes de référence dans la structuration textuelle : étude diachronique de l'ancien français au français moderne - Daniéla Capin, Julie Glikman, Catherine Schnedecker, Amalia Todirascu p. 87-107
La présente étude évalue le rôle des expressions coréférentielles dans la segmentation et la structuration des textes dans un corpus diachronique de textes narratifs annotés dans le cadre du projet DEMOCRAT. La structure textuelle varie : le découpage en paragraphes est systématique dans les textes modernes mais majoritairement absent dans les textes médiévaux. Notre étude montre que les chaînes de référence (CR) contribuent à délimiter la structure des textes anciens alors que, dans les textes modernes, les CR fonctionnent conjointement au découpage textuel. Au-delà de leur rôle dans des cas de concurrence référentielle, les redénominations participent au changement de structure par le mono-marquage ou le poly-marquage. Le passage de l'un à l'autre semble conditionné par l'évolution de la forme et de l'écriture littéraire du Moyen Âge au XXe siècle.
This paper evaluates the role of co-referential expressions in the segmentation and structuring of texts in a diachronic corpus of narrative texts annotated within the framework of the DEMOCRAT project. The textual structures are different: paragraph division is ubiquitous in modern texts, but mostly absent from medieval texts. Our study shows that the chains of reference (CR) contribute to structure the ancient texts, whereas in modern texts, CR function with the division into paragraphs. Beyond their roles to disambiguate referential competition, we show that the redenominations catalyze a change in structure: they participate in two major types of marking, mono-marking or poly-marking. The passage from one to the other seems to be conditioned by the evolution of form and literary writing from the Middle Ages to the 20th century.
L'effet des facteurs de "distance" et de "fréquence" sur la saillance des entités référentielles - Jiaqi Hou, Frédéric Landragin p. 109-128
Cet article analyse l'influence des facteurs distance et fréquence d'apparition des référents sur la saillance des entités référentielles du discours. Des tests de khi2 et de V de Cramer ont été réalisés après l'exploitation des données textuelles. Les résultats montrent que, globalement, l'influence de la distance est plus prononcée que celle de la fréquence. Selon la nature des textes, l'influence de la distance (respectivement la fréquence) peut être plus ou moins importante (respectivement significative). Cette variation s'expliquerait par le fait que l'influence d'un facteur peut être restreinte par (ou tributaire de) l'impact d'autres facteurs tels que la longueur du texte ou la centralité du personnage principal. Ainsi, une analyse multifactorielle plus approfondie serait utile pour prendre en compte non seulement l'importance relative de divers facteurs potentiels mais aussi de l'interaction entre eux.
This article aims to analyze the influence of distance and frequency of occurrence on the salience of referential entities in discourse. Significance tests (khi2) and Cramer‘s V tests were conducted after processing of textual data. The results show that, on an overall basis, the influence of the distance factor is more pronounced than the frequency factor. Depending on the characteristics of the texts, the influence of distance (respectively frequency) on the salience may be more or less important (respectively significant). This variation would be explained by the fact that the influence of a specific factor may be constrained by (or subject to) the impact of other factors, such as the text length or main character. Therefore, a more thorough multi-factorial analysis would be useful to take into account not only the relative importance of various factors but also the interaction between them.
Exploitation du corpus DEMOCRAT par apprentissage artificiel - Loïc Grobol p. 129-145
La détection automatique de chaînes de coréférences pour le français est encore un domaine assez peu exploré, entre autres en raison du développement tardif de ressources annotées adaptées. democrat, premier corpus de français écrit de grande envergure annoté en chaînes de coréférences, rend possible l'utilisation de techniques d'apprentissage artificiel pour combler ce manque. Dans ce travail, nous présentons le système DeCOFre, premier système de détection des chaînes de coréférences pour le français parlé, et étudions son utilisation pour le traitement de democrat. Nos expériences montrent que ce système n'est pas robuste au changement induits par le passage de l'oral spontané à l'écrit et suggère que les particularités de democrat pourraient être mieux prises en compte par des architectures plus riches que celles des systèmes end-to-end omniprésentes dans l'état de l'art récent.
Automatic coreference resolution for French has a relatively recent history, due to a lack of large scale annotated resources that has only been filled in the last few years. The release democrat, the first large scale corpus of written French with coreference annotation, makes the developement of coreference resolution system for written French using machine learning techniques possible for the first time. In this work, we present DeCOFre, the firs coreference resolution system for spoken French, and investigate its use for processing democrat. Our experiments show that this system is not resilient to the differences between the spoken and written genres, which suggests the need for richer architectures than those used in the recent state of the art end-to-end coreference resolution systems.