Contenu du sommaire : Orféo : un corpus et une plateforme pour l'étude du français contemporain

Revue	Langages
Numéro	no 219, septembre 2020
Titre du numéro	Orféo : un corpus et une plateforme pour l'étude du français contemporain
Texte intégral en ligne	Accessible sur l'internet

Présentation - Jeanne-Marie Debaisieux, Christophe Benzitoun p. 9-24
La partie orale du Corpus d'Étude pour le Français Contemporain (CÉFC) - Lolita Bérard p. 25-37
Le projet ANR-12-CORP-0005 orféo a abouti à la réalisation d'un Corpus d'Étude pour le Français Contemporain (céfc) qui est diffusé librement. Nous présenterons dans cet article les données orales intégrées au céfc et la répartition chiffrée de ce pluri-corpus, homogénéisé pour donner aux utilisateurs un accès simplifié à un grand nombre de données.
The orféo project enabled the development of a Corpus for the Study of Contemporary French (céfc). I present here the spoken part of the céfc as a collection of corpus which have been standardized in order to facilitate the use of resources. céfc is available for free download or searchable online.
Méthodologie d'harmonisation et de traitement des données orales du CÉFC - Christophe Benzitoun, Carole Etienne p. 39-52
Le céfc comprend des données de plusieurs sources différentes, ce qui permet d'observer au moins en partie la diversité du français. La résolution des problèmes inhérents à l'hétérogénéité de ces données est donc intrinsèque à la constitution de cette ressource et motivée par son objectif. Cet article décrira, étape par étape, l'approche méthodologique qui a permis de construire une ressource orale homogène en mutualisant différentes sources afin de procéder à des annotations automatiques cohérentes et de faciliter les analyses d'un corpus oral de plusieurs millions de mots.
The céfc corpus includes data from several different sources to make observable the diversity of oral French at least partly, solving the problems inherent to the heterogeneity of these data is intrinsic to the constitution of this resource and motivated by its objective. This article will describe, step by step, the methodological approach that enables us to build a homogeneous resource by pooling these different sources in order to provide coherent automatic annotations and to facilitate the analysis of an oral corpus of several million words.
Lexique et classement en parties du discours dans ORFÉO - José Deulofeu, André Valli p. 53-68
L'article présente les principes et les critères qui ont présidé à l'élaboration de la table des parties du discours et à l'organisation du lexique correspondante, mis en œuvre dans l'analyse syntaxique automatique du corpus orféo. La comparaison est établie avec le Lexique des Formes Fléchies du Français (lefff) utilisé dans d'autres outils de traitement automatique du langage. Les enjeux linguistiques et informatiques sont abordés. Un développement particulier est consacré au traitement des locutions ou expressions multi-mots. Des perspectives d'amélioration sont envisagées.
The paper discusses the principles and criteria used in elaborating the POS tagset and the structure of the corresponding lexicon at use for the automatic parsing of the orféo corpus. This architecture is compared with the current Lexique des Formes Fléchies du Français (lefff) dictionary, available under open source license. The linguistic and natural language processing challenges are dwelled on. A specific attention is devoted to the processing of multiword expressions. Some ways of improvement of the system are provided.
Annotation syntaxique du français parlé : les choix d'ORFÉO - Sylvain Kahane, Kim Gerdes p. 69-86
Cet article présente les choix d'annotation syntaxique dans le cadre du projet orféo. Un corpus de français parlé de plus de 180 000 mots a été annoté en syntaxe de dépendance à la main, puis un corpus de 3 millions de mots a été analysé automatiquement. Les choix d'annotation sont comparés avec ceux du projet rhapsodie, qui a précédé orféo, avec universal dependencies (ud), qui a démarré un peu après orféo, et avec surface-syntacticud (sud), qui est une synthèse des choix d'orféo et d'ud. orféo se caractérise par une prise en compte de la macrosyntaxe et des phénomènes de listes, ainsi que par un ‹tag set› restreint qui a permis une annotation rapide et plus facilement reproductible.
Syntactic annotation of Spoken French: orféo's choices
This article presents the syntactic annotation choices for the orféo project. A corpus of Spoken French of more than 180 000 words was manually annotated in dependency syntax, then a 3 M word corpus was automatically parsed. The annotation choices are compared with those of the rhapsodie project, which preceded orféo, with universal dependencies (ud), which started shortly after orféo, and with surface-syntacticud (sud), which synthesizes orféo and ud's choices. orféo is characterized by a consideration of macrosyntax and list phenomena, as well as a restricted tag set that allowed a quick and more easily reproducible annotation.
Annotation syntaxique automatique de la partie orale du ORFÉO - Alexis Nasr, Franck Dary, Frédéric Béchet, Benoît Fabre p. 87-102
Cet article présente les outils informatiques, développés dans le cadre du projet orféo, qui permettent de prédire de manière automatique les annotations linguistiques, en particulier les parties de discours, les lemmes, les dépendances syntaxiques et la segmentation des énoncés. Deux points importants sont mis en avant. Le premier est la segmentation en énoncés, qui est un problème difficile du traitement linguistique de l'oral. Nous montrons que la prise en compte de la syntaxe permet d'obtenir de bonnes performances de segmentation. Le second concerne la prise en compte de métadonnées dans les outils afin d'adapter ces derniers à la variété des données collectées. Les résultats obtenus sur le corpus de référence valident les approches proposées et permettent d'estimer la qualité des annotations produites automatiquement sur la portion du Corpus d'Étude pour le Français Contemporain (céfc) non validée manuellement.
Automatic syntactic parsing of the spoken part of the céfc
This paper presents the linguistic annotation tools that were developed in the framework of the orféo project and used to annotate the different corpora. Two important points are developed. The first one is sentence segmentation, which is a difficult problem when processing speech transcriptions. We show that taking into account syntax allows to obtain good segmentation performance. The second is the introduction of metadata features in the parsing process in order to adapt the models to the variety of data collected. The results obtained on the orféo corpus validate the proposed approaches and make it possible to estimate the quality of the annotations produced automatically on the orféo corpora which are not validated manually.
L'annotation prosodique dans ORFÉO - Philippe Martin p. 103-115
L'annotation prosodique dont il s'agit ici porte non pas sur les émotions, attitudes ou marques sociogéographiques des locuteurs mais sur la structure prosodique, définie par le regroupement en plusieurs niveaux des groupes accentuels dans la phrase. Cette structure entretient avec la structure syntaxique un degré de congruence variable. L'annotation prosodique opère en deux phases : (i) localisation des syllabes accentuées (hors emphase) définissant les groupes accentuels par leur position finale (en français) et (ii) description des évènements prosodiques à l'endroit des voyelles accentuées, évènements instanciés par des variations mélodiques spécifiques censées, par hypothèse, indiquer entre groupes accentuels des relations de dépendance qui déterminent la structure prosodique.
Prosodic annotation in orféo
The prosodic annotation described here relates not to the speaker emotions, attitudes or socio-geographical features, but to the prosodic structure, defined as the hierarchical organization of sentence accent phrases. This assemblage in successive levels maintains with the syntactic structure a variable degree of congruence. Prosodic annotation operates in two steps: (i) localization of stressed syllables (excluding emphasis) defining accent phrases by their final position (in French) and (ii) description of the prosodic events occurring on stressed vowels, events instantiated by specific melodic contours assumed by hypothesis to indicate between accent phrases dependency relations which define the prosodic structure.
Analyse contrastive des noms sous-spécifiés à l'oral et à l'écrit à partir d'une extraction automatique - Lydia-Mai Ho-Dac, Aleksandra Mileti p. 117-132
Cet article présente une analyse contrastive visant à décrire le comportement des noms sous-spécifiés dans le Corpus d'Étude pour le Français Contemporain (céfc). S'appuyant sur les annotations morpho-syntaxiques et syntaxiques fournies par le corpus, notre méthode propose une extraction systématique de patrons lexico-syntaxiques et une évaluation de cette extraction fondée sur une annotation manuelle. Les résultats sont discutés en tenant compte des trois modalités présentes dans le corpus (communications orales, communications médiées par les réseaux et communications écrites) et offrent un regard nouveau sur le comportement des noms sous-spécifiés.
A contrastive study of shell nouns in written and spoken corpora through automatic extraction
This paper describes a contrastive analysis of shell nouns in three registers: spoken texts, written texts and computer-mediated communications available in the Corpus d'Étude pour le Français Contemporain (céfc). Our method consists in an automatic extraction of lexical-syntactic patterns based on morphosyntactic and syntactic annotations provided by the céfc; followed by a manual evaluation. Results give new insights into the variation and behavior of shell nouns across registers.
Que fait donné à moment dans à un moment donné ? Quelques réflexions à partir du ORFÉO - Anne Le Draoulec, Josette Rebeyrolle p. 133-146
Le présent article porte sur la pragmaticalisation de la locution temporelle à un moment donné, et, plus particulièrement, sur l'une des principales questions que laissait en suspens une étude antérieure : la question du rôle de l'adjectif donné, dont nous faisons l'hypothèse qu'il joue en faveur d'une implication subjective plus grande (favorisant ainsi la pragmaticalisation de la locution). Nous nous proposons de vérifier cette hypothèse par un examen systématique de à un moment donnévs à un moment, en nous appuyant sur la partie orale du Corpus d'Étude pour le Français Contemporain. Nous prendrons également en considération d'autres variantes possibles : variantes avec il y a (il y a un moment (donné)) ou sans la préposition à (un moment (donné)).
The present article focuses on the pragmaticalisation of the French temporal phrase à un moment donné (“at one point”, “at a given moment”), and more particularly on one question (that was left unresolved by a previous study) about the role of the adjective donné (“given”). We hypothesize that it plays in favor of a greater subjective implication (favouring thus the pragmaticalisation of the phrase). We verify this hypothesis by a systematic examination of à un moment vs. à un moment donné, based on the oral part of the Corpus Study for Contemporary French. We also consider other possible variants: variants with il y a ("there is”) (il y a un moment (donné) | “there is a given moment”) or without the preposition à (“at”) (un moment (donné) | “a given moment”).
Syntaxe et genre interactionnel : le cas des interrogatives directes partielles dans les interactions commerciales - Nathalie Rossi-Gensane, Biagio Ursi p. 147-160
Dans cet article, fondé sur le Corpus d'Étude pour le Français Contemporain (céfc), nous proposons une analyse, principalement qualitative, des interrogatives directes partielles à l'oral dans les interactions commerciales, où il s'agit d'échanger un (ou plusieurs) produit(s) contre une certaine somme d'argent. Nous dissocions interrogatives directes partielles en emploi non transactionnel, d'une part, et en emploi transactionnel, d'autre part, ce qui nous permet de dégager certaines spécificités, d'ordre syntaxique, sémantique et/ou interactionnel, de ces dernières. Nous mettons notamment en évidence, sur un plan sémantique, la spécialisation de combien dans la quantification directe ou indirecte (par métonymie) du produit et, sur un plan syntaxique, pour comment, la forte présence d'une structure averbale in situ [N Q]. Plus généralement, l'article entend contribuer à une réflexion sur les genres à l'oral.
This article, based upon the Corpus d'Étude pour le Français Contemporain (céfc), aims at providing a mainly qualitative analysis of partial direct interrogatives present in the oral genre of commercial interactions, where goods are exchanged for money. A distinction is made between partial interrogatives occurring in non-transactional parts (such as greetings), on the one hand, and in transactional parts (such as requests for goods or payment), on the other hand. In particular, we highlight the specialisation of combien in direct or (by metonymy) indirect quantification of the product, on a semantic level, as well as the strong presence of a verbless interrogative structure where a noun is followed by comment, on a syntactic level. This article thus contributes to a characterisation, on syntactic, semantic and interactional levels, of partial direct interrogatives, and, more generally, to further reflection on oral genres.