Contenu du sommaire : Les outils informatiques au service des linguistes

Revue	Langue française
Numéro	no 203, septembre 2019
Titre du numéro	Les outils informatiques au service des linguistes
Texte intégral en ligne	Accessible sur l'internet

Éditorial - Jacques Bres p. 5
Les outils informatiques au service des linguistes : présentation - Max Silberztein p. 7-14
Emma aime Gabriel : une grammaire transformationnelle - Max Silberztein p. 15-33
Cet article présente une grammaire qui décrit un ensemble de plusieurs milliards de phrases transformées de la phrase élémentaire Emma aime Gabriel. Cette grammaire formalisée peut être utilisée par la plateforme linguistique NooJ à la fois pour générer automatiquement toutes ces phrases mais aussi pour reconnaître et analyser automatiquement les phrases transformées à l'aide de séquences d'opérateurs transformationnels.
This paper presents a grammar that represents a set of billions of sentences that are transformational variants of the elementary sentence Emma aime Gabriel. This formalized grammar can be used by the NooJ linguistic platform to automatically generate all these sentences, and also to automatically recognize all transformational variants and analyze them by means of sequences of transformational operators.
Une étude de la coordination des propositions avec ellipse en français : formalisation et application avec XLFG - Lionel Clément p. 35-52
Nous tentons dans cette étude d'analyser la coordination des propositions avec ellipse en français dans deux cas problématiques : la mise en facteur à droite d'arguments (Montée à droite de l'argument ou Right Node Raising) et les constructions trouées (Non-constituent Coordination). L'implémentation que nous proposons en xlfg aura comme but principal de nous donner quelques libertés par rapport aux analyses habituelles lfg, tout en confrontant notre proposition à l'expérimentation et à la rigueur d'un système automatique. Nous proposons cependant une analyse compatible avec la théorie lfg, qui réhabilitera deux idées traditionnelles de la syntaxe : (i) que la coordination a comme tête syntaxique la conjonction de coordination, (ii) que l'élément effacé est interprété en fonction du contexte.
In this study, we try to examine sentential coordination with ellipsis in French in two problematic cases: Right Node Raising and Non-constituent Coordination. The main goal of the implementation that we propose in xlfg will be to provide us more leeway in comparison with the usual lfg analyses, while confronting our proposal with an experimentation and the rigour aspect of an automatic system. However, we propose an analysis compatible with the lfg theory, which will rehabilitate two traditional ideas of syntax: (i) that coordination conjunctions are at the head of the coordination, (ii) the deleted element is interpreted according to the context.
La distinction /e/ vs /ɛ/ en français standard est-elle maintenue en finale de mot ? Étude sur des corpus de parole journalistique et de parole spontanée - Cédric Gendrot, Nicolas Audibert p. 53-66
Nous testons dans cette étude l'hypothèse selon laquelle les voyelles moyennes /e/ et /ɛ/ sont dans un processus de fusion acoustique. Nous comparons deux corpus de parole journalistique et de parole spontanée en détaillant les précautions méthodologiques nécessaires à une ana-lyse de parole. Nous montrons qu'en position finale la distance acoustique entre /e/ et /ɛ/ est moins importante que celle entre /a/ et /ɛ/, particulièrement en parole spontanée et de façon plus marquée entre les mots et et est ainsi qu'entre les infinitifs en ‹-er› et les formes conjuguées en ‹-ais› ou ‹-ait›. Ces résultats valident l'hypothèse qu'un rapprochement entre /e/ et /ɛ/ est bien en cours. Cette étude est réalisée à l'aide de praat, logiciel libre qui permet l'annotation et l'analyse de données de parole.
We test the hypothesis that mid vowels /e/ and /ɛ/ are becoming acoustically merged in standard French. For that purpose we use two corpora of broadcast and spontaneous speech, the methodological safeguards necessary for this corpus analysis are detailed. We show that in final position the acoustic distance between /e/ and /ɛ/ is less important than the distance between /a/ and /ɛ/, especially in the spontaneous speech corpus and between the words et and est and verbs with final ‹-er› vs. ‹-ais› or ‹-ait›. These results reveal that a process of merging is undergoing. This study is realized with praat, a free software program for speech annotation and analysis.
Explorer la combinatoire lexico-syntaxique des mots et expressions avec le LEXICOSCOPE - Olivier Kraif p. 67-82
Nous montrons dans cet article comment exploiter un corpus annoté en dépendances syntaxiques : nous chercherons à extraire des cooccurrents synthétisant la combinatoire lexico-syntaxiques des mots et aussi à travailler à un niveau plus général sur des expressions, voire des constructions, plus complexes et plus abstraites que les simples pivots lexicaux. Pour mettre en œuvre les requêtes sous-jacentes, et permettre à des utilisateurs non experts de les manipuler, nous proposons de guider l'exploration par l'analogie et de construire des requêtes sur la base d'exemples avec l'outil Lexicoscope.
In this article, we show how to take advantage of corpora annotated in syntactic dependencies: we aim at extracting collocations that summerize the lexico-syntactic contexts of words, as well as working at a more general level on expressions, or even constructions, that are more complex and abstract than simple lexical pivots. To implement the underlying queries, and allow non-expert users to manipulate them, we propose to guide exploration with analogy and to construct example-based queries, using the Lexicoscope tool.
Utiliser la linguistique de corpus pour renforcer les compétences des étudiants dans l'analyse syntaxique - Doriane Simonnet, Agnès Tutin p. 83-99
Parmi les applications didactiques de la linguistique de corpus, l'intérêt pour les enseignements en Sciences du langage est rarement mentionné. Nous souhaitions, dans cet article, évaluer dans quelle mesure l'intégration d'une approche de linguistique de corpus pouvait renforcer des compétences d'analyse linguistique pour des étudiants de licence de 2e année en Sciences du langage. Le dispositif, qui se voulait complémentaire d'un cours de syntaxe, proposait aux étudiants de filtrer et d'observer la catégorie adverbiale dans un corpus journalistique à l'aide de l'outil NooJ. Les résultats montrent, dans l'ensemble, l'adhésion et l'intérêt des apprenants pour la tâche qu'ils estiment plutôt utile et complémentaire des cours théoriques. L'évaluation montre, par ailleurs, que, pour susciter une réelle réflexion sur les données et leur modélisation, il apparaît essentiel de limiter la complexité technique des outils utilisés.
Among the didactic applications of corpus linguistics, linguistics teaching is rarely emphasized. In this article, we wanted to evaluate the extent to which the use of a corpus linguistics approach could reinforce linguistic skills for undergraduate students in the 2nd year of a Bachelor's degree in linguistics. The project, which intended to complement a syntax course, gave students the opportunity to filter and observe adverbs in a newspaper corpus using the NooJ tool. The results showed on the whole that the learners support and have an interest for the task, which they considered rather useful and complementary to the theoretical courses. The evaluation also shows that, in order to stimulate real reflection on data and their modelling, it seems essential to limit the technical complexity of the tools.
Explorer, mesurer, contextualiser. Quelques apports de la textométrie à l'analyse de discours - Damon Mayaffre, Bénédicte Pincemin, Céline Poudat p. 101-115
Notre recherche vise à décrire la parole publique du président français Macron par rapport à celle de ses prédécesseurs de la Ve République (1958-2019). L'article montre comment la textométrie est mobilisable pour effectuer différents types d'investigations linguistiques : irrégularités de répartition des mots, évolution diachronique du vocabulaire, relevés systématiques et organisés d'attestations en contexte, synthèse statistique des contextes syntagmatiques locaux par cooccurrence, visualisations de la structure lexicale globale du corpus par analyse factorielle des correspondances et analyse arborée. Notre objectif est double : il s'agit, d'une part, d'analyser le discours macronien et, d'autre part, de montrer comment la textométrie permet de répondre à des questionnements linguistiques classiques en corpus, en mobilisant les logiciels hyperbase web et txm.
This research aims at describing the French President Macron's public speeches, in comparison with those of the former French Fifth Republic presidents (1958-2019). Our paper bears testimony to the extent to which textometric methods are relevant to investigate different types of linguistic phenomena: irregularities in word distribution patterns, vocabulary change over time, systematic and organized overviews of attested forms in context, statistical summary of local syntagmatic contexts using cooccurrences, visualizations of corpus structure using correspondence analysis and additive tree clustering. Our goal is twofold: providing an analysis of Macron's speeches on the one hand, and showing how textometry enables linguists to answer standard questions investigating corpora on the other hand. In that respect, we will resort to two software programs: hyperbase web and txm.