Contenu du sommaire : La fréquence textuelle : bilan et perspectives

Revue Langages Mir@bel
Numéro no 197, mars 2015
Titre du numéro La fréquence textuelle : bilan et perspectives
Texte intégral en ligne Accessible sur l'internet
  • Les différentes formes de la fréquence textuelle : proposition d'inventaire - Sylvain Loiseau p. 5-21 accès libre avec résumé avec résumé en anglais
    Dans cette introduction, on propose de distinguer différents types de fréquence textuelle mobilisés dans la description linguistique et illustrés dans les contributions de ce numéro de Langages. La fréquence peut, en effet, être une grandeur abstraite, non susceptible d'être mesurée dans un corpus précis ; il peut s'agir d'une fréquence mesurée ; il peut s'agir enfin des intuitions de fréquence des locuteurs, i.e. d'un savoir épilinguistique. On peut également distinguer différents degrés d'abstraction dans l'utilisation des faits de fréquence : la fréquence peut être mobilisée dans des « lois » valables pour toutes les langues, ou bien pour décrire le système fonctionnel d'une langue, ou enfin pour établir des particularismes de variétés ou des régularités de genres textuels. Nous discutons enfin des paradoxes et des difficultés identifiées dans l'utilisation de la fréquence textuelle.
    This introduction focuses on how central frequency is in linguistics. I propose to distinguish between several kinds of textual frequency. Textual frequency can be conceived as a measure, an intuition, or an abstract argument. Moreover, frequency can be considered at different levels: it can help characterize a variety or register, the whole system of a language, or a universal (trans-linguistic) constant. I claim these distinctions will improve our understanding of textual frequency and its use.
  • Diachronie du français et linguistique de corpus : une approche quantitative renouvelée - Sophie Prévost p. 23-45 accès libre avec résumé avec résumé en anglais
    Le présent article aborde la question de la fréquence textuelle du point de vue des études menées sur des états de langue anciens et dans une perspective diachronique. L'appui sur des données attestées, et sur leur quantification, a toujours été indispensable pour les linguistes travaillant sur une langue sans locuteurs et visant à rendre compte des changements. La numérisation des textes et le développement conjoint d'outils de traitement a cependant provoqué un important bouleversement méthodologique, du fait de la massification des données désormais traitées. Les gains sont nombreux, en particulier pour l'établissement de chronologies affinées et le repérage des lieux du changement. La présentation de quelques aspects de l'évolution de la syntaxe du sujet pronominal permet d'illustrer les apports d'une quantification à grande échelle et de pointer certaines limites de cette approche.
    The present study deals with textual frequencies, considered from the point of view of former states of the language, and in a diachronic perspective. Linguists working on a language without speakers and aiming to account for linguistic changes have always relied on attested data and on their quantification. But electronic databases, and the text mining software developed to process them, have brought on major methodological changes to the field, due to the massification of the data henceforth dealt with. This results in many benefits, especially when the task is to refine the chronology and pinpoint the locus of specific language changes. In order to illustrate the benefits of a massive quantification as well as the limits of such an approach, I present some aspects of the evolution of the pronominal subject in French.
  • La fréquence en morphologie : pour quels usages ? - Georgette Dal, Fiammetta Namer p. 47-68 accès libre avec résumé avec résumé en anglais
    Cet article a pour objectif de faire le point sur la notion de fréquence et sur l'utilisation encore timide qui en est faite en France dans les recherches actuelles en morphologie. Nous commençons par distinguer et définir trois types de fréquence : fréquence d'occurrence, fréquence de lexème et fréquence constructionnelle, que nous mettons en rapport avec la notion de productivité. À titre d'illustration, nous exploitons ensuite ces notions pour comparer, dans frWaC, le comportement des nominalisations en Xisation et Xabilité en français.
    The goal of this article is to take stock of the notion of frequency, the use of which remains today under-exploited by morphologists in France. We begin by distinguishing and defining three types of frequency: frequency of occurrence, lexeme frequency and constructional frequency, all of which we relate to the notion of productivity. By way of illustration, we then make use of these notions to compare, using frWaC, the behaviour of nominalisations in Xisation and Xabilité in French.
  • Mode de N et type de N, de la synonymie à la polysémie - Philippe Gréa, Pauline Haas p. 69-98 accès libre avec résumé avec résumé en anglais
    L'objectif de cette étude est de décrire le fonctionnement sémantique des deux noms taxinomiques type et mode dans la structure [N0 être Det (type / mode) de N1] en observant leurs distributions nominales. Dans cette structure, type permet de marquer une relation de catégorisation de telle sorte que N0 est inclus dans la catégorie N1. Mode exprime, quant à lui, l'idée de manière. Notre approche est empirique et statistique. Notre corpus a permis de réunir 5 843 unités lexicales pouvant entrer dans la distribution de mode, de type ou les deux. Les données sont présentées en fonction des rapports d'attirance et de répulsion existant entre les deux classificateurs et les noms sur lesquels ils portent. Nous montrons que les emplois de type et mode peuvent être quasi-synonymiques (un mode de raisonnement / un type de raisonnement) ou, au contraire, mettre en évidence la polysémie ACTION / OBJET du nom (ce mode de chauffage est économique [ACTION] / ce type de chauffage est toujours en fonte [OBJET]).
    The aim of this empirical and statistical study is to describe the classifiers type (type) and mode (way), which can be found in the structure [N0 être Det (type / mode) de N1]. Type marks a categorization relation (such that N0 is within the category denoted by N1), while mode is associated with the notions of ways. Our corpus allowed us to gather 5 843 lexical units that can have the same distribution as mode, type, or both. The data are presented according to attraction-repulsion links between the classifiers and the nouns they modify. It is shown that type and mode can be near-synonyms (e.g. un mode de raisonnement / un type de raisonnement) but that some of their uses highlight their ACTION/OBJET polysemy (e.g. ce mode de chauffage est économique [ACTION] / ce type de chauffage est toujours en fonte [OBJECT]).
  • Le statut de la fréquence dans les grammaires de constructions : simple comme bonjour ? - Guillaume Desagulier p. 99-128 accès libre avec résumé avec résumé en anglais
    Cet article fait le point sur le statut de la fréquence dans les grammaires de constructions sous l'angle de l'ancrage cognitif et des collocations. Je montre que le traitement intuitif des phénomènes de fréquences au détriment de l'empirie mène souvent à une vision faussée de l'usage. L'article est structuré comme suit. La première partie est épistémologique. J'y aborde le statut de la fréquence dans le contexte du tournant quantitatif dans les approches centrées sur l'usage. La deuxième partie est consacrée à l'étude de A as GN dans un corpus d'anglais américain. J'utilise trois outils : l'analyse collexémique covariante, la classification ascendante hiérarchique et ΔP, une mesure d'association permettant de repérer les collocations asymétriques. La troisième partie propose une discussion critique des résultats et des méthodes.
    This paper investigates the status of frequency in construction grammar approaches with respect to both entrenchment and collocation. I claim that if linguists treat frequency intuitively and regardless of empirical verification, they expose themselves to a distorted view of usage. The first part of the paper is epistemological. I explore the status of frequency in the context of the quantitative turn in usage-based linguistics. The second part presents a case study of A as NP in a corpus of American English. I implement three tools: co-varying collexeme analysis, hierarchical cluster analysis, and a directional association measure: ΔP. The third part of the paper discusses the methods and the results.
  • Marqueurs intonosyntaxiques en français parlé et genres : compter pourquoi, compter quoi, compter comment ? - Julie Beliao, Anne Lacheret, Sylvain Kahane p. 129-153 accès libre avec résumé avec résumé en anglais
    Nous montrons comment la fréquence variable de traits prosodiques, syntaxiques et intonosyntaxiques constitue un indice pour caractériser des types de textes à l'oral et les genres qui les engendrent. Parmi l'ensemble des traits formels explorés, on s'interroge sur la manière dont ils se répartissent en termes de redondance de l'information, de complémentarité ou de pertinence pour l'étude des variables situationnelles considérées. Lors de notre étude quantitative, nous confrontons deux méthodes de classification supervisée : arbres de décision et machine à vecteurs supports, et nous abordons le problème de la représentation graphique des traits grâce à l'analyse en composantes principales. L'ensemble donne un retour précis et inédit sur le rôle de l'interface intonosyntaxique dans l'identification des genres en français parlé.
    We highlight how the variable frequency of prosodic, syntactic and intonosyntactic features is a strong predictor for discourse genre classification in speech. We quantify this claim by studying the mutual information these features share with the situational variables considered, allowing us to identify possibly redundant information and to adequately predict genres from intonosyntactic annotations. In our quantitative study, we compare two methods for supervised classification: decision trees and support vector machines. Furthermore, we address the issue of graphical representations of features through a principal component analysis. All these points provide valuable feedback on the role played by the intonosyntactic interface in the identification of discourse genres in spoken French.