Contenu du sommaire : L'analyse de corpus face à l'hétérogénéité des données

Revue Langages Mir@bel
Numéro no 187, septembre 2012
Titre du numéro L'analyse de corpus face à l'hétérogénéité des données
Texte intégral en ligne Accessible sur l'internet
  • L'analyse de corpus face à l'hétérogénéité des données : d'une difficulté méthodologique à une nécessité épistémologique - Nathalie Garric, Julien Longhi p. 3-11 accès libre
  • Hétérogénéité des corpus et textométrie - Bénédicte Pincemin p. 13-26 accès libre avec résumé avec résumé en anglais
    L'homogénéité fait partie des critères habituellement requis en linguistique de corpus. Ce critère est à discuter en regard d'autres critères concernant également la textualité, comme la représentativité et l'interprétabilité ; et sa mise en œuvre suppose une définition pragmatique des genres textuels. Au stade de l'analyse, la méthode textométrique, statistique et endogène, modélisant le corpus à partir des distributions de ses unités lexicales, est directement sensible aux hétérogénéités. Mais la tradition textométrique est aussi particulièrement attentive à la forme originale des données. Aussi la textométrie a-t-elle développé des pratiques méthodologiques et mis au point des fonctionnalités pour gérer l'hétérogénéité des corpus, évitant des opérations de réduction a priori.
    Corpus heterogeneity and textometry
    Corpus linguistics usually requires homogeneous corpora. The need for homogeneity will be discussed with reference to other factors linked to textuality, such as representativity and interpretability, and a pragmatic definition of textual genres is necessary for its application. The textometry approach, both statistical and corpus-based, presents an analysis of the corpus based on the distribution of its lexical units, and is thus directly sensitive to heterogeneity. However, textometry is careful to respect the original data. For this reason, the approach has developed a methodology and statistical tools in order to study heterogeneous corpora, thus avoiding potential loss of relevant detail.
  • Identifier et caractériser un genre : l'exemple des interviews politiques - Mylène Blasco-Dulbecco, Paul Cappeau p. 27-40 accès libre avec résumé avec résumé en anglais
    Cet article propose une réflexion sur la notion de genre dans le cadre de la linguistique sur corpus et sur la méthodologie que ces nouveaux outils permettent d'envisager. Notre réflexion prend appui sur la langue orale des hommes politiques, à travers des interviews. Notre objectif est de montrer comment peut être abordé un tel corpus et quelles questions de méthode soulève la recherche de critères morpho-syntaxiques pertinents pour cerner un genre. À partir d'une étude comparative entre le corpus initial et d'autres corpus (de langue orale et écrite), nous proposons de mieux cerner les faits de langue qui relèvent de certaines des composantes de ces productions.
    How to identify and define a genre : the example of political interviews
    This paper proposes a reflexion on the notion of genre in the context of linguistics based on a specific corpus and on the new tools this methodological approach offers. The corpus under examination is made of the oral language developed by politicians through interviews. The aim of this study is to show how to analyze such a corpus and how to answer the methodological questions raised by the search for relevant morpho-syntaxical criteria which would then allow us to define a genre.
  • Types de discours, formes textuelles et normes sémantiques : expression et doxa dans un corpus de données hétérogènes - Julien Longhi p. 41-58 accès libre avec résumé avec résumé en anglais
    Nous abordons la question de l'hétérogénéité des données du point de vue des types de discours : à partir d'un corpus de textes constitués d'un sous-corpus d'articles de presse et un autre d'articles scientifiques, nous cherchons à caractériser la spécificité des formes textuelles et des normes sémantiques de chacun des types de discours. L'étude est menée sur la thématique des jeunes de banlieue et permet de souligner la corrélation entre les plans du contenu et de l'expression, tout en fournissant un contraste éclairant pour l'étude d'un objet discursif tel que jeune de banlieue. Cette méthode, qui s'appuie sur l'hétérogénéité des données, rend alors possible une étude linguistique de la doxa, vue comme forme et substance, construite en discours.
    Types of discourse, textual forms and semantic norms : expression and doxa in a corpus of heterogeneous dataWe discuss the question of heterogeneity of data from the perspective of types of discourse : from a corpus of texts constituted by a sub-corpus of newspaper articles and another of scientific papers, we look to characterize the specificity of textual forms and semantic norms for each type of discourse. The study is conducted on the theme of youth of the suburbs, and enables the underlining of the correlation between the planes of content and expression, while providing an informative contrast for the study of a discursive subject as “jeune de banlieue”. This method, based on the heterogeneity of data, makes possible a linguistic study of doxa, seen as form and substance, built in speech.
  • De l'émergence à l'impact social des discours : hétérogénéités d'un corpus - Georgeta Cislaru, Frédérique Sitri p. 59-72 accès libre avec résumé avec résumé en anglais
    Nous discuterons dans cet article de la constitution d'un corpus de rapports éducatifs relevant du champ de la protection de l'enfance dont nous montrerons le caractère nécessairement complexe et hétérogène. Se situant dans le cadre de l'analyse du discours, notre réflexion vise à apporter quelques éléments de réponse à la question des limites et de l'homogénéité d'un corpus, notamment du point de vue des objectifs interprétatifs de la discipline. Cette question sera abordée par le biais de la contextualisation du corpus en tant que démarche de construction d'un savoir sur le domaine, de la prise en compte des déterminations interdiscursives dont la matérialité langagière constitue la trace et enfin de l'analyse génétique de brouillons de rapports éducatifs, qui rend compte de l'inscription de contraintes diverses au fil du processus d'écriture.
    From the emergence to the social impact of discourse : corpus heterogeneity
    This paper brings under scrutiny the conditions of constituting a corpus of social reports that emanate from child protective services. It aims at showing the inexorable complexity and heterogeneity of such a corpus. From the standpoint of French Discourse Analysis, we attempt answering the question of the limits of homogeneity in corpus studies, due to the interpretive aims of the discipline. We bring evidence from three domains : i) the corpus contextualization, as a mean for building domain knowledge ; ii) the analysis of the interdiscourse inasmuch as it is traceable and linguistically marked ; iii) the genetic study of the drafts of social reports, pointing out the impact of various constraints all the way through the writing process.
  • Construire et maîtriser l'hétérogénéité par la variation des données, des corpus et des méthodes - Nathalie Garric p. 73-92 accès libre avec résumé avec résumé en anglais
    L'hétérogénéité est définie comme une ressource à construire méthodologiquement par la mise en œuvre d'un principe de variation systématique appliqué aux données, aux corpus, aux méthodes et à l'interprétation des résultats. Elle est posée comme une condition d'accès à l'espace interdiscursif d'une formation discursive, dont la saisie est elle-même nécessaire à la compréhension de certains faits socio-historiques. Ces considérations sont développées à l'aide d'une étude de cas consacrée à l'analyse des différentes issues de la formation en alternance, notamment à celle des cas de rupture de contrat d'apprentissage. L'analyse porte sur les discours suscités d'apprentis et de maîtres d'apprentissage au cours de leur expérience de formation.
    How variation in data, corpora and methods can bring about the construction and control of heterogeneityHeterogeneity is defined as a means to be methodically constructed by the implementation of a systematic variation principle applied to data, corpus, methods and interpretation of results. It is placed as a condition of access to space interdiscursive of a discursive formation, for which entry is itself necessary to the understanding of socio-historical facts. These considerations are developed using a case study devoted to the analysis of the various exits of the sandwich education, especially in the cases of breach of contract learning. The analysis focuses on the speech raised apprentices and master trainers in their training experience.
  • Recherche improbable d'une homogène diversité : le débat sur l'identité nationale - Pierre Ratinaud, Pascal Marchand p. 93-107 accès libre avec résumé avec résumé en anglais
    Dans cet article, nous comparons les effets de deux méthodes de correction morphologique d'un corpus issu du web sur des classifications de type ALCESTE avec le logiciel IRAMUTEQ. À partir des 18 240 contributions au débat sur l'identité nationale, nous comparons le corpus initial avec un corpus corrigé manuellement et un corpus corrigé par une méthode semi-automatique reposant sur une utilisation particulière du correcteur Hunspell. Les trois corpus obtenus (initial, automatique et manuel) sont soumis à deux classifications hiérarchiques descendantes : l'une conserve les 1 500 formes pleines les plus fréquentes, l'autre les 3 000 formes pleines les plus fréquentes. La comparaison deux à deux des résultats obtenus sur chacun des corpus montre que la correction automatique que nous proposons permet de se rapprocher significativement d'une correction manuelle.
    Improbable search of a homogeneous diversity : the debate on national identity
    In this paper, we compare the effects of two methods of morphological correction of corpus coming from the web on ALCESTE analysis made with the IRAMUTEQ software. From the 18 240 contributions to the debate on national identity, we compare the initial corpus with a manually corrected one and with a semi-automatic correction method based on a particular used of the Hunspell corrector. The three corpora (initial, automatic and manual) are used in two different hierarchical clustering : one that retain the 1 500 most frequent words and one that retain the 3 000 most frequent words. The comparison of results obtained on each corpus shows that the automatic correction that we proposed allow to come significantly closer to a manual one.
  • Influence du genre applicatif sur la réalisation des extractions en dialogue oral : constantes et variations - Jean-Yves Antoine, Jeanne Villaneau, Jérôme Goulian p. 109-126 accès libre avec résumé avec résumé en anglais
    Cet article présente une étude de corpus portant sur les variations d'ordre linéaire en français parlé spontané. Nous avons étudié plusieurs corpus de dialogue finalisé correspondant à différentes tâches applicatives afin d'évaluer l'influence du contexte discursif sur ces phénomènes. Nous insistons, dans un premier temps, sur l'intérêt d'études de corpus pour orienter les recherches en Traitement Automatique des Langues. Nous présentons ensuite notre méthodologie d'analyse ainsi que les principaux résultats de l'étude. Ceux-ci montrent que la tâche et le rôle du locuteur dans l'interaction n'ont pas d'influence significative sur la réalisation des dislocations orales, alors que le degré d'interactivité joue au contraire sur leur fréquence. Ces variations d'ordonnancement respectent toutefois de fortes régularités imposées par le système de la langue. Aussi concluons-nous que le français parlé spontané reste une langue à ordre SVO fixe.
    Task influence on word-order phenomena in spoken dialogue : consistencies and variations This paper presents a corpus study on word order variations (WOV) in spontaneous spoken French. We have studied several corpus of spoken dialogue dedicated to different tasks to assess the influence of the discourse context on WOVs. At first, we show how the contribution of pilot corpus studies should benefit to Natural Language Processing researches. Then, we present our methodology and the main results of this study. In particular, we observe that the task and the role of the speaker have no influence on WOVs, while the frequency of WOVs is on the contrary highly influenced by the degree of interactivity of the dialogues. These WOVs respect some noticeable structural regularities which are imposed by French ordering constraints. This is why we conclude that conversational spoken French must be still considered as a language with a rigid SVO ordering.
  • Hétérogénéité et extraction d'information factuelle dans un corpus de récits de voyage - Anaïs Lefeuvre, Natalia Vinogradova p. 127-144 accès libre avec résumé avec résumé en anglais
    L'extraction d'information nécessite une connaissance des objets à extraire. Nous cherchons dans ce travail à décrire le comportement des séquences textuelles présentant l'itinéraire au sein du récit de voyage. Le récit de voyage est reconnu comme genre hétérogène, nous analysons donc cette hétérogénéité afin de pouvoir reconnaître les séquences homogènes, dont la description d'itinéraire fait partie. Nous menons notre analyse à plusieurs niveaux discursifs, ce qui nous permet d'avoir une vision globale du comportement de notre objet d'étude, l'itinéraire et du contexte dans lequel il apparaît. Dans la perspective de l'extraction automatique d'itinéraire, nous utilisons de nombreux outils, chacun adapté au mieux au niveau d'analyse traité. En nous appuyant sur le cadre théorique de la SRDT (Segmented Discourse Representation Theory), dont nous montrons l'adéquation à l'étude, nous approchons le fonctionnement des descriptions des itinéraires, nous poussant à enrichir la méthode d'extraction afin de gérer l'hétérogénéité des unités discursives dans lesquels l'itinéraire est énoncé.
    Heterogeneity and factual information extraction in a corpus of travel writing
    The information extraction task requires a good knowledge of the object to be extracted. In this work we explore the behavior of textual sequences describing the itinerary within the travel writing. Travel novel is a specific genre that is recognized to be heterogeneous, so we analyze its heterogeneity in order to discriminate homogeneous sequences, one of which being the itinerary description. Our analysis holds on different discourse levels, it allows us to get an overview of itinerary behavior through the narration. In order to automatize the extraction of itineraries, we use different tools, each one being perfectly adapted to the discourse level in question. Our theoretical framework at the semantic representation level, the SDRT (Segmented Discourse Representation Theory), complies with such kind of analysis, as we see in the course of this work. This study makes us understand the itinerary sequences behavior, leading us to enrich our extraction method to cope with heterogeneity of the discourse units dedicated to the itinerary.