Contenu du sommaire : Constitution de corpus linguistiques et pérennisation des données.

Revue Histoire, Epistémologie, Langage Mir@bel
Numéro Vol. 38, no 2, 2016
Titre du numéro Constitution de corpus linguistiques et pérennisation des données.
Texte intégral en ligne Accessible sur l'internet
  • Constitution de corpus linguistiques et pérennisation des données

    • Présentation - Gabriel Bergounioux, Bernard Colombat, Jacqueline Léon p. 5-8 accès libre
    • La constitution d'un corpus de Geordie parlé : choix épistémologiques et réalisations empiriques. Retour sur un demi-siècle de sociophonétique anglaise - Maëlle Amand p. 9-21 accès libre avec résumé avec résumé en anglais
      Cet article traite de la constitution d'un corpus parlé de l'anglais du Tyneside (plus connu sous le nom de Geordie) ou Diachronic Electronic Corpus of Tyneside English (DECTE, Corrigan et al. 2010-2012). Ce dernier consigne près de cinquante ans de recherche en linguistique de corpus. À la fin des années soixante, au moment où débute l'enquête linguistique du Tyneside (ou TLS), deux enquêtes linguistiques s'achèvent. L'une en Grande-Bretagne, l'autre aux États-Unis. Or, si Labov recommandait le recours à un nombre limité de variables lors d'études de données linguistiques, la TLS avait pour but original d'inclure le maximum de variables afin de permettre des analyses plus précises sur des données plus conséquentes grâce aux nouveaux outils informatiques à la disposition des chercheurs (Pellowe et al. 1972, Jones-Sargent 1983). Lors de la conception de l'enquête TLS, la possibilité de traitement par la machine avait toute son importance. Après une présentation de l'école anglaise en dialectologie, souvent promue par les universités du nord de l'Angleterre (malgré un grand nombre d'études sur les dialectes dans les années 1970), nous traitons de la particularité des approches méthodologiques du DECTE, des projets à la fois de conservation des données afin de numériser des enregistrements jusqu'alors sur bande magnétique, et de diffusion auprès du grand public.
      This paper investigates the creation of the Diachronic Electronic Corpus of Tyneside English (henceforth, DECTE, Corrigan et al. 2010-2012) a spoken corpus of Tyneside English, more commonly known as Geordie English. It comprises more than ú fty years of research in corpus linguistics. At the end of the 1960s, as the Tyneside Linguistic Survey (henceforth TLS) was about to start, two linguistic surveys had just been completed, the former in Great-Britain and the other one, in the USA. But while Labov recommended the use of a smaller number of variables in the study of linguistic data, the TLS's original aim was to use as many variables as possible so as to enable more detailed analyses on bigger data thanks to the new computing tools that were increasingly available for research (Pellowe et al. 1972, Jones-Sargent 1983) and to make it machine-readable. After an overview of the English school of dialectology, often propelled by northern universities (despite a great number of studies on southern dialects in the 1970s), we highlight the specificities of DECTE regarding its methodological approaches, the various preservation projects to transfer the sounds from magnetic tapes to digital files along with their accessibility to the community of linguistics as well as to the public.
    • Du dictionnaire lexico-phonétisé aux corpus oraux, quelques problèmes épistémologiques pour l'école de Guierre - Nicolas Ballier p. 23-40 accès libre avec résumé avec résumé en anglais
      Cette contribution examine le changement à l'oeuvre dans une partie de la recherche des phonologues formés dans le cadre de l'école de Guierre et se propose de revenir sur cinquante ans de cette tradition d'analyse du placement accentuel de l'anglais, en exposant le déplacement de certaines problématiques, d'un questionnement de l'institutionnalisation de la variation à partir de sa consignation dans les dictionnaires de prononciation à son exploration dans les corpus oraux.
      This paper discusses some of the theoretical issues attending the on-going changes in English phonology as analysed in France over the last fifty years, from a corpus-driven investigation of stress patterns and vowel realisations in pronouncing dictionaries to a corpus-based investigation of variants in phonetic corpora. Section 1 presents the research agenda set out by Lionel Guierre and pursued by other French phonologists that he inspired. Section 2 discusses the kind of data analysed, from dictionaries to spoken corpora. Section 3 exemplifies three issues of this ‘paradigm shift' : tokenization of phonetic forms, LNRE distributions and conditional probabilities of occurrences of spoken phenomena.
    • La linguistique de corpus et la partition des structuralismes - Gabriel Bergounioux p. 41-54 accès libre avec résumé avec résumé en anglais
      Il y a trois façons principales de réaliser une étude sur une langue : (i) une description exécutée par un locuteur à partir de ses propres connaissances, (ii) un travail réalisé sur des sources écrites, (iii) la constitution de données orales. Cette dernière solution a été choisie par F. Boas qui a fixé les principes de constitution des corpus oraux en lien avec l'anthropologie, donnant au structuralisme américain une orientation qui le distingue des structuralismes russe et français qui ne s'assignaient pas pour tâche principale la collecte des langues.
      There are three main ways to carry out a study of any language : (i) a speaker's description, (ii) a survey based on written sources, (iii) the collection of oral data. F. Boas has chosen the latter solution. He established general principles for the design of oral corpora in conjunction with anthropological sciences. In this way, he provides specific direction for the American structuralism. As Troubetzkoy's and Saussure's main objective was not linguistic data collection, there is a significant difference between Russian and French schools on the one hand, American school on the other hand.
    • L'extension du Grand Corpus des grammaires françaises, des remarques et des traités sur la langue : questions théoriques et méthodologiques - Wendy Ayres-Bennett, Bernard Colombat p. 55-71 accès libre avec résumé avec résumé en anglais
      Cet article envisage l'extension du Grand Corpus des grammaires françaises, des remarques et des traités sur la langue (2011) à un ensemble plus vaste de textes couvrant les XVIIe et XVIIIe siècles. Après une présentation du corpus existant, il évoque les principes mis en oeuvre pour sa continuation, en analysant notamment les critères de sélection pour les choix des textes, sans oublier les difficultés que l'entreprise soulève (découpage temporel, hétérogénéité des textes, mise en oeuvre de l'outillage).
      In this articlewe discuss how theGrand Corpus des grammaires françaises, des remarques et des traités sur la langue (2011) will be expanded by the addition of a large number of seventeenth-and eighteenth-century texts. Following a brief presentation of the existing corpus, the principles governing the second phase are outlined, notably the criteria used for selecting the new texts, as well as the difficulties associated with such an enterprise (choice of temporal limits ; heterogeneity of the texts ; selection of search tools, etc.).
    • De la collecte à l'analyse d'un corpus de SMS authentiques : une démarche pluridisciplinaire - Rachel Panckhurst, Mathieu Roche, Cédric Lopez, Bertrand Verine, Catherine Détrie, Claudine Moïse p. 73-85 accès libre avec résumé avec résumé en anglais
      Nous présentons notre approche fondée sur les données authentiques, en nous concentrant sur des recherches récentes, portant sur le recueil, le traitement et l'analyse d'un grand corpus de SMS en français, intitulé 88milSMS (http://88milsms. huma-num.fr/, Panckhurst, Détrie, Lopez, Moïse, Roche, Verine, 2014), incluant un questionnaire sociolinguistique soumis aux donateurs au moment de la collecte ainsi que leurs réponses. Puis nous expliquons pourquoi, dans une démarche pluridisciplinaire (située entre sciences du langage, informatique et traitement automatique du langage naturel), nous avons décidé de fournir à la communauté scientifique et au grand public le corpus de SMS.
      This article highlights an approach based on authentic data, by focusing on recent research related to collection, processing and analysis of a large French text-message corpus, entitled 88milSMS (http://88milsms.huma-num.fr/, Panckhurst, Détrie, Lopez, Moïse, Roche, Verine, 2014), including a sociolinguistic questionnaire submitted to donors (with their answers). The authors, using a pluridisciplinary approach (linguistics/ language sciences, computer science, Natural Language Processing), explain why they chose to give the scientific community and the general public access to the SMS corpus.
    • Une linguistique outillée, pour quels objets ? - Marie-Paule Jacques p. 87-99 accès libre avec résumé avec résumé en anglais
      Nous prenons dans cet article le parti d'interroger non les apports des corpus en tant que tels à la recherche linguistique et à la constitution de nouveaux savoirs mais la nature des objets de recherche et le type de recherches induits par une linguistique de corpus, plus précisément une linguistique outillée. Nous défendons l'idée que l'outillage même de la linguistique oriente la recherche vers les formes, selon une approche sémasiologique. Toutefois, nombre de recherches en corpus visent à cerner les expressions linguistiques de certaines significations, selon une approche onomasiologique, tout en utilisant des outils et des apports du TAL pour ce faire. Nous en tirons des propositions méthodologiques pour accroitre la valeur scientifique des recherches.
      In this article, I question the relationship between corpus linguistics and the kind of research objects that a computer-based linguistics deals with. I try to show that using software to carry out linguistic investigations in ü uences the kind of objects linguists are studying. Computers help to grab forms, so linguists tend to take forms as a point of departure and investigate their meaning(s). Another orientation exists, from meaning to the expressions that express this given meaning, and it may also use software tools. In this case, in order to limit subjectivity, I propose to adopt a methodology which combines a measure of judgments about the collected data and in-corpus annotation of the phenomena under study.
    • Comment indexer les corpus oraux ? - Pascal Cordereix p. 101-113 accès libre avec résumé avec résumé en anglais
      La patrimonialisation des corpus oraux fait désormais partie de leur cycle de vie. Le geste de «mettre à part » (Michel de Certeau) qui caractérise toute entrée en archives amène notamment à un ensemble d'actions descriptives (inventaire, catalogage…) normées, qui vont permettre la consultation, la diffusion, l'exploitation et la conservation pérenne, etc. du corpus. Dans cet article, nous présentons certaines problématiques sous-jacentes à la description d'archives sonores dans le cadre d'une institution patrimoniale. Nous replacerons ces questionnements dans une perspective historique, des premières fiches descriptives à la fin du XIXe siècle jusqu'aux modèles conceptuels de données du web sémantique et du web de données aujourd'hui.
      Becoming part of cultural heritage, patrimonialisation has now become a step in spoken corpuses' life-cycle. The action of ‘putting aside, gathering' (Michel de Certeau) which characterizes any archiving leads in particular to a range of standardized descriptive processes (inventorying, cataloging…), which will provide catalogue consulting, dissemination, use and permanent preservation of the body of archives. In this article, we will develop some issues underlying sound archives description in the context of heritage institutions. We will put these issues from a historical perspective, dating back from the XIXth century written descriptive sheets to conceptual data formats in our today semantic web and linked data environment.
  • Varia

    • L´émergence de la biolinguistique et ses conséquences pour la théorie linguistique - Lorenzo Vitral p. 117-136 accès libre avec résumé avec résumé en anglais
      L'objectif majeur de cet article est de donner une caractérisation des fondements de la biolinguistique, en dégagant quelques conséquences théoriques et empiriques. La principale différence de la biolinguistique avec ce que l'on proposait avant est la révision du locus des principes de la faculté du langage. Avec la biolinguistique, le focus est mis sur des principes d'une nature cognitive plus large qui joueraient un rôle dans la détermination des faits internes au langage. En prenant en compte surtout l'analyse de Sigurðsson 2011 sur le phénomène du sujet nul, qui emploie la notion de troisième facteur, on discute la place et la fonction de la variation linguistique dans le modèle. On se demande enfin si les données descriptives jouent un rôle instrumental au regard de la quête de principes de portée cognitive plus large, ce qui nous conduit à nous demander quel est effectivement l'objet d'étude qui intéresse la théorie linguistique.
      discussion about the foundations of biolinguistics. The major difference between biolinguistics and what was done before is the theoretical role of the principles of the faculty of language. Now, the focus is on principles of other cognitive systems which have a role in internal facts of language. With particular reference to Sigurðsson's 2011 analysis on the well known phenomena of the null subjects, which considers the notion of third factor, we showed that the biolinguistic perspective allows us to rethink the definition of the role of linguistic variation and the value of the notion of parameter, which now appears to have a secondary role. Finally, the discussion leads us to ask what in fact is the object of study that is of interest to the linguistic theory.
    • Norme théorique et mises en pratique : le cas de Gratien du Pont (1534, 1539) - Véronique Montagne p. 137-151 accès libre avec résumé avec résumé en anglais
      Les normes prosodiques modernes se mettent progressivement en place à la Renaissance, dans des traités de seconde rhétorique comme celui du toulousain Gratien du Pont, intitulé L'art et science de rhetoricque metriffiée (1539). Ce dernier ouvrage présente un cas où l'auteur construit une norme qui correspond parfaitement à son propre travail poétique, tel qu'il est représenté par les Controverses des sexes masculin et femenin parues en 1534. Cette norme est en revanche déjà désuète dans le contexte poétique des années 1540-1550, qu'il s'agisse de la théorisation ou de la pratique de cette dernière, à l'exception notable de la Requeste faicte et baillée par les dames de la ville de Tolose, qui a été rédigée dans les années 1540, avant d'être publié en 1555.
      Modern prosodic standards set up during the French Renaissance, in second rhetoric treatises, like L'art et science de rhetoricque metriffiée (1539) written by Gratien du Pont, from Toulouse. This treatise present a poetic standard which match perfectly with his own poetic work, represented by the Controverses des sexes masculin et femenin (1534). This standard is however yet outdated in the poetic context of the years 1540-1550, whether theoretical, whether practical, except the anonymous Requeste faicte et baillée par les dames de la ville de Tolose, written during the 1540' and published in 1555.
  • Lectures et critiques

  • Informations pour les auteurs - p. 177-178 accès libre
  • Information note for authors - p. 179-180 accès libre