Contenu de l'article

Titre Hétérogénéité des corpus et textométrie
Auteur Bénédicte Pincemin
Mir@bel Revue Langages
Numéro no 187, septembre 2012 L'analyse de corpus face à l'hétérogénéité des données
Page 13-26
Résumé L'homogénéité fait partie des critères habituellement requis en linguistique de corpus. Ce critère est à discuter en regard d'autres critères concernant également la textualité, comme la représentativité et l'interprétabilité ; et sa mise en œuvre suppose une définition pragmatique des genres textuels. Au stade de l'analyse, la méthode textométrique, statistique et endogène, modélisant le corpus à partir des distributions de ses unités lexicales, est directement sensible aux hétérogénéités. Mais la tradition textométrique est aussi particulièrement attentive à la forme originale des données. Aussi la textométrie a-t-elle développé des pratiques méthodologiques et mis au point des fonctionnalités pour gérer l'hétérogénéité des corpus, évitant des opérations de réduction a priori.
Source : Éditeur (via Cairn.info)
Résumé anglais Corpus heterogeneity and textometry
Corpus linguistics usually requires homogeneous corpora. The need for homogeneity will be discussed with reference to other factors linked to textuality, such as representativity and interpretability, and a pragmatic definition of textual genres is necessary for its application. The textometry approach, both statistical and corpus-based, presents an analysis of the corpus based on the distribution of its lexical units, and is thus directly sensitive to heterogeneity. However, textometry is careful to respect the original data. For this reason, the approach has developed a methodology and statistical tools in order to study heterogeneous corpora, thus avoiding potential loss of relevant detail.
Source : Éditeur (via Cairn.info)
Article en ligne http://www.cairn.info/article.php?ID_ARTICLE=LANG_187_0013