Contenu de l'article

Titre Recherche improbable d'une homogène diversité : le débat sur l'identité nationale
Auteur Pierre Ratinaud, Pascal Marchand
Mir@bel Revue Langages
Numéro no 187, septembre 2012 L'analyse de corpus face à l'hétérogénéité des données
Page 93-107
Résumé Dans cet article, nous comparons les effets de deux méthodes de correction morphologique d'un corpus issu du web sur des classifications de type ALCESTE avec le logiciel IRAMUTEQ. À partir des 18 240 contributions au débat sur l'identité nationale, nous comparons le corpus initial avec un corpus corrigé manuellement et un corpus corrigé par une méthode semi-automatique reposant sur une utilisation particulière du correcteur Hunspell. Les trois corpus obtenus (initial, automatique et manuel) sont soumis à deux classifications hiérarchiques descendantes : l'une conserve les 1 500 formes pleines les plus fréquentes, l'autre les 3 000 formes pleines les plus fréquentes. La comparaison deux à deux des résultats obtenus sur chacun des corpus montre que la correction automatique que nous proposons permet de se rapprocher significativement d'une correction manuelle.
Source : Éditeur (via Cairn.info)
Résumé anglais Improbable search of a homogeneous diversity : the debate on national identity
In this paper, we compare the effects of two methods of morphological correction of corpus coming from the web on ALCESTE analysis made with the IRAMUTEQ software. From the 18 240 contributions to the debate on national identity, we compare the initial corpus with a manually corrected one and with a semi-automatic correction method based on a particular used of the Hunspell corrector. The three corpora (initial, automatic and manual) are used in two different hierarchical clustering : one that retain the 1 500 most frequent words and one that retain the 3 000 most frequent words. The comparison of results obtained on each corpus shows that the automatic correction that we proposed allow to come significantly closer to a manual one.
Source : Éditeur (via Cairn.info)
Article en ligne http://www.cairn.info/article.php?ID_ARTICLE=LANG_187_0093