Contenu de l'article

Titre Pénalisation des mots fréquents pour la classification de sentiments
Auteur Abdelhalim Rafrafi, Vincent Guigue, Patrick Gallinari
Mir@bel Revue Cahiers du numérique
Numéro vol. 7, no 2, 2011 Analyse d'opinions sur internet
Page 63-84
Résumé Nous abordons dans cet article le problème de la classification de sentiments en utilisant des techniques d'apprentissage statistique supervisé. Nous étudions différentes combinaisons de fonctions coûts et de régularisations. Le principal problème de la classification de sentiments par rapport à la classification thématique se trouve au niveau de l'extraction de caractéristiques discriminantes. Nous montrons dans cet article que la régularisation classique (L1 ou L2) sélectionne des caractéristiques qui ne sont pas adaptées aux sentiments. Nous présentons une nouvelle méthode de régularisation en pénalisant les mots fréquents : cette méthode nous a permis d'obtenir de très bons résultats en détection de sentiment ainsi qu'en classification multidomaine sur plusieurs jeux de données de référence. Nous fournissons des analyses détaillées des résultats et des interprétations des modèles appris.
Source : Éditeur (via Cairn.info)
Résumé anglais We study in this paper the sentiment classification problem using supervised classifiers corresponding to different combinations of loss and regularization functions. A key difficulty of sentiment classification compared to thematic classification is the definition and selection of relevant features. We show that classical regularization approaches fail to weight or select relevant terms for this task. We introduce a new method based on a term dependent regularization for penalizing specific families of terms. This new regularization framework enables us to obtain very good performance on a classical sentiment recognition task as well as for multi-domain sentiment classification on classical benchmarks. We provide an in depth analysis of the results and an interpretation of the model behavior. It shows that the proposed regularization method is an effective selection tool for discriminative terms in the context of sentiment classification.
Source : Éditeur (via Cairn.info)
Article en ligne http://www.cairn.info/article.php?ID_ARTICLE=LCN_072_0063