Contenu de l'article

Titre Comparaison de différentes approches de l'évaluation supervisée
Auteur Sylvain Ferrandiz
Mir@bel Revue Mathématiques et sciences humaines
Numéro no 187, automne 2009 Journée 2007 de la Société Francophone de Classification
Page 59-77
Résumé La sélection d'instances pour la classification suivant le plus proche voisin est un problème classique d'apprentissage statistique. Placé dans le cadre de la sélection d'hypothèses, ce problème possède deux caractéristiques : premièrement l'ensemble des hypothèses est structuré et, deuxièmement, il dépend des données. Nous proposons des critères d'évaluation non paramétriques tenant compte de ces caractéristiques, notre objectif étant de comparer des sous-ensembles d'instances de cardinaux différents sans recourir à l'ajustement d'un paramètre extérieur. Pour cela, nous nous intéressons aux approches régularisantes de l'évaluation. Nous explorons successivement trois approches de l'évaluation statistique régularisée : l'approche SRM (pour Structural Risk Minimisation), l'approche BIC (pour Bayesian Information Criterion) et l'approche MDL (pour Minimum Description Length). Nous proposons ainsi trois nouveaux critères d'évaluation régularisée de l'intérêt d'un sous-ensemble d'instances. Tous trois autorisent la comparaison d'ensembles d'instances de tailles différentes. Tous trois sont non paramétriques. Nous procédons à une comparaison qualitative des critères, basée sur des données réelles et synthétiques, et démontrons le fait suivant : le critère MDL est plus fin que le critère BIC, lui-même plus fin que le critère SRM.
Source : Éditeur (via OpenEdition Journals)
Résumé anglais Instance selection for the nearest neighbor rule is a classical topic in statistical learning. Within the context of hypothesis selection, the characteristics of this problem is that: the set of hypotheses is structured and depends on the data. We thus propose specific nonparametric criteria. We aim at comparing sets of instances of varying size without introducing an extra parameter. Balancing approaches give tools to solve this problem. Three approaches are considered successively : the SRM (standing for Structural Risk Minimization) approach, the BIC (standing for Bayesian Information Criterion) approach end the MDL (standing for Minimum Description Length) approach. The exploration of each one leads to the definition of a regularized criterion. Each criterion permits the comparison of sets of instances of various size. Each criterion is nonparametric. We make use of real and synthetic datasets to prove the following point: the MDL criterion is finer than the BIC criterion which, in turn, is finer than the SRM criterion.
Source : Éditeur (via OpenEdition Journals)
Article en ligne http://msh.revues.org/11126