Contenu du sommaire : Journée 2007 de la Société Francophone de Classification

Revue	Mathématiques et sciences humaines
Numéro	no 187, automne 2009
Titre du numéro	Journée 2007 de la Société Francophone de Classification
Texte intégral en ligne	Accessible sur l'internet

Journée de 2007 de la Société francophone de classification. Avant-propos - Irène Charon, Georges Hebrail, Olivier Hudry p. 5-6
Recherche de classes empiétantes dans un graphe : application aux réseaux d'interactions entre protéines - Lucile Denoeud-Belgacem p. 7-42
Cet article présente une méthode de classification empiétante permettant de mettre en évidence des zones denses en arêtes dans un graphe. On cherche plus précisément à extraire du graphe des sous-graphes dont la densité en arêtes soit élevée par rapport à la densité du graphe entier, ces sous-graphes pouvant avoir des sommets en commun. Cette méthode est appliquée à un problème issu de la biologique : l'annotation des protéines. Les graphes considérés traduisent alors des interactions observées entre les protéines. Partant du principe biologique que des protéines impliquées dans une même fonction cellulaire interagissent, les sous-graphes obtenus par l'application de la méthode de classification empiétante aux réseaux d'interactions donnent des indications sur les fonctions des protéines constituant ces sous-graphes, ce qui permet de fournir une aide informatique à la prédiction de fonctions inconnues de certaines protéines. Le caractère empitétant autorisé par la méthode présentée ici permet en particulier de prendre en compte le fait que les protéines peuvent être impliquées chacune dans plusieurs fonctions cellulaires.
This article describes a method of overlapping classification, in order to compute zones which are dense in edges in a graph. More precisely, the aim is to compute subgraphs in which the density of edges is large compared to the edge-density of the whole graph. These subgraphs may share common vertices. This method is applied to a problem arising in biology: the annotation of proteins. The graphs then represent the observed interactions between proteins. Thanks to the biological principle that proteins involved in the same cellular function interact, the subgraphs provided when the method is applied to the protein-protein interactions networks provide information about the functions of proteins belonging to these subgraphs. This provides a computer-aided tool for the prediction of unknown functions of some proteins. The overlapping allowed by the method depicted here makes it possible to take into account the fact that each protein may be involved into several cellular functions.
Quelques remarques sur la méthode d'ajustement de Mayer : lien avec les méthodes de classifications - Antoine Falguerolles p. 43-58
Le cas simple de l'ajustement d'une droite de régression par la méthode de Mayer, au programme de l'enseignement secondaire français il y a quelques années, avait été introduit comme un succédané de la méthode des moindres carrés. Il apparaît que la démarche qui était ainsi proposée aux élèves fournit un exemple élémentaire d'arbre de régression. Il apparaît aussi que, dans le cas général, c'est un problème de classification pour lequel l'algorithme des transferts de Régnier [1965] est particulièrement bien adapté quoique possiblement suboptimal. L'exemple célèbre d'ajustement, que Mayer traite en 1750 par une méthode novatrice et très générale, est revu à la lumière de méthodes statistiques contemporaines usuelles. Les résultats numériques obtenus montrent l'extraordinaire maîtrise de Mayer.
This paper presents a new clustering method for interval data. It is an extension of a classical clustering method to interval data. The classical procedure is based on the theory of point processes, and more particularly on the homogeneous Poisson process. The first part of the new method is a monothetic divisive procedure. The cut rule is an extension to interval data of the Hypervolumes clustering criterion. The pruning step uses two statistical likelihood ratio tests based on the homogeneous Poisson process: the Hypervolumes test and the Gap test. The output is a decision tree. The second part of the method is a merging process, that allows in particular cases to improve the classification obtained at the end of the first part of the algorithm. The method is applied to a generated data set and to a real data set. It is compared with other clustering methods available for interval data.
Comparaison de différentes approches de l'évaluation supervisée - Sylvain Ferrandiz p. 59-77
La sélection d'instances pour la classification suivant le plus proche voisin est un problème classique d'apprentissage statistique. Placé dans le cadre de la sélection d'hypothèses, ce problème possède deux caractéristiques : premièrement l'ensemble des hypothèses est structuré et, deuxièmement, il dépend des données. Nous proposons des critères d'évaluation non paramétriques tenant compte de ces caractéristiques, notre objectif étant de comparer des sous-ensembles d'instances de cardinaux différents sans recourir à l'ajustement d'un paramètre extérieur. Pour cela, nous nous intéressons aux approches régularisantes de l'évaluation. Nous explorons successivement trois approches de l'évaluation statistique régularisée : l'approche SRM (pour Structural Risk Minimisation), l'approche BIC (pour Bayesian Information Criterion) et l'approche MDL (pour Minimum Description Length). Nous proposons ainsi trois nouveaux critères d'évaluation régularisée de l'intérêt d'un sous-ensemble d'instances. Tous trois autorisent la comparaison d'ensembles d'instances de tailles différentes. Tous trois sont non paramétriques. Nous procédons à une comparaison qualitative des critères, basée sur des données réelles et synthétiques, et démontrons le fait suivant : le critère MDL est plus fin que le critère BIC, lui-même plus fin que le critère SRM.
Instance selection for the nearest neighbor rule is a classical topic in statistical learning. Within the context of hypothesis selection, the characteristics of this problem is that: the set of hypotheses is structured and depends on the data. We thus propose specific nonparametric criteria. We aim at comparing sets of instances of varying size without introducing an extra parameter. Balancing approaches give tools to solve this problem. Three approaches are considered successively : the SRM (standing for Structural Risk Minimization) approach, the BIC (standing for Bayesian Information Criterion) approach end the MDL (standing for Minimum Description Length) approach. The exploration of each one leads to the definition of a regularized criterion. Each criterion permits the comparison of sets of instances of various size. Each criterion is nonparametric. We make use of real and synthetic datasets to prove the following point: the MDL criterion is finer than the BIC criterion which, in turn, is finer than the SRM criterion.
Une nouvelle méthode de classification pour des données intervalles - André Hardy, Nathanael Kasoro p. 79-91
Cet article propose une nouvelle méthode de classification automatique pour des données intervalles. C'est une extension d'une méthode de classification classique à des données intervalles. La procédure classique est basée sur la théorie des processus ponctuels, et plus particulièrement sur le processus de Poisson homogène. La première partie de la nouvelle méthode est une procédure de classification monothétique divisive. La règle de coupure utilise une extension à des données intervalles du critère de classification des Hypervolumes. L'étape d'élagage utilise deux tests statistiques du quotient de vraisemblance basés sur le processus de Poisson homogène : le test des Hypervolumes et le Gap test. Nous obtenons alors un arbre de décision. La seconde partie de la méthode est une procédure de recollement qui permet, dans certains cas, d'améliorer la classification obtenue à la fin de la première partie de l'algorithme. La méthode est évaluée sur des données générées et sur des données réelles. Elle est comparée à d'autres méthodes de classification disponibles pour des données intervalles.
This paper presents a new clustering method for interval data. It is an extension of a classical clustering method to interval data. The classical procedure is based on the theory of point processes, and more particularly on the homogeneous Poisson process. The first part of the new method is a monothetic divisive procedure. The cut rule is an extension to interval data of the Hypervolumes clustering criterion. The pruning step uses two statistical likelihood ratio tests based on the homogeneous Poisson process: the Hypervolumes test and the Gap test. The output is a decision tree. The second part of the method is a merging process, that allows in particular cases to improve the classification obtained at the end of the first part of the algorithm. The method is applied to a generated data set and to a real data set. It is compared with other clustering methods available for interval data.
Construction d'arbres à partir de relations d'intermédiarité, application au stemma codicum - Marc Le Pouliquen, Jean-Pierre Barthelemy p. 93-105
Dans cet article, nous allons modéliser la relation ternaire d'intermédiarité dans le cadre de l'édition critique de texte. L'éditeur doit essayer de reconstituer au mieux, à partir des manuscrits préservés, le manuscrit original tel que l'auteur l'a écrit. Le corpus est constitué de manuscrits copiés les uns sur les autres. Une des méthodes utilisées consiste à élaborer un arbre de filiation des manuscrits restants, appelé le stemma codicum Nous proposons de construire cet arbre à partir des relations d'intermédiarité entre les manuscrits : Un manuscrit B est entre les manuscrits A et C si le manuscrit C a été copié à partir du manuscrit B et que lui-même a été copié sur le manuscrit A.
In this paper, we model the ternary betweenness relation within the framework of the critical edition of texts. The editor must try to reconstruct as well as possible, starting from the various preserved manuscripts, the original manuscript as the author wrote it. The corpus is made up of many manuscripts which are copied from one another. To do so, it appears interesting to draw up a family tree of these manuscripts called stemma codicum. A manuscript B is between the manuscripts A and C, i.e. the manuscript C was copied starting from the manuscript B which itself was copied from A. This is this concept of betweenness by copy act which one wishes to model.
Représentations du texte pour la classification arborée et l'analyse automatique de corpus. Application à un corpus d'historiens latins - Sylvie Mellet, Nguyen Xuan Luong, Dominique Longrée, Jean-Pierre Barthelemy p. 107-121
Nous exposons ici différentes méthodes de classification automatique des textes littéraires et nous en comparons les performances, notamment en ce qui concerne leur aptitude à traduire les structurations génériques du corpus. Nous montrons qu'une approche topologique des textes, qui prend en compte leur linéarité fondamentale, c'est-à-dire l'ordre macro- et micro-structurel de leurs différentes unités constitutives, permet d'obtenir de meilleurs résultats classificatoires que les méthodes traditionnelles qui tendent à négliger cette structure linéaire.
In this paper, we present different methods of automatic classification applied to a corpus of literary texts and we compare their different results; in particular we evaluate how each of them is suitable for exhibiting the generic classification of the corpus. We demonstrate that a topological approach of the texts which takes into account their linearity, i.e. the order of their micro- and macro-structures, results in better clustering than traditional quantitative methods which leave generally out of count this linear structure.
Jean-Pierre Barthélemy, François Brucker, Éléments de classification, Londres, Hermes, 2007, 438 p. - Olivier Hudry p. 123-126
Analyse bibliographique
Book review