Contenu du sommaire : Classification

Revue	Mathématiques et sciences humaines Titre à cette date : Mathématiques, informatique et sciences humaines
Numéro	no 147, automne 1999
Titre du numéro	Classification
Texte intégral en ligne	Accessible sur l'internet

Avant-propos au numéro spécial : Classification - Bruno Leclerc, Olivier Gascuel
Classifications de mots non étiquetés par des méthodes statistiques - Christel Beaujard, Michèle Jardino
Notre thématique de recherche est le développement de modèles de langage robustes pour la reconnaissance de la parole. Ces modèles doivent prédire un mot connaissant les mots qui le précèdent. Malgré le nombre croissant de données textuelles électroniques, toutes les possibilités de la langue ne sont pas présentes dans ces données, un moyen de les obtenir est de généraliser la représentation textuelle en regroupant les mots dans des classes. Les modèles de langage fondés sur des classes présentent alors une plus large couverture de la langue avec un nombre réduit de paramètres permettant une reconnaissance plus rapide des mots par les systèmes de reconnaissance de la parole dans lesquels ils sont introduits. Nous décrivons deux types de classification automatique de mots, appris statistiquement sur des textes écrits de journaux et de transcriptions de parole. Ces classifications ne nécessitent pas d'étiquetage des mots, elles sont réalisées suivant les contextes locaux dans lesquels les mots sont observés. L'une est basée sur la distance de Kullback-Leibler et répartit tous les mots dans un nombre de classes fixé à l'avance. La seconde regroupe les mots considérés comme similaires dans un nombre de classes non prédéfini. Cette étude a été réalisée sur les données d'apprentissage en français de domaines, de taille et de vocabulaire différents.
Our goal is to develop robust language models for speech recognition. These models have to predict a word knowing its history. Although the increasing size of electronic text data, all the possible word sequences of a language cannot be observed. A way to generate these non encountered word sequences is to map words in classes. The class-based language models have a better coverage of the language with a reduced number of parameters, a situation which is favourable to speed up the speech recognition systems. Two types of automatic word classification are described. They are trained on word statistics estimated on texts derived from newspapers and transcribed speech. These classifications do not require any tagging, words are classified according to the local context in which they occur. The first one is a mapping of the vocabulary words in a fixed number of classes according to a Kullback-Leibler measure. In the second one, similar words are clustered in classes whose number is not fixed in advance. This work has been performed with French training data coming from two domains, both different in size and vocabulary.
L'analyse implicative bayésienne multivariée d'un questionnaire binaire : quasi-implications et treillis de Galois simplifié - Jean-Marc Bernard, Sébastien Poitrenaud
Nous proposons une nouvelle méthode pour simplifier le treillis de Galois associé à un questionnaire binaire (n individus classés selon q questions binaires), méthode basée sur l'affaiblissement des implications portées par le treillis en quasi-implications. Au niveau descriptif, la méthode proposée fait intervenir un nouvel indice pour la mesure des quasi-implications ("l'indice implicatif multivarié") qui satisfait certaines conditions d'invariance par équivalence logique. Au niveau inductif, l'incertitude sur les fréquences vraies des profils est exprimée par un "modèle Dirichlet imprécis". Ce modèle répond aux difficultés des modèles bayésiens usuels fondés sur une distribution de Dirichlet unique, notamment pour le cas où n est petit devant 2q. Un aspect important de la méthode est que les résumés descriptif et inductif qu'elle fournit constituent des treillis de Galois, versions simplifiées du treillis initial.
We propose a new method for simplifying the Galois lattice associated to a binary questionnaire (n units classified according to q binary questions). The method consists in weakening the implications borne by the lattice into quasi-implications. At the descriptive level, the method involves a new measure for quasi-implications (the "multivariate implicative index") which satisfies some requirements of invariance by logical equivalence. At the inductive level, uncertainty about the patterns' true frequencies is expressed by an imprecise-Dirichlet model. This model is shown to have several advantages over the usual non-informative Bayesian approach based on a single Dirichlet prior, especially for the case where n is small in comparison to 2q. An important feature of the method is that it provides two implicative summaries, descriptive and inductive, which both constitute simplified versions of the initial Galois lattice.
Graphes et classification : l'exemple des tables de mobilité sociale - Monique Dalud-vincent
L'objectif est de mettre en évidence, à partir d'un tableau de contingence croisant 2 variables utilisant la même nomenclature, une typologie des catégories de cette nomenclature. La recherche de cette typologie est basée sur l'hypothèse selon laquelle il existe des groupes de catégories en fonction des attractions entretenues entre elles ainsi que de leurs enchaînements. On s'appuie sur une modélisation sous forme de graphes et sur une méthode de décomposition des composantes (fortement) connexes.
The aim of this paper is to build a categories typology from a square contingency table containing variables using the same nomenclature. Our assumption is that it exists categories groups according to attractions between categories and sequence of attractions among them. We use a modelling based on graphs and a decomposition method of connected (strong) component.
Une méthode possibiliste de discrimination adaptée aux classes de forme complexe - Arnaud Devillez, Patrice Billaudel, Gérard Villermain Lecolier
Notre équipe travaille sur la classification de données provenant des secteurs industriels et médicaux, dans le but de développer des systèmes de diagnostic et d'aide à la décision. Dans cet article, nous proposons une modification de la méthode floue du "pattern matching", pour classer des données comportant des classes de forme complexe. Nous décrivons la méthode de base avant de montrer ses limites, lorsque les classes ne sont pas convexes. Ensuite, nous en proposons une amélioration par l'introduction d'une approche multi-prototype. Nous présentons un exemple industriel, qui consiste à trier automatiquement des bouteilles plastiques en vue de leur recyclage. Enfin, nous comparons les résultats obtenus par cette méthode avec ceux donnés par la méthode floue des k-plus proches voisins, sur trois types de données : bouteilles plastiques, iris et formes d'ondes.
Our team works on the classification of data coming from industrial and medical sectors, in order to develop decision making and diagnosis systems. In this paper we propose to modify the fuzzy method of pattern matching, in order to classify data including classes of complex shape. We describe the basic method before showing its limits when classes are not convex. Then, we propose to improve the method by introducing a multiprototype approach. We present an industrial example, which consists in sorting automatically plastic bottles in order to recycle them. Finally, we compare the results obtained by this method with those given by the fuzzy k-nearest neighbours method, using three types of data : plastic bottles, iris and waveform data.
Recherche de concepts à partir de données arborescentes et imprécises - Régis Girard, Henri Ralambondrainy
Dans cet article, nous proposons un formalisme de représentation de données structurées et imprécises, les Arborescences Symboliques Nuancées (ASN), qui est fondé sur la notion d'attribut-valeur. Les ASN nous permettent de représenter des entités composées de parties et sous-parties dont les caractéristiques peuvent être imprécises, inconnues ou bien inapplicables et prenant en compte les liens pouvant exister entre les valeurs des différentes caractéristiques. Nous nous intéressons à la recherche de concepts à partir d'un ensemble d'entités décrites par les ASN. La définition des concepts repose sur une extension des treillis de Galois au cas de données arborescentes et nuancées. Pour rechercher les concepts, nous présentons un algorithme incrémental permettant de calculer un treillis extrait du treillis de Galois en élagant les concepts trop généraux.
n this article, we propose a formalism (ASN) to deal with imprecise and structured data described with attributes and imprecise values. The ASN allow us to represente entities that are composed with parts and sub-parts ; values may be imprecise, unknown and the attributes may be not applicable. We can also take into account constraints that exist between the values of the attributes. We aim to find concepts from a set of entities described with ASN. Concepts are defined from an extension of the Galois lattice theory to deal with imprecise and structured data. To find concepts, we propose an incremental algorithm that compute a lattice concepts extracted from the Galois lattice where the too general concepts? in regard to a given criteria? are not computed.
Segmentation de la sériation pour la résolution de #SAT - Israël-César Lerman, Valérie Rouat
Le problème général traité est celui de l'évaluation approchée du nombre de solutions d'une formule booléenne F sous forme normale conjonctive. En appliquant le principe "diviser pour résoudre", la méthode présentée permet de réduire de façon considérable la complexité algorithmique du problème. Elle est basée sur la segmentation d'une sériation établie sur la table d'incidence associée à F. Nous montrons, dans des cas aléatoires difficiles de génération d'une formule F, l'intérêt de la sériation et de sa meilleure coupure en deux parties connexes et de tailles comparables. De plus, nous définissons la notion d'indépendance en probabilité pour F. On propose ici et on valide théoriquement et par une vaste expérimentation la méthode.
We propose here a general method for approximating the number of solutions of a boolean formula in conjunctive normal form F. By applying the principle "divise to resolve", this method reduces considerably the computational complexity. It is based on cutting a seriation established on an incidence data table associated with F. Moreover, the independence probability concept is finely exploited. Theoretical justification and intensive experimentation validate the proposed method.
Une méthode d'analyse canonique non linéaire et son application à des données biologiques - Vladimir Makarenkov, Pierre Legendre
Parmi les méthodes d'ordination proposées dans la littérature statistique, l'ACR (analyse canonique de redondance) est devenue l'une des méthodes les plus employées par les écologistes. En ACR, deux tableaux des données sont considérés. Le premier tableau (Y) contient les variables-réponse (e.g. les abondances des espèces étudiées) alors que le second (X) contient les variables explicatives (e.g. les variables environnementales). L'ACR classique impose des contraintes linéaires entre les variables X et Y, ce qui reflète rarement les processus naturels. Nous proposons une nouvelle méthode d'ordination, l'ACR polynomiale, qui permet de modéliser des relations linéaires ou non. Cette méthode est basée sur un algorithme empirique de régression qui permet de chercher la forme des relations polynomiales entre les variables en X et Y ainsi que de prendre en compte les interrelations entre variables explicatives.
Among the various forms of canonical analysis available in the statistical literature, RDA (redundancy analysis) has become an instrument of choice for ecological analysis. A first data table (Y) contains the response variables (e.g. species data) whereas the second table (X) contains the explanatory variables (e.g. environmental variables). Classical RDA assumes that the relationships between variables in X and Y are linear ; this is unrealistic in most cases. We propose a new ordination method, called polynomial RDA, to do away with the constraints of linearity in these relationships. Polynomial RDA is based on an empirical regression algorithm which allows polynomial relationships to be modelled between the variables in X and Y ; it also takes into account the relationships among the explanatory variables.