Partitionnement d’objets complexes

Collection

Informatique

Citer ce document

Fouchal, Said, “Partitionnement d’objets complexes,” Bibliothèque numérique Paris 8, consulté le 28 mars 2024, https://octaviana.fr/document/170310868.

À propos

Le clustering est une notion importante dans les sciences, il est appliqué dans beaucoup de domaine, il permet la maîtrise de l'information et ainsi sa bonne exploitation. Son objectif est de ranger des éléments similaires dans des groupes homogènes. La notion de proximité est élémentaire dans ce processus elle a un effet considérable sur le résultat puisque elle permet de décrire les données selon le besoin recherché. Le travail que nous avons mené, dans la première partie de la thèse, se focalise essentiellement sur une mesure de proximité universelle, NCD (Normalized Compression Distance), elle se fonde sur le contenu absolu en information (la complexité de kolmogorov) afin de traiter des données de types différents. Notre contribution a consisté à introduire cette mesure et à démontrer qu’elle peut s'adapter à une méthode de clustering rapide afin de permettre le traitement d'un nombre important de données de tout genre de façon universelle. La deuxième partie de la thèse a consisté à développer deux nouvelles solutions théoriques pour les problèmes du clustering. Elles se basent sur les propriétés classificatoires des ultramétriques, notamment pour choisir les éléments graines avant d’établir un partitionnement, ce qui fait l'originalité de notre approche. En effet, nous avons écrit une première méthode rapide, qui a une complexité algorithmique de l'ordre de O(n). Cette première méthode est spécifique aux données décrites par une distance ultramétrique. La deuxième méthode est plus générale, elle est applicable pour tout type de données puisque elle utilise une distance (métrique). Elle est également flexible quant au contexte étudié car l'utilisateur peut manipuler la taille des clusters résultants d'une part, et fournir la taille de l'échantillon représentatif des données traitées d'autre part. De plus, cette deuxième méthode a une complexité moyenne, fréquente, de O(n) et une complexité dans le pire cas, rare, de l'ordre de O(n^2), ce qui lui offre la possibilité de traiter des larges bases de données.

Clustering is an important concept in science, it is applied in many areas, it allows the control of information and thus its its appropriate use. It aims to to store similar elements in homogeneous groups. The notion of proximity is elementary in this process it has a considerable effect on the result since it allows to describe data according to the aim sought after. This proximity is estimated via similarity measures, dissimlarité, indices, distances which are distinguished primarily by their mathematical properties and the type of data they process. The work we have done in the first part of the thesis focuses primarily on a universal measure of proximity NCD (Normalized Compression Distance), which is based on the absolute information content (the Kolmogorov complexity) to process data of different types. Our contribution was to introduce this measure and demonstrate that it can be adapted to a fast clustering method thus allow the clustering of a large number of data of any kind in a universal manner. The second contribution in this thesis was to develop two new theoretical solutions to the problems of clustering. They are based on the properties of ultrametric, notably in selecting the seed elements before partitioning, what makes the originality of our approach. In fact, we develop a first quick method, which has a computational complexity of O(n). This method is specific to data described by an ultrametric distance. The second method is more general, it is applicable to any type of data since it uses a distance (metric). It is also flexible to the context studied because the user can manage the size of the resulting clusters, and provide the representative sample size of data processed. In addition, this second method has an average complexity, frequent, of O(n) and complexity in the worst case, rare, in the of O(n^2), which offers the capability to process large databases.

Sujets

Complexité de calcul (informatique) Analyse ultramétrique Apprentissage automatique Exploration de données Classification automatique

Auteur

Fouchal, Said

Collaborateur

Lavallée, Ivan (sous la direction de)

Source

Paris 8, BU - Saint-Denis, Magasin 2, TH3124

Date

2011

Identifiant

170310868

N° national de thèse

2011PA083500

Droits d'accès

Accessible à tous

Conditions d'utilisation

Toute reproduction même partielle est interdite sans accord exprès de l'auteur

Discipline (Thèse)

Informatique

Domaine (Dewey)

004 Traitement des données. Informatique. Généralités. Dictionnaires