Predictive K-means with local models - Laboratoire d'Informatique et de Mathématiques Accéder directement au contenu
Communication Dans Un Congrès Année : 2020

Predictive K-means with local models

Résumé

Supervised classification can be effective for prediction but sometimes weak on interpretability or explainability (XAI). Clustering, on the other hand, tends to isolate categories or profiles that can be meaningful but there is no guarantee that they are useful for labels prediction. Predictive clustering seeks to obtain the best of the two worlds. Starting from labeled data, it looks for clusters that are as pure as possible with regards to the class labels. One technique consists in tweaking a clustering algorithm so that data points sharing the same label tend to aggregate together. With distance-based algorithms, such as k-means, a solution is to modify the distance used by the algorithm so that it incorporates information about the labels of the data points. In this paper, we propose another method which relies on a change of representation guided by class densities and then carries out clustering in this new representation space. We present two new algorithms using this technique and show on a variety of data sets that they are competitive for prediction performance with pure supervised classifiers while offering interpretability of the clusters discovered.
La classification supervisée peut être efficace pour la prédiction mais parfois insatisfaisante en matière d'interprétabilité ou d'explicabilité (XAI). Le clustering, quant à lui, tend à isoler des catégories ou des profils qui peuvent être interprétables mais il n'y a aucune garantie qu'ils soient utiles pour la prédiction d'étiquettes. Le clustering prédictif cherche à obtenir le meilleur des deux mondes. À partir de données étiquetées, il recherche des clusters qui sont aussi purs que possible en ce qui concerne les étiquettes de classe. Une technique consiste à modifier un algorithme de clustering pour que les points de données partageant la même étiquette aient tendance à s'agréger ensemble. Avec les algorithmes basés sur la distance, comme les k-means, une solution consiste à modifier la distance utilisée par l'algorithme afin qu'elle intègre des informations sur les étiquettes des points de données. Dans cet article, nous proposons une autre méthode qui s'appuie sur un changement de représentation guidé par les densités de classes, puis effectue le clustering dans ce nouvel espace de représentation. Nous présentons deux nouveaux algorithmes utilisant cette technique et montrons sur une variété de jeux de données qu'ils sont compétitifs pour la performance de prédiction avec les classifieurs supervisés purs tout en offrant une interprétabilité des clusters découverts.
Fichier principal
Vignette du fichier
2012.09630.pdf (498.12 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-03820017 , version 1 (18-10-2022)

Identifiants

  • HAL Id : hal-03820017 , version 1

Citer

Vincent Lemaire, Oumaima Alaoui Ismaili, Antoine Cornuéjols, Dominique Gay. Predictive K-means with local models. International Joint Conference on Neural Networks (IJCNN) 2020, Jul 2020, Glasgow, United Kingdom. ⟨hal-03820017⟩
34 Consultations
6 Téléchargements

Partager

Gmail Facebook X LinkedIn More