Apprentissage non supervisé/Méthode des k-moyennes

La méthode des k-moyennes (k-means en anglais) est une méthode de partitionnement des données. Elle permet de regrouper en k partitions (clusters en anglais) les données qui se ressemblent. Pour rappel, nous sommes en contexte non supervisé, c'est-à-dire que nous ne connaissons pas la vérité terrain sur les données.

**Méthode des k-moyennes**
Leçon : Apprentissage non supervisé

Chapitre n^o 1
Retour au	Sommaire
Chap. suiv. :	Classification hiérarchique

En raison de limitations techniques, la typographie souhaitable du titre, « Apprentissage non supervisé : Méthode des k-moyennes
Apprentissage non supervisé/Méthode des k-moyennes », n'a pu être restituée correctement ci-dessus.

Définition formelle

Considérons un ensemble de points (x₁, x₂, …, x_n). La méthode des k-moyennes consiste à partitionner les n points en k ensembles S = {S₁, S₂, …, S_k} (k ≤ n) en minimisant la distance entre les points à l'intérieur de chaque partition :

{\underset {\mathbf {S} }{\operatorname {arg\,min} }}\sum _{i=1}^{k}\sum _{\mathbf {x} _{j}\in S_{i}}\left\|\mathbf {x} _{j}-{\boldsymbol {\mu }}_{i}\right\|^{2}

où μ_i est le barycentre des points dans S_i.

Algorithme

Problème simple

Limites de la méthode

Apprentissage non supervisé

Sommaire

Classification hiérarchique