K-Means聚类算法原理
本站寻求有缘人接手,详细了解请联系站长QQ1493399855
来自:https://www.cnblogs.com/pinard/p/6164214.html
K-Means算法是无监督聚类算法,它有很多变体。包括初始化优化K-Means++,距离计算优化elkan K-Means算法和大样本优化Mini Batch K-Means算法。
1. K-Means原理
K-Means算法思想:给定样本集,按照样本之间距离大小,将样本划分为K个簇。让簇的点尽量紧密连在一起,让簇间的距离尽量的大。
用数据表达式表示,簇划分为(C1,C2,...Ck),目标是最小化平方误差E:
其中μi是簇Ci的均值向量,有时也质心,表达式:
直接求上式最小值,不容易,是NP难题,只能采用启发式的迭代算法。
K-Means采用的启发式方式很简单,