09月10, 2019

Automated Variable Weighting in k-Means Type Clustering

当原始数据里有噪声,或者数据的量纲不平衡时,在kmeans计算Cost和更新中心点时,期望自动做变量加权,使组内的距离最小化。

这篇文章主要的创新点在于–给予特征向量的每个维度一个权重 \omega_j ,称之为W-k-Means的方法。该方法主要用于数据挖掘和统计学中的特征筛选。

原始的K-means聚类方法不足之处在于,如果数据集当中混有大量随机噪音(也就是特征向量中有若干维在聚类过程中是不起作用的,反而会对结果产生干扰)的情况下,不能很好的对其进行聚类,即使是原数据集有很好的簇结构的情况下。 20171008160459165.png

公式推导

20171008162259485.png

求解参数

迭代的计算步骤,同K-mean算法一样(戳此处),只是在计算的时候带上权重值即可。而问题的关键在于如何求解权重ω\omegaω.这篇论文用到的方法是拉格朗日乘数法来求解参数的。

20171008163718900.png

数据预处理

z-score

一般会对数据进行归一化

白化

白化是为了降低输入冗余性,使输入样本具有如下特性:

python代码

https://github.com/TolicWang/MachineLearning/blob/master/Cluster/WKMeans/Sources/Python3/metrics.py

本文链接:http://57km.cc/post/Automated Variable Weighting in k-Means Type Clustering.html

-- EOF --

Comments