一种面向差分隐私保护的k均值聚类方法
摘要:
本发明公开了一种面向差分隐私保护的k均值聚类方法,包括数据预处理;用C表示聚类后的中心点集,C,表示给定的数据集和簇中心C下的误差平方和;判断C,的大小;循环执行,直到retry大于给定的重试次数最大值retrymax,然后返回最优的中心点Cbest;遍历数据集X中的每个点,将它分类到最近的中心点;设置添加的随机噪声;重新计算每个簇的数据点的总和、点的数量,添加噪声,最后更新簇的质心;重复步骤直到误差平方和收敛或迭代次数达到上限。本发明在k均值聚类算法的迭代过程中增加了满足特定分布的适当的随机噪声,使得聚类结果在一定程度上失真,达到隐私保护的目的,同时保证了数据的可用性。
公开/授权文献
0/0