一种基于Hadoop的自适应RK-means算法

    公开(公告)号:CN106295676A

    公开(公告)日:2017-01-04

    申请号:CN201610593815.4

    申请日:2016-07-26

    Inventor: 张治中 侯静

    CPC classification number: G06K9/6223

    Abstract: 本发明涉及一种基于Hadoop的自适应RK-means算法,属于数据挖掘技术领域。该算法包括以下步骤:S1:根据业务需求,输入待聚类的数据集;S2:运用基于Hadoop的自适应聚类中心算法获取聚类中心点及数目;S3:将上一步的结果作为算法的初始聚类中心,输入到基于Hadoop的RK-means算法中,获取全局最优的聚类簇;S4:输出聚类结果。本算法将自适应初始聚类中心选取算法与RK-means算法相结合起来,并且在Hadoop平台下实现了自适应RK-means算法,不但保证了聚类中心数目的准确获取,而且保证了聚类中心的全局最优,在提高聚类结果的准确性的同时,也提升了算法的运行效率。

Patent Agency Ranking