一种基于MapReduce的KNN文本分类方法

    公开(公告)号:CN104536830A

    公开(公告)日:2015-04-22

    申请号:CN201510012387.7

    申请日:2015-01-09

    Abstract: 本发明属于数据挖掘和云计算领域,具体涉及一种在Hadoop集群上,依据KNN算法和MapReduce编程模型特点,并行化的实现文本分类的基于MapReduce的KNN文本分类方法。本发明包括:数据预处理:其中包括分词、去停用词、词根还原三个过程;特征提取:对训练数据集进行处理,筛选出区分能力最强的特征项;运用KNN算法对测试数据集进行分类。本发明在Hadoop平台上实现的KNN算法具有较好的加速比和良好的扩展性,在数据量相同的情况下,算法的执行效率与集群节点数有关,一般节点越多处理数据的效率就越高。本发明在适当的节点上高效的完成了文本分类任务。

Patent Agency Ranking