基于信息熵特征权重量化的海量短文本分布式KNN分类算法及系统

    公开(公告)号:CN103955489B

    公开(公告)日:2017-09-22

    申请号:CN201410150855.2

    申请日:2014-04-15

    Inventor: 蔡毅 蔡志威 王涛

    Abstract: 本发明公开了一种基于信息熵特征权重量化的海量短文本分布式KNN分类算法及系统。算法主要包括对文本的预处理、用信息熵衡量特征的权重,基于信息熵的文档向量表示方法,采用索引及缓存技术的KNN分类算法,整个算法基于MapReduce计算框架的实现。本发明利用特征在训练集中的信息熵,有效地衡量文本中词对于分类的作用大小,并且算法基于MapReduce计算框架能利用大规模集群来高效地对进行海量短文本的分类处理。本发明提供了一个准确率高、运行效率高、扩展性强的海量短文本分类算法。

    基于信息熵特征权重量化的海量短文本分布式KNN分类算法及系统

    公开(公告)号:CN103955489A

    公开(公告)日:2014-07-30

    申请号:CN201410150855.2

    申请日:2014-04-15

    Inventor: 蔡毅 蔡志威 王涛

    CPC classification number: G06F17/30705

    Abstract: 本发明公开了一种基于信息熵特征权重量化的海量短文本分布式KNN分类算法及系统。算法主要包括对文本的预处理、用信息熵衡量特征的权重,基于信息熵的文档向量表示方法,采用索引及缓存技术的KNN分类算法,整个算法基于MapReduce计算框架的实现。本发明利用特征在训练集中的信息熵,有效地衡量文本中词对于分类的作用大小,并且算法基于MapReduce计算框架能利用大规模集群来高效地对进行海量短文本的分类处理。本发明提供了一个准确率高、运行效率高、扩展性强的海量短文本分类算法。

Patent Agency Ranking