一种针对海量多词短文本的集成分类方法

    公开(公告)号:CN109657061A

    公开(公告)日:2019-04-19

    申请号:CN201811573390.6

    申请日:2018-12-21

    IPC分类号: G06F16/35 G06K9/62

    CPC分类号: G06K9/6276

    摘要: 本发明公开了一种针对海量多词短文本的集成分类方法,包括:1获取多词短文本集合,并对多词短文本进行分词预处理;2在分词结果上利用Word2vec词向量表示方法中的CBOW连续词袋模型得到词向量表示模型;3基于词向量表示模型,利用Sentence2vec句向量表示方法中的PV-DM模型,构建句向量表示;4在句向量表示模型基础上利用kNN分类器预测为标记数据的类别标签。本发明能解决传统表示学习方法的“维数灾难”问题,从而提高短文本表示学习的效果,提升文本分类的精度,具有较高的鲁棒性和实用性。

    一种针对海量多词短文本的集成分类方法

    公开(公告)号:CN109657061B

    公开(公告)日:2020-11-27

    申请号:CN201811573390.6

    申请日:2018-12-21

    IPC分类号: G06F16/35 G06K9/62

    摘要: 本发明公开了一种针对海量多词短文本的集成分类方法,包括:1获取多词短文本集合,并对多词短文本进行分词预处理;2在分词结果上利用Word2vec词向量表示方法中的CBOW连续词袋模型得到词向量表示模型;3基于词向量表示模型,利用Sentence2vec句向量表示方法中的PV‑DM模型,构建句向量表示;4在句向量表示模型基础上利用kNN分类器预测为标记数据的类别标签。本发明能解决传统表示学习方法的“维数灾难”问题,从而提高短文本表示学习的效果,提升文本分类的精度,具有较高的鲁棒性和实用性。