-
公开(公告)号:CN109657061A
公开(公告)日:2019-04-19
申请号:CN201811573390.6
申请日:2018-12-21
申请人: 合肥工业大学
CPC分类号: G06K9/6276
摘要: 本发明公开了一种针对海量多词短文本的集成分类方法,包括:1获取多词短文本集合,并对多词短文本进行分词预处理;2在分词结果上利用Word2vec词向量表示方法中的CBOW连续词袋模型得到词向量表示模型;3基于词向量表示模型,利用Sentence2vec句向量表示方法中的PV-DM模型,构建句向量表示;4在句向量表示模型基础上利用kNN分类器预测为标记数据的类别标签。本发明能解决传统表示学习方法的“维数灾难”问题,从而提高短文本表示学习的效果,提升文本分类的精度,具有较高的鲁棒性和实用性。
-
公开(公告)号:CN109657061B
公开(公告)日:2020-11-27
申请号:CN201811573390.6
申请日:2018-12-21
申请人: 合肥工业大学
摘要: 本发明公开了一种针对海量多词短文本的集成分类方法,包括:1获取多词短文本集合,并对多词短文本进行分词预处理;2在分词结果上利用Word2vec词向量表示方法中的CBOW连续词袋模型得到词向量表示模型;3基于词向量表示模型,利用Sentence2vec句向量表示方法中的PV‑DM模型,构建句向量表示;4在句向量表示模型基础上利用kNN分类器预测为标记数据的类别标签。本发明能解决传统表示学习方法的“维数灾难”问题,从而提高短文本表示学习的效果,提升文本分类的精度,具有较高的鲁棒性和实用性。
-