发明公开
- 专利标题: 一种文本分类方法及装置
- 专利标题(英): Tex classification method and device
-
申请号: CN201710301466.9申请日: 2017-05-02
-
公开(公告)号: CN107145560A公开(公告)日: 2017-09-08
- 发明人: 姚海鹏 , 张博 , 张培颖 , 章扬 , 王露瑶 , 殷志强
- 申请人: 北京邮电大学
- 申请人地址: 北京市海淀区西土城路10号
- 专利权人: 北京邮电大学
- 当前专利权人: 北京邮电大学
- 当前专利权人地址: 北京市海淀区西土城路10号
- 代理机构: 北京柏杉松知识产权代理事务所
- 代理商 马敬; 项京
- 主分类号: G06F17/30
- IPC分类号: G06F17/30
摘要:
本发明实施例提供了一种文本分类方法及装置,应用于计算机技术领域,所述方法包括:通过文本表示将待分类文本映射为向量空间模型VSM中的第一文本向量。根据预先建立的语义平滑矩阵将所述第一文本向量映射为高维空间中的第一映射向量,其中,所述语义平滑矩阵是通过对统计相似度矩阵和词语相似度矩阵进行计算得到。对所述第一映射向量进行分类,得到所述待分类文本的文本分类结果。本发明实施例通过将基于世界知识的词语相似度和基于统计的词语相似度应用于文本分类,提高了文本分类的准确性。
公开/授权文献
- CN107145560B 一种文本分类方法及装置 公开/授权日:2021-01-29