一种文本分类方法

发明授权

请登陆查看更多内容

专利标题： 一种文本分类方法
申请号： CN201710333445.5

申请日： 2017-05-12
公开(公告)号： CN107169086B

公开(公告)日： 2020-10-27
发明人: 脱建勇 , 王海亮 , 闫硕
申请人： 北京化工大学
申请人地址： 北京市朝阳区北三环东路15号
专利权人： 北京化工大学
当前专利权人： 北京化工大学
当前专利权人地址： 北京市朝阳区北三环东路15号
代理机构： 北京五月天专利商标代理有限公司
代理商 吴宝泰
主分类号： G06F16/35
IPC分类号： G06F16/35

摘要：

本发明涉及一种文本分类方法，基于训练文本的文本向量训练文本分类器；构建待测文本的文本向量，将待测文本的文本向量输入至已训练的文本分类器中，进行文本分类；所训练文本的文本向量和待测文本的文本向量获得的方法为，步骤1：对标注文本进行预处理，特征选择，进行词向量训练；步骤2：根据步骤1所得词向量，计算文本的全局向量和局部向量；步骤3：根据步骤2所得全局向量和局部向量，计算文本向量。本发明有效克服了现有文本分类方法的缺点，相对于规则方法省略了人工规则构建的过程，相对于向量空间表达方法减少了维度灾难的风险和考虑了文本的浅层语义信息，相对于基于Word2Vec词向量，充分考虑了文本表达的全局信息和局部信息，分类更加准确。

公开/授权文献

CN107169086A 一种文本分类方法公开/授权日：2017-09-15

信息查询

中国专利公布公告

审查信息

Global Dossier

Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06F	电数字数据处理（基于特定计算模型的计算机系统入G06N）
G06F16/00	信息检索；数据库结构；文件系统结构
G06F16/30	.•非结构文本数据（文档管理系统入G06F 16/93）
G06F16/35	..••聚类；分类