基于改进seq2seq模型的多源多标签文本分类方法及其系统

发明授权

CN109299273B 基于改进seq2seq模型的多源多标签文本分类方法及其系统有权

请登陆查看更多内容

专利标题： 基于改进seq2seq模型的多源多标签文本分类方法及其系统
申请号： CN201811302126.9

申请日： 2018-11-02
公开(公告)号： CN109299273B

公开(公告)日： 2020-06-23
发明人: 谢松县 , 高辉 , 陈仲生 , 彭立宏 , 曾道建 , 桂林 , 封黎 , 李磊
申请人： 广州语义科技有限公司
申请人地址： 广东省广州市天河区珠江东路32号利通广场规划设计楼32层全层单元(自编楼层34层全层单元)的E37房
专利权人： 广州语义科技有限公司
当前专利权人： 广州语义科技有限公司
当前专利权人地址： 广东省广州市天河区珠江东路32号利通广场规划设计楼32层全层单元(自编楼层34层全层单元)的E37房
代理机构： 长沙国科天河知识产权代理有限公司
代理商 邱轶
主分类号： G06F16/35
IPC分类号： G06F16/35 ; G06F40/289 ; G06N3/04 ; G06N3/08

摘要：

本发明属于自然语言处理文本分类技术领域，具体提供了一种基于改进seq2seq模型的多源多标签文本分类方法及其系统，该方法包括如下步骤：数据输入及预处理、词嵌入、编码、编码拼接、解码、模型优化以及预测输出。本发明方法具有如下有益效果：采用seq2seq深度学习框架，构建多个编码器，结合注意力机制用于文本分类任务，最大限度地利用了多来源语料信息，提高了多标签分类准确性；在解码步骤的误差反馈过程中，针对多标签文本的特性，加入干预机制规避了标签排序带来的影响，更多切合多标签分类问题的本质；编码器采用循环神经网络，可以有效的按照时间步进行学习；解码层采用单向循环神经网络，并添加了注意力机制，突出了学习重点。

公开/授权文献

CN109299273A 基于改进seq2seq模型的多源多标签文本分类方法及其系统公开/授权日：2019-02-01

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06F	电数字数据处理（基于特定计算模型的计算机系统入G06N）
G06F16/00	信息检索；数据库结构；文件系统结构
G06F16/30	.•非结构文本数据（文档管理系统入G06F 16/93）
G06F16/35	..••聚类；分类