一种文本分类方法及系统

Invention Publication

Please log in to see more content

Patent Title: 一种文本分类方法及系统
Application No.: CN201911010301.1

Application Date: 2019-10-23
Publication No.: CN110968692A

Publication Date: 2020-04-07
Inventor: 张强 , 邓君华 , 赵鲸朋 , 柴博 , 马应龙 , 宋博川 , 贾全烨
Applicant: 全球能源互联网研究院有限公司 , 国网江苏省电力有限公司 , 国网江苏省电力有限公司电力科学研究院 , 国家电网有限公司
Applicant Address: 北京市昌平区未来科技城滨河大道18号
Assignee: 全球能源互联网研究院有限公司,国网江苏省电力有限公司,国网江苏省电力有限公司电力科学研究院,国家电网有限公司
Current Assignee: 全球能源互联网研究院有限公司,国网江苏省电力有限公司,国网江苏省电力有限公司电力科学研究院,国家电网有限公司
Current Assignee Address: 北京市昌平区未来科技城滨河大道18号
Agency: 北京三聚阳光知识产权代理有限公司
Agent 张琳琳
Main IPC: G06F16/35
IPC: G06F16/35 ; G06F16/31 ; G06K9/62 ; G06F40/30

Abstract:

本发明公开了一种文本分类方法及系统，方法包括：获取待分类文本的父标签并转化为父标签词索引向量；将父标签词索引向量与文本词索引向量进行父标签嵌入操作得到文本词索引表征，然后进行转化生成待分类文本的语义向量；利用神经元有序的循环神经网络学习语义向量的层次结构，对层次结构的各层参数进行训练输出文本表征；利用多层感知器对文本表征进行非线性操作，获取待分类文本各层标签对应的概率分布；根据文本最后一层标签的概率分布获取文本分类结果。本发明将神经元有序的循环神经网络和多层感知器的组合模型处理大量标签的文本分类任务，涉及的参数少收敛速度快，通过对文本进行逐层的方式，与现有的平面分类器相比，大大提高了分类性能。

Public/Granted literature

CN110968692B 一种文本分类方法及系统 Public/Granted day:2023-04-07

Information query

Chinese Patent Announcement Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06F	电数字数据处理（基于特定计算模型的计算机系统入G06N）
G06F16/00	信息检索；数据库结构；文件系统结构
G06F16/30	.•非结构文本数据（文档管理系统入G06F 16/93）
G06F16/35	..••聚类；分类