一种多类型实体识别的多任务深度学习模型的训练方法

发明授权

CN108920460B 一种多类型实体识别的多任务深度学习模型的训练方法有权

请登陆查看更多内容

专利标题： 一种多类型实体识别的多任务深度学习模型的训练方法
申请号： CN201810669851.3

申请日： 2018-06-26
公开(公告)号： CN108920460B

公开(公告)日： 2022-03-11
发明人: 吴杰 , 杨曦 , 沈满 , 刘奕夫 , 周游宇 , 布恒
申请人： 武大吉奥信息技术有限公司
申请人地址： 湖北省武汉市东湖开发区庙山小区江夏大道武大科技园
专利权人： 武大吉奥信息技术有限公司
当前专利权人： 吉奥时空信息技术股份有限公司
当前专利权人地址： 湖北省武汉市东湖开发区庙山小区江夏大道武大科技园
代理机构： 北京双收知识产权代理有限公司
代理商 曾晓芒
主分类号： G06F40/279
IPC分类号： G06F40/279 ; G06N3/08

摘要：

本发明适用于数据抽取技术领域，提供一种多类型实体识别的多任务深度学习模型的训练方法及装置，所述方法包括：数据预处理；建立skip‑gram神经网络模型将预处理后的文本语料数据转为向量；根据要识别和提取的实体类型构建样本数据集；构建样本数据的分词特征；建立多类型实体识别的多任务深度学习模型。本发明中，相关类型的实体采用参数共享的方式实现共同特征的提取，又使用独立的模型完成实体的标注，使得模型对于一个文本数据的多种实体识别和提取有更好的泛化能力，即实体识别的整体正确性得到提升；另外，本发明只训练一个模型，在一次迭代过程中共同特征只用训练一次，可以极大的缩减训练时间。

公开/授权文献

CN108920460A 一种多类型实体识别的多任务深度学习模型的训练方法及装置公开/授权日：2018-11-30

信息查询

中国专利公布公告

审查信息

Global Dossier

Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06F	电数字数据处理（基于特定计算模型的计算机系统入G06N）
G06F40/00	处理自然语言数据（语音分析或综合，语音识别G10L）
G06F40/20	.自然语言分析（自然语言的语义分析入G06F40/30）
G06F40/279	..文字实体的识别