一种联合文本分类的多任务命名实体识别方法

发明授权

CN111209738B 一种联合文本分类的多任务命名实体识别方法有权

请登陆查看更多内容

专利标题： 一种联合文本分类的多任务命名实体识别方法
申请号： CN201911417834.1

申请日： 2019-12-31
公开(公告)号： CN111209738B

公开(公告)日： 2021-03-26
发明人: 庄越挺 , 浦世亮 , 汤斯亮 , 纪睿 , 王凯 , 吴飞
申请人： 浙江大学
申请人地址： 浙江省杭州市西湖区余杭塘路866号
专利权人： 浙江大学
当前专利权人： 浙江大学
当前专利权人地址： 浙江省杭州市西湖区余杭塘路866号
代理机构： 杭州求是专利事务所有限公司
代理商 傅朝栋; 张法高
主分类号： G06F40/216
IPC分类号： G06F40/216 ; G06F40/289 ; G06F40/295 ; G06N3/04 ; G06N3/08 ; G06K9/62

摘要：

本发明公开了一种联合文本分类的多任务命名实体识别方法。该方法包括如下步骤：(1)利用卷积神经网络构造文本分类器，度量文本的相似度；(2)选取合适的阈值，对于辅助任务的数据集，根据文本分类结果与阈值的比较来决定其是否参与共享层参数的更新；(3)将文本的字符向量与预训练好的词向量级联作为输入特征向量；(4)在共享层，利用双向LSTM对句子中每个单词的输入特征向量进行建模，学习各任务的公共特征；(5)在任务层依次训练每个任务，将共享层的输出传入主任务私有层或辅助任务私有层中的双向LSTM神经网络，再利用线性链条件随机场来对整个句子进行标签解码，并标注句子中的实体。本发明在多个生物医学领域的数据集上进行实验，可以有效提升语料难获取、标注成本高的特定领域的命名实体识别效果。

公开/授权文献

CN111209738A 一种联合文本分类的多任务命名实体识别方法公开/授权日：2020-05-29

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06F	电数字数据处理（基于特定计算模型的计算机系统入G06N）
G06F40/00	处理自然语言数据（语音分析或综合，语音识别G10L）
G06F40/20	.自然语言分析（自然语言的语义分析入G06F40/30）
G06F40/205	..解析
G06F40/216	...使用统计方法