发明授权
- 专利标题: 一种基于序列标注的文本关系抽取方法
-
申请号: CN202110501103.6申请日: 2021-05-08
-
公开(公告)号: CN113191118B公开(公告)日: 2023-07-18
- 发明人: 展一鸣 , 李钊 , 吴士伟 , 李慧娟 , 辛国茂 , 陈通 , 胡传会 , 张超 , 赵秀浩
- 申请人: 山东省计算中心(国家超级计算济南中心)
- 申请人地址: 山东省济南市科院路19号
- 专利权人: 山东省计算中心(国家超级计算济南中心)
- 当前专利权人: 山东省计算中心(国家超级计算济南中心)
- 当前专利权人地址: 山东省济南市科院路19号
- 代理机构: 青岛高晓专利事务所
- 代理商 刘彬
- 主分类号: G06F40/117
- IPC分类号: G06F40/117 ; G06F40/211 ; G06F40/242 ; G06F18/214 ; G06N3/04 ; G06N3/084
摘要:
本发明涉及数据处理技术领域,具体地涉及一种基于序列标注的文本关系抽取方法,包括构建与预测数据相近的训练数据集,预设所有可能的双向实体关系以及三种固定的依存关系;将输入语句切分为单词序列,并输入到预训练模型中,得到每个句中单词的表示向量;对单词向量序列使用类似握手的方式组成唯一单词对序列;将得到的向量对序列输入到神经网络分类层中;计算损失并进行反向传播;即判断每个单词对的类别,判断单词对是否有该位置对应的关系;根据该对应关系使用附图中展示的伪代码来解码最终结果,最终得到抽取到的所有三元组。本发明能够同时完成两个任务:实体识别和关系分类。在抽取的准确率和召回率方面均有显著提高,具有较大提升。
公开/授权文献
- CN113191118A 一种基于序列标注的文本关系抽取方法 公开/授权日:2021-07-30
IPC分类: