-
公开(公告)号:CN113032571A
公开(公告)日:2021-06-25
申请号:CN202110420639.5
申请日:2021-04-19
申请人: 广东工业大学
IPC分类号: G06F16/35 , G06F40/295 , G06F40/30 , G06F16/36
摘要: 本发明公开了一种实体和关系抽取方法,用于解决现有技术单词的实体识别和关系抽取效果较差的技术问题。其中,方法包括:提取预设文本中每个单词的多粒度特征表示信息;基于多粒度特征表示信息提取单词的第一节点特征表示信息;构建多种预设关系类型的自适应邻接矩阵;根据自适应邻接矩阵和第一节点特征表示信息,提取单词的第二节点特征表示信息;基于每个单词的第二节点特征表示信息确定每个单词的实体类型;基于每个单词的第二节点特征表示信息计算任意两个单词之间的关系类别。
-
公开(公告)号:CN111950264B
公开(公告)日:2024-04-26
申请号:CN202010777706.4
申请日:2020-08-05
申请人: 广东工业大学
IPC分类号: G06F40/247 , G06F40/295 , G06F40/30 , G06F16/33 , G06N3/045 , G06N3/0442 , G06N3/08
摘要: 本发明公开了一种文本数据增强方法及知识元抽取方法,其中所述文本数据增强方法包括自第一补充数据库和第二补充数据库中筛选相似文本的过程,其中所述第一补充数据库源自与基础数据集相近领域的知识库,所述第二补充数据库源自基础数据集中实体词语的同义词。本发明的数据增强方法可对来源较少的基础数据产生高效、大量的补充,基于该增强方法增强后的数据集完成训练的知识元抽取模型具有较高的泛化能力和抽取准确性。
-
公开(公告)号:CN111832287B
公开(公告)日:2024-04-19
申请号:CN202010710243.X
申请日:2020-07-22
申请人: 广东工业大学
IPC分类号: G06F40/211 , G06F40/295
摘要: 本申请公开了一种实体关系联合抽取方法及装置,方法包括:采用预置Bilstm网络对字符嵌入矩阵进行特征提取,得到当前时间步的隐藏状态;对当前时间步的隐藏状态进行解码,得到初始主实体位置信息,并根据第一预置概率阈值对初始主实体位置信息进行标记操作,得到有效主实体位置信息;根据预置关系、有效主实体位置信息识别出初始客实体位置信息,并根据第二预置概率阈值对初始客实体位置信息进行标记操作,得到有效客实体位置信息;根据有效主实体位置信息、有效客实体位置信息和预置关系进行依赖建模,得到目标三元组。本申请解决了现有实体关系联合抽取技术在复杂语境下难以解决三元组重叠的技术问题。
-
公开(公告)号:CN111950264A
公开(公告)日:2020-11-17
申请号:CN202010777706.4
申请日:2020-08-05
申请人: 广东工业大学
IPC分类号: G06F40/247 , G06F40/295 , G06F40/30 , G06F16/33 , G06N3/04 , G06N3/08
摘要: 本发明公开了一种文本数据增强方法及知识元抽取方法,其中所述文本数据增强方法包括自第一补充数据库和第二补充数据库中筛选相似文本的过程,其中所述第一补充数据库源自与基础数据集相近领域的知识库,所述第二补充数据库源自基础数据集中实体词语的同义词。本发明的数据增强方法可对来源较少的基础数据产生高效、大量的补充,基于该增强方法增强后的数据集完成训练的知识元抽取模型具有较高的泛化能力和抽取准确性。
-
公开(公告)号:CN111832287A
公开(公告)日:2020-10-27
申请号:CN202010710243.X
申请日:2020-07-22
申请人: 广东工业大学
IPC分类号: G06F40/211 , G06F40/295
摘要: 本申请公开了一种实体关系联合抽取方法及装置,方法包括:采用预置Bilstm网络对字符嵌入矩阵进行特征提取,得到当前时间步的隐藏状态;对当前时间步的隐藏状态进行解码,得到初始主实体位置信息,并根据第一预置概率阈值对初始主实体位置信息进行标记操作,得到有效主实体位置信息;根据预置关系、有效主实体位置信息识别出初始客实体位置信息,并根据第二预置概率阈值对初始客实体位置信息进行标记操作,得到有效客实体位置信息;根据有效主实体位置信息、有效客实体位置信息和预置关系进行依赖建模,得到目标三元组。本申请解决了现有实体关系联合抽取技术在复杂语境下难以解决三元组重叠的技术问题。
-
-
-
-