-
公开(公告)号:CN112818645A
公开(公告)日:2021-05-18
申请号:CN202110145267.X
申请日:2021-02-02
申请人: 广州楹鼎生物科技有限公司
IPC分类号: G06F40/166 , G06F40/169 , G06F40/279 , G06F40/284 , G06K9/00 , G06N3/04 , G06N3/08 , G06F16/31
摘要: 本发明公开了一种化学信息抽取方法、装置、设备及存储介质。方法包括:获取化工文档,从化工文档中分离出图像和文本,从图像中提取出化学结构和用于标注化学结构的标签,建立化学结构与标签的映射关系,得到第一存储信息,从文本中提取出化学实体以及化学实体间的关联关系,得到第二存储信息,将第一存储信息和第二存储信息存储到化学数据库中。可以自动对化工文档进行扫描,从非结构化或半结构化的数据中提取出结构化的数据,便于数据管理,对化工行业的科研、生产、实验提供巨大的帮助。此外,由于无需人工手动,节省了人力成本,同时降低了输入错误,提高了数据更新速度。
-
公开(公告)号:CN112699668B
公开(公告)日:2024-09-20
申请号:CN202110007886.2
申请日:2021-01-05
申请人: 广州楹鼎生物科技有限公司
IPC分类号: G06F40/216 , G06F16/35 , G16C20/70
摘要: 本发明公开了一种化学信息抽取模型的训练方法、抽取方法、装置、设备及存储介质。训练方法包括:获取训练集,训练集包括多条化工语句样本,化工语句样本标注有参考化学信息,对化工语句样本中的字符进行表征,得到各字符的表征向量,将表征向量输入化学信息抽取模型中进行处理,得到化工语句样本中存在参考化学信息的概率,基于概率和参考化学信息计算化工语句样本的交叉熵损失,基于交叉熵损失更新化学信息抽取模型的参数。通过上述化学信息抽取模型的训练方法训练出化学信息抽取模型,以便从包含非/半结构化数据的化学信息的化工文献中提取结构化数据,便于数据管理,对化工行业的科研、生产、实验提供巨大的帮助。
-
公开(公告)号:CN112699668A
公开(公告)日:2021-04-23
申请号:CN202110007886.2
申请日:2021-01-05
申请人: 广州楹鼎生物科技有限公司
IPC分类号: G06F40/216 , G06F16/35 , G16C20/70
摘要: 本发明公开了一种化学信息抽取模型的训练方法、抽取方法、装置、设备及存储介质。训练方法包括:获取训练集,训练集包括多条化工语句样本,化工语句样本标注有参考化学信息,对化工语句样本中的字符进行表征,得到各字符的表征向量,将表征向量输入化学信息抽取模型中进行处理,得到化工语句样本中存在参考化学信息的概率,基于概率和参考化学信息计算化工语句样本的交叉熵损失,基于交叉熵损失更新化学信息抽取模型的参数。通过上述化学信息抽取模型的训练方法训练出化学信息抽取模型,以便从包含非/半结构化数据的化学信息的化工文献中提取结构化数据,便于数据管理,对化工行业的科研、生产、实验提供巨大的帮助。
-
-