一种化学信息抽取方法、装置、设备及存储介质

    公开(公告)号:CN112818645A

    公开(公告)日:2021-05-18

    申请号:CN202110145267.X

    申请日:2021-02-02

    摘要: 本发明公开了一种化学信息抽取方法、装置、设备及存储介质。方法包括:获取化工文档,从化工文档中分离出图像和文本,从图像中提取出化学结构和用于标注化学结构的标签,建立化学结构与标签的映射关系,得到第一存储信息,从文本中提取出化学实体以及化学实体间的关联关系,得到第二存储信息,将第一存储信息和第二存储信息存储到化学数据库中。可以自动对化工文档进行扫描,从非结构化或半结构化的数据中提取出结构化的数据,便于数据管理,对化工行业的科研、生产、实验提供巨大的帮助。此外,由于无需人工手动,节省了人力成本,同时降低了输入错误,提高了数据更新速度。

    一种化学信息抽取模型的训练方法、抽取方法、装置、设备及存储介质

    公开(公告)号:CN112699668B

    公开(公告)日:2024-09-20

    申请号:CN202110007886.2

    申请日:2021-01-05

    摘要: 本发明公开了一种化学信息抽取模型的训练方法、抽取方法、装置、设备及存储介质。训练方法包括:获取训练集,训练集包括多条化工语句样本,化工语句样本标注有参考化学信息,对化工语句样本中的字符进行表征,得到各字符的表征向量,将表征向量输入化学信息抽取模型中进行处理,得到化工语句样本中存在参考化学信息的概率,基于概率和参考化学信息计算化工语句样本的交叉熵损失,基于交叉熵损失更新化学信息抽取模型的参数。通过上述化学信息抽取模型的训练方法训练出化学信息抽取模型,以便从包含非/半结构化数据的化学信息的化工文献中提取结构化数据,便于数据管理,对化工行业的科研、生产、实验提供巨大的帮助。

    一种化学信息抽取模型的训练方法、抽取方法、装置、设备及存储介质

    公开(公告)号:CN112699668A

    公开(公告)日:2021-04-23

    申请号:CN202110007886.2

    申请日:2021-01-05

    摘要: 本发明公开了一种化学信息抽取模型的训练方法、抽取方法、装置、设备及存储介质。训练方法包括:获取训练集,训练集包括多条化工语句样本,化工语句样本标注有参考化学信息,对化工语句样本中的字符进行表征,得到各字符的表征向量,将表征向量输入化学信息抽取模型中进行处理,得到化工语句样本中存在参考化学信息的概率,基于概率和参考化学信息计算化工语句样本的交叉熵损失,基于交叉熵损失更新化学信息抽取模型的参数。通过上述化学信息抽取模型的训练方法训练出化学信息抽取模型,以便从包含非/半结构化数据的化学信息的化工文献中提取结构化数据,便于数据管理,对化工行业的科研、生产、实验提供巨大的帮助。