- 专利标题: 一种面向化学结构式识别的数据集构建方法和装置
-
申请号: CN202310995606.2申请日: 2023-08-09
-
公开(公告)号: CN116721713B公开(公告)日: 2023-10-31
- 发明人: 田振华 , 王晗 , 陶恒
- 申请人: 北京望石智慧科技有限公司
- 申请人地址: 北京市海淀区丹棱街6号丹棱soho 917-930
- 专利权人: 北京望石智慧科技有限公司
- 当前专利权人: 北京望石智慧科技有限公司
- 当前专利权人地址: 北京市海淀区丹棱街6号丹棱soho 917-930
- 代理机构: 北京三聚阳光知识产权代理有限公司
- 代理商 刘静
- 主分类号: G16C20/50
- IPC分类号: G16C20/50 ; G16C20/30 ; G16C20/70 ; G16C20/90 ; G06F18/214 ; G06F18/22
摘要:
本发明涉及结构式识别技术领域,公开了一种面向化学结构式识别的数据集构建方法和装置,方法包括:获取化学结构式的文本表示形式预处理后构建仿真训练数据集,基于其得到基准识别模型;获取公开文献中化学结构式图像,对其预设处理后送入基准识别模型进行预测及后处理;将后处理预测结果与预设化合物数据库数据进行相似度计算,并与预设匹配阈值比较后确定目标训练数据,将其输入基准识别模型进行训练,得到对应迭代模型及预测结果;对预测结果重复进行后处理及相似度匹配过滤,得到更新的目标训练数据用于迭代模型的迭代优化,直至满足预设要求时得到最终的化学结构式识别数据集。本发明能够提供大规模化学结构式识别数据集来提升模型识别效果。
公开/授权文献
- CN116721713A 一种面向化学结构式识别的数据集构建方法和装置 公开/授权日:2023-09-08