Invention Grant
- Patent Title: 一种面向化学结构式识别的数据集构建方法和装置
-
Application No.: CN202310995606.2Application Date: 2023-08-09
-
Publication No.: CN116721713BPublication Date: 2023-10-31
- Inventor: 田振华 , 王晗 , 陶恒
- Applicant: 北京望石智慧科技有限公司
- Applicant Address: 北京市海淀区丹棱街6号丹棱soho 917-930
- Assignee: 北京望石智慧科技有限公司
- Current Assignee: 北京望石智慧科技有限公司
- Current Assignee Address: 北京市海淀区丹棱街6号丹棱soho 917-930
- Agency: 北京三聚阳光知识产权代理有限公司
- Agent 刘静
- Main IPC: G16C20/50
- IPC: G16C20/50 ; G16C20/30 ; G16C20/70 ; G16C20/90 ; G06F18/214 ; G06F18/22

Abstract:
本发明涉及结构式识别技术领域,公开了一种面向化学结构式识别的数据集构建方法和装置,方法包括:获取化学结构式的文本表示形式预处理后构建仿真训练数据集,基于其得到基准识别模型;获取公开文献中化学结构式图像,对其预设处理后送入基准识别模型进行预测及后处理;将后处理预测结果与预设化合物数据库数据进行相似度计算,并与预设匹配阈值比较后确定目标训练数据,将其输入基准识别模型进行训练,得到对应迭代模型及预测结果;对预测结果重复进行后处理及相似度匹配过滤,得到更新的目标训练数据用于迭代模型的迭代优化,直至满足预设要求时得到最终的化学结构式识别数据集。本发明能够提供大规模化学结构式识别数据集来提升模型识别效果。
Public/Granted literature
- CN116721713A 一种面向化学结构式识别的数据集构建方法和装置 Public/Granted day:2023-09-08
Information query