- 专利标题: 训练数据生成方法、模型训练方法、装置、设备及介质
-
申请号: CN202410719712.2申请日: 2024-06-05
-
公开(公告)号: CN118297189B公开(公告)日: 2024-08-09
- 发明人: 付淳川 , 徐国坚 , 罗华刚 , 张杰 , 于皓
- 申请人: 北京中关村科金技术有限公司
- 申请人地址: 北京市通州区张家湾镇光华路5号二层228室
- 专利权人: 北京中关村科金技术有限公司
- 当前专利权人: 北京中关村科金技术有限公司
- 当前专利权人地址: 北京市通州区张家湾镇光华路5号二层228室
- 代理机构: 北京天昊联合知识产权代理有限公司
- 代理商 彭瑞欣; 张天舒
- 主分类号: G06N20/00
- IPC分类号: G06N20/00 ; G06F40/211 ; G06F40/30 ; G06F40/109
摘要:
本申请提供了一种训练数据生成方法、模型训练方法、装置、设备及介质,属于自然语言处理技术领域。训练数据生成方法包括:根据初始文本数据,确定多个版块数据;确定各个版块数据与初始文本数据之间的第一关联关系以及多个版块数据之间的第二关联关系;根据第一关联关系和第二关联关系,确定多个版块数据的排版信息;基于排版信息对多个版块数据进行排版,得到目标文本数据;根据初始文本数据、目标文本数据以及目标文本数据中的版块数据与初始文本数据的映射关系,得到训练数据。根据本申请的实施例能够较为便捷地得到合理性和准确性相对较高的训练数据,在利用该训练数据训练识别模型时,可以有效提高训练效果。
公开/授权文献
- CN118297189A 训练数据生成方法、模型训练方法、装置、设备及介质 公开/授权日:2024-07-05