- 专利标题: 一种利用先验知识构建文档图像数据集的方法
-
申请号: CN202010511448.5申请日: 2020-06-08
-
公开(公告)号: CN111783416A公开(公告)日: 2020-10-16
- 发明人: 许灿辉 , 史操 , 孙春奇 , 陶冶 , 刘国柱 , 程远志
- 申请人: 青岛科技大学
- 申请人地址: 山东省青岛市崂山区松岭路99号
- 专利权人: 青岛科技大学
- 当前专利权人: 青岛科技大学
- 当前专利权人地址: 山东省青岛市崂山区松岭路99号
- 代理机构: 青岛中天汇智知识产权代理有限公司
- 代理商 王丹丹; 刘晓
- 主分类号: G06F40/189
- IPC分类号: G06F40/189
摘要:
本发明公开一种利用先验知识构建文档图像数据集的方法,首先采用条件随机场对文档版面进行建模;然后训练条件随机场模型参数,获取文档版面先验知识;使用训练好的模型自动生成文档版面布局;进而根据生成的版面布局,生成文档对象的具体内容;最终将文档转换成文档图像,实现对文档图像数据集的构建。本方案基于条件随机场对文档版面结构进行建模,获取文档版面的先验知识,并利用先验知识自动生成文档图像数据集,节省时间和人力成本,避免由于人工标注带来的无效标注;通过条件随机场及先验知识指导生成文档图像的版面结构,使生成的版面更贴近出版物、符合阅读习惯,提高数据集的利用率及深度学习精度;并且,生成文档图像集的同时,能够提供文档图像中文本对象的文字编码信息。
公开/授权文献
- CN111783416B 一种利用先验知识构建文档图像数据集的方法 公开/授权日:2024-05-03