一种利用先验知识构建文档图像数据集的方法

发明公开

请登陆查看更多内容

专利标题： 一种利用先验知识构建文档图像数据集的方法
申请号： CN202010511448.5

申请日： 2020-06-08
公开(公告)号： CN111783416A

公开(公告)日： 2020-10-16
发明人: 许灿辉 , 史操 , 孙春奇 , 陶冶 , 刘国柱 , 程远志
申请人： 青岛科技大学
申请人地址： 山东省青岛市崂山区松岭路99号
专利权人： 青岛科技大学
当前专利权人： 青岛科技大学
当前专利权人地址： 山东省青岛市崂山区松岭路99号
代理机构： 青岛中天汇智知识产权代理有限公司
代理商 王丹丹; 刘晓
主分类号： G06F40/189
IPC分类号： G06F40/189

摘要：

本发明公开一种利用先验知识构建文档图像数据集的方法，首先采用条件随机场对文档版面进行建模；然后训练条件随机场模型参数，获取文档版面先验知识；使用训练好的模型自动生成文档版面布局；进而根据生成的版面布局，生成文档对象的具体内容；最终将文档转换成文档图像，实现对文档图像数据集的构建。本方案基于条件随机场对文档版面结构进行建模，获取文档版面的先验知识，并利用先验知识自动生成文档图像数据集，节省时间和人力成本，避免由于人工标注带来的无效标注；通过条件随机场及先验知识指导生成文档图像的版面结构，使生成的版面更贴近出版物、符合阅读习惯，提高数据集的利用率及深度学习精度；并且，生成文档图像集的同时，能够提供文档图像中文本对象的文字编码信息。

公开/授权文献

CN111783416B 一种利用先验知识构建文档图像数据集的方法公开/授权日：2024-05-03

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06F	电数字数据处理（基于特定计算模型的计算机系统入G06N）
G06F40/00	处理自然语言数据（语音分析或综合，语音识别G10L）
G06F40/10	.文本处理（自然语言分析G06F 40/20;语义分析G06F 40/30;自然语言处理或翻译G06F 40/40）
G06F40/189	..自动整版