-
公开(公告)号:CN117291800A
公开(公告)日:2023-12-26
申请号:CN202311251005.7
申请日:2023-09-26
Applicant: 国网浙江省电力有限公司杭州供电公司
IPC: G06T3/40 , G06T5/00 , G06V10/774 , G06N3/082 , G06N3/04
Abstract: 本发明公开了一种融合超分辨率重建和深度学习的文档转换方法及系统,涉及模式识别领域。本发明包括以下步骤:分别提取样本PDF文件和待转换PDF中的图片,对图片进行超分辨率重建;标注样本PDF图片中的噪声信息,构建目标检测数据集,利用数据集训练深度学习模型;利用深度学习模型对待转换PDF文件的图片预测推理,去除噪声信息;基于深度神经网络的推理加速技术对待转换PDF文件的图片进行处理,并进行ORC模式识别,提取文字、表格特征,得到格式转化结果。本发明将模式识别OCR的能力和图像处理的能力与格式转换相结合,实现对PDF文件中包括图片文本信息的完整提取和恢复;较好地维持了文档的版面和布局的一致性。