一种文档识别方法及装置

发明公开

请登陆查看更多内容

专利标题： 一种文档识别方法及装置
申请号： CN202311513546.2

申请日： 2023-11-14
公开(公告)号： CN117612178A

公开(公告)日： 2024-02-27
发明人: 张晓航 , 邱镇 , 卢大玮 , 王勇 , 刘晗 , 徐康 , 陈霞 , 梁栋 , 张纪伟 , 王晓辉 , 郭鹏天 , 李黎 , 陈勇 , 周飞 , 张国梁 , 王博 , 宋明黎 , 宋杰 , 王万国 , 袁弘
申请人： 国网信息通信产业集团有限公司 , 国网山东省电力公司济南供电公司 , 中国电力科学研究院有限公司 , 国网智能电网研究院有限公司 , 浙江大学 , 国网智能科技股份有限公司
申请人地址： 北京市昌平区北七家未来科技城国家电网园区
专利权人： 国网信息通信产业集团有限公司,国网山东省电力公司济南供电公司,中国电力科学研究院有限公司,国网智能电网研究院有限公司,浙江大学,国网智能科技股份有限公司
当前专利权人： 国网信息通信产业集团有限公司,国网山东省电力公司济南供电公司,中国电力科学研究院有限公司,国网智能电网研究院有限公司,浙江大学,国网智能科技股份有限公司
当前专利权人地址： 北京市昌平区北七家未来科技城国家电网园区
代理机构： 北京风雅颂专利代理有限公司
代理商 徐雅琴
主分类号： G06V30/148
IPC分类号： G06V30/148 ; G06V30/19 ; G06V10/82 ; G06N3/0455

摘要：

本申请实施例提供一种文档识别方法及装置，包括：获取文档图像；将文档图像输入预先构建的文档识别模型，由所述文档识别模型输出文档识别结果；其中，所述文档识别模型包括多层编码器、至少两个下采样层、特征金字塔和多层解码器，所述特征金字塔的特征图像包括其中一层编码器输出的第一尺度的特征图像、经过一个下采样层和多层编码器处理输出的第二尺度的特征图像和经过另一个下采样层和多层编码器处理输出的第三尺度的特征图像，所述特征金字塔用于对各特征图像融合处理后生成特征隐向量，多层解码器用于对所述特征隐向量处理后输出词元序列。本申请能够提高从文档图像识别文档内容的准确性。

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06V	图像或视频识别或理解
G06V30/00	字符识别；数字墨迹识别；面向文档的基于图像的模式识别（文档等的扫描、传输或复制 H04N1/00）
G06V30/10	.字符识别
G06V30/14	..图像采集
G06V30/148	...字符区域的分割