发明公开
- 专利标题: 一种用于对公文中表格内容进行识别的方法及系统
-
申请号: CN202111589671.2申请日: 2021-12-23
-
公开(公告)号: CN114445839A公开(公告)日: 2022-05-06
- 发明人: 龚晨 , 毛翔宇 , 金洪亮 , 蔡书成 , 邓钢
- 申请人: 航天信息股份有限公司
- 申请人地址: 北京市海淀区杏石口路甲18号
- 专利权人: 航天信息股份有限公司
- 当前专利权人: 航天信息股份有限公司
- 当前专利权人地址: 北京市海淀区杏石口路甲18号
- 主分类号: G06V30/412
- IPC分类号: G06V30/412 ; G06K9/62 ; G06N20/00 ; G06V10/22 ; G06V10/25 ; G06V10/774
摘要:
本发明公开了一种用于对公文中表格内容进行识别的方法及系统,方法包括:获取公文文档图像,进行预处理;基于深度学习算法对经过预处理的公文文档图像进行文本框位置检测和文本框内容识别,获取每个文本框的文本框位置信息,以及对应的文本框内容信息;对公文文档图像中的表格整体单元格进行检测,检测出所有横线和所有竖线;基于检测出的所有横线和所有竖线获取小单元格位置信息;基于文本框位置信息和小单元格位置信息,判断文本框是否与小单元格相对应;当两者相对应时,基于文本框位置信息对文本框进行排序,获取排序后的文本框内容信息;基于排序后的文本框内容信息确定表格整体单元格的内容排布,输出结构化文本信息。