- 专利标题: 基于单元格检测的表格结构识别方法、系统和设备
-
申请号: CN202111540686.X申请日: 2021-12-16
-
公开(公告)号: CN114359939A公开(公告)日: 2022-04-15
- 发明人: 薛洋 , 彭帆 , 金连文
- 申请人: 华南理工大学
- 申请人地址: 广东省广州市天河区五山路381号
- 专利权人: 华南理工大学
- 当前专利权人: 华南理工大学
- 当前专利权人地址: 广东省广州市天河区五山路381号
- 代理机构: 广州市华学知识产权代理有限公司
- 代理商 林梅繁
- 主分类号: G06V30/413
- IPC分类号: G06V30/413 ; G06V30/414 ; G06V10/762 ; G06V10/74 ; G06V10/82 ; G06K9/62 ; G06N3/04 ; G06N3/08
摘要:
本发明涉及图像识别领域,具体为基于单元格检测的表格结构识别方法、系统和设备,该方法包括:通过表格区域检测模型从表格图像中定位出表格所在区域,生成新的表格图像;通过改进通用的SBD算法,构建一个基于改进SBD算法的单元格检测模型,单元格检测模型对表格区域内所有单元格进行检测,获取包裹单元格的最小四边形的四个顶点坐标;通过设计一种单元格邻接匹配算法,根据检测的单元格的坐标找到在同一行或者同一列的单元格,通过表格行列聚类结果,预测出表格对应的HTML结构;根据预测出的表格HTML结构,恢复生成和图像中表格结构相同的可编辑形式的表格。本发明可以解决对跨行跨列单元格的结构恢复问题,相对于现有的方法具有更强的普适性。
公开/授权文献
- CN114359939B 基于单元格检测的表格结构识别方法、系统和设备 公开/授权日:2024-09-17