基于单元格检测的表格结构识别方法、系统和设备
摘要:
本发明涉及图像识别领域,具体为基于单元格检测的表格结构识别方法、系统和设备,该方法包括:通过表格区域检测模型从表格图像中定位出表格所在区域,生成新的表格图像;通过改进通用的SBD算法,构建一个基于改进SBD算法的单元格检测模型,单元格检测模型对表格区域内所有单元格进行检测,获取包裹单元格的最小四边形的四个顶点坐标;通过设计一种单元格邻接匹配算法,根据检测的单元格的坐标找到在同一行或者同一列的单元格,通过表格行列聚类结果,预测出表格对应的HTML结构;根据预测出的表格HTML结构,恢复生成和图像中表格结构相同的可编辑形式的表格。本发明可以解决对跨行跨列单元格的结构恢复问题,相对于现有的方法具有更强的普适性。
0/0