文档中的表格区域识别方法和装置

    公开(公告)号:CN118711201A

    公开(公告)日:2024-09-27

    申请号:CN202410664068.3

    申请日:2024-05-27

    发明人: 罗志旺 吴鹏杰

    摘要: 本发明公开了一种文档中的表格区域识别方法和装置,本发明通过获取待识别文档中的表格线形状元素,能够对待识别文档中的表格区域进行初步定位;通过根据待识别文档中的表格线形状元素之间的连通关系,识别出连通元素,并根据连通元素所框定的文档区域的形状的凹凸性识别出表格线待定元素,能够进一步识别出有可能构成表格的文档元素即表格线待定元素,从而对待识别文档中的表格区域进行进一步定位;通过对表格线待定元素进行筛选,能够对待识别文档中的表格区域进行细化定位;通过上述从粗到细的判断过程,能够识别出包括非全边框表格等异形表格在内的表格区域。本发明广泛应用于计算机文档处理技术领域。

    阅读顺序确定方法及装置
    3.
    发明公开

    公开(公告)号:CN118898254A

    公开(公告)日:2024-11-05

    申请号:CN202411007506.5

    申请日:2024-07-25

    发明人: 罗志旺 吴鹏杰

    摘要: 本申请涉及一种阅读顺序确定方法及装置,所述方法包括:获取电子文档,并确定电子文档中已确定阅读顺序的第一文本块以及待确定阅读顺序的多个第二文本块;针对任一第二文本块,确定第二文本块与第一文本块之间的语义置信度;根据语义置信度,从多个第二文本块中确定目标文本块,将目标文本块确定为接续第一文本块的下一阅读文本块。通过确定已确定阅读顺序的第一文本块,与任一待确定阅读顺序之间的语义置信度,根据语义置信度,从多个第二文本块中确定目标文本块,将目标文本块确定为接续第一文本块的下一阅读文本块,可以避免由于文本块的拼接顺序的不同,而对第一文本块的下一阅读文本块的确定产生影响。

    文档中的表格有效单元格识别方法和装置

    公开(公告)号:CN118537877A

    公开(公告)日:2024-08-23

    申请号:CN202410664071.5

    申请日:2024-05-27

    发明人: 罗志旺 吴鹏杰

    摘要: 本发明公开了一种文档中的表格有效单元格识别方法和装置,本发明通过获取待识别文档中的表格线形状元素,并识别出由各表格线形状元素划分成的子区域,能够对表格区域中的有效单元格进行初步定位;通过根据各子区域的形状以及与表格区域之间的位置关系,对各子区域进行识别,能够对表格区域进行解构,根据子区域的形状和位置等信息判断子区域的功能独立性和完整性,从而准确判断子区域是否属于有效单元格;通过上述从粗到细的判断过程,能够识别出包括非全边框表格等异形表格在内的表格区域中的有效单元格。本发明广泛应用于计算机文档处理技术领域。