-
公开(公告)号:CN118711201A
公开(公告)日:2024-09-27
申请号:CN202410664068.3
申请日:2024-05-27
申请人: 珠海金山办公软件有限公司 , 北京金山办公软件股份有限公司 , 武汉金山办公软件有限公司
IPC分类号: G06V30/412 , G06V30/413 , G06V30/414 , G06V30/18
摘要: 本发明公开了一种文档中的表格区域识别方法和装置,本发明通过获取待识别文档中的表格线形状元素,能够对待识别文档中的表格区域进行初步定位;通过根据待识别文档中的表格线形状元素之间的连通关系,识别出连通元素,并根据连通元素所框定的文档区域的形状的凹凸性识别出表格线待定元素,能够进一步识别出有可能构成表格的文档元素即表格线待定元素,从而对待识别文档中的表格区域进行进一步定位;通过对表格线待定元素进行筛选,能够对待识别文档中的表格区域进行细化定位;通过上述从粗到细的判断过程,能够识别出包括非全边框表格等异形表格在内的表格区域。本发明广泛应用于计算机文档处理技术领域。
-
公开(公告)号:CN118314595A
公开(公告)日:2024-07-09
申请号:CN202410537775.6
申请日:2024-04-30
申请人: 珠海金山办公软件有限公司 , 北京金山办公软件股份有限公司 , 武汉金山办公软件有限公司
IPC分类号: G06V30/416 , G06V30/413 , G06T15/00 , G06V30/19 , G06N3/0464 , G06N3/08
摘要: 本申请涉及一种版式文档中公式的识别方法及装置,所述方法包括:对待识别的版式文档进行解析,得到所述版式文档中的至少一个候选公式元素;将所述至少一个候选公式元素渲染至画布,得到候选公式元素图像;将所述候选公式元素图像输入至预设的公式检测模型,并通过所述公式检测模型从所述公式元素图像中识别出候选公式,所述候选公式包括多个所述候选公式元素;利用设定的修正算法对所述候选公式进行修正处理,得到目标公式。由此可以实现准确且高效地识别版式文档中的公式。
-
公开(公告)号:CN118898254A
公开(公告)日:2024-11-05
申请号:CN202411007506.5
申请日:2024-07-25
申请人: 珠海金山办公软件有限公司 , 北京金山办公软件股份有限公司 , 武汉金山办公软件有限公司
IPC分类号: G06F40/30 , G06F40/205 , G06F40/106 , G06F3/0483
摘要: 本申请涉及一种阅读顺序确定方法及装置,所述方法包括:获取电子文档,并确定电子文档中已确定阅读顺序的第一文本块以及待确定阅读顺序的多个第二文本块;针对任一第二文本块,确定第二文本块与第一文本块之间的语义置信度;根据语义置信度,从多个第二文本块中确定目标文本块,将目标文本块确定为接续第一文本块的下一阅读文本块。通过确定已确定阅读顺序的第一文本块,与任一待确定阅读顺序之间的语义置信度,根据语义置信度,从多个第二文本块中确定目标文本块,将目标文本块确定为接续第一文本块的下一阅读文本块,可以避免由于文本块的拼接顺序的不同,而对第一文本块的下一阅读文本块的确定产生影响。
-
公开(公告)号:CN118537877A
公开(公告)日:2024-08-23
申请号:CN202410664071.5
申请日:2024-05-27
申请人: 珠海金山办公软件有限公司 , 北京金山办公软件股份有限公司 , 武汉金山办公软件有限公司
IPC分类号: G06V30/412 , G06V30/413 , G06V30/414
摘要: 本发明公开了一种文档中的表格有效单元格识别方法和装置,本发明通过获取待识别文档中的表格线形状元素,并识别出由各表格线形状元素划分成的子区域,能够对表格区域中的有效单元格进行初步定位;通过根据各子区域的形状以及与表格区域之间的位置关系,对各子区域进行识别,能够对表格区域进行解构,根据子区域的形状和位置等信息判断子区域的功能独立性和完整性,从而准确判断子区域是否属于有效单元格;通过上述从粗到细的判断过程,能够识别出包括非全边框表格等异形表格在内的表格区域中的有效单元格。本发明广泛应用于计算机文档处理技术领域。
-
-
-