-
公开(公告)号:CN117496547A
公开(公告)日:2024-02-02
申请号:CN202311592216.7
申请日:2023-11-27
申请人: 中国电信股份有限公司技术创新中心 , 中国电信股份有限公司
IPC分类号: G06V30/42 , G06V30/413 , G06V30/414 , G06V30/26 , G06V30/14
摘要: 本公开提供了一种可携带文档格式页面识别方法、装置、设备及介质,涉及自然语言处理技术领域。该方法包括:读取可携带文档格式PDF文档的文本内容,得到第一识别文本和PDF文档各个段落的起始字符及方位坐标;通过各个段落的起始字符及方位坐标,将第一识别文本与PDF文档进行比较,确定各个段落的识别质量;其中,段落的识别质量为高质量文本或低质量文本;针对PDF文档中的低质量文本段落,利用图像化分析的方式进行重新读取和识别,并更新第一识别文本得到第二识别结果。根据本公开实施例,能够有效提升内容的识别质量。
-
公开(公告)号:CN117058695A
公开(公告)日:2023-11-14
申请号:CN202311013587.5
申请日:2023-08-11
申请人: 中国电信股份有限公司技术创新中心 , 中国电信股份有限公司
IPC分类号: G06V30/412 , G06V30/413 , G06V30/414 , G06F16/22
摘要: 本公开提供一种信息处理方法和装置、存储介质。信息处理方法包括:从包括表格的目标图像中提取出包括表格的框线的子图;根据子图中的全部框线交点的坐标生成区域参数列表;根据区域参数列表,识别出目标图像中的具有名称属性的多个第一单元格和具有内容属性的多个第二单元格,其中多个第一单元格和多个第二单元格一一对应;识别多个第一单元格中的每个第一单元格的文字内容,并将每个第一单元格中的文字内容存入数据库中的名称字段中;识别与每个第一单元格对应的第二单元格的文字内容,并将第二单元格的文字内容存入数据库中的与名称字段对应的内容字段中。
-
公开(公告)号:CN117036375A
公开(公告)日:2023-11-10
申请号:CN202311065374.7
申请日:2023-08-23
申请人: 中国电信股份有限公司技术创新中心 , 中国电信股份有限公司
摘要: 本公开涉及一种图像处理方法、装置和非易失性计算机可读存储介质,涉及图像处理技术领域。该图像处理方法,包括:将待处理图像分割为多个子图像;将多个子图像,划分为多个子图像集合;利用与多个子图像集合中的每一个对应的直方图均衡方法,分别对每一个子图像集合进行直方图均衡处理,以获取待处理图像的直方图均衡结果。本公开的技术方案能够降低图像处理成本、提高图像处理效果。
-
公开(公告)号:CN117636317A
公开(公告)日:2024-03-01
申请号:CN202311279944.2
申请日:2023-09-28
申请人: 中国电信股份有限公司技术创新中心 , 中国电信股份有限公司
IPC分类号: G06V20/62 , G06V30/148 , G06F40/30
摘要: 本公开实施例是关于一种图像处理方法及装置、计算机可读存储介质及电子设备,涉及计算机视觉技术领域,该方法包括:获取待处理图像,对所述待处理图像进行识别,并将识别结果对应的首个字符的位置坐标存储在二元列表;将所述二元列表切分为个人基本信息列表以及非基本信息列表,对所述个人基本信息列表中的信息进行文本语义补偿,并对所述非基本信息列表中的信息进行处理;对处理后的个人基本信息以及处理后的非基本信息进行匹配,并以键值对形式进行存储;基于键值对以及所述待处理图像的拍摄信息对所述待处理图像进行多维度审核,确定所述待处理图像的审核结果。本公开能够提高图像的审核结果的准确性。
-
-
-