图像文档的理解方法、装置、设备及存储介质

    公开(公告)号:CN119540975A

    公开(公告)日:2025-02-28

    申请号:CN202411420153.1

    申请日:2024-10-11

    Abstract: 本申请涉及一种图像文档的理解方法、装置、设备及存储介质,方法包括:基于视觉编码器对图像进行连续下采样处理,得到输出特征;基于语言解码器对输出特征进行预测,得到图像文档的解析序列;视觉编码器基于块嵌入模块以及四个阶段模型构建;前两个阶段模型分别包括两个和四个局部transformer模块、后两个阶段模型分别包括两个和四个全局transformer模块,每个阶段模型还分别包括位于最后一层的特征融合层;语言解码器基于四个基本解码器构建。本申请提供的方法,利用跨模态之间的相互关系,实现视觉、语言和结构信息的联合学习;本申请的方法,模型效果更好、模型表现更稳定,对图像文档的理解能力更强。

    识别文档中代码段的方法及装置
    3.
    发明公开

    公开(公告)号:CN119540974A

    公开(公告)日:2025-02-28

    申请号:CN202311095647.2

    申请日:2023-08-28

    Inventor: 罗志旺

    Abstract: 本发明提供一种识别文档中代码段的方法及装置,涉及文档识别技术领域,识别文档中代码段的方法,包括:确定目标文档中的待识别区域,待识别区域包含相连的至少一个文本行;对各文本行进行文本行关联检测,得到待识别区域是否具有连续性特征的检测结果,连续性特征表征文本行之间的特征连续;对各文本行中文本对象的字体进行识别,确定待识别区域是否具有字体特征的第一识别结果;对各文本行中文本对象的固定宽度属性和统一码进行识别,确定待识别区域是否具有代码特征的第二识别结果;根据检测结果、第一识别结果和第二识别结果,确定目标文档中的待识别区域是否为代码段。本发明可以快速准确地识别出文档的每一页中存在的若干个代码段。

    一种电子纸的边缘优化方法、系统、存储介质及程序产品

    公开(公告)号:CN119360390B

    公开(公告)日:2025-02-28

    申请号:CN202411930907.8

    申请日:2024-12-26

    Abstract: 一种电子纸的边缘优化方法、系统、存储介质及程序产品,涉及静态显示装置领域,该方法包括:获取电子纸待显示的内容显示数据,并基于预设的内容类型特征库,提取特征类型区域的边缘特征参数,并根据边缘特征参数确定对应的边缘优化参数;基于边缘优化参数,对每个特征类型区域的边缘进行优化处理,得到优化显示数据;检测优化显示数据中相邻类型区域的边界过渡区域,并计算边界过渡区域中相邻像素的灰度差值;在灰度差值大于预设差值阈值时,对边界过渡区域进行平滑过渡处理,生成过渡显示数据;基于内容显示数据、优化显示数据和过渡显示数据,执行图像显示。实施本申请,能基于不同类型的显示内容,优化边缘显示。

    影像报告展示方法、装置、设备、存储介质和程序产品

    公开(公告)号:CN119517272A

    公开(公告)日:2025-02-25

    申请号:CN202311040544.6

    申请日:2023-08-17

    Inventor: 徐天艺

    Abstract: 本申请涉及一种影像报告展示方法、装置、设备、存储介质和程序产品。所述方法包括:获取并显示待测对象的医学影像以及与所述医学影像对应的影像报告;获取第一用户对所述影像报告中的目标文本的触发操作;响应于所述触发操作,在所述医学影像中显示与所述目标文本对应的相关影像信息。采用本方法能够提升对医学影像进行分析后获得的分析结果的准确性。

    一种面向多语种文本图像的跨语种描述生成方法

    公开(公告)号:CN119516548A

    公开(公告)日:2025-02-25

    申请号:CN202411631533.X

    申请日:2024-11-15

    Abstract: 本发明公开了一种面向多语种文本图像的跨语种描述生成方法,其步骤包括:1获取多语种的文本图像并进行描述语句的标注;2构建面向多语种文本图像的跨语种描述生成网络;3构造多模态文本纠错任务的数据集,对描述生成网络中的部分模块进行预训练;4基于多语种文本图像描述生成数据集对网络的所有模块进行训练;5利用训练好的跨语种描述生成网络对任意输入的多语种文本图像生成指定语种的描述语句。本发明可以在多语种的场景下,对输入的多语种自然场景文本图像进行深度理解,输出多语种文本图像指定语种的描述语句。

    使用生成式人工智能补充自动信息提取

    公开(公告)号:CN119478992A

    公开(公告)日:2025-02-18

    申请号:CN202411075990.5

    申请日:2024-08-07

    Inventor: D·迪内斯

    Abstract: 公开了使用生成式AI来补充自动信息提取。计算机视觉(CV)和/或光学字符识别(OCR)模型和生成式人工智能(AI)模型被一起用于从源提取信息(例如,姓名、日期、发票号码等)。可以使用(多个)接受阈值来接受针对来自模型的提取的数据元素的预测,并且来自生成式AI模型的预测可以是优选的,或者人工可以负责审查元素。如果没有模型满足其相应接受阈值(无论是通用还是特定于该模型的),则可以标记这些(多个)元素以用于后续人工审查,或者人工可以被循环使用以校正这些(多个)元素。然后可以使用这些标记的元素对模型进行重新训练。

    文档识别方法、智能对话方法及相关装置、设备和介质

    公开(公告)号:CN118692095B

    公开(公告)日:2025-02-18

    申请号:CN202411158106.4

    申请日:2024-08-22

    Abstract: 本申请公开了一种文档识别方法、智能对话方法及相关装置、设备和介质,其中,文档识别方法包括:基于待识别文档进行拆分,得到若干待识别页面,并基于待识别文档的文档属性,在若干文档识别器中选择目标识别器;对待识别页面进行版面分析,得到分析结果,并基于目标识别器,确定是否调用公式检测器,以及基于目标识别器对待识别页面进行识别,得到识别结果;其中,公式检测器用于对待识别页面进行检测,得到检测结果,且在检测结果包括公式区域的情况下,调用公式解析器解析公式区域,得到解析结果;基于识别结果、分析结果以及由检测结果所连带解析结果,得到目标识别页面。上述方案,能够兼顾文档识别效率和识别精度。

Patent Agency Ranking