一种图像处理方法、装置及电子设备

    公开(公告)号:CN114445811B

    公开(公告)日:2024-10-01

    申请号:CN202210113499.1

    申请日:2022-01-30

    摘要: 本公开提供了一种图像处理方法、装置及电子设备,涉及人工智能技术领域,尤其涉及深度学习、计算机视觉技术领域,可应用于OCR等应用场景。具体实现方案为:将目标样本图像、所述目标样本图像的检测结果输入至预先经过训练的特征提取模型,得到所述特征提取模型输出的所述目标样本图像的目标样本特征;针对每个候选样本图像,将所述候选样本图像和所述候选样本图像的检测结果输入至所述特征提取模型,得到所述特征提取模型输出的所述候选样本图像的候选样本特征;从各所述候选样本图像中选取匹配候选样本图像,作为用于训练目标检测模型的样本图像。可以筛选出能够对目标检测模型定向训练的样本图像,以提高目标检测模型的准确性。

    用于检测图像中的文本区域的方法、装置、设备以及介质

    公开(公告)号:CN110147786B

    公开(公告)日:2021-06-29

    申请号:CN201910290330.1

    申请日:2019-04-11

    IPC分类号: G06K9/20 G06K9/32

    摘要: 根据本公开的示例实施例,提供了一种用于检测图像中的文本区域的方法、装置、设备以及介质。方法包括基于图像的特征表示来检测图像中的第一文本区域,其中第一文本区域覆盖图像中所占区域具有一定形状的文本。方法还包括基于第一文本区域的特征块来确定与文本相关联的文本几何信息,其中文本几何信息包括文本的文本中心线以及文本中心线与文本的上下边界的距离信息。方法还包括基于与文本相关联的文本几何信息来将第一文本区域调整为第二文本区域,其中第二文本区域也覆盖文本并且比第一文本区域更小。本公开的实施例在通用文本检测模块的基础上增加一个任意形状文本检测模块,能够获得更紧凑的文本检测结果,从而提高图像文本检测的精度。

    一种图像处理方法、装置及电子设备

    公开(公告)号:CN114445811A

    公开(公告)日:2022-05-06

    申请号:CN202210113499.1

    申请日:2022-01-30

    摘要: 本公开提供了一种图像处理方法、装置及电子设备,涉及人工智能技术领域,尤其涉及深度学习、计算机视觉技术领域,可应用于OCR等应用场景。具体实现方案为:将目标样本图像、所述目标样本图像的检测结果输入至预先经过训练的特征提取模型,得到所述特征提取模型输出的所述目标样本图像的目标样本特征;针对每个候选样本图像,将所述候选样本图像和所述候选样本图像的检测结果输入至所述特征提取模型,得到所述特征提取模型输出的所述候选样本图像的候选样本特征;从各所述候选样本图像中选取匹配候选样本图像,作为用于训练目标检测模型的样本图像。可以筛选出能够对目标检测模型定向训练的样本图像,以提高目标检测模型的准确性。

    用于获取图像信息的方法和装置
    5.
    发明公开

    公开(公告)号:CN111523292A

    公开(公告)日:2020-08-11

    申请号:CN202010325580.7

    申请日:2020-04-23

    IPC分类号: G06F40/166 G06K9/00 G06K9/34

    摘要: 本申请公开了用于获取图像信息的方法和装置,涉及计算机视觉技术领域。具体实施方式包括:利用深度神经网络,对待处理图像进行检测,得到所述待处理图像中目标的类别和位置,其中,所述待处理图像包括至少一个类别的目标;基于所得到的位置对应的类别,解析所得到的位置的目标,得到可编辑的解析结果;按照各个所述解析结果在所述待处理图像中对应的所得到的位置,进行文档重建,得到可编辑文档。本申请可以基于各个位置对应的类别,准确地解析在各个位置的目标,并且可以基于至少一个目标的类别中各个目标的类别,对图像进行更加全面的解析。

    用于获取图像信息的方法和装置

    公开(公告)号:CN111523292B

    公开(公告)日:2023-09-15

    申请号:CN202010325580.7

    申请日:2020-04-23

    摘要: 本申请公开了用于获取图像信息的方法和装置,涉及计算机视觉技术领域。具体实施方式包括:利用深度神经网络,对待处理图像进行检测,得到所述待处理图像中目标的类别和位置,其中,所述待处理图像包括至少一个类别的目标;基于所得到的位置对应的类别,解析所得到的位置的目标,得到可编辑的解析结果;按照各个所述解析结果在所述待处理图像中对应的所得到的位置,进行文档重建,得到可编辑文档。本申请可以基于各个位置对应的类别,准确地解析在各个位置的目标,并且可以基于至少一个目标的类别中各个目标的类别,对图像进行更加全面的解析。

    深度学习网络的训练方法、文本检测方法及装置

    公开(公告)号:CN115358392B

    公开(公告)日:2023-05-05

    申请号:CN202211290027.X

    申请日:2022-10-21

    IPC分类号: G06N3/08 G06V10/82 G06V30/14

    摘要: 本公开提供了一种深度学习网络的训练方法、文本检测方法及装置、设备、介质和产品,涉及人工智能领域,尤其涉及深度学习、图像处理、计算机视觉技术领域,可应用于OCR、大模型等场景。具体实现方案包括:利用待训练的深度学习网络,确定基于样本文本图像中的至少一个目标文本框的第一文本框特征和第二文本框特征;根据第一文本框特征、第二文本框特征和预设文本框特征序列,确定对比损失函数值;以及根据对比损失函数值,调整深度学习网络的模型参数,得到经训练的目标深度学习网络。

    一种光学字符识别模型的优化方法、装置、设备及介质

    公开(公告)号:CN114495123A

    公开(公告)日:2022-05-13

    申请号:CN202210041824.8

    申请日:2022-01-14

    摘要: 本公开提供了一种光学字符识别模型的优化方法、装置、设备及介质,涉及人工智能技术领域,尤其涉及深度学习、计算机视觉技术领域。具体实现方案为:获取多个线上业务数据的编码向量;采用编码器和两个解码器,对多个线上业务数据的编码向量进行处理,得到每个线上业务数据的两个解码向量;根据每个线上业务数据的编码向量和两个解码向量,确定每个线上业务数据对应的两个损失值;从多个线上业务数据中,获取坐标在预设坐标范围外的线上业务数据,作为困难样本,每个线上业务数据的坐标由该线上业务数据对应的两个损失值构成;利用困难样本,优化光学字符识别模型。

    用于检测图像中的文本区域的方法、装置、设备以及介质

    公开(公告)号:CN110032969B

    公开(公告)日:2021-11-05

    申请号:CN201910289292.8

    申请日:2019-04-11

    IPC分类号: G06K9/00 G06K9/20

    摘要: 根据本公开的示例实施例,提供了一种用于检测图像中的文本区域的方法、装置、设备以及介质。方法包括基于图像的特征表示来检测图像中的一个或多个文本区域,其中一个或多个文本区域中的第一文本区域通过多边形来表示并且覆盖图像中的一段文本的仅一部分。方法还包括基于第一文本区域的特征块来确定第一文本区域的角点的调整值,并且基于第一文本区域的角点的调整值来将第一文本区域调整为第二文本区域,其中第二文本区域比第一文本区域覆盖一段文本的更多部分。本公开的实施例在通用文本检测模块的基础上增加一个长文本检测提高模块,能够更完整地检测出图像中的长文本,从而提高图像文本检测的准确率。