一种文字定位模型的训练方法及文字定位方法

    公开(公告)号:CN113762109B

    公开(公告)日:2023-11-07

    申请号:CN202110970305.5

    申请日:2021-08-23

    摘要: 本公开提供了一种文字定位方法及文字定位模型的训练方法,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于光学字符识别OCR等场景。具体实现方案为:获取样本图像;将样本图像输入至待训练的文字定位模型中,输出预测文本框;获取样本先验锚点框;根据样本先验锚点框、标注文本框和预测文本框,对文字定位模型的模型参数进行调整,并使用下一个样本图像对调整后的文字定位模型继续训练,直至模型训练结束生成目标文字定位模型。由此,本公开能够通过结合先验锚点框进行文字定位模型的训练,不再需要在模型训练过程中从零开始进行回归预测,降低了模型训练过程中的耗时及难度,提高了模型训练结果的可靠性。

    一种票据图像识别方法、装置、设备及存储介质

    公开(公告)号:CN111709339B

    公开(公告)日:2023-09-19

    申请号:CN202010517447.1

    申请日:2020-06-09

    摘要: 本申请公开了一种票据图像识别方法、装置、设备及存储介质,涉及人工智能深度学习和图像处理领域。具体实现方案为:对票据图像进行文本检测,确定所述票据图像中的至少两个文本框的属性信息集和关系信息集;根据所述文本框的属性信息集和关系信息集,确定所述文本框的类型,以及与所述文本框存在结构关系的关联文本框;根据所述文本框的类型,以及与所述文本框存在结构关系的关联文本框,提取所述票据图像的结构化票据数据。本申请实施例的方案能够支持自动识别多种不同版本的票据图像,且识别过程无需借助模板,提高了票据图像识别的通用性和准确性。

    图像识别方法装置、设备和存储介质

    公开(公告)号:CN114299522B

    公开(公告)日:2023-08-29

    申请号:CN202210023327.5

    申请日:2022-01-10

    摘要: 本公开提供了一种图像识别方法装置、设备和存储介质,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于OCR等场景。具体实现方案为:基于待识别图像的特征图,得到多个键实例特征和多个值实例特征;将所述多个键实例特征和所述多个值实例特征进行匹配,得到多个实例特征组合;对所述多个实例特征组合中的每个实例特征组合中的键实例特征和值实例特征进行融合,得到所述每个实例特征组合所对应的融合特征;基于与所述多个实例特征组合分别对应的多个融合特征,得到所述待识别图像的多个键值识别结果。根据本公开的技术,可以充分利用图像中键实例丰富的语义信息,帮助值实例实现更好的分类解析,输出更加准确的图像识别结果。

    文档图像的实体抽取方法、装置及存储介质

    公开(公告)号:CN116486420A

    公开(公告)日:2023-07-25

    申请号:CN202310389021.6

    申请日:2023-04-12

    摘要: 本公开提供了一种文档图像的实体抽取方法及装置,涉及人工智能技术领域,具体涉及计算机视觉、OCR、深度学习等技术领域,可应用于智慧金融、智慧政务等场景。具体实现方案为:获取待分析文档图像,并获取待分析文档图像的多模态特征编码;将多模态特征编码输入至动态交互Transformer网络,生成语义表示融合特征;根据语义表示融合特征,得到待分析文档图像中每个文字对应的序列标记和实体标记;根据每个文字对应的序列标记和实体标记,得到待分析文档图像的实体抽取结果。本公开实施例的通过动态交互Transformer网络生成的语义表示融合特征具有更强语义表示的融合特征,从而提升了文档图像中实体抽取的准确率。

    扭曲文档图像的矫正方法和装置

    公开(公告)号:CN111260586B

    公开(公告)日:2023-07-04

    申请号:CN202010066508.7

    申请日:2020-01-20

    IPC分类号: G06T5/00 G06N3/0464

    摘要: 本发明实施例提供一种扭曲文档图像的矫正方法和装置,其中,扭曲文档图像的矫正方法包括:获取扭曲文档图像;将扭曲文档图像输入到矫正模型中,得到扭曲文档图像对应的矫正后的图像;其中,矫正模型是以图像样本集合为输入,以图像样本集合中每个图像样本对应的矫正后的图像为输出训练得到的模型,图像样本存在扭曲。通过将待矫正的扭曲文档图像输入到矫正模型中,通过矫正模型可以获取扭曲文档图像对应的矫正后的图像,端到端的实现了文档图像矫正,提高了文档图像矫正的准确率,扩展了文档图像矫正的应用场景。

    主体检测框的显示方法、装置、电子设备及可读存储介质

    公开(公告)号:CN115601775A

    公开(公告)日:2023-01-13

    申请号:CN202211303281.9

    申请日:2022-10-24

    摘要: 本公开提供了一种主体检测框的显示方法,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域。具体实现方案为:获取对目标对象采集的视频流中的帧图像序列;基于预设的第一抽取频率从所述帧图像序列中抽取显示帧图像,并基于预设的第二抽取率从所述帧图像序列中抽取检测帧图像;响应于从所述检测帧图像中确定出第二检测帧图像,针对第二显示帧图像中的任一个目标第二显示帧图像,基于所述目标第二显示帧图像的前一帧显示帧图像中的主体显示框,以及所述第二检测帧图像中的主体检测框,确定所述目标第二显示帧图像的中的主体显示框。本公开可以减少前后显示帧图像的主体显示框的偏移,减少画面的抖动,提升用户体验。

    文档图像的处理方法、装置和存储介质

    公开(公告)号:CN114792423B

    公开(公告)日:2022-12-09

    申请号:CN202210552234.1

    申请日:2022-05-20

    摘要: 本公开提供了一种文档图像的处理方法、装置和存储介质,涉及人工智能技术领域,具体涉及计算机视觉、图像处理、深度学习等技术领域。具体实现方案为:在对文档图像进行处理时,确定出文档图像中感兴趣的实体词所在的文本区域的位置信息,并对该文档图像中与该位置信息对应的图像区域进行文字识别,以得到该感兴趣的实体词在该文档图像中所对应的文本内容。由此,直接对感兴趣的实体词在文档图像上所对应的图像区域进行文字识别,以得到感兴趣的实体词在文档图像中所对应的文本内容,降低了从文档图像中获取感兴趣的文本内容的复杂度,并且提升了从文档图像中确定出了感兴趣的文本内容的准确度。