-
公开(公告)号:CN113762109B
公开(公告)日:2023-11-07
申请号:CN202110970305.5
申请日:2021-08-23
申请人: 北京百度网讯科技有限公司
IPC分类号: G06V30/19 , G06V30/413 , G06V30/414 , G06V10/82
摘要: 本公开提供了一种文字定位方法及文字定位模型的训练方法,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于光学字符识别OCR等场景。具体实现方案为:获取样本图像;将样本图像输入至待训练的文字定位模型中,输出预测文本框;获取样本先验锚点框;根据样本先验锚点框、标注文本框和预测文本框,对文字定位模型的模型参数进行调整,并使用下一个样本图像对调整后的文字定位模型继续训练,直至模型训练结束生成目标文字定位模型。由此,本公开能够通过结合先验锚点框进行文字定位模型的训练,不再需要在模型训练过程中从零开始进行回归预测,降低了模型训练过程中的耗时及难度,提高了模型训练结果的可靠性。
-
公开(公告)号:CN111709339B
公开(公告)日:2023-09-19
申请号:CN202010517447.1
申请日:2020-06-09
申请人: 北京百度网讯科技有限公司
IPC分类号: G06V30/40 , G06V30/146 , G06V30/14 , G06V30/19 , G06V10/82 , G06N3/0464 , G06N3/0442 , G06N5/04
摘要: 本申请公开了一种票据图像识别方法、装置、设备及存储介质,涉及人工智能深度学习和图像处理领域。具体实现方案为:对票据图像进行文本检测,确定所述票据图像中的至少两个文本框的属性信息集和关系信息集;根据所述文本框的属性信息集和关系信息集,确定所述文本框的类型,以及与所述文本框存在结构关系的关联文本框;根据所述文本框的类型,以及与所述文本框存在结构关系的关联文本框,提取所述票据图像的结构化票据数据。本申请实施例的方案能够支持自动识别多种不同版本的票据图像,且识别过程无需借助模板,提高了票据图像识别的通用性和准确性。
-
公开(公告)号:CN114299522B
公开(公告)日:2023-08-29
申请号:CN202210023327.5
申请日:2022-01-10
申请人: 北京百度网讯科技有限公司
摘要: 本公开提供了一种图像识别方法装置、设备和存储介质,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于OCR等场景。具体实现方案为:基于待识别图像的特征图,得到多个键实例特征和多个值实例特征;将所述多个键实例特征和所述多个值实例特征进行匹配,得到多个实例特征组合;对所述多个实例特征组合中的每个实例特征组合中的键实例特征和值实例特征进行融合,得到所述每个实例特征组合所对应的融合特征;基于与所述多个实例特征组合分别对应的多个融合特征,得到所述待识别图像的多个键值识别结果。根据本公开的技术,可以充分利用图像中键实例丰富的语义信息,帮助值实例实现更好的分类解析,输出更加准确的图像识别结果。
-
公开(公告)号:CN116486420A
公开(公告)日:2023-07-25
申请号:CN202310389021.6
申请日:2023-04-12
申请人: 北京百度网讯科技有限公司
IPC分类号: G06V30/41 , G06V30/40 , G06V30/19 , G06V10/82 , G06F40/279 , G06F40/30 , G06N3/045 , G06N3/0464
摘要: 本公开提供了一种文档图像的实体抽取方法及装置,涉及人工智能技术领域,具体涉及计算机视觉、OCR、深度学习等技术领域,可应用于智慧金融、智慧政务等场景。具体实现方案为:获取待分析文档图像,并获取待分析文档图像的多模态特征编码;将多模态特征编码输入至动态交互Transformer网络,生成语义表示融合特征;根据语义表示融合特征,得到待分析文档图像中每个文字对应的序列标记和实体标记;根据每个文字对应的序列标记和实体标记,得到待分析文档图像的实体抽取结果。本公开实施例的通过动态交互Transformer网络生成的语义表示融合特征具有更强语义表示的融合特征,从而提升了文档图像中实体抽取的准确率。
-
公开(公告)号:CN111260586B
公开(公告)日:2023-07-04
申请号:CN202010066508.7
申请日:2020-01-20
申请人: 北京百度网讯科技有限公司
IPC分类号: G06T5/00 , G06N3/0464
摘要: 本发明实施例提供一种扭曲文档图像的矫正方法和装置,其中,扭曲文档图像的矫正方法包括:获取扭曲文档图像;将扭曲文档图像输入到矫正模型中,得到扭曲文档图像对应的矫正后的图像;其中,矫正模型是以图像样本集合为输入,以图像样本集合中每个图像样本对应的矫正后的图像为输出训练得到的模型,图像样本存在扭曲。通过将待矫正的扭曲文档图像输入到矫正模型中,通过矫正模型可以获取扭曲文档图像对应的矫正后的图像,端到端的实现了文档图像矫正,提高了文档图像矫正的准确率,扩展了文档图像矫正的应用场景。
-
公开(公告)号:CN115035538B
公开(公告)日:2023-04-07
申请号:CN202210685043.2
申请日:2022-03-22
申请人: 北京百度网讯科技有限公司
摘要: 本公开提供了一种文本识别模型的训练方法、文本识别方法及装置,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于光学字符识别等场景。方案为:对获取到的第一样本图像中的部分图像进行掩码预测,得到与第一样本图像对应的预测完整图像,对获取到的第二样本图像中的部分文本进行掩码预测,得到与部分文本对应的预测文本内容,根据预测完整图像和预测文本内容训练得到预训练模型,并根据预训练模型生成文本识别模型,文本识别模型用于对待识别图像进行文本识别,使得预训练模型学习到较强的图像视觉推理能力和文本语义推理能力,从而当基于预训练模型生成的文本识别模型进行文本识别时,提高文本识别的准确性和可靠性。
-
公开(公告)号:CN115601775A
公开(公告)日:2023-01-13
申请号:CN202211303281.9
申请日:2022-10-24
申请人: 北京百度网讯科技有限公司(CN)
IPC分类号: G06V30/414 , G06V30/18 , G06V30/16
摘要: 本公开提供了一种主体检测框的显示方法,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域。具体实现方案为:获取对目标对象采集的视频流中的帧图像序列;基于预设的第一抽取频率从所述帧图像序列中抽取显示帧图像,并基于预设的第二抽取率从所述帧图像序列中抽取检测帧图像;响应于从所述检测帧图像中确定出第二检测帧图像,针对第二显示帧图像中的任一个目标第二显示帧图像,基于所述目标第二显示帧图像的前一帧显示帧图像中的主体显示框,以及所述第二检测帧图像中的主体检测框,确定所述目标第二显示帧图像的中的主体显示框。本公开可以减少前后显示帧图像的主体显示框的偏移,减少画面的抖动,提升用户体验。
-
公开(公告)号:CN115035351B
公开(公告)日:2023-01-06
申请号:CN202210838350.X
申请日:2022-07-18
申请人: 北京百度网讯科技有限公司
IPC分类号: G06V10/764 , G06V10/774 , G06V30/148 , G06V30/19
摘要: 本公开提供了一种基于图像的信息提取模型、方法、装置、设备及存储介质,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于OCR等场景。具体实现方案为:获取待提取的第一图像和待提取信息的类别;通过将所述第一图像和所述类别输入预先训练的信息提取模型,对所述第一图像进行信息提取,得到所述类别对应的文字信息。本公开的技术,能够有效地提高信息提取的效率。
-
公开(公告)号:CN114792423B
公开(公告)日:2022-12-09
申请号:CN202210552234.1
申请日:2022-05-20
申请人: 北京百度网讯科技有限公司
摘要: 本公开提供了一种文档图像的处理方法、装置和存储介质,涉及人工智能技术领域,具体涉及计算机视觉、图像处理、深度学习等技术领域。具体实现方案为:在对文档图像进行处理时,确定出文档图像中感兴趣的实体词所在的文本区域的位置信息,并对该文档图像中与该位置信息对应的图像区域进行文字识别,以得到该感兴趣的实体词在该文档图像中所对应的文本内容。由此,直接对感兴趣的实体词在文档图像上所对应的图像区域进行文字识别,以得到感兴趣的实体词在文档图像中所对应的文本内容,降低了从文档图像中获取感兴趣的文本内容的复杂度,并且提升了从文档图像中确定出了感兴趣的文本内容的准确度。
-
公开(公告)号:CN115130473A
公开(公告)日:2022-09-30
申请号:CN202210419163.8
申请日:2022-04-20
申请人: 北京百度网讯科技有限公司
IPC分类号: G06F40/295 , G06F40/30 , G06K9/62 , G06N3/04 , G06N3/08 , G06V30/416
摘要: 本公开提供了一种关键信息抽取方法、模型训练方法、相关装置及电子设备,涉及人工智能技术领域,具体涉及深度学习、图像处理、计算机视觉技术领域。具体实现方案为:获取第一图像中第一文档的第一特征,所述第一特征是基于所述第一文档的文本特征和所述第一文档的文本行的视觉特征拼接得到的;对所述第一特征进行语义增强,得到所述第一文档的第二特征;基于所述第二特征对所述第一文档进行关键信息抽取。
-
-
-
-
-
-
-
-
-