-
公开(公告)号:CN113239807B
公开(公告)日:2024-04-02
申请号:CN202110527551.3
申请日:2021-05-14
申请人: 北京百度网讯科技有限公司
IPC分类号: G06V30/412 , G06V20/62 , G06V30/18 , G06V10/44 , G06V30/19 , G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/08
摘要: 本公开提供了训练票据识别模型和票据识别的方法和装置,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于图像识别场景下。具体实现方案为:获取训练样本集和初始模型;将选取的训练样本的样本票据图像输入第一特征提取层中,得到第一特征图;将第一特征图输入第一头部层,得到文字框的位置;将第一特征图输入第二特征提取层中,得到第二特征图;将第二特征图输入第二头部层,得到键值对;根据文字框的位置确定出键值对在选取的样本票据图像中对应的字段区域;基于标注信息和字段区域,确定损失值;响应于损失值小于预定阈值,将初始模型确定为票据识别模型。该实施方式可以快速、准确地从票据图像中提取出感兴趣的字段。
-
公开(公告)号:CN117114063A
公开(公告)日:2023-11-24
申请号:CN202311110301.5
申请日:2023-08-30
申请人: 北京百度网讯科技有限公司
IPC分类号: G06N3/0499 , G06N3/098 , G06V30/148 , G06V10/82
摘要: 本公开提供了一种用于训练生成式大语言模型和用于处理图像任务的方法,涉及计算机视觉、图像处理、大模型等人工智能技术领域,可应用于光学字符识别等场景。该方法包括:获取使用通用文本训练集训练得到的设置有自注意力网络层和前馈神经网络层的第一生成式大语言模型;在被冻结了参数的自注意力网络层和前馈神经网络层中间增设交叉注意力网络层,且初始化交叉注意力网络层的参数,得到第二生成式大语言模型;将获取到的样本图像的图像特征和用于指示任务类型的提示词作为实际输入、将匹配实际输入的文本序列作为期望输出,以微调的方式训练第二生成式大语言模型,得到第三生成式大语言模型。
-
公开(公告)号:CN111782840B
公开(公告)日:2023-08-22
申请号:CN202010616632.6
申请日:2020-06-30
申请人: 北京百度网讯科技有限公司
IPC分类号: G06F16/532 , G06F16/583 , G06V10/80 , G06V10/74 , G06V10/82 , G06N3/0464 , G06N3/08 , G06V10/70 , G06N5/045
摘要: 本公开提供了一种图像问答方法,涉及计算机视觉、自然语言处理领域。该方法包括:获取输入图像和输入问题;基于输入图像,构建视觉图,视觉图包括节点特征和边特征;基于上述节点特征和边特征,对节点特征进行更新,以得到更新视觉图;基于输入问题,确定问题特征;对更新视觉图和问题特征进行融合处理,以得到融合特征;并且,基于融合特征,生成针对输入图像和输入问题的预测答案。本公开还提供了图像问答装置、计算机设备和介质。
-
公开(公告)号:CN116597454A
公开(公告)日:2023-08-15
申请号:CN202310597526.1
申请日:2023-05-24
申请人: 北京百度网讯科技有限公司
摘要: 本公开提供了一种图像处理方法、图像处理模型的训练方法、装置和设备,涉及人工智能技术领域,具体为计算机视觉、图像处理、深度学习等技术领域,可应用于OCR、智慧政务等场景。图像处理方法包括:对目标图像进行文本识别,得到多个文本区域和其各自的文本内容;提取表征多个文本区域的视觉模态信息的多个第一视觉特征和每一个文本区域所包括的文本内容的文本模态信息的多个第一文本特征;基于多个第一视觉特征将多个第一文本特征融合,以得到多个第一文本融合特征;基于多个第一文本特征将多个第一视觉特征融合,以得到多个第一视觉融合特征;基于注意力机制对多个第一视觉融合特征和多个第一文本融合特征进行强化进而得到图像处理结果。
-
公开(公告)号:CN113033431B
公开(公告)日:2023-08-08
申请号:CN202110341261.X
申请日:2021-03-30
申请人: 北京百度网讯科技有限公司
IPC分类号: G06V30/413 , G06V20/62 , G06V30/18 , G06V10/82 , G06F40/30 , G06N3/044 , G06N3/0442
摘要: 本公开公开了一种光学字符识别模型训练和识别方法、装置、设备及介质,涉及人工智能技术领域,尤其涉及计算机视觉和深度学习技术,可用于OCR场景下。具体实现方案为:对样本图像进行特征提取,得到样本特征数据;将所述样本特征数据输入至光学字符识别模型,以确定所述样本特征数据中的文字区域对应的局部特征数据,并提取所述局部特征数据中的语义信息,根据所述语义信息,确定所述文字区域的预测类别;根据所述预测类别和所述文字区域的标签类别,对所述光学字符识别模型进行训练。本公开提高了光学字符识别模型的类别预测结果的准确度。
-
公开(公告)号:CN114821622B
公开(公告)日:2023-07-21
申请号:CN202210234230.9
申请日:2022-03-10
申请人: 北京百度网讯科技有限公司
IPC分类号: G06V30/416 , G06V30/414 , G06V30/42 , G06V30/18 , G06V30/19 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/08
摘要: 本公开提供了一种文本抽取方法、文本抽取模型训练方法、装置及设备,涉及人工智能技术领域,尤其涉及计算机视觉技术领域。具体实现方案为:获取待检测图像的视觉编码特征;从待检测图像中提取多组多模态特征,其中,每组多模态特征包括从待检测图像中提取的一个检测框的位置信息、该检测框中的检测特征以及该检测框中的第一文本信息;基于视觉编码特征、待抽取属性以及多组多模态特征,从多组多模态特征包括的第一文本信息中,获取与待抽取属性匹配的第二文本信息,待抽取属性为需要被抽取的文本信息的属性。该方案可以对多种版式的证件票据进行文本信息抽取,提高了抽取效率。
-
公开(公告)号:CN116416159A
公开(公告)日:2023-07-11
申请号:CN202310389889.6
申请日:2023-04-12
申请人: 北京百度网讯科技有限公司
IPC分类号: G06T5/00 , G06T7/194 , G06V30/16 , G06V30/148 , G06V30/41 , G06V10/82 , G06N3/0455
摘要: 本公开提供了一种图像矫正方法、装置、电子设备、计算机可读存储介质和计算机程序产品,涉及人工智能技术领域,尤其涉及计算机视觉、图像处理、深度学习等技术领域,可应用于OCR、智慧政务等场景。实现方案为:获取待矫正图像;确定所述待矫正图像的形变图像特征,其中,所述形变图像特征指示所述待矫正图像发生的形变的类型和程度;对所述待矫正图像进行前背景分割,以得到所述待矫正图像的背景信息;根据所述形变图像特征和所述背景信息对所述待矫正图像进行后向预测,以得到所述待矫正图像的后向图;以及基于所述后向图对所述待矫正图像进行矫正。
-
公开(公告)号:CN115358392B
公开(公告)日:2023-05-05
申请号:CN202211290027.X
申请日:2022-10-21
申请人: 北京百度网讯科技有限公司
摘要: 本公开提供了一种深度学习网络的训练方法、文本检测方法及装置、设备、介质和产品,涉及人工智能领域,尤其涉及深度学习、图像处理、计算机视觉技术领域,可应用于OCR、大模型等场景。具体实现方案包括:利用待训练的深度学习网络,确定基于样本文本图像中的至少一个目标文本框的第一文本框特征和第二文本框特征;根据第一文本框特征、第二文本框特征和预设文本框特征序列,确定对比损失函数值;以及根据对比损失函数值,调整深度学习网络的模型参数,得到经训练的目标深度学习网络。
-
公开(公告)号:CN115984566A
公开(公告)日:2023-04-18
申请号:CN202310107778.1
申请日:2023-01-31
申请人: 北京百度网讯科技有限公司
IPC分类号: G06V10/26 , G06V10/764 , G06V10/774 , G06T7/12 , G06T7/194 , G06T7/11 , G06V10/44 , G06V10/82 , G06N3/08 , G06N3/044 , G06N3/0464
摘要: 本公开提供了一种图像分割模型的训练及图像分割方法、装置、设备和介质,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于OCR文字识别场景。具体实现方案为:对样本图像进行前景轮廓检测,并根据检测结果确定所述样本图像中的背景区域、前景区域以及所述前景区域的轮廓区域;获取分别对所述背景区域、所述前景区域以及所述轮廓区域中像素点进行标注的标准像素类型,并根据所述样本图像以及所述标准像素类型,对待训练模型进行训练生成图像分割模型。本公开实现了提高图像分割模型进行图像分割时的分割精准度的效果。
-
公开(公告)号:CN114998897A
公开(公告)日:2022-09-02
申请号:CN202210662775.X
申请日:2022-06-13
申请人: 北京百度网讯科技有限公司
IPC分类号: G06V30/14 , G06V30/148 , G06V30/19 , G06N3/08 , G06N3/04
摘要: 本公开提供了生成样本图像的方法以及文字识别模型的训练方法,涉及人工智能领域,尤其涉及深度学习、图像处理、计算机视觉等技术领域,可应用于光学字符识别等场景。具体实现方案为:根据初始图像,生成第一背景图像和第一文字;其中,第一背景图像为初始图像中的所述第一文字被替换为目标图像所得到的。对第一背景图像进行调整,生成与第一背景图像相似的第二背景图像;对第一文字进行调整,生成与第一文字相似的第二文字。根据第二背景图像和第二文字,生成第一样本图像;对第一样本图像进行真实化处理,得到第二样本图像,进而增加最终得到的第二样本图像,提高训练得到的文字识别模型的准确度。
-
-
-
-
-
-
-
-
-