-
公开(公告)号:CN114677625B
公开(公告)日:2023-09-08
申请号:CN202210271372.2
申请日:2022-03-18
申请人: 北京百度网讯科技有限公司
摘要: 本公开提供了一种目标检测方法、装置、设备、存储介质和程序产品,涉及深度学习、计算机视觉等人工智能技术领域。具体实现方案为:根据第一视频帧顺序对视频中多帧进行关键点检测,获取所述多帧中每一帧的第一关键点位置;根据第二视频帧顺序对所述多帧进行关键点检测,获取所述多帧中每一帧的第二关键点位置,所述第一视频帧顺序和所述第二视频帧顺序相反;针对所述多帧中每一帧,根据所述第一关键点位置和第二关键点位置确定目标位置。本公开可以提高目标检测的准确性。
-
公开(公告)号:CN111709878B
公开(公告)日:2023-06-23
申请号:CN202010552759.6
申请日:2020-06-17
申请人: 北京百度网讯科技有限公司
IPC分类号: G06T3/40 , G06T7/11 , G06V40/16 , G06V10/774
摘要: 本申请实施例公开了人脸超分辨率实现方法、装置、电子设备及存储介质,涉及人脸图像处理和深度学习领域。具体实现方案为:提取第一图像中的人脸部分;将人脸部分输入预先训练的人脸超分辨率模型,得到超清人脸图;获取超清人脸图对应的语义分割图;利用语义分割图,采用超清人脸图替代第一图像中的人脸部分,得到人脸超分辨率的图像。本申请实施例能够提高人脸图像的分辨率。
-
公开(公告)号:CN115147850B
公开(公告)日:2023-05-05
申请号:CN202210777263.8
申请日:2022-06-30
申请人: 北京百度网讯科技有限公司
IPC分类号: G06V30/19 , G06V30/148 , G06V10/26 , G06V10/774 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/08
摘要: 本公开提供了文字生成模型的训练方法、文字生成方法及其装置,涉及人工智能技术领域,尤其涉及深度学习、图像处理、计算机视觉技术领域,该方法包括:获取多个训练文字对,其中,任一训练文字对中包括第一字体下的样本文字,和样本文字对应的第二字体下的参考文字;对样本文字进行分割,获取样本文字的N个组成元素;根据样本文字和N个组成元素获取融合特征表示,以及获取参考文字的第一特征表示;基于融合特征表示和第一特征表示对文字生成模型进行训练,以获取目标文字生成模型。本申请实施例可以捕捉字体中的部首信息进行学习,可以实现文字生成效果的优化,提高生成字体的效率的同时,也提高了字体生成的准确率。
-
公开(公告)号:CN114820871B
公开(公告)日:2022-12-16
申请号:CN202210748173.6
申请日:2022-06-29
申请人: 北京百度网讯科技有限公司
摘要: 本公开提供了一种字体生成方法、字体生成模型的训练方法、装置、设备和介质,涉及深度学习、图像处理、计算机视觉等技术领域。方案为:分别对待处理图像和参考图像进行编码,以得到待处理图像中第一待处理字符的内容特征及参考图像中参考字符的风格特征;将内容特征和风格特征进行融合,得到目标特征;对目标特征进行解码,得到包括具有参考风格的第二待处理字符的预测图像。由此,可实现将参考图像中具有参考风格的各字符的风格特征,融合进待处理图像中各字符的内容特征中,从而可使解码后的预测图像中各字符具有参考图像中的参考风格,提升预测图像中各字符的生成效果或字体风格的迁移效果,即提升预测图像生成结果的准确性。
-
公开(公告)号:CN115222895A
公开(公告)日:2022-10-21
申请号:CN202211052349.0
申请日:2022-08-30
申请人: 北京百度网讯科技有限公司
摘要: 本公开提供了一种图像生成方法、装置、设备、存储介质以及程序产品,涉及人工智能技术领域,具体为计算机视觉、增强现实、虚拟现实、深度学习等技术领域,可应用于元宇宙、虚拟数字人等场景。该方法的一具体实施方式包括:获取模板人物图像和三维虚拟形象模型;将三维虚拟形象模型投影到二维平面,生成与模板人物图像的头部姿态一致的虚拟形象图像;计算模板人物图像与虚拟形象图像的头部的颜色匹配图像;将虚拟形象图像的头部融合到模板人物图像上,得到融合图像和融合区域掩膜;基于颜色匹配图像和融合图像,生成虚拟形象人物图像。该实施方式提升了虚拟形象人物图像的自然度。
-
公开(公告)号:CN114863434A
公开(公告)日:2022-08-05
申请号:CN202210425714.1
申请日:2022-04-21
申请人: 北京百度网讯科技有限公司
IPC分类号: G06V30/148 , G06V10/82 , G06N3/04
摘要: 本公开提供了一种文字分割模型的获取方法、文字分割方法及其装置,涉及人工智能领域,具体为计算机视觉领域。实现方案为:获取目标训练文字集,目标训练文字集中包括多个不同字体下的同一样本文字;基于目标训练文字集,生成第一样本图片集和第二样本图片集;基于第一样本图片集对初始文字分割模型进行训练,获取第一文字分割模型;基于第一样本图片集和第二样本图片集对第一文字分割模型进行训练,获取目标文字分割模型。本申请选取多种字体的样本文字进行模型训练,提高了模型的泛化能力,增强了模型的通用性,只对第一样本图片进行标注,减少了数据标注量,加入第二样本图片集对模型进行再训练,提高了目标文字分割模型的分割准确性。
-
公开(公告)号:CN114120413A
公开(公告)日:2022-03-01
申请号:CN202111436909.8
申请日:2021-11-29
申请人: 北京百度网讯科技有限公司
摘要: 本公开提供一种模型训练方法、图像合成方法、装置、设备及程序产品,涉及人工智能技术领域,具体涉及深度学习、计算机视觉技术领域,可应用于人脸图像处理、人脸图像识别等场景下,所述方法包括:获取训练数据集,训练数据集中包括第一图像、第二图像和第一目标图像;利用训练数据集对预设的初始模型进行训练,得到目标模型。这种实施方式中,能够训练得到结构简单的目标模型,该目标模型能够学习到换脸模型和清晰度转换模型的能力,因此,利用本公开训练方法得到的目标模型进行换脸处理时,既能够实现换脸和提高清晰度的目的,又能够降低处理时长以及对算力的要求。
-
公开(公告)号:CN113792849A
公开(公告)日:2021-12-14
申请号:CN202111056555.4
申请日:2021-09-09
申请人: 北京百度网讯科技有限公司
摘要: 本公开提供了字符生成模型训练方法、字符生成方法、装置和设备,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域。具体实现方案为:将第一训练样本输入到目标模型中,计算第一损失,所述第一训练样本包括第一源域样本字和第一目标域样本字,所述第一源域样本字的内容和所述第一目标域样本字的内容不同;将第二训练样本输入到所述目标模型中,计算第二损失,所述第二训练样本包括第二源域样本字和第二目标域样本字,所述第二源域样本字的内容和所述第二目标域样本字的内容相同;根据所述第一损失和所述第二损失调整所述字符生成模型的参数。本公开实施例可以提高字符生成模型生成的字体的准确率。
-
公开(公告)号:CN113657397A
公开(公告)日:2021-11-16
申请号:CN202110945882.9
申请日:2021-08-17
申请人: 北京百度网讯科技有限公司
摘要: 本公开提供了一种循环生成网络模型的训练方法和建立字库的方法,涉及人工智能领域,尤其涉及计算机视觉和深度学习技术,可应用于图像处理和图像识别等场景下。具体实现方案为:将源域样本字输入到循环生成网络模型,得到第一目标域生成字;通过将第一目标域生成字输入到经训练的字符分类模型,来计算循环生成网络模型的错字损失;通过将第一目标域生成字和预设的目标域样本字输入到字符分类模型,来计算循环生成网络模型的特征损失;以及根据错字损失和特征损失来调整循环生成网络模型的参数。本公开还提供了一种循环生成网络模型的训练装置、建立字库的方法和装置、电子设备和存储介质。
-
公开(公告)号:CN112184851A
公开(公告)日:2021-01-05
申请号:CN202011155186.X
申请日:2020-10-26
申请人: 北京百度网讯科技有限公司
摘要: 本申请公开了图像编辑方法、网络训练方法、相关装置及电子设备,涉及计算机视觉、深度学习等人工智能技术领域。具体实现方案为:获取第一图像;将所述第一图像输入至已训练的循环一致性生成对抗网络;其中,所述循环一致性生成对抗网络包括第一生成器,所述第一生成器包括第一自发运动模块,所述第一自发运动模块用于按照已训练的第一几何变换关系对所述第一图像中的待编辑的图像内容进行变换,以生成第二图像,所述第二图像中包括变换后的所述图像内容;基于所述第一自发运动模块生成的所述第二图像,输出第三图像。根据本申请的技术,解决了图像编辑技术存在的输出图像质量比较低的问题,提高了图像编辑的输出图像质量。
-
-
-
-
-
-
-
-
-