模型训练方法、图像分类方法及相关装置

    公开(公告)号:CN118657970A

    公开(公告)日:2024-09-17

    申请号:CN202410347300.0

    申请日:2024-03-25

    发明人: 王钰 王淳

    摘要: 本申请提供了一种模型训练方法、图像分类方法及相关装置;方法包括:通过图像处理模型对第一图像和第二图像进行特征提取,得到第一图像的第一图像特征和第二图像的第二图像特征;基于第一图像特征与第二图像特征之间的相似性,确定第一图像与第二图像之间的成对相似性;基于第一图像的邻居图像集与第二图像的邻居图像集,确定第一图像与第二图像之间的上下文相似性;基于成对相似性与上下文相似性更新图像处理模型的参数。通过本申请,能够提升图像分类的准确性。

    语音与图像同步性的衡量方法及装置

    公开(公告)号:CN114466179B

    公开(公告)日:2024-09-06

    申请号:CN202111057976.9

    申请日:2021-09-09

    摘要: 本申请提供一种语音与图像同步性的衡量方法及装置,该方法包括:获取视频中的语音片段和图像片段,语音片段与图像片段在视频中具有对应关系;根据图像片段生成目标人物的轮廓图,轮廓图与目标人物的个体特征无关;通过语音神经网络获得语音片段的语音特征;通过视觉神经网络获得轮廓图的视觉特征;根据语音特征与视觉特征,确定语音片段与图像片段是否具有同步性。在将图像片段输入视觉神经网络之前,通过先对图像片段进行处理,去除图像片段中与人物个体相关的特征,再将对图像片段处理后得到的图像数据输入视觉神经网络。这样,通过视觉神经网络获取的视觉特征就不再携带有说话人自身的特征,进而能够提高语音与图像同步性衡量的准确性。

    关键点的标注方法及装置

    公开(公告)号:CN114677734B

    公开(公告)日:2024-02-02

    申请号:CN202210300149.6

    申请日:2022-03-25

    摘要: 本申请公开了一种关键点的标注方法及装置,用以解决现有技术中对关键点的标注准确度较低的问题。所述方法包括:获取由相机阵列拍摄目标对象得到的N个图像,针对目标对象的语义关键点在N个图像上分别进行预标注,得到语义关键点在各图像上的第一标注位置;根据语义关键点对应的N个第一标注位置,确定语义关键点对应的第一空间位置;根据相机阵列对应的N组相机参数,将第一空间位置分别投影至N个图像上,得到语义关键点在各图像上的第二标注位置;根据N个图像上第一标注位置和对应的第二标注位置之间的位置关系,确定N个第一标注位置中满足预设调整条件的目标标注位置,并对目

    检索方法及装置、电子设备、计算机可读存储介质

    公开(公告)号:CN116304150A

    公开(公告)日:2023-06-23

    申请号:CN202310288024.0

    申请日:2023-03-22

    发明人: 王淳 周迅溢 蒋宁

    摘要: 本公开提供了一种检索方法及装置、电子设备、计算机可读存储介质,该方法包括:获取待检索的目标对象的第一特征词汇集,第一特征词汇集中的第一特征词汇用于描述目标对象具备的对象属性;根据第一特征词汇集,生成第一模态的多张第一图像;根据第一特征词汇集和多张第一图像,从预设数据库中检索得到目标记录集;其中,目标记录集包括至少一条目标对象记录,目标对象记录为预设数据库中满足第一预设条件的对象记录,满足第一预设条件的对象记录包括:对象记录中所包含的第二图像和/或第二特征词汇集,与第一特征词汇集和多张第一图像中的至少一项相匹配。根据本公开的实施例能够提升检索得到的目标记录集的准确性。

    动作轨迹生成模型的训练方法、动作轨迹生成方法及装置

    公开(公告)号:CN116205943A

    公开(公告)日:2023-06-02

    申请号:CN202211564501.3

    申请日:2022-12-07

    发明人: 王淳 周迅溢 蒋宁

    摘要: 本申请提供了动作轨迹生成模型的训练方法、动作轨迹生成方法及装置,通过对第一动作轨迹样本进行动作类别特征提取和动作轨迹特征提取,得到动作类别特征向量和动作轨迹特征向量;再基于动作类别特征向量和预处理后的动作轨迹特征向量进行动作轨迹预测,得到第一预测特征向量,使得该第一预测特征向量是基于动作轨迹类别和动作轨迹本身这两个维度的特征向量得到的;并且基于第一预测特征向量的动作类别识别结果和动作轨迹判别结果对模型参数进行迭代更新,并不限定预测的动作轨迹与动作轨迹样本保持一致,而是仅考虑动作类别损失和动作轨迹真伪损失来优化模型参数,这样能够确保训练后模型输出的动作轨迹的真实感、可控性和动作风格多样性。

    图像分类模型的训练方法、装置、设备及存储介质

    公开(公告)号:CN116152542A

    公开(公告)日:2023-05-23

    申请号:CN202211232813.4

    申请日:2022-10-10

    发明人: 王淳 周迅溢 蒋宁

    摘要: 本说明书实施例提供了图像分类模型的训练方法、装置、设备及存储介质,图像分类模型的训练方法包括:根据第一样本图像的第一分类预测结果,对第一样本图像进行遮挡处理,得到第二样本图像;第一分类预测结果为将第一样本图像输入第一图像分类模型进行分类预测处理所得到;第一图像分类模型包括N个子模块;第i+1子模块的输入由第i子模块的输出确定;将第二样本图像输入第一图像分类模型进行迭代训练,得到第二图像分类模型;执行N次生成中间图像分类模型的步骤,将第N次生成的中间图像分类模型确定为目标图像分类模型。以此,提高了图像分类模型的健壮性和泛用性。

    一种信息处理方法、装置、计算机设备及存储介质

    公开(公告)号:CN114898244A

    公开(公告)日:2022-08-12

    申请号:CN202210369409.5

    申请日:2022-04-08

    摘要: 本申请实施例公开了一种信息处理方法、装置、计算机设备及存储介质,本申请实施例通过获取目标视频;将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征;获取第一目标图像特征在目标视频中不同帧的人脸图像对应的第一目标身份系数和第一目标纹理系数;将第一目标身份系数输入第二目标预设主干模型,输出第一目标身份特征;将第一目标纹理系数输入第三目标预设主干模型,输出第一目标纹理特征;将第一目标图像特征、第一目标身份特征和第一目标纹理特征进行拼接,得到第一目标特征;将第一目标特征输入目标预设头部网络模型,输出第一目标表情系数。结合视频中的先验知识进行表情系数预测,极大的提升了提取的表情系数的准确性。

    图像处理方法和装置
    8.
    发明公开

    公开(公告)号:CN117953250A

    公开(公告)日:2024-04-30

    申请号:CN202311502232.2

    申请日:2023-11-10

    发明人: 王淳 王钰

    IPC分类号: G06V10/762 G06V10/74

    摘要: 本申请公开了一种图像处理方法和装置,该方法包括:获取待处理图像的第一聚类结果;根据第一图像模型对第一聚类结果进行特征提取,得到第一图像特征集合,以及使用第一文本模型对表征用户聚类意图的目标文本进行特征提取,得到文本特征;根据第一图像特征集合和文本特征对第一聚类结果进行合并处理,得到第一交互图像集合;根据第一图像模型对第一交互图像集合进行特征提取,得到第二图像特征集合;根据第二图像特征集合和文本特征对第一交互图像集合进行拆分处理,得到第二交互图像集合。由此,通过与表征用户聚类意图的文本进行两次交互聚类对图像的聚类结果进行调整,可以得到满足用户聚类需求的聚类结果。

    一种信息处理方法、装置、计算机设备及存储介质

    公开(公告)号:CN114898244B

    公开(公告)日:2023-07-21

    申请号:CN202210369409.5

    申请日:2022-04-08

    摘要: 本申请实施例公开了一种信息处理方法、装置、计算机设备及存储介质,本申请实施例通过获取目标视频;将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征;获取第一目标图像特征在目标视频中不同帧的人脸图像对应的第一目标身份系数和第一目标纹理系数;将第一目标身份系数输入第二目标预设主干模型,输出第一目标身份特征;将第一目标纹理系数输入第三目标预设主干模型,输出第一目标纹理特征;将第一目标图像特征、第一目标身份特征和第一目标纹理特征进行拼接,得到第一目标特征;将第一目标特征输入目标预设头部网络模型,输出第一目标表情系数。结合视频中的先验知识进行表情系数预测,极大的提升了提取的表情系数的准确性。