数字人手语播报方法、装置、设备及存储介质

    公开(公告)号:CN115359796A

    公开(公告)日:2022-11-18

    申请号:CN202210785961.2

    申请日:2022-07-04

    IPC分类号: G10L15/26 G06F40/58 G06F40/30

    摘要: 本公开涉及一种数字人手语播报方法、装置、设备及存储介质。本公开通过将正常人所使用的自然语言文本翻译为第一手语文本,并对第一手语文本进行语义精简处理,得到第二手语文本。进一步,根据第二手语文本驱动数字人,使得数字人通过肢体将第二手语文本对应的手语动作表达出来。由于对第一手语文本进行语义精简处理后得到的第二手语文本可以包括较少的动作名称,因此,相比于第一手语文本而言,数字人可以在相同时间内做较少的手语动作,使得数字人拥有更充分的时长来做每个手语动作,从而可以保证听障人士可以看清楚每个手语动作。

    语音和动作时间同步的方法

    公开(公告)号:CN115497499B

    公开(公告)日:2024-09-17

    申请号:CN202211060769.3

    申请日:2022-08-30

    摘要: 本说明书实施例提供的语音和动作时间同步的方法,包括提取当前语音的文本信息,并确定所述当前语音的语音时长;将所述文本信息通过预设算法进行处理,获得初始动作视频;根据所述语音时长以及所述初始动作视频的动作时长,确定所述当前语音与所述初始动作视频的当前同步时间差;在所述当前同步时间差大于等于预设时间阈值的情况下,将预期动作生成时长以及所述文本信息,通过所述预设算法进行处理,确定目标动作视频;该方法采用算法进行长度可控的手语动作视频自动生成,并且在手语动作视频生成的过程中,通过手语动作视频的时长以及当前语音时长,感知语音和手语动作视频之间的同步时间差,实现当前语音和手语动作的同步,提升用户体验。

    手语识别模型训练方法以及装置
    3.
    发明公开

    公开(公告)号:CN115601831A

    公开(公告)日:2023-01-13

    申请号:CN202211152975.7

    申请日:2022-09-21

    摘要: 本说明书实施例提供手语识别模型训练方法以及装置,其中所述手语识别模型训练方法包括:根据拆分样本文本获得的至少两个样本词语,确定组合文本;根据所述至少两个样本词语对应的手语动作,确定所述至少两个样本词语中的第一样本词语对应的第一手语视频、以及所述组合文本对应的第二手语视频,所述第一样本词语为所述至少两个样本词语之一;将所述第一样本词语作为所述第一手语视频的第一样本标签、以及将所述组合文本作为所述第二手语视频的第二样本标签;根据所述第一手语视频、所述第二手语视频、所述第一样本标签以及所述第二样本标签,对手语识别模型进行训练,直至获得满足训练停止条件的所述手语识别模型。

    语音合成方法、模型生成方法
    4.
    发明公开

    公开(公告)号:CN115910028A

    公开(公告)日:2023-04-04

    申请号:CN202211160928.7

    申请日:2022-09-22

    摘要: 本发明实施例提供一种语音合成方法、模型生成方法、语音播报方法、装置、计算设备及计算机存储介质。其中,语音合成方法,包括:获取待进行语音合成的文本;对所述文本进行语音特征预测,获得目标语音风格的语音特征信息;利用所述语音特征信息调整语音合成模型的基础语音特征信息,获得目标语音特征信息;将所述文本输入所述语音合成模型,以利用所述目标语音特征信息对所述文本进行语音合成,获得所述目标语音风格的目标语音。本发明实施例提供的技术方案将语音合成模型输出的语音风格从与基础语音特征信息对应的基础语音风格转换为与目标语音特征信息相对应的目标语音风格。

    语音和动作时间同步的方法

    公开(公告)号:CN115497499A

    公开(公告)日:2022-12-20

    申请号:CN202211060769.3

    申请日:2022-08-30

    摘要: 本说明书实施例提供的语音和动作时间同步的方法,包括提取当前语音的文本信息,并确定所述当前语音的语音时长;将所述文本信息通过预设算法进行处理,获得初始动作视频;根据所述语音时长以及所述初始动作视频的动作时长,确定所述当前语音与所述初始动作视频的当前同步时间差;在所述当前同步时间差大于等于预设时间阈值的情况下,将预期动作生成时长以及所述文本信息,通过所述预设算法进行处理,确定目标动作视频;该方法采用算法进行长度可控的手语动作视频自动生成,并且在手语动作视频生成的过程中,通过手语动作视频的时长以及当前语音时长,感知语音和手语动作视频之间的同步时间差,实现当前语音和手语动作的同步,提升用户体验。

    模型训练、自然语言翻译方法、装置、设备及存储介质

    公开(公告)号:CN115359509A

    公开(公告)日:2022-11-18

    申请号:CN202210870117.X

    申请日:2022-07-22

    摘要: 本公开涉及一种模型训练、自然语言翻译方法、装置、设备及存储介质。本公开通过获取自然语言样本文本对应的标准的第一手语文本和至少一个不标准的第二手语文本,并且通过待训练的翻译模型输出该自然语言样本文本对应的预测手语文本。根据预测手语文本和第一手语文本,计算翻译模型的第一损失值,根据预测手语文本和至少一个第二手语文本,计算翻译模型的至少一个第二损失值。由于第一损失值越小越好、第二损失值越大越好,因此,根据第一损失值和至少一个第二损失值,可以对该翻译模型的模型参数进行精准的控制,使得训练得到的翻译模型更加的精准。从而使得训练得到的翻译模型在对待翻译的自然语言文本进行翻译时,可以得到精准的手语文本。

    多媒体信息的处理方法、装置、设备及存储介质

    公开(公告)号:CN114495260A

    公开(公告)日:2022-05-13

    申请号:CN202111550961.6

    申请日:2021-12-17

    发明人: 张家硕 祖新星

    IPC分类号: G06V40/20

    摘要: 本公开涉及一种多媒体信息的处理方法、装置、设备及存储介质。本公开通过获取听障人士打手语的原视频信息,并对该原视频信息中的手语画面进行视觉识别,得到第一手语文本序列。另外,还可以对该手语画面进行图像处理,得到能够表征手语语气的第一特征信息。进一步,根据该第一手语文本序列和第一特征信息,生成具有该语气的第一自然语言文本,使得具有语气的第一自然语言文本可以完整、准确地表达听障人士真正想要表达的意思,从而保证正常人和听障人士可以正常沟通、交流。