专利检索 ap:("阿里巴巴(中国)有限公司") AND inv:"祖新星" 第 1 页

1.

发明公开
数字人手语播报方法、装置、设备及存储介质审中-实审

公开(公告)号：CN115359796A

公开(公告)日：2022-11-18

申请号：CN202210785961.2

申请日：2022-07-04

申请人： 阿里巴巴(中国)有限公司

发明人： 韩玉洁 , 谭启敏 , 吴淑明 , 张家硕 , 张泽旋 , 周靖坤 , 祖新星 , 王琪

IPC分类号： G10L15/26 , G06F40/58 , G06F40/30

摘要： 本公开涉及一种数字人手语播报方法、装置、设备及存储介质。本公开通过将正常人所使用的自然语言文本翻译为第一手语文本，并对第一手语文本进行语义精简处理，得到第二手语文本。进一步，根据第二手语文本驱动数字人，使得数字人通过肢体将第二手语文本对应的手语动作表达出来。由于对第一手语文本进行语义精简处理后得到的第二手语文本可以包括较少的动作名称，因此，相比于第一手语文本而言，数字人可以在相同时间内做较少的手语动作，使得数字人拥有更充分的时长来做每个手语动作，从而可以保证听障人士可以看清楚每个手语动作。

2.

发明授权
语音和动作时间同步的方法有权

公开(公告)号：CN115497499B

公开(公告)日：2024-09-17

申请号：CN202211060769.3

申请日：2022-08-30

申请人： 阿里巴巴(中国)有限公司

发明人： 祖新星 , 张家硕 , 赵中州 , 韩玉洁 , 林淼 , 王琪 , 吴淑明

IPC分类号： G10L21/10 , G10L21/057 , G10L21/055

摘要： 本说明书实施例提供的语音和动作时间同步的方法，包括提取当前语音的文本信息，并确定所述当前语音的语音时长；将所述文本信息通过预设算法进行处理，获得初始动作视频；根据所述语音时长以及所述初始动作视频的动作时长，确定所述当前语音与所述初始动作视频的当前同步时间差；在所述当前同步时间差大于等于预设时间阈值的情况下，将预期动作生成时长以及所述文本信息，通过所述预设算法进行处理，确定目标动作视频；该方法采用算法进行长度可控的手语动作视频自动生成，并且在手语动作视频生成的过程中，通过手语动作视频的时长以及当前语音时长，感知语音和手语动作视频之间的同步时间差，实现当前语音和手语动作的同步，提升用户体验。

3.

发明公开
手语识别模型训练方法以及装置审中-实审

公开(公告)号：CN115601831A

公开(公告)日：2023-01-13

申请号：CN202211152975.7

申请日：2022-09-21

申请人： 阿里巴巴(中国)有限公司(CN)

发明人： 林淼 , 孙可 , 王琪 , 祖新星 , 张家硕 , 吴淑明 , 周靖坤 , 傅伉莉

IPC分类号： G06V40/20 , G06V20/40 , G06F40/289

摘要： 本说明书实施例提供手语识别模型训练方法以及装置，其中所述手语识别模型训练方法包括：根据拆分样本文本获得的至少两个样本词语，确定组合文本；根据所述至少两个样本词语对应的手语动作，确定所述至少两个样本词语中的第一样本词语对应的第一手语视频、以及所述组合文本对应的第二手语视频，所述第一样本词语为所述至少两个样本词语之一；将所述第一样本词语作为所述第一手语视频的第一样本标签、以及将所述组合文本作为所述第二手语视频的第二样本标签；根据所述第一手语视频、所述第二手语视频、所述第一样本标签以及所述第二样本标签，对手语识别模型进行训练，直至获得满足训练停止条件的所述手语识别模型。

4.

发明公开
语音合成方法、模型生成方法审中-实审

公开(公告)号：CN115910028A

公开(公告)日：2023-04-04

申请号：CN202211160928.7

申请日：2022-09-22

申请人： 阿里巴巴(中国)有限公司

发明人： 祖新星 , 何挺 , 赵中州 , 周伟

IPC分类号： G10L13/027 , G10L13/04 , G10L13/08 , G10L21/013

摘要： 本发明实施例提供一种语音合成方法、模型生成方法、语音播报方法、装置、计算设备及计算机存储介质。其中，语音合成方法，包括：获取待进行语音合成的文本；对所述文本进行语音特征预测，获得目标语音风格的语音特征信息；利用所述语音特征信息调整语音合成模型的基础语音特征信息，获得目标语音特征信息；将所述文本输入所述语音合成模型，以利用所述目标语音特征信息对所述文本进行语音合成，获得所述目标语音风格的目标语音。本发明实施例提供的技术方案将语音合成模型输出的语音风格从与基础语音特征信息对应的基础语音风格转换为与目标语音特征信息相对应的目标语音风格。

5.

发明公开
语音和动作时间同步的方法有权

公开(公告)号：CN115497499A

公开(公告)日：2022-12-20

申请号：CN202211060769.3

申请日：2022-08-30

申请人： 阿里巴巴(中国)有限公司

发明人： 祖新星 , 张家硕 , 赵中州 , 韩玉洁 , 林淼 , 王琪 , 吴淑明

IPC分类号： G10L21/10 , G10L21/057 , G10L21/055

摘要： 本说明书实施例提供的语音和动作时间同步的方法，包括提取当前语音的文本信息，并确定所述当前语音的语音时长；将所述文本信息通过预设算法进行处理，获得初始动作视频；根据所述语音时长以及所述初始动作视频的动作时长，确定所述当前语音与所述初始动作视频的当前同步时间差；在所述当前同步时间差大于等于预设时间阈值的情况下，将预期动作生成时长以及所述文本信息，通过所述预设算法进行处理，确定目标动作视频；该方法采用算法进行长度可控的手语动作视频自动生成，并且在手语动作视频生成的过程中，通过手语动作视频的时长以及当前语音时长，感知语音和手语动作视频之间的同步时间差，实现当前语音和手语动作的同步，提升用户体验。

6.

发明公开
模型训练、自然语言翻译方法、装置、设备及存储介质审中-实审

公开(公告)号：CN115359509A

公开(公告)日：2022-11-18

申请号：CN202210870117.X

申请日：2022-07-22

申请人： 阿里巴巴(中国)有限公司

发明人： 张家硕 , 祖新星 , 赵中州 , 李嘉辉 , 王琪 , 吴淑明 , 韩玉洁 , 林淼

IPC分类号： G06V40/10 , G06V10/774 , G06N20/00

摘要： 本公开涉及一种模型训练、自然语言翻译方法、装置、设备及存储介质。本公开通过获取自然语言样本文本对应的标准的第一手语文本和至少一个不标准的第二手语文本，并且通过待训练的翻译模型输出该自然语言样本文本对应的预测手语文本。根据预测手语文本和第一手语文本，计算翻译模型的第一损失值，根据预测手语文本和至少一个第二手语文本，计算翻译模型的至少一个第二损失值。由于第一损失值越小越好、第二损失值越大越好，因此，根据第一损失值和至少一个第二损失值，可以对该翻译模型的模型参数进行精准的控制，使得训练得到的翻译模型更加的精准。从而使得训练得到的翻译模型在对待翻译的自然语言文本进行翻译时，可以得到精准的手语文本。

7.

发明公开
多媒体信息的处理方法、装置、设备及存储介质审中-实审

公开(公告)号：CN114495260A

公开(公告)日：2022-05-13

申请号：CN202111550961.6

申请日：2021-12-17

申请人： 阿里巴巴(中国)有限公司

发明人： 张家硕 , 祖新星

IPC分类号： G06V40/20

摘要： 本公开涉及一种多媒体信息的处理方法、装置、设备及存储介质。本公开通过获取听障人士打手语的原视频信息，并对该原视频信息中的手语画面进行视觉识别，得到第一手语文本序列。另外，还可以对该手语画面进行图像处理，得到能够表征手语语气的第一特征信息。进一步，根据该第一手语文本序列和第一特征信息，生成具有该语气的第一自然语言文本，使得具有语气的第一自然语言文本可以完整、准确地表达听障人士真正想要表达的意思，从而保证正常人和听障人士可以正常沟通、交流。

搜索结果

国家/区域

专利有效性

申请日

公布(公告)日

申请人

申请人所在国/区域

发明人

IPC

IPC部

IPC大类

IPC小类

IPC大组

IPC小组

外观分类