基于数据增广的语音克隆方法、装置及介质

    公开(公告)号:CN118016086A

    公开(公告)日:2024-05-10

    申请号:CN202410011898.6

    申请日:2024-01-02

    Inventor: 黄翰 黎姿 徐粤婷

    Abstract: 本发明公开了一种基于数据增广的语音克隆方法、装置及介质,涉及计算机软件工程的语音合成技术。其中方法包括:S1、对参考语音和源语音做特征提取,并针对参考语音特征库做特征提取,得到关键特征;S2、对关键特征做数据增广;S3、对源语音特征集合和参考语音特征库做相关性分析;S4、将参考特征集合代替源语音特征序列,实现语音特征的转换;S5、构建声码器,将多条参考语音当作源语音重复步骤S2‑S4,将语音特征和原始语音作为输入对声码器进行训练;S6、将待转换语音重复步骤S1‑S3,得到转换后语音特征,输入训练后的声码器,声码器推理得到转换后语音。本发明适用于单样本语音克隆,可以应用于实际的语音克隆工作环境。

    数字虚拟人自动化制作方法
    2.
    发明公开

    公开(公告)号:CN117915163A

    公开(公告)日:2024-04-19

    申请号:CN202410047066.X

    申请日:2024-01-12

    Abstract: 本发明公开了一种数字虚拟人自动化制作方法,包括以下步骤:对视频素材进行人像抠图,进行动作识别和表情识别,构建动作、表情视频库;对讲稿内容进行文本自动分句得到子句序列,进行动作分析和表情分析,得到动作、表情标签序列;根据标签序列选取动作视频和表情视频,构成动作、表情视频序列,进行动作表情合成,得到合成视频序列;对音频素材进行语音特征提取,构建语音特征库,将子句序列转换为音频序列,将音频序列转换为克隆音频序列;根据克隆音频序列的音频长度确定合成视频序列的视频长度;将合成视频序列与克隆音频序列进行口型同步,得到虚拟人视频序列,对虚拟人视频序列进行拼接,添加背景进行渲染,生成数字虚拟人视频。

Patent Agency Ranking