Patent search ap:("华南理工大学") AND inv:"黎姿" Page 1

1.

发明公开
基于数据增广的语音克隆方法、装置及介质审中-实审

公开(公告)号：CN118016086A

公开(公告)日：2024-05-10

申请号：CN202410011898.6

申请日：2024-01-02

Applicant: 华南理工大学

Inventor： 黄翰 , 黎姿 , 徐粤婷

IPC: G10L21/013 , G10L19/16

Abstract: 本发明公开了一种基于数据增广的语音克隆方法、装置及介质，涉及计算机软件工程的语音合成技术。其中方法包括：S1、对参考语音和源语音做特征提取，并针对参考语音特征库做特征提取，得到关键特征；S2、对关键特征做数据增广；S3、对源语音特征集合和参考语音特征库做相关性分析；S4、将参考特征集合代替源语音特征序列，实现语音特征的转换；S5、构建声码器，将多条参考语音当作源语音重复步骤S2‑S4，将语音特征和原始语音作为输入对声码器进行训练；S6、将待转换语音重复步骤S1‑S3，得到转换后语音特征，输入训练后的声码器，声码器推理得到转换后语音。本发明适用于单样本语音克隆，可以应用于实际的语音克隆工作环境。

2.

发明公开
数字虚拟人自动化制作方法审中-实审

公开(公告)号：CN117915163A

公开(公告)日：2024-04-19

申请号：CN202410047066.X

申请日：2024-01-12

Applicant: 华南理工大学

Inventor： 黄翰 , 徐粤婷 , 李刚 , 郑曙滨 , 郑小辉 , 王子龙 , 黎姿 , 曾梓峰 , 冯艳洁 , 罗旺宗

IPC: H04N21/81 , H04N21/4402 , G10L21/12 , G10L21/10 , G10L19/16 , G10L25/18

Abstract: 本发明公开了一种数字虚拟人自动化制作方法，包括以下步骤：对视频素材进行人像抠图，进行动作识别和表情识别，构建动作、表情视频库；对讲稿内容进行文本自动分句得到子句序列，进行动作分析和表情分析，得到动作、表情标签序列；根据标签序列选取动作视频和表情视频，构成动作、表情视频序列，进行动作表情合成，得到合成视频序列；对音频素材进行语音特征提取，构建语音特征库，将子句序列转换为音频序列，将音频序列转换为克隆音频序列；根据克隆音频序列的音频长度确定合成视频序列的视频长度；将合成视频序列与克隆音频序列进行口型同步，得到虚拟人视频序列，对虚拟人视频序列进行拼接，添加背景进行渲染，生成数字虚拟人视频。

Patent Agency Ranking