-
公开(公告)号:CN118447863A
公开(公告)日:2024-08-06
申请号:CN202410460158.0
申请日:2024-04-17
Applicant: 江南大学
IPC: G10L21/013 , G10L25/03 , G10L25/30 , G10L25/18 , G10L25/24
Abstract: 本申请关于一种人声音色替换方法及系统,包括,获取训练所用人声音频数据集、目标人声音频文件与待替换的人声音频文件,训练所用人声音频数据集为人声干声音频数据集;对目标人声音频文件与待替换的人声音频文件进行预处理,得到统一化的音频数据;构建并训练基于编码器‑解码器架构的神经网络模型,根据人声干声音频数据集作为训练数据,训练该模型中的底层模块;通过该编码器提取出目标人声音频文件的音色特征;将编码器提取的目标人声音频文件的音色特征与训练数据中的特征进行融合;根据预处理后的待替换人声音频文件,通过该模型进行音色替换;将替换后的音频特征通过解码器转换为音频输出。该方法实现对人声音色的高精度识别和自然替换。