-
公开(公告)号:CN116798441A
公开(公告)日:2023-09-22
申请号:CN202310608250.2
申请日:2023-05-26
Applicant: 浙江大学 , 浙江大学杭州国际科创中心
IPC: G10L21/013 , G10L25/18 , G10L25/30 , H04N21/2187
Abstract: 本发明公开了一种虚拟直播环境下的实时语音转换方法和装置,高度保留了扮演者的语气、语调等身份无关的语音特征,为用户提供了无需注册、重训练即可在个人电脑上流畅运行的服务。此外,该方法提供20种以上的虚拟音色以供选择、切换,为VTuber提供更加多元化、个性化的虚拟角色扮演效果,更好地服务虚拟直播场景。本方法可以实现低延迟和高质量的实时语音生成,能够实现实时转换并控制实时延迟仅为70.8ms,在语音质量和易懂度上与最先进的基于Diffusion的多目标语音转换方法相当,在语音相似性上领先于目前的主流方法。
-
公开(公告)号:CN116230008A
公开(公告)日:2023-06-06
申请号:CN202310056368.9
申请日:2023-01-17
Applicant: 浙江大学杭州国际科创中心
IPC: G10L25/24 , G10L25/30 , G10L13/033 , G10L15/06
Abstract: 本发明提供了一种多对多映射的流式语音转换系统,包括流式语音采集模块,声学特征提取模块,音色特征提取模块,基于StarGANv2的声学特征映射模块,基于神经网络Vocoder的语音重建模块,以及流式输出模块。本发明还提供了一种多对多映射的流式语音转换方法。本发明的系统可以有效缩短语音转换的延迟时间,为用户提供持续不断的流式语音转换能力。
-