一种虚拟直播环境下的实时语音转换方法和装置

    公开(公告)号:CN116798441A

    公开(公告)日:2023-09-22

    申请号:CN202310608250.2

    申请日:2023-05-26

    Abstract: 本发明公开了一种虚拟直播环境下的实时语音转换方法和装置,高度保留了扮演者的语气、语调等身份无关的语音特征,为用户提供了无需注册、重训练即可在个人电脑上流畅运行的服务。此外,该方法提供20种以上的虚拟音色以供选择、切换,为VTuber提供更加多元化、个性化的虚拟角色扮演效果,更好地服务虚拟直播场景。本方法可以实现低延迟和高质量的实时语音生成,能够实现实时转换并控制实时延迟仅为70.8ms,在语音质量和易懂度上与最先进的基于Diffusion的多目标语音转换方法相当,在语音相似性上领先于目前的主流方法。

    一种用于语音转换系统的鲁棒性评估方法

    公开(公告)号:CN118609607A

    公开(公告)日:2024-09-06

    申请号:CN202410808735.0

    申请日:2024-06-21

    Applicant: 浙江大学

    Abstract: 本发明公开了一种用于语音转换系统的鲁棒性评估方法,通过字错误率与音色识别精度两种指标,分别对所述加噪输出数据集与干净输出数据集测试得到各自的指标评分,根据评分的退化程度评估该语音转换系统的鲁棒性。因此,发明可以真实地反映出语音转换系统部署落地后能够在实际应用场景下表现出来的性能,为保证与提高语音转换系统的可靠性提供了依据,也有利于未来探索语音转换性能和不同噪声条件之间的深层相关性,可在不用更改其他步骤的情况下方便地评估任意语音转换系统在任意使用场景下的鲁棒性,能够节省人力,并具备较好的可维护性与可拓展性。实现方法简单,手段灵活,通过细粒度地微调噪声参数,覆盖了连续的环境特征。

Patent Agency Ranking