-
公开(公告)号:CN116798441A
公开(公告)日:2023-09-22
申请号:CN202310608250.2
申请日:2023-05-26
Applicant: 浙江大学 , 浙江大学杭州国际科创中心
IPC: G10L21/013 , G10L25/18 , G10L25/30 , H04N21/2187
Abstract: 本发明公开了一种虚拟直播环境下的实时语音转换方法和装置,高度保留了扮演者的语气、语调等身份无关的语音特征,为用户提供了无需注册、重训练即可在个人电脑上流畅运行的服务。此外,该方法提供20种以上的虚拟音色以供选择、切换,为VTuber提供更加多元化、个性化的虚拟角色扮演效果,更好地服务虚拟直播场景。本方法可以实现低延迟和高质量的实时语音生成,能够实现实时转换并控制实时延迟仅为70.8ms,在语音质量和易懂度上与最先进的基于Diffusion的多目标语音转换方法相当,在语音相似性上领先于目前的主流方法。
-
公开(公告)号:CN116230008A
公开(公告)日:2023-06-06
申请号:CN202310056368.9
申请日:2023-01-17
Applicant: 浙江大学杭州国际科创中心
IPC: G10L25/24 , G10L25/30 , G10L13/033 , G10L15/06
Abstract: 本发明提供了一种多对多映射的流式语音转换系统,包括流式语音采集模块,声学特征提取模块,音色特征提取模块,基于StarGANv2的声学特征映射模块,基于神经网络Vocoder的语音重建模块,以及流式输出模块。本发明还提供了一种多对多映射的流式语音转换方法。本发明的系统可以有效缩短语音转换的延迟时间,为用户提供持续不断的流式语音转换能力。
-
公开(公告)号:CN116013318A
公开(公告)日:2023-04-25
申请号:CN202211595730.1
申请日:2022-12-13
Applicant: 浙江大学
Abstract: 本发明公开了一种针对声纹识别防御模块的对抗样本构造方法,包括获得初始对抗扰动、原始音频和声学掩蔽音集,从声学掩蔽音集中选择一个能使听感失真度降到最低的声学掩蔽音,并和获得的初始对抗扰动与原始音频结合计算出对抗样本等步骤;本发明创新性地提出一种针对声纹识别系统防御模块的对抗样本构造方法,利用精心制作的声学掩蔽音,使人类听感失真度降到最低,并将其叠加到经过初始化的对抗扰动上,用以进行扰动掩蔽。并同时考虑多种具有代表性的防御模块,并使用集成学习方法将其与可学系的自适应权重相融合。最终生成同时满足攻击有效性、人类不可感知性、自适应性的对抗样本。
-
公开(公告)号:CN119314497A
公开(公告)日:2025-01-14
申请号:CN202411834367.3
申请日:2024-12-13
Applicant: 杭州高新区(滨江)区块链与数据安全研究院 , 浙江大学
IPC: G10L19/018
Abstract: 本申请涉及一种面向语音合成系统的模型水印方法、装置、计算机设备和存储介质,其中,该方法包括:基于预训练的语音合成模型和微调的说话人识别模型,构建域内的水印触发样本;并基于水印触发样本构建对应的水印植入数据集;基于微调的说话人识别模型,将水印植入数据集植入语音合成模型,得到标记化模型;基于标记化模型,筛选出目标水印触发样本。通过本申请,解决了相关技术中存在水印与语音合成主任务关联性不强,导致水印在模型微调过程中易丢失,利用构建域内的水印触发样本,从数据层面强迫水印触发任务与模型主任务之间的强耦合,提高标记化模型中水印的鲁棒性,使得目标水印触发样本保持稳定性和有效性。
-
公开(公告)号:CN118609607A
公开(公告)日:2024-09-06
申请号:CN202410808735.0
申请日:2024-06-21
Applicant: 浙江大学
IPC: G10L25/69 , G10L21/013
Abstract: 本发明公开了一种用于语音转换系统的鲁棒性评估方法,通过字错误率与音色识别精度两种指标,分别对所述加噪输出数据集与干净输出数据集测试得到各自的指标评分,根据评分的退化程度评估该语音转换系统的鲁棒性。因此,发明可以真实地反映出语音转换系统部署落地后能够在实际应用场景下表现出来的性能,为保证与提高语音转换系统的可靠性提供了依据,也有利于未来探索语音转换性能和不同噪声条件之间的深层相关性,可在不用更改其他步骤的情况下方便地评估任意语音转换系统在任意使用场景下的鲁棒性,能够节省人力,并具备较好的可维护性与可拓展性。实现方法简单,手段灵活,通过细粒度地微调噪声参数,覆盖了连续的环境特征。
-
公开(公告)号:CN114783447A
公开(公告)日:2022-07-22
申请号:CN202210423843.7
申请日:2022-04-21
Applicant: 浙江大学
Abstract: 本发明公开了一种基于声纹识别对抗性样本的物理域身份伪装系统及方法,系统包括离线训练部分和在线伪装部分,是一种将扰动与生成过程与施加过程分离的实时流式伪装攻击方法,利用实时音素对齐器和实时音素预测器预测并定位实时语音中的音素,并在音素级别生成细粒度的通用亚音素级对抗扰动,从而使得一次生成的亚音素级对抗性扰动能够实时施加到流式语音中,最终实现适应于真实物理域场景的伪装攻击形式。本发明每次实时同步的平均时间开销为0.11s,这表明本发明的同步机制能够在0.5s的同步间隔下实现良好的实时性能;音素延迟的中位数为50ms,超过75%的音素延迟小于100ms,具有良好的同步性能。
-
公开(公告)号:CN119152862A
公开(公告)日:2024-12-17
申请号:CN202411604235.1
申请日:2024-11-12
Applicant: 浙江大学
IPC: G10L19/018 , G10L25/48 , G10L25/30
Abstract: 本发明公开了一种隐私保护的深度语音数字水印流式嵌入与检测方法,基于端云协同处理环境,有效隔离语音内容中的用户敏感信息与水印信息,同时实现流式嵌入、区间标注、防水印伪造、信道鲁棒等有益效果,支持语音内容版权声明、伪造样本标识等场景,服务第三方水印嵌入和检测应用,在整个水印嵌入阶段,服务器端仅根据水印信息生成通用水印数据,从而避免了用户隐私信息的泄露风险。在检测环节,接收端用户端采用第三深度神经网络对音频内容进行脱敏处理,使得服务器端仅能通过处理后的脱敏数据来推断水印的存在,隔绝了用户原始语音数据与服务器端的直接接触,显著提升了用户隐私保护水平,提高用户与第三方检测平台之间的信任感。
-
公开(公告)号:CN118887963A
公开(公告)日:2024-11-01
申请号:CN202410887938.3
申请日:2024-07-03
Applicant: 浙江大学
IPC: G10L19/018
Abstract: 本发明公开了一种基于半脆弱音频水印的音频溯源装置及方法,本发明半脆弱水印通过将鲁棒水印与脆弱水印相结合,不仅结合了两者的优势,并消弭了它们在音频保护与音频溯源方面的缺陷。半脆弱水印的鲁棒部分用于音频源头认证,鲁棒水印在受到恶意模型攻击后的不变性为用户提供了一个能标识音频来源的标志,能有效地实现音频的溯源工作。相对地,脆弱水印在受到恶意模型攻击后被完全破坏,在鲁棒水印被正确提取,该音频的源头被确认的前提下,无法被正确提取的脆弱水印可以被用于证明该音频受到恶意模型篡改,进而实现对音频的高效保护。
-
-
-
-
-
-
-