一种单通道语音分离系统

    公开(公告)号:CN110544482B

    公开(公告)日:2021-11-12

    申请号:CN201910865008.7

    申请日:2019-09-09

    发明人: 温正棋 范存航

    摘要: 本发明公开了一种单通道语音分离系统,该系统深度嵌入式特征提取模块、语音分离模块、区分性训练模块和联合训练模块,其中,深度嵌入式特征提取模块,用于作为深度嵌入式特征的提取器;语音分离模块,与深度嵌入式特征提取模块相连,是基于句子级别的排列不变性训练准则进行语音分离,训练从深度嵌入式特征到各个目标语音信号的映射模型;区分性训练模块,与语音分离模块相连,用于增大不同说话人之间的距离,同时减小相同说话人之间的距离,提高语音分离的性能;联合训练模块,用于联合训练和优化深度嵌入式特征提取模块与语音分离模块;使用该系统可以提高语音分离的性能,使分离后的语音更加清晰、可懂且音质更好。

    一种基于自编码器和后门技术的音频隐私保护方法

    公开(公告)号:CN117081792A

    公开(公告)日:2023-11-17

    申请号:CN202310967931.8

    申请日:2023-08-03

    发明人: 温正棋 施淑辰

    IPC分类号: H04L9/40 G10L25/18

    摘要: 本发明公开了一种基于自编码器和后门技术的音频隐私保护方法,涉及音频隐私保护技术领域;通过音频隐私保护系统实现对音频隐私的保护,所述音频隐私保护系统包括:后门音频生成模块:数据所有者遵循后门技术中标准和最广泛使用的后门攻击来生成后门音频;具体为:基于频谱图自动编码器,将用户音频映射到潜在特征空间,然后在潜在特征空间中修改用户的隐私相关的数据。本发明通过向音频中添加触发器来构造后门音频,使用后门音频训练的大模型会被添加后门,用户只需要将添加了后门的音频输入到大模型服务商提供的输入接口处,根据大模型的输出,即可判断自己的数据是否未经授权就被用来训练大模型;为用户提供了低成本、符合实际的技术服务。

    基于VITS和保留背景音的高质量语音转换方法

    公开(公告)号:CN117037821A

    公开(公告)日:2023-11-10

    申请号:CN202310999437.X

    申请日:2023-08-09

    发明人: 温正棋 王小鹏

    摘要: 本发明公开了基于VITS和保留背景音的高质量语音转换方法,涉及语音合成技术领域;其通过语音处理模型实现,所述语音处理模型包括说话人编码器、先验编码器、后验编码器、生成器、解码器和判别器,所述先验编码器包括背景音模块、内容编码器、基频预测器、Mel预测器和标准化流,实现方法包括以下步骤:使用背景音分离模块对源语音进行背景音分离,得到背景音b和语音S;将语音S传入文本编码器中,得到内容特征t;使用说话人编码器对源说话人梅尔谱进行编码,得到说话人嵌入g。本发明能够在转换说话人特征的同时,有效地保留源语音中的背景音。这种综合的方法可以提高合成语音的自然度、真实感和语音质量。

    基于扩散的内容与风格解耦的语音转换方法

    公开(公告)号:CN117037820A

    公开(公告)日:2023-11-10

    申请号:CN202310999388.X

    申请日:2023-08-09

    发明人: 温正棋 汪智勇

    IPC分类号: G10L21/007 G10L25/30

    摘要: 本发明公开了基于扩散的内容与风格解耦的语音转换方法,涉及语音转换技术领域;包括如下步骤:获取源音频和对应的目标音频,并进行音频数据预处理;将所述源音频经过第一扩散模型建模得到内容特征;将所述目标音频经过第二扩展模型建模得到说话人信息的音色特征;基于注意力机制,对所述内容特征和所述说话人信息的音色特征进行整合,得到包含源音频内容信息和说话人音色的转换音频。本发明旨在使用扩散模型根据输入语音来解耦语音中的内容信息以及说话人信息,并使用注意力机制神经网络来重新整合内容信息与说话人信息并输出音频,从而达到语音转换的效果。

    复杂场景下的基于自适应多模型融合的声纹识别算法

    公开(公告)号:CN117423343A

    公开(公告)日:2024-01-19

    申请号:CN202311443640.5

    申请日:2023-11-02

    发明人: 温正棋 雷娣

    IPC分类号: G10L17/02 G10L17/04 G10L17/18

    摘要: 本发明公开了复杂场景下的基于自适应多模型融合的声纹识别算法,涉及音频识别领域;包括以下步骤:将采集的音频信息提取梅尔频谱,并输入resnet声纹识别模块和ecapa_tdnn声纹识别模块中;resnet声纹识别模块和ecapa_tdnn声纹识别模块提取说话人表征。本发明分别对两个模型在多个场景下进行自适应,采用投票法对两个声纹模型自适应后的结果进行融合,对于两个模型出现不同结果的音频认为是集外音频,两个模型相同结果的音频则结合阈值进行判断。投票法不仅可以有效提高模型对于未注册音频和集外数据的识别准确率,同时,投票法还可以降低模型的方差,减少过拟合的风险。

    基于声门振动序列动态建模的语音情感识别方法和工具

    公开(公告)号:CN117497008A

    公开(公告)日:2024-02-02

    申请号:CN202311547504.0

    申请日:2023-11-20

    发明人: 温正棋 雷娣

    IPC分类号: G10L25/63 G10L25/30

    摘要: 本发明属于语音情感识别技术领域,特别涉及一种基于声门振动序列动态建模的语音情感识别方法和工具,其中,语音情感识别方法包括以下步骤:获取待识别语音信号;提取待识别语音信号的声门波形和声道特征;依据声门波形计算声门波动态特征;使用预训练的神经网络对声门波动态特征和声道特征按照预设的标准进行特征分类,得到分类结果;对分类结果进行融合分析,得到情感识别结果。本发明提供的基于声门振动序列动态建模的语音情感识别方法,从语音生成的角度出发,提取的发音特征(声门波和声道特征)更接近人类情感语音产生机制,且声门波和声道特征维度低,送入简单的分类器就可以达到高性能的情感识别结果,提高了对语音情感识别的准确性。

    一种基于多模态自适应特征选取方法的对抗样本生成方法

    公开(公告)号:CN117034190A

    公开(公告)日:2023-11-10

    申请号:CN202310967860.1

    申请日:2023-08-03

    发明人: 温正棋 戚鑫

    摘要: 本发明公开了一种基于多模态自适应特征选取方法的对抗样本生成方法,涉及对抗样本生成方法技术领域;具体采用以下方案:依据多个模态,依据对抗样本生成原理,相关模态有文本、音频、和频谱图等;通过多个模态提供的丰富信息,进一步增加对抗扰动的隐蔽性;结合自适应特征选取方法,对模态特征依据扰动添加效果进行划分,主要分为必要特征、无用特征和中立有用特征等;使得在添加扰动时目标更加清晰明了;生成对抗机制,用音频检测的SOTA方法作为判别器。本发明摒弃常规的单一模态方法,采用多模态特征提取,模态之间相互补充和增强,依据更多的特征信息,增强添加扰动的多样性,提升对抗样本的抗检测能力。

    一种基于自注意力机制的流式语音转写系统

    公开(公告)号:CN110473529B

    公开(公告)日:2021-11-05

    申请号:CN201910850127.5

    申请日:2019-09-09

    发明人: 温正棋 田正坤

    IPC分类号: G10L15/16 G10L15/183 G06N3/04

    摘要: 本发明公开了一种基于自注意力机制的流式语音转写系统,包括特征前端处理模块,自注意力音频编码网络模块,自注意力预测网络模块,联合网络模块;特征前端处理模块:用于接收输入声学特征,并转换为特定维度的向量;自注意力音频编码网络模块:与特征前端处理模块相连,用于接收处理后的声学特征,得到编码后的声学状态向量;自注意力预测网络模块:用于根据输入的上一时刻预测标记,生成一个语言状态向量。联合网络模块:与自注意力音频编码网络模块和自注意力预测网络模块相连,用来结合声学状态和语言状态,并计算新的预测标记的概率。本发明提供了一种基于自注意力机制的流式前馈语音编码器,以提高传统语音编码器的计算效率和精度。