-
公开(公告)号:CN112017682B
公开(公告)日:2023-05-23
申请号:CN202010985378.7
申请日:2020-09-18
申请人: 中科极限元(杭州)智能科技股份有限公司
IPC分类号: G10L21/0208 , G10L25/30 , G06N3/0464 , G06N3/08
摘要: 本发明公开了一种单通道语音同时降噪和去混响系统,包括:语音降噪模块、语音去混响模块和联合训练模块,语音降噪模块利用深度聚类算法训练深度嵌入式特征提取器,从混合的语音信号中提取深度嵌入式特征,将输入的混合语音映射到一个没有噪声的嵌入式空间中,因此深度嵌入式特征不包含噪声,且对混响和直达声区分性很大;语音去混响模块与语音降噪模块连接,将混响语音信号从深度嵌入式特征中去除,估计出干净目标的直达声,从而实现语音降噪和去混响的目的;联合训练模块分别与语音降噪模块和语音去混响模块连接,用于联合优化语音降噪和语音去混响模块,提升增强后语音的质量和可懂度。
-
公开(公告)号:CN110544482B
公开(公告)日:2021-11-12
申请号:CN201910865008.7
申请日:2019-09-09
申请人: 北京中科智极科技有限公司
IPC分类号: G10L17/02 , G10L17/04 , G10L17/22 , G10L21/0272
摘要: 本发明公开了一种单通道语音分离系统,该系统深度嵌入式特征提取模块、语音分离模块、区分性训练模块和联合训练模块,其中,深度嵌入式特征提取模块,用于作为深度嵌入式特征的提取器;语音分离模块,与深度嵌入式特征提取模块相连,是基于句子级别的排列不变性训练准则进行语音分离,训练从深度嵌入式特征到各个目标语音信号的映射模型;区分性训练模块,与语音分离模块相连,用于增大不同说话人之间的距离,同时减小相同说话人之间的距离,提高语音分离的性能;联合训练模块,用于联合训练和优化深度嵌入式特征提取模块与语音分离模块;使用该系统可以提高语音分离的性能,使分离后的语音更加清晰、可懂且音质更好。
-
公开(公告)号:CN112017682A
公开(公告)日:2020-12-01
申请号:CN202010985378.7
申请日:2020-09-18
申请人: 中科极限元(杭州)智能科技股份有限公司
IPC分类号: G10L21/0208 , G10L25/30 , G06N3/04 , G06N3/08
摘要: 本发明公开了一种单通道语音同时降噪和去混响系统,包括:语音降噪模块、语音去混响模块和联合训练模块,语音降噪模块利用深度聚类算法训练深度嵌入式特征提取器,从混合的语音信号中提取深度嵌入式特征,将输入的混合语音映射到一个没有噪声的嵌入式空间中,因此深度嵌入式特征不包含噪声,且对混响和直达声区分性很大;语音去混响模块与语音降噪模块连接,将混响语音信号从深度嵌入式特征中去除,估计出干净目标的直达声,从而实现语音降噪和去混响的目的;联合训练模块分别与语音降噪模块和语音去混响模块连接,用于联合优化语音降噪和语音去混响模块,提升增强后语音的质量和可懂度。
-
公开(公告)号:CN112329438B
公开(公告)日:2024-03-08
申请号:CN202011161532.5
申请日:2020-10-27
申请人: 中科极限元(杭州)智能科技股份有限公司
IPC分类号: G06F40/211 , G06V40/16 , G06V10/764 , G06V10/80 , G06V10/82 , G06N3/045 , G06N3/0442 , G06N3/084 , G06N3/094 , G06F18/213 , G06F18/241 , G06F18/25 , G10L15/08 , G10L25/12 , G10L25/30 , G10L25/57
-
公开(公告)号:CN117423343A
公开(公告)日:2024-01-19
申请号:CN202311443640.5
申请日:2023-11-02
申请人: 北京中科智极科技有限公司
摘要: 本发明公开了复杂场景下的基于自适应多模型融合的声纹识别算法,涉及音频识别领域;包括以下步骤:将采集的音频信息提取梅尔频谱,并输入resnet声纹识别模块和ecapa_tdnn声纹识别模块中;resnet声纹识别模块和ecapa_tdnn声纹识别模块提取说话人表征。本发明分别对两个模型在多个场景下进行自适应,采用投票法对两个声纹模型自适应后的结果进行融合,对于两个模型出现不同结果的音频认为是集外音频,两个模型相同结果的音频则结合阈值进行判断。投票法不仅可以有效提高模型对于未注册音频和集外数据的识别准确率,同时,投票法还可以降低模型的方差,减少过拟合的风险。
-
公开(公告)号:CN112331183B
公开(公告)日:2022-03-18
申请号:CN202011161519.X
申请日:2020-10-27
申请人: 中科极限元(杭州)智能科技股份有限公司
摘要: 本发明公开了基于自回归网络的非平行语料语音转换方法及系统,方法包括:S1,音素后延概率抽取,从输入语音中抽取音素后延概率特征;S2,编码阶段,捕获音素后延概率特征中的上下文信息,从而获取融合上下文信息的文本特征表示;S3,利用自适应注意力机制,对当前时刻的文本特征和上一时刻的声学特征进行融合,获取增广的特征表示;S4,解码阶段,基于增广的特征表示,采用长短时记忆网络预测目标说话人的声学特征;S5,语音生成,基于预测的目标说话人的声学特征,利用声码器合成语音;系统包括:音素后延概率抽取模块、编码模块、语音生成模块,以及一组注意力模块和解码模块。
-
公开(公告)号:CN112017686B
公开(公告)日:2022-03-01
申请号:CN202010985342.9
申请日:2020-09-18
申请人: 中科极限元(杭州)智能科技股份有限公司
IPC分类号: G10L21/0272 , G10L21/0308 , G10L25/30 , G06N3/04 , G06N3/08
摘要: 本发明公开了基于门控递归融合深度嵌入式特征的多通道语音分离系统,包括门控递归融合模块、深度嵌入式特征提取模块、语音分离模块、区分性训练模块和联合训练模块,门控递归融合模块,将空间信息和幅值谱信息进行深度融合,输出门控递归融合特征;深度嵌入式特征提取模块,通过深度嵌入式特征损失目标函数,从门控递归融合特征中提取更具有区分性的深度嵌入式特征;语音分离模块,将深度嵌入式特征分离,得到每个源目标语音信号;区分性训练模块,通过区分后的源目标语音信号得到区分性损失目标函数;联合训练模块,通过对区分性损失目标函数和深度嵌入式特征损失目标函数的联合训练。
-
公开(公告)号:CN117081792A
公开(公告)日:2023-11-17
申请号:CN202310967931.8
申请日:2023-08-03
申请人: 北京中科智极科技有限公司
摘要: 本发明公开了一种基于自编码器和后门技术的音频隐私保护方法,涉及音频隐私保护技术领域;通过音频隐私保护系统实现对音频隐私的保护,所述音频隐私保护系统包括:后门音频生成模块:数据所有者遵循后门技术中标准和最广泛使用的后门攻击来生成后门音频;具体为:基于频谱图自动编码器,将用户音频映射到潜在特征空间,然后在潜在特征空间中修改用户的隐私相关的数据。本发明通过向音频中添加触发器来构造后门音频,使用后门音频训练的大模型会被添加后门,用户只需要将添加了后门的音频输入到大模型服务商提供的输入接口处,根据大模型的输出,即可判断自己的数据是否未经授权就被用来训练大模型;为用户提供了低成本、符合实际的技术服务。
-
公开(公告)号:CN117037821A
公开(公告)日:2023-11-10
申请号:CN202310999437.X
申请日:2023-08-09
申请人: 北京中科智极科技有限公司
IPC分类号: G10L21/007 , G10L21/0272 , G10L25/30
摘要: 本发明公开了基于VITS和保留背景音的高质量语音转换方法,涉及语音合成技术领域;其通过语音处理模型实现,所述语音处理模型包括说话人编码器、先验编码器、后验编码器、生成器、解码器和判别器,所述先验编码器包括背景音模块、内容编码器、基频预测器、Mel预测器和标准化流,实现方法包括以下步骤:使用背景音分离模块对源语音进行背景音分离,得到背景音b和语音S;将语音S传入文本编码器中,得到内容特征t;使用说话人编码器对源说话人梅尔谱进行编码,得到说话人嵌入g。本发明能够在转换说话人特征的同时,有效地保留源语音中的背景音。这种综合的方法可以提高合成语音的自然度、真实感和语音质量。
-
公开(公告)号:CN117037820A
公开(公告)日:2023-11-10
申请号:CN202310999388.X
申请日:2023-08-09
申请人: 北京中科智极科技有限公司
IPC分类号: G10L21/007 , G10L25/30
摘要: 本发明公开了基于扩散的内容与风格解耦的语音转换方法,涉及语音转换技术领域;包括如下步骤:获取源音频和对应的目标音频,并进行音频数据预处理;将所述源音频经过第一扩散模型建模得到内容特征;将所述目标音频经过第二扩展模型建模得到说话人信息的音色特征;基于注意力机制,对所述内容特征和所述说话人信息的音色特征进行整合,得到包含源音频内容信息和说话人音色的转换音频。本发明旨在使用扩散模型根据输入语音来解耦语音中的内容信息以及说话人信息,并使用注意力机制神经网络来重新整合内容信息与说话人信息并输出音频,从而达到语音转换的效果。
-
-
-
-
-
-
-
-
-