一种声纹注册方法、装置、计算机设备及存储介质

    公开(公告)号:CN118737160A

    公开(公告)日:2024-10-01

    申请号:CN202410967078.4

    申请日:2024-07-18

    摘要: 本申请涉及音频处理技术领域,公开了一种声纹注册方法、装置、计算机设备及存储介质,本申请的声纹注册方法通过获取到环境声检测信号,判断当前环境声是否满足声纹注册条件,在当前环境声满足声纹注册条件时,录制第一音频段,得到第一声纹信息和第一特征信息,当第一特征信息达到分贝预设条件时,录制第二音频段,并得到第二声纹信息和第二特征信息,当第二特征信息达到分贝预设条件时,提取第一音频段的第一声纹特征和第二音频段的第二声纹特征,并计算匹配度,将满足预设匹配度的音频段作为用户声纹存入声纹库。本申请的声纹注册方法使存入声纹库的音频段具有较强的抗干扰能力,保证了声纹注册的完整性、可靠性和准确性,最终得到高质量声纹。

    基于双向注意力残差网络的语音欺诈检测方法

    公开(公告)号:CN115910073B

    公开(公告)日:2024-09-20

    申请号:CN202211186472.1

    申请日:2022-09-27

    摘要: 本发明提出了一种基于双向注意力残差网络的语音欺诈检测方法,能够有效提升欺诈语音检测系统的识别性能,防止欺诈语音通过自动说话人验证系统(ASV)。在训练过程中,本发明首先对语音进行预处理,并提取常数Q变换(CQT)特征矩阵,将其作为残差网络(ResNet)的输入,利用ResNet提取浅层特征,然后将此特征输入双向注意力网络,以区分特征中不同维度的重要程度,从而得到区分性更强的特征表示。在测试阶段,利用训练好的网络模型作为真实语音与欺诈语音的分类器,对语音进行打分,根据打分结果对真实语音与欺诈语音进行分类。实验结果表明,本发明方法能够明显提升欺诈检测系统的性能,保护ASV系统免受不法用户的侵害。本发明可应用在语音处理和生物识别领域。

    语音合成方法、语音合成装置、电子设备及存储介质

    公开(公告)号:CN118629388A

    公开(公告)日:2024-09-10

    申请号:CN202410841463.4

    申请日:2024-06-26

    摘要: 本申请提出的语音合成方法、语音合成装置、电子设备及存储介质,涉及人工智能技术领域及金融科技领域。该方法包括:对语音样本数据进行分段,得到第一语音段数据和第二语音段数据;通过初始音色编码器,对第一语音段数据和第二语音段分别进行音色编码,得到第一音色向量和第二音色向量;根据第一音色向量和第二音色向量进行编码损失计算,得到目标损失数据;根据目标损失数据对初始音色编码器进行参数调整,得到目标音色编码器;通过目标音色编码器对目标语音数据进行音色编码,得到目标音色向量;根据目标音色向量和目标内容向量进行解码,得到目标合成语音数据。本申请能够保证语音合成的质量,且能够针对任意说话对象进行语音转换。

    一种基于人工智能的声纹采集分析方法及系统

    公开(公告)号:CN118609574A

    公开(公告)日:2024-09-06

    申请号:CN202410886753.0

    申请日:2024-07-03

    摘要: 本发明公开了一种基于人工智能的声纹采集分析方法及系统,涉及人工智能与声纹识别技术领域,包括,通过128MIC麦克风阵列采集声纹数据,对声纹数据进行STFT时域信号转换得到时频域并从中提取噪声特征,利用CNN识别噪声类型,动态调整MMSE算法的参数并进行声级自适应增益控制,构建时空域融合的深度声纹特征学习模型,对声纹进行识别和分析,构建环境声纹地图,进行实时场景匹配与降噪策略选择。本发明所述方法通过采用128MIC阵列采集声纹,结合AI技术:STFT分析噪声,CNN识别类型动态调优降噪算法;构建深度学习模型融合时空特征提升识别精度;创建声纹地图智能匹配场景与降噪策略,形成高效强适应性系统,显著提升复杂环境下的声纹识别效果。

    高质量非并行多对多语音转换

    公开(公告)号:CN111951810B

    公开(公告)日:2024-09-06

    申请号:CN202010401614.6

    申请日:2020-05-13

    发明人: 张阳 常十雨

    摘要: 一种允许使用非并行数据进行零次语音转换的方法(以及结构和计算机产品),包括将源说话者语音数据作为输入数据接收到风格转变自动编码器系统的内容编码器中,该内容编码器通过在保留内容信息的情况下减少输入源语音数据的说话者风格信息并将目标说话者输入语音作为输入数据接收到目标说话者编码器中来提供源说话者语音数据的源说话者解纠缠。内容编码器和目标说话者编码器的输出在风格转变自动编码器的解码器中组合,并且解码器的输出以目标说话者语音信息的风格提供输入源语音数据的内容信息。

    一种混合语音分离方法、装置、设备及可读存储介质

    公开(公告)号:CN118538234A

    公开(公告)日:2024-08-23

    申请号:CN202410977922.1

    申请日:2024-07-22

    摘要: 本发明公开了一种混合语音分离方法、装置、设备及可读存储介质,应用于语音分离领域,包括将含有语音重叠的混合语音输入至说话人提取模型的编码器中,得到输出向量;将混合语音中各个说话人的注册语音输入至声纹注册模型中,得到各个说话人的声纹特征;将各个说话人的声纹特征和输出向量依次输入至说话人提取模型的说话人提取器和解码器中,得到初始分离语音;将各个说话人的声纹特征和输出向量输入至说话人日志模型中,得到各个说话人的日志;根据初始分离语音和各个说话人的日志得到混合语音中各个说话人对应的语音。本发明将声纹注册模型、说话人日志模型和说话人提取模型进行结合,相辅相成,相互促进,共同提高混合语音分离的准确性。

    说话人验证方法及系统
    18.
    发明授权

    公开(公告)号:CN114283817B

    公开(公告)日:2024-08-23

    申请号:CN202111617782.X

    申请日:2021-12-27

    IPC分类号: G10L17/02 G10L17/04 G10L17/18

    摘要: 本发明实施例提供一种说话人验证方法。该方法包括:对待验证音频的时间和频率维度的特征图进行预分割,得到多个特征片段,其中,多个特征片段包括:时间一维特征的特征片段,以及时间和频率二维特征的特征片段;利用多层感知块确定时间和频率二维特征的特征片段的全局信息,确定时间一维特征的特征片段的局部信息;利用统计池化层确定全局信息以及局部信息的带有全局信息和局部信息的说话人嵌入,利用说话人嵌入进行说话人验证。本发明实施例还提供一种说话人验证系统。本发明实施例基于多层感知器的说话人系统能同时建模局部和全局信息,对于捕捉待验证音频中全局特征和局部特征方面具有优势,从而提升说话人验证的准确率。

    基于神经网络的野生生态环境鸟类鸣声识别方法

    公开(公告)号:CN118522294A

    公开(公告)日:2024-08-20

    申请号:CN202411002631.7

    申请日:2024-07-25

    IPC分类号: G10L17/26 G10L17/18 G10L17/20

    摘要: 本发明涉及语音处理技术领域,具体涉及基于神经网络的野生生态环境鸟类鸣声识别方法,该方法包括:采集纯声鸟鸣信号,根据纯声鸟鸣信号的频域特征获取各帧鸟鸣信号的谱熵时延同步系数,根据鸟鸣信号的自相关性得到各帧鸟鸣信号的窗口长时延稳定系数,结合谱熵时延同步系数及窗口长时延稳定系数得到各帧鸟鸣信号的窗内多时延周期指数,获取两坐标点之间的分割结果相似度,结合窗内多时延周期指数及分割结果相似度得到各采集时刻的卷积可分割程度,进而得到各帧鸟鸣信号的滑动三维卷积平滑度,确定各组卷积的滑动步长。本发明旨在提高鸟类鸣声的识别率,实现基于滑动窗口以及3D卷积的鸟类鸣声精确识别。

    基于说话人分类的性别、年龄、口音联合检测方法及系统

    公开(公告)号:CN118522291A

    公开(公告)日:2024-08-20

    申请号:CN202410591017.2

    申请日:2024-05-13

    摘要: 本发明提供基于说话人分类的性别、年龄、口音联合检测方法及系统,方法包括:构建说话人数据库;构建基于该说话人数据库的深度神经网络说话人分类模型,采用附加角裕度损失函数对训练深度神经网络说话人分类模型;对输入的语音数据进行前向神经网络计算,得到说话人标签的后验概率;根据后验概率得到输入语音对应的说话人标签,输出该说话人标签对应的性别、年龄、口音信息。本发明通过构建说话人数据库,降低了数据收集的成本,使用一个模型同时预测年龄、性别、口音,应用时只部署一个模型,节省了计算资源;能够基于语音数据同时预测出对应的性别、年龄、口音等信息,实现了年龄、性别、口音联合优化,相互促进,有效提高了模型分类的准确率。