-
公开(公告)号:CN118571238B
公开(公告)日:2024-11-12
申请号:CN202411053243.1
申请日:2024-08-02
申请人: 北京远鉴信息技术有限公司
IPC分类号: G10L19/20 , G10L21/007 , G10L25/24 , G10L25/30 , G10L19/00
摘要: 本申请提供了一种音频处理方法、装置、电子设备及存储介质,包括:将待处理音频输入至语音处理模型的编码器网络层之中,对待处理音频的特征向量进行固定维度编码处理,输出待处理音频的离散化特征向量;将离散化特征向量输入至量化器网络层之中,对离散化特征向量进行残差矢量量化处理,输出待处理音频的残差矢量量化特征向量;将残差矢量量化特征向量输入至解码器网络层之中,对残差矢量量化特征向量进行解码处理,输出重建后的待处理音频。结合声码器监督分支的语音处理模型可以把音频信号编码为离散的表示,在声码器的辅助监督下提高重建的音频质量,保证模型性能不降低的情况下提高处理速度。
-
公开(公告)号:CN118918909A
公开(公告)日:2024-11-08
申请号:CN202410976926.8
申请日:2024-07-18
申请人: 腾讯音乐娱乐科技(深圳)有限公司
摘要: 本申请公开一种包括人声编码器、内容编码器和波形生成器的语音转换模型的训练方法,包括预训练内容编码器;预训练人声编码器;以及对抗训练语音转换模型的波形生成器和对应的判别器,对抗训练包括迭代执行下述步骤,直至达到预设的迭代终止条件:将训练音频分别输入内容编码器和人声编码器以输出内容特征和人声特征;将内容特征和人声特征输入波形生成器,生成训练生成音频,由判别器在训练音频和训练生成音频中判别真实音频和/或生成音频;由第一损失值更新波形生成器的参数;由第二损失值更新判别器的参数。本申请方案将通常应用于声码器的对抗训练用于训练声学模型,而省掉了声码器,提升了语音转换的生成效率,减低了训练成本。
-
公开(公告)号:CN118918908A
公开(公告)日:2024-11-08
申请号:CN202410974405.9
申请日:2024-07-19
申请人: 深圳牛学长科技有限公司
发明人: 姚振财
IPC分类号: G10L21/007 , G10L21/013 , G10L25/30
摘要: 本发明公开了基于模型蒸馏的变声方法、装置、计算机设备及存储介质,该方法包括:获取包含多条语音数据的基础训练集,并将所述基础训练集中的语音数据与预设的模板音频输入至教师模型中进行蒸馏训练,得到包含蒸馏数据的蒸馏数据集;将所述蒸馏数据集中的蒸馏数据输入至学生模型中进行变声训练,得到变声音频,以此构建实时变声模型;利用所述实时变声模型对指定的音频数据进行变声处理。本发明通过对教师模型进行蒸馏训练,来得到蒸馏数据集,然后利用蒸馏数据集对学生模型进行变声训练,如此不仅能够保留教师模型的部分性能优势,还能显著减少模型参数量和计算开销,从而在保证变声质量的同时,还能够使所述的变声方法适用于更多的系统平台。
-
公开(公告)号:CN118918899A
公开(公告)日:2024-11-08
申请号:CN202411126187.X
申请日:2024-08-16
申请人: 天键电声股份有限公司
发明人: 刘亨宇
摘要: 本发明公开了一种通过声纹识别优化游戏耳机音效的方法及系统,涉及音频优化技术领域,包括采集用户声纹信号并进行预处理;分析声纹信号特征并提取声纹信号的变化参数;构建声纹预测模型分析声纹信号的变化参数并预测未来声纹信号的变化参数;将预测的声纹信号的变化参数映射到音效调整参数;收集并分析用户反馈数据,调整声纹信号的变化参数权重。本发明采集用户的声纹信号,利用频域分析提取声纹特征和变化参数,为个性化音效调整提供了关键依据,构建LSTM模型,提高了音效调整的预测性和前瞻性,通过定义音效调整规则,实现了声纹特征与音效参数的精确映射,显著提升了音效个性化水平,收集用户反馈并调整声纹参数权重,形成闭环反馈系统。
-
公开(公告)号:CN118824263A
公开(公告)日:2024-10-22
申请号:CN202411059384.4
申请日:2024-08-03
申请人: 深圳市恒途视通科技有限公司
发明人: 叶黎明
IPC分类号: G10L21/007 , G10L19/032
摘要: 本发明公开了一种音频传输方法、装置及音频传输设备,音频传输方法包括如下步骤:步骤一、通过音频接口采集传输的音频信号;步骤二、对采集的音频信号进行数字化处理;步骤三、通过无线通信模块将数字化处的音频信号发送至接收端;以适应不同的输出设备本发明涉及音频传输技术技术领域,本发明通过将幅度变化值的数量为n与离散数字的数量为q进行判断比较,判断出最高的音频振幅值ZF是否与最高离散值标记为LS是否对应,从而避免量化得到限制,遗漏音频值,致使得到的音频不够准确,导致音频质量下降,并且进一步对离散数字值进行分析,使所有音频都能够在有限的离散数字值得到展示,使任意的量化数都能够对任意音频信号幅度进行量化。
-
公开(公告)号:CN118800260A
公开(公告)日:2024-10-18
申请号:CN202411271854.3
申请日:2024-09-11
申请人: 腾讯科技(深圳)有限公司
发明人: 丁文正
IPC分类号: G10L21/007
摘要: 本申请实施例提供一种音频处理方法、装置、设备和介质,包括:根据音频限位器的音量和阈值,对当前音频帧进行预处理得到至少一个待限位的音频单元;依次对至少一个音频单元进行处理,根据当前音频单元的音量峰值、该阈值和缓冲幅值确定当前音频单元的基准缩放因子;根据前向音频单元的基准缩放因子对当前音频单元的基准缩放因子进行连续性处理,使得当前音频单元头部的采样点的缩放因子与前向音频单元尾部的采样点的基准缩放因子连续;根据当前音频单元的各采样点的缩放因子对当前音频单元的各采样点进行限位处理。该方法只根据前向音频单元的基准缩放因子对当前音频单元进行限位,无需后向音频单元的信息,从而实现限位处理的零延迟。
-
公开(公告)号:CN118782058A
公开(公告)日:2024-10-15
申请号:CN202410857761.2
申请日:2024-06-28
申请人: 平安科技(深圳)有限公司
IPC分类号: G10L21/007 , G10L21/013 , G06F18/25 , G10L25/30
摘要: 本发明公开了音频转换方法、系统、计算机设备及存储介质,涉及音频处理技术领域,其中,所述方法包括:获取源音频的内容表征;获取目标声音的风格表征;采用自适应实例归一化策略将所述内容表征与所述风格表征进行融合,生成指向所述目标声音的转换后音频。通过本发明的方法可以实现内容表征与风格表征的充分有效融合,并转换出指向目标声音的高风格表现力的音频。
-
公开(公告)号:CN118136031B
公开(公告)日:2024-10-01
申请号:CN202311532458.7
申请日:2023-11-16
申请人: 摩尔线程智能科技(北京)有限责任公司
IPC分类号: G10L21/007 , G10L21/013 , G10L25/63 , G10L25/30
摘要: 本公开涉及一种语音转换方法、装置、电子设备和存储介质。语音转换模型包括内容编码器、说话人编码器和情感编码器,所述方法包括:获取第一训练音频集,其中,所述第一训练音频集包括多个第一训练音频;对于所述第一训练音频集中的任一第一训练音频,通过所述内容编码器获得所述第一训练音频对应的第一内容信息,通过所述说话人编码器获得所述第一训练音频对应的第一说话人信息,并通过所述情感编码器获得所述第一训练音频对应的第一情感信息;根据所述第一内容信息、所述第一说话人信息和所述第一情感信息,确定所述语音转换模型对应的第一损失函数的值;根据所述第一损失函数的值,训练语音转换模型。
-
公开(公告)号:CN112489667B
公开(公告)日:2024-09-06
申请号:CN201910777904.8
申请日:2019-08-22
申请人: 北京声智科技有限公司
IPC分类号: G10L21/007 , G10L21/043 , G10L15/06 , G10L15/22 , G10L21/0208
摘要: 本发明提供一种音频信号的处理方法和装置,获取预先录制的源音频信号和预设的目标声源位置;根据目标声源位置对源音频信号进行转换,得到麦克风对应的音频信号;其中,麦克风是麦克风阵列中的每一个麦克风;组合每一个麦克风对应的音频信号,得到麦克风阵列的目标音频信号。其中,根据目标声源位置处理得到的目标音频信号相当于麦克风阵列录制得到的,从目标声源位置发出的音频信号。因此本方案能够利用预先录制好的音频信号模拟出麦克风阵列从任意一个声源位置录制得到的音频信号,而不必频繁改变声源位置并针对每个声源位置重复录制音频信号,减少了获取训练智能音箱所需的音频样本的时间,从而减少训练智能音箱的唤醒模型所需的时间。
-
公开(公告)号:CN111916093B
公开(公告)日:2024-09-06
申请号:CN202010758220.6
申请日:2020-07-31
申请人: 腾讯音乐娱乐科技(深圳)有限公司
发明人: 庄晓滨
IPC分类号: G10L21/003 , G10L21/007 , G10L25/18 , G10L25/24
摘要: 本申请实施例公开了一种音频处理方法及装置,该方法包括:获取原始音频信号,并从原始音频信号中获取基频序列、频谱包络序列,以及非周期参数序列;获取基频调整参数,根据基频调整参数对基频序列进行调整以生成目标基频序列;根据目标基频序列、频谱包络序列以及非周期参数序列确定线性频谱;将线性频谱转换为非线性频谱,并根据非线性频谱生成目标音频信号。采用本申请实施例,可提高音频合成信号的信号质量,适用性高。
-
-
-
-
-
-
-
-
-