-
公开(公告)号:CN118974825A
公开(公告)日:2024-11-15
申请号:CN202380031124.3
申请日:2023-03-17
申请人: 杜比实验室特许公司
IPC分类号: G10L21/028 , G10L19/008
摘要: 本公开涉及一种用于源分离的音频处理方法和系统。所述方法包括获得包括至少两个通道的输入音频信号(A),以及利用基于空间提示的分离模块(10)处理所述输入音频信号(A)以获得中间音频信号(B)。所述基于空间提示的分离模块(10)被配置为确定所述输入音频信号(A)的至少两个通道的混合参数并基于所述混合参数修改所述通道以获得所述中间音频信号(B)。所述方法进一步包括利用基于源提示的分离模块(20)处理所述中间音频信号(B)以生成输出音频信号(C),其中,所述基于源提示的分离模块(20)被配置为实施神经网络,所述神经网络被训练用于在给定所述中间音频信号(B)的情况下预测降噪输出音频信号(C)。
-
-
公开(公告)号:CN118942467A
公开(公告)日:2024-11-12
申请号:CN202411009699.8
申请日:2024-07-25
申请人: 中国电信股份有限公司卫星通信分公司
IPC分类号: G10L19/008 , G10L25/30
摘要: 本申请公开了一种卫星通信语音的压缩方法、装置及计算机设备。其中,该方法包括:按照预设采样频率对语音信号进行采样,获取样本语音数据,其中,预设采样频率根据传输语音信号的信道状态确定;采用目标神经网络模型对待压缩语音数据进行压缩处理,得到目标语音数据,其中,目标神经网络模型为通过以下方式训练得到的:将样本语音数据和对样本语音数据采样时的信道状态作为输入,将采用压缩算法对样本语音数据进行压缩后得到的压缩语音数据作为输出,对目标神经网络模型进行训练。本申请解决了相关技术中由于为了保证语音质量占用过多带宽资源导致带宽资源利用率降低的技术问题。
-
公开(公告)号:CN115883501B
公开(公告)日:2024-11-12
申请号:CN202211582052.5
申请日:2022-12-08
申请人: 武汉斗鱼鱼乐网络科技有限公司
发明人: 彭治湘
IPC分类号: H04L51/04 , H04L51/214 , G10L19/008
-
公开(公告)号:CN115116451B
公开(公告)日:2024-11-08
申请号:CN202210676984.X
申请日:2022-06-15
申请人: 腾讯科技(深圳)有限公司
IPC分类号: G10L19/008 , G10L19/16 , G10L21/0208
摘要: 本申请提供了一种音频解码、编码方法、装置、电子设备及存储介质,可以应用于车载场景;音频解码方法包括:获取码流,其中,所述码流是对音频信号进行编码得到的;对所述码流进行解码处理,得到所述音频信号的特征向量的预测值;对所述特征向量的预测值进行标签提取处理,得到用于信号增强的标签信息向量,其中,所述标签信息向量的维度与所述特征向量的预测值的维度相同;基于所述特征向量的预测值和所述标签信息向量进行信号重建;将通过所述信号重建得到的所述音频信号的预测值,作为所述码流的解码结果。通过本申请,能够有效抑制音频信号中的声学干扰,进而提高重建得到的音频信号的质量。
-
公开(公告)号:CN112562697B
公开(公告)日:2024-11-08
申请号:CN202011538529.0
申请日:2016-06-09
申请人: 索尼公司
IPC分类号: G10L19/008 , H04S7/00 , H04S5/02
摘要: 本技术涉及能够获取更高质量的声音的用于处理声音的装置、方法和程序。该获取单元获取对象的音频信号和元数据。该向量计算单元基于指示声像的扩散且包括在对象的元数据中的水平方向角和竖直方向角来计算表示指示声像的扩散的区域内的位置的扩展向量,其中扩展向量的数量是预先确定的并且不依赖于声像的扩散。该增益计算单元基于扩展向量通过VBAP来计算每个扬声器的音频信号的VBAP增益。该特征可以应用于声音处理装置。
-
公开(公告)号:CN118890592A
公开(公告)日:2024-11-01
申请号:CN202411019425.7
申请日:2024-07-29
申请人: 江苏奥格视特信息科技有限公司
发明人: 王立军
IPC分类号: H04S7/00 , G01S5/18 , G10L19/008
摘要: 本发明提供了一种元宇宙沉浸式音响的实现方法及系统,其方法包括:步骤1:构建多声道麦克风阵列,并基于多声道麦克风阵列实时采集环境中的第一声音信号;步骤2:对第一声音信号进行信号处理获得第二声音信号,并对第二声音信号进行分析确定位置分布状态,同时,对第二声音信号进行编码;步骤3:在元宇宙的第一虚拟空间中对第二声音信号进行解码,并将解码后的第二声音信号根据位置分布状态进行空间音频渲染,生成第二虚拟空间;步骤4:构建交互管理端,并基于交互管理端对用户终端与第二虚拟空间进行交互管理。实现在元宇宙中高度逼真、具有空间感和方位感的沉浸式音响效果。这将为用户带来更加真实、丰富的虚拟环境体验。
-
公开(公告)号:CN117789735B
公开(公告)日:2024-11-01
申请号:CN202311834658.8
申请日:2023-12-27
申请人: 无锡芯亿集成电路有限公司
IPC分类号: G10L19/008 , G10L19/012 , G10L19/16
摘要: 本申请涉及一种语音宽动态范围压缩方法、装置、设备及存储介质,应用在语音信号处理技术领域,包括获取待处理的语音信息,所述待处理的语音信息包括从所述助听器中获取的一段正常听力动态范围内的声音信息;将所述待处理的语音信息转换成频域的语音信号,并分解成预设数量的通道信号;对每个所述通道信号进行宽动态范围压缩处理后得到通道压缩信号;将每个所述通道压缩信号合成全通道频域信号,并转换成时域语音信号后输出。本申请具有的技术效果是:经过宽动态范围压缩处理实现听力补偿后减小背景噪声的影响。
-
公开(公告)号:CN118824259A
公开(公告)日:2024-10-22
申请号:CN202411189983.8
申请日:2019-04-09
申请人: 杜比国际公司
IPC分类号: G10L19/008 , G10L19/16 , G10L19/24 , H04S3/00 , H04S7/00
摘要: 本公开涉及用于6DOF音频渲染的方法、设备和系统及用于6DOF音频渲染的数据表示和位流结构。本公开涉及用于将音频信号编码到位流中(具体地说在编码器处)的方法、设备和系统,其包括:将与3DoF音频渲染关联的音频信号数据编码或包含到所述位流的一或多个第一位流部分中,以及将与6DoF音频渲染关联的元数据编码或包含到所述位流的一或多个第二位流部分中。本公开进一步涉及用于解码音频信号和基于所述位流的音频渲染的方法、设备和系统。
-
公开(公告)号:CN113365202B
公开(公告)日:2024-10-22
申请号:CN202010144625.0
申请日:2020-03-04
申请人: 南京中兴新软件有限责任公司
发明人: 郭法永
IPC分类号: H04S7/00 , H04R5/027 , G10L19/008
摘要: 本发明实施例提供一种全息语音通信方法、装置、终端以及计算机存储介质,通过采集空间声场中不同位置至少一个音频信号,将音频信号组成信号向量,并生成全息声场数据,对全息声场数据进行仿耳廓效果处理,生成第一全息语音数据,将第一全息语音数据进行预定义场景模型处理,更新第一全息语音数据,将更新后的第一全息语音数据传输至接收端,作为接收端进行预定义场景转换处理从而生成第二全息语音数据,在某些实施过程中,可以实现空间声场数据采集灵活,提高通用性,还可以为声音实现不同的场景体验,增加真实临场语音体验。
-
-
-
-
-
-
-
-
-