组合空间提示和源提示的源分离

    公开(公告)号:CN118974825A

    公开(公告)日:2024-11-15

    申请号:CN202380031124.3

    申请日:2023-03-17

    IPC分类号: G10L21/028 G10L19/008

    摘要: 本公开涉及一种用于源分离的音频处理方法和系统。所述方法包括获得包括至少两个通道的输入音频信号(A),以及利用基于空间提示的分离模块(10)处理所述输入音频信号(A)以获得中间音频信号(B)。所述基于空间提示的分离模块(10)被配置为确定所述输入音频信号(A)的至少两个通道的混合参数并基于所述混合参数修改所述通道以获得所述中间音频信号(B)。所述方法进一步包括利用基于源提示的分离模块(20)处理所述中间音频信号(B)以生成输出音频信号(C),其中,所述基于源提示的分离模块(20)被配置为实施神经网络,所述神经网络被训练用于在给定所述中间音频信号(B)的情况下预测降噪输出音频信号(C)。

    卫星通信语音的压缩方法、装置及计算机设备

    公开(公告)号:CN118942467A

    公开(公告)日:2024-11-12

    申请号:CN202411009699.8

    申请日:2024-07-25

    IPC分类号: G10L19/008 G10L25/30

    摘要: 本申请公开了一种卫星通信语音的压缩方法、装置及计算机设备。其中,该方法包括:按照预设采样频率对语音信号进行采样,获取样本语音数据,其中,预设采样频率根据传输语音信号的信道状态确定;采用目标神经网络模型对待压缩语音数据进行压缩处理,得到目标语音数据,其中,目标神经网络模型为通过以下方式训练得到的:将样本语音数据和对样本语音数据采样时的信道状态作为输入,将采用压缩算法对样本语音数据进行压缩后得到的压缩语音数据作为输出,对目标神经网络模型进行训练。本申请解决了相关技术中由于为了保证语音质量占用过多带宽资源导致带宽资源利用率降低的技术问题。

    一种多人即时通信方法、系统、介质及设备

    公开(公告)号:CN115883501B

    公开(公告)日:2024-11-12

    申请号:CN202211582052.5

    申请日:2022-12-08

    发明人: 彭治湘

    摘要: 本发明提供一种多人即时通信方法、系统、介质及设备,方法包括:利用SFU服务器对N个用户的音频流进行筛选,获得多个参考音频流;利用MCU服务器对多个参考音频流进行拉取并筛选,获得M个当前音量最大的目标音频流,将M个目标音频流推送至SFU服务器中;利用SFU服务器将M个目标音频流推送至N个用户中;如此,基于SFU+MCU的架构中,MCU可从N个音频中只选取M个目标音频流推送至SFU服务器,在即时通信场景中,声音最大的用户数量为3~5个左右,因此相当于每个用户只需要向SFU服务器推送一路音频,同时从SFU中拉取3~5个目标音频流,大大降低带宽压力,即使在海量用户通信场景中,也可确保通信质量。

    音频解码、编码方法、装置、电子设备及存储介质

    公开(公告)号:CN115116451B

    公开(公告)日:2024-11-08

    申请号:CN202210676984.X

    申请日:2022-06-15

    摘要: 本申请提供了一种音频解码、编码方法、装置、电子设备及存储介质,可以应用于车载场景;音频解码方法包括:获取码流,其中,所述码流是对音频信号进行编码得到的;对所述码流进行解码处理,得到所述音频信号的特征向量的预测值;对所述特征向量的预测值进行标签提取处理,得到用于信号增强的标签信息向量,其中,所述标签信息向量的维度与所述特征向量的预测值的维度相同;基于所述特征向量的预测值和所述标签信息向量进行信号重建;将通过所述信号重建得到的所述音频信号的预测值,作为所述码流的解码结果。通过本申请,能够有效抑制音频信号中的声学干扰,进而提高重建得到的音频信号的质量。

    音频处理装置和方法以及计算机可读存储介质

    公开(公告)号:CN112562697B

    公开(公告)日:2024-11-08

    申请号:CN202011538529.0

    申请日:2016-06-09

    申请人: 索尼公司

    IPC分类号: G10L19/008 H04S7/00 H04S5/02

    摘要: 本技术涉及能够获取更高质量的声音的用于处理声音的装置、方法和程序。该获取单元获取对象的音频信号和元数据。该向量计算单元基于指示声像的扩散且包括在对象的元数据中的水平方向角和竖直方向角来计算表示指示声像的扩散的区域内的位置的扩展向量,其中扩展向量的数量是预先确定的并且不依赖于声像的扩散。该增益计算单元基于扩展向量通过VBAP来计算每个扬声器的音频信号的VBAP增益。该特征可以应用于声音处理装置。

    一种元宇宙沉浸式音响的实现方法及系统

    公开(公告)号:CN118890592A

    公开(公告)日:2024-11-01

    申请号:CN202411019425.7

    申请日:2024-07-29

    发明人: 王立军

    IPC分类号: H04S7/00 G01S5/18 G10L19/008

    摘要: 本发明提供了一种元宇宙沉浸式音响的实现方法及系统,其方法包括:步骤1:构建多声道麦克风阵列,并基于多声道麦克风阵列实时采集环境中的第一声音信号;步骤2:对第一声音信号进行信号处理获得第二声音信号,并对第二声音信号进行分析确定位置分布状态,同时,对第二声音信号进行编码;步骤3:在元宇宙的第一虚拟空间中对第二声音信号进行解码,并将解码后的第二声音信号根据位置分布状态进行空间音频渲染,生成第二虚拟空间;步骤4:构建交互管理端,并基于交互管理端对用户终端与第二虚拟空间进行交互管理。实现在元宇宙中高度逼真、具有空间感和方位感的沉浸式音响效果。这将为用户带来更加真实、丰富的虚拟环境体验。

    语音宽动态范围压缩方法、装置、设备及存储介质

    公开(公告)号:CN117789735B

    公开(公告)日:2024-11-01

    申请号:CN202311834658.8

    申请日:2023-12-27

    摘要: 本申请涉及一种语音宽动态范围压缩方法、装置、设备及存储介质,应用在语音信号处理技术领域,包括获取待处理的语音信息,所述待处理的语音信息包括从所述助听器中获取的一段正常听力动态范围内的声音信息;将所述待处理的语音信息转换成频域的语音信号,并分解成预设数量的通道信号;对每个所述通道信号进行宽动态范围压缩处理后得到通道压缩信号;将每个所述通道压缩信号合成全通道频域信号,并转换成时域语音信号后输出。本申请具有的技术效果是:经过宽动态范围压缩处理实现听力补偿后减小背景噪声的影响。