音频编码和解码方法、装置、设备、存储介质和产品

    公开(公告)号:CN118609581B

    公开(公告)日:2024-10-22

    申请号:CN202411098135.6

    申请日:2024-08-12

    Inventor: 陈皇 尹坤 郭智豪

    Abstract: 本申请涉及一种音频编码和解码方法、装置、设备、存储介质和产品。所述方法包括:获取待编码音频中各音频帧的音频特征;将音频特征进行拆分,得到各音频帧的第一类拆分特征和各音频帧的第二类拆分特征,第一类拆分特征的信息量大于第二类拆分特征的信息量;将各音频帧的第一类拆分特征按照各音频帧的帧间相关性进行合并,得到第一类拆分特征对应的帧间合并特征;将帧间合并特征进行矢量量化映射,得到合并量化特征,并将各音频帧的第二类拆分特征进行矢量量化映射,得到目标量化特征;基于合并量化特征和目标量化特征进行编码转换,得到待编码音频的音频编码结果。采用本方法能够提高音频编码效率。

    使用结构化潜在空间压缩音频波形

    公开(公告)号:CN118805219A

    公开(公告)日:2024-10-18

    申请号:CN202380023746.1

    申请日:2023-03-16

    Abstract: 用于训练编码器神经网络和解码器神经网络的方法、系统和设备,包括编码在计算机存储介质上的计算机程序。在一个方面,一种方法包括:获得第一初始音频波形和第一有噪声的音频波形;获得第二初始音频波形和第二有噪声的音频波形;使用编码器神经网络来处理该第一有噪声的音频波形和该第二有噪声的音频波形;通过连结以下来生成混合嵌入:(i)来自该第一有噪声的音频波形的嵌入的干净特征维度,以及(ii)来自该第二有噪声的音频波形的嵌入的噪声特征维度;使用解码器神经网络来处理该混合嵌入,以生成重构音频波形;确定目标函数的梯度;以及使用梯度来更新该编码器神经网络和该解码器神经网络的参数值。

    空间音频参数解码
    4.
    发明公开

    公开(公告)号:CN118251722A

    公开(公告)日:2024-06-25

    申请号:CN202280075199.7

    申请日:2022-09-23

    Inventor: A·瓦西拉凯

    Abstract: 一种用于将空间音频信号方向索引解码为方向值的设备,该方向索引表示通过用较小的球体覆盖球体而生成的球体网格中的点,其中较小的球体的中心定义球体网格的点,这些点在恒定仰角的圆上彼此基本等距地布置,该设备包括用于以下操作的装置:获取空间音频信号方向索引值(306);通过应用包括空间音频信号方向索引值的定义的多项式来估计网格圆索引值(502);从网格圆索引值确定低方向索引值和高方向索引值(505);以及基于网格圆索引值、低方向索引值、高方向索引值和空间音频信号方向索引值,确定仰角索引值和方位角索引值(509)。

    使用神经网络和向量量化器压缩音频波形

    公开(公告)号:CN117616498A

    公开(公告)日:2024-02-27

    申请号:CN202280046175.9

    申请日:2022-07-05

    Abstract: 方法、系统和装置,包括编码在计算机存储介质上的计算机程序。其中,方法中的一个包括:接收包括多个时间步长中的每个时间步长的相应音频样本的音频波形;使用编码器神经网络处理音频波形以生成表示音频波形的多个特征向量;使用多个向量量化器来生成所述多个特征向量中的每个特征向量的相应编译表示,向量量化器各自与代码向量的相应码本相关联,其中,每个特征向量的相应的编译表示识别多个代码向量,多个代码向量包括来自每个向量量化器的码本的相应代码向量,多个代码向量定义特征向量的量化表示;以及,通过压缩多个特征向量中的每个特征向量的相应编译表示来生成所述音频波形的压缩表示。

    语音合成方法、系统及电子设备
    6.
    发明公开

    公开(公告)号:CN117316142A

    公开(公告)日:2023-12-29

    申请号:CN202311421326.7

    申请日:2023-10-30

    Inventor: 俞凯 张杭磊

    Abstract: 本申请实施例提供一种语音合成方法、系统及电子设备。该方法包括:获取待语音合成的目标文本;基于风格匹配模型从多个预标注了自然语言风格描述的注释音频中进行检索,以确定与所述目标文本相匹配的目标注释音频;所述风格匹配模型包含大语言模型模块;参照所述目标注释音频,基于TTS模型合成所述目标文本所对应的目标音频。由此,借助于大语言模型强大的自然语言理解能力,能够较佳地得出与待语音合成的目标文本相匹配的风格,并且利用目标注释音频来指导TTS模型生成目标文本所对应的目标音频,能在较低标注成本下实现高质量的合成语音。

    音频处理方法、装置、电子设备及存储介质

    公开(公告)号:CN114708876B

    公开(公告)日:2023-10-03

    申请号:CN202210510772.4

    申请日:2022-05-11

    Inventor: 赵情恩

    Abstract: 本公开提供了一种音频处理方法、装置、电子设备及存储介质,涉及计算机技术领域,尤其涉及语音技术领域。具体实现方案为:从原始音频获取第一目标特征向量,其中,第一目标特征向量用于表征原始音频的内容特征;从待迁移音频获取第二目标特征向量和第三目标特征向量,其中,第二目标特征向量用于表征待迁移音频的风格韵律特征,第三目标特征向量用于表征待迁移音频的说话人特征;对第一目标特征向量、第二目标特征向量和第三目标特征向量进行声谱解码处理,得到目标声谱特征;将目标声谱特征转换成目标音频。

    用于处理包络表示系数的方法、编码器和解码器

    公开(公告)号:CN110050304B

    公开(公告)日:2022-11-29

    申请号:CN201780075965.9

    申请日:2017-12-15

    Abstract: 提出了用于处理输入包络表示系数的机制。一种由通信系统的编码器执行的方法。该方法包括根据从输入包络表示系数中减去第一压缩包络表示系数来确定包络表示残差系数。该方法包括将包络表示残差系数变换到变形域,以获得变换的包络表示残差系数。该方法包括对变换的包络表示残差系数应用多个增益形状编码方案中的至少一个,以获得增益形状编码的包络表示残差系数,其中该多个增益形状编码方案对于变换的包络表示残差系数中的一个或多个在增益分辨率和形状分辨率中的一个或多个中具有互不相同的折中。该方法包括通过通信信道向解码器发送第一压缩包络表示系数、增益形状编码的包络表示残差系数以及关于所应用的至少一个增益形状编码方案的信息的表示。

    音频数据传输方法、装置、设备及存储介质

    公开(公告)号:CN115376531A

    公开(公告)日:2022-11-22

    申请号:CN202211053802.X

    申请日:2022-08-31

    Abstract: 本发明涉及音频传输技术领域,公开了一种音频数据传输方法、装置、设备及存储介质。该方法包括:获取所述移动设备的待传输数据,并利用所述音频发射电路提取所述待传输数据中的编码数据,得到原始音频数据;对原始音频数据进行量化编码处理,并对量化编码后的原始编码数据进行相关性检测以及加权运算,得到声道子带信号;将声道子带信号进行脉冲调制和信号功率放大,得到音频调制信号,并利用无线耳机电路对音频调制信号进行子带解码,得到左右声道对应的音频数据;获取当前环境的噪声信号,并基于所述噪声信号,对所述左右声道对应的音频数据进行降噪处理,得到最终的音频数据。本申请降低了无线耳机对音频数据传输时的时延。

Patent Agency Ranking