-
公开(公告)号:CN118609581B
公开(公告)日:2024-10-22
申请号:CN202411098135.6
申请日:2024-08-12
Applicant: 腾讯科技(深圳)有限公司
IPC: G10L19/038 , G10L19/00
Abstract: 本申请涉及一种音频编码和解码方法、装置、设备、存储介质和产品。所述方法包括:获取待编码音频中各音频帧的音频特征;将音频特征进行拆分,得到各音频帧的第一类拆分特征和各音频帧的第二类拆分特征,第一类拆分特征的信息量大于第二类拆分特征的信息量;将各音频帧的第一类拆分特征按照各音频帧的帧间相关性进行合并,得到第一类拆分特征对应的帧间合并特征;将帧间合并特征进行矢量量化映射,得到合并量化特征,并将各音频帧的第二类拆分特征进行矢量量化映射,得到目标量化特征;基于合并量化特征和目标量化特征进行编码转换,得到待编码音频的音频编码结果。采用本方法能够提高音频编码效率。
-
公开(公告)号:CN118805219A
公开(公告)日:2024-10-18
申请号:CN202380023746.1
申请日:2023-03-16
Applicant: 谷歌有限责任公司
Inventor: 艾哈迈德·欧姆兰 , 尼尔·泽格多尔 , 佐兰·博尔绍什 , 费利克斯·得肖蒙格泰 , 马尔科·塔利亚萨基
IPC: G10L21/0208 , G06N3/0455 , G10L19/038
Abstract: 用于训练编码器神经网络和解码器神经网络的方法、系统和设备,包括编码在计算机存储介质上的计算机程序。在一个方面,一种方法包括:获得第一初始音频波形和第一有噪声的音频波形;获得第二初始音频波形和第二有噪声的音频波形;使用编码器神经网络来处理该第一有噪声的音频波形和该第二有噪声的音频波形;通过连结以下来生成混合嵌入:(i)来自该第一有噪声的音频波形的嵌入的干净特征维度,以及(ii)来自该第二有噪声的音频波形的嵌入的噪声特征维度;使用解码器神经网络来处理该混合嵌入,以生成重构音频波形;确定目标函数的梯度;以及使用梯度来更新该编码器神经网络和该解码器神经网络的参数值。
-
公开(公告)号:CN118302808A
公开(公告)日:2024-07-05
申请号:CN202280078427.6
申请日:2022-10-14
Applicant: 松下电器(美国)知识产权公司
IPC: G10L19/002 , G10L19/038
Abstract: 编码装置包括:量化电路,产生包含与向量量化的码本相关的信息的量化参数;以及控制电路,在基于可用于对目标子向量进行编码的比特数即可使用的比特数与目标子向量的所述量化参数的比特数之差的编码中,根据条件,设定可使用的比特数。
-
公开(公告)号:CN118251722A
公开(公告)日:2024-06-25
申请号:CN202280075199.7
申请日:2022-09-23
Applicant: 诺基亚技术有限公司
Inventor: A·瓦西拉凯
IPC: G10L19/008 , H04S7/00 , G10L19/16 , G10L19/038 , G06F17/17
Abstract: 一种用于将空间音频信号方向索引解码为方向值的设备,该方向索引表示通过用较小的球体覆盖球体而生成的球体网格中的点,其中较小的球体的中心定义球体网格的点,这些点在恒定仰角的圆上彼此基本等距地布置,该设备包括用于以下操作的装置:获取空间音频信号方向索引值(306);通过应用包括空间音频信号方向索引值的定义的多项式来估计网格圆索引值(502);从网格圆索引值确定低方向索引值和高方向索引值(505);以及基于网格圆索引值、低方向索引值、高方向索引值和空间音频信号方向索引值,确定仰角索引值和方位角索引值(509)。
-
公开(公告)号:CN117616498A
公开(公告)日:2024-02-27
申请号:CN202280046175.9
申请日:2022-07-05
Applicant: 谷歌有限责任公司
IPC: G10L19/00 , G10L19/038
Abstract: 方法、系统和装置,包括编码在计算机存储介质上的计算机程序。其中,方法中的一个包括:接收包括多个时间步长中的每个时间步长的相应音频样本的音频波形;使用编码器神经网络处理音频波形以生成表示音频波形的多个特征向量;使用多个向量量化器来生成所述多个特征向量中的每个特征向量的相应编译表示,向量量化器各自与代码向量的相应码本相关联,其中,每个特征向量的相应的编译表示识别多个代码向量,多个代码向量包括来自每个向量量化器的码本的相应代码向量,多个代码向量定义特征向量的量化表示;以及,通过压缩多个特征向量中的每个特征向量的相应编译表示来生成所述音频波形的压缩表示。
-
公开(公告)号:CN117316142A
公开(公告)日:2023-12-29
申请号:CN202311421326.7
申请日:2023-10-30
Applicant: 思必驰科技股份有限公司
IPC: G10L13/10 , G10L19/038 , G10L25/06 , G10L25/24 , G10L25/90
Abstract: 本申请实施例提供一种语音合成方法、系统及电子设备。该方法包括:获取待语音合成的目标文本;基于风格匹配模型从多个预标注了自然语言风格描述的注释音频中进行检索,以确定与所述目标文本相匹配的目标注释音频;所述风格匹配模型包含大语言模型模块;参照所述目标注释音频,基于TTS模型合成所述目标文本所对应的目标音频。由此,借助于大语言模型强大的自然语言理解能力,能够较佳地得出与待语音合成的目标文本相匹配的风格,并且利用目标注释音频来指导TTS模型生成目标文本所对应的目标音频,能在较低标注成本下实现高质量的合成语音。
-
公开(公告)号:CN114708876B
公开(公告)日:2023-10-03
申请号:CN202210510772.4
申请日:2022-05-11
Applicant: 北京百度网讯科技有限公司
Inventor: 赵情恩
IPC: G10L21/013 , G10L19/038
Abstract: 本公开提供了一种音频处理方法、装置、电子设备及存储介质,涉及计算机技术领域,尤其涉及语音技术领域。具体实现方案为:从原始音频获取第一目标特征向量,其中,第一目标特征向量用于表征原始音频的内容特征;从待迁移音频获取第二目标特征向量和第三目标特征向量,其中,第二目标特征向量用于表征待迁移音频的风格韵律特征,第三目标特征向量用于表征待迁移音频的说话人特征;对第一目标特征向量、第二目标特征向量和第三目标特征向量进行声谱解码处理,得到目标声谱特征;将目标声谱特征转换成目标音频。
-
公开(公告)号:CN116137151A
公开(公告)日:2023-05-19
申请号:CN202210666398.7
申请日:2022-06-13
Applicant: 达音网络科技(上海)有限公司
IPC: G10L19/00 , G10L19/02 , G10L19/087 , G10L19/038 , G10L25/24
Abstract: 本发明提供了一种新型的在实时通信中低码率网络连接下提供高质量音频的系统和方法。该系统包括配备了改进的编码器和改进的解码器的实时通信软件应用程序。编码器将对应于超宽带模式和宽带模式的两个频率范围的音频数据划分为低频子带和高频子带音频数据。从低频子带和高频子带音频数据中提取音频特征。将音频特征进行量化和打包。解码器根据超宽带模式和宽带模式下的压缩音频特征对音频数据进行重构以便在接收设备上播放。
-
公开(公告)号:CN110050304B
公开(公告)日:2022-11-29
申请号:CN201780075965.9
申请日:2017-12-15
Applicant: 瑞典爱立信有限公司
IPC: G10L19/038
Abstract: 提出了用于处理输入包络表示系数的机制。一种由通信系统的编码器执行的方法。该方法包括根据从输入包络表示系数中减去第一压缩包络表示系数来确定包络表示残差系数。该方法包括将包络表示残差系数变换到变形域,以获得变换的包络表示残差系数。该方法包括对变换的包络表示残差系数应用多个增益形状编码方案中的至少一个,以获得增益形状编码的包络表示残差系数,其中该多个增益形状编码方案对于变换的包络表示残差系数中的一个或多个在增益分辨率和形状分辨率中的一个或多个中具有互不相同的折中。该方法包括通过通信信道向解码器发送第一压缩包络表示系数、增益形状编码的包络表示残差系数以及关于所应用的至少一个增益形状编码方案的信息的表示。
-
公开(公告)号:CN115376531A
公开(公告)日:2022-11-22
申请号:CN202211053802.X
申请日:2022-08-31
Applicant: 珠海美佳音科技有限公司
IPC: G10L19/02 , G10L19/038 , G10L21/0208 , G10L21/0272 , H04W4/80
Abstract: 本发明涉及音频传输技术领域,公开了一种音频数据传输方法、装置、设备及存储介质。该方法包括:获取所述移动设备的待传输数据,并利用所述音频发射电路提取所述待传输数据中的编码数据,得到原始音频数据;对原始音频数据进行量化编码处理,并对量化编码后的原始编码数据进行相关性检测以及加权运算,得到声道子带信号;将声道子带信号进行脉冲调制和信号功率放大,得到音频调制信号,并利用无线耳机电路对音频调制信号进行子带解码,得到左右声道对应的音频数据;获取当前环境的噪声信号,并基于所述噪声信号,对所述左右声道对应的音频数据进行降噪处理,得到最终的音频数据。本申请降低了无线耳机对音频数据传输时的时延。
-
-
-
-
-
-
-
-
-