使用结构化潜在空间压缩音频波形

    公开(公告)号:CN118805219A

    公开(公告)日:2024-10-18

    申请号:CN202380023746.1

    申请日:2023-03-16

    摘要: 用于训练编码器神经网络和解码器神经网络的方法、系统和设备,包括编码在计算机存储介质上的计算机程序。在一个方面,一种方法包括:获得第一初始音频波形和第一有噪声的音频波形;获得第二初始音频波形和第二有噪声的音频波形;使用编码器神经网络来处理该第一有噪声的音频波形和该第二有噪声的音频波形;通过连结以下来生成混合嵌入:(i)来自该第一有噪声的音频波形的嵌入的干净特征维度,以及(ii)来自该第二有噪声的音频波形的嵌入的噪声特征维度;使用解码器神经网络来处理该混合嵌入,以生成重构音频波形;确定目标函数的梯度;以及使用梯度来更新该编码器神经网络和该解码器神经网络的参数值。

    使用神经网络和向量量化器压缩音频波形

    公开(公告)号:CN117616498A

    公开(公告)日:2024-02-27

    申请号:CN202280046175.9

    申请日:2022-07-05

    IPC分类号: G10L19/00 G10L19/038

    摘要: 方法、系统和装置,包括编码在计算机存储介质上的计算机程序。其中,方法中的一个包括:接收包括多个时间步长中的每个时间步长的相应音频样本的音频波形;使用编码器神经网络处理音频波形以生成表示音频波形的多个特征向量;使用多个向量量化器来生成所述多个特征向量中的每个特征向量的相应编译表示,向量量化器各自与代码向量的相应码本相关联,其中,每个特征向量的相应的编译表示识别多个代码向量,多个代码向量包括来自每个向量量化器的码本的相应代码向量,多个代码向量定义特征向量的量化表示;以及,通过压缩多个特征向量中的每个特征向量的相应编译表示来生成所述音频波形的压缩表示。

    经由迭代说话者嵌入的端到端说话者分离

    公开(公告)号:CN117337467A

    公开(公告)日:2024-01-02

    申请号:CN202180098156.6

    申请日:2021-06-22

    IPC分类号: G10L25/87

    摘要: 一种方法(600)包括接收与由多个说话者(10)说出的话语(120)相对应的音频信号(122)。该方法还包括将输入音频信号编码成T个时间嵌入(220)的序列。在每个与多个说话者中的相应说话者相对应的多个迭代中的每个迭代期间,该方法包括通过下述方式来为相应说话者选择相应说话者嵌入(240):确定对应的时间嵌入包括单个新说话者的话音活动的存在的概率,在先前迭代期间先前没有为该单个新说话者选择说话者嵌入;并且将相应说话者的相应说话者嵌入选择为该时间嵌入。该方法还包括,在每个时间步长处,基于选择的说话者嵌入和时间嵌入来预测多个说话者中的每个相应说话者的相应话音活动指示符(262)。