用于麦克风风格转移的机器学习
    3.
    发明公开

    公开(公告)号:CN116472579A

    公开(公告)日:2023-07-21

    申请号:CN202180070897.3

    申请日:2021-10-15

    Abstract: 本公开的示例实施方式涉及用于麦克风风格转移的机器学习,例如,以促进诸如语音数据的音频数据的扩增,以提高在音频数据上训练的机器学习模型的健壮性。用于麦克风风格转移的系统和方法可以包括一个或多个机器学习的麦克风模型,该模型被训练以获得和扩增信号数据以模仿从目标麦克风获得的信号数据的特性。该系统和方法可以包括用于在风格转移之前增强样本的语音增强网络。然后可以将扩增输出用于各种下游任务。

    使用结构化潜在空间压缩音频波形

    公开(公告)号:CN118805219A

    公开(公告)日:2024-10-18

    申请号:CN202380023746.1

    申请日:2023-03-16

    Abstract: 用于训练编码器神经网络和解码器神经网络的方法、系统和设备,包括编码在计算机存储介质上的计算机程序。在一个方面,一种方法包括:获得第一初始音频波形和第一有噪声的音频波形;获得第二初始音频波形和第二有噪声的音频波形;使用编码器神经网络来处理该第一有噪声的音频波形和该第二有噪声的音频波形;通过连结以下来生成混合嵌入:(i)来自该第一有噪声的音频波形的嵌入的干净特征维度,以及(ii)来自该第二有噪声的音频波形的嵌入的噪声特征维度;使用解码器神经网络来处理该混合嵌入,以生成重构音频波形;确定目标函数的梯度;以及使用梯度来更新该编码器神经网络和该解码器神经网络的参数值。

    使用神经网络和向量量化器压缩音频波形

    公开(公告)号:CN117616498A

    公开(公告)日:2024-02-27

    申请号:CN202280046175.9

    申请日:2022-07-05

    Abstract: 方法、系统和装置,包括编码在计算机存储介质上的计算机程序。其中,方法中的一个包括:接收包括多个时间步长中的每个时间步长的相应音频样本的音频波形;使用编码器神经网络处理音频波形以生成表示音频波形的多个特征向量;使用多个向量量化器来生成所述多个特征向量中的每个特征向量的相应编译表示,向量量化器各自与代码向量的相应码本相关联,其中,每个特征向量的相应的编译表示识别多个代码向量,多个代码向量包括来自每个向量量化器的码本的相应代码向量,多个代码向量定义特征向量的量化表示;以及,通过压缩多个特征向量中的每个特征向量的相应编译表示来生成所述音频波形的压缩表示。

Patent Agency Ranking