-
-
公开(公告)号:CN118382891A
公开(公告)日:2024-07-23
申请号:CN202380015080.5
申请日:2023-09-07
申请人: 谷歌有限责任公司
发明人: 尼尔·泽格多尔 , 大卫·格朗吉耶 , 马尔科·塔利亚萨基 , 拉斐尔·马里尼耶 , 奥利维尔·泰布尔 , 佐兰·博尔绍什 , 安德里亚·阿戈斯蒂内利 , 蒂莫·伊曼纽尔·登克 , 安托万·凯伦 , 杰西·恩格尔 , 玛洛·韦尔泽蒂 , 克里斯蒂安·弗兰克 , 马修·谢里菲 , 亚当·约瑟夫·罗伯茨
IPC分类号: G10L13/00 , G06N3/0455 , G06N3/0475 , G10L25/30
摘要: 用于生成音频信号的预测的方法、系统和设备,包括编码在计算机存储介质上的计算机程序。方法中的一种方法包括:接收生成音频信号的请求;获得音频信号的语义表示;使用一个或多个生成神经网络以至少语义表示为条件来生成音频信号的声学表示;以及使用解码器神经网络来处理至少声学表示以生成音频信号的预测。
-
公开(公告)号:CN113994427A
公开(公告)日:2022-01-28
申请号:CN202180003714.6
申请日:2021-02-08
申请人: 谷歌有限责任公司
IPC分类号: G10L21/028 , G10L21/0208 , G10L25/30
摘要: 用于执行语音分离的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。
-
公开(公告)号:CN118805219A
公开(公告)日:2024-10-18
申请号:CN202380023746.1
申请日:2023-03-16
申请人: 谷歌有限责任公司
发明人: 艾哈迈德·欧姆兰 , 尼尔·泽格多尔 , 佐兰·博尔绍什 , 费利克斯·得肖蒙格泰 , 马尔科·塔利亚萨基
IPC分类号: G10L21/0208 , G06N3/0455 , G10L19/038
摘要: 用于训练编码器神经网络和解码器神经网络的方法、系统和设备,包括编码在计算机存储介质上的计算机程序。在一个方面,一种方法包括:获得第一初始音频波形和第一有噪声的音频波形;获得第二初始音频波形和第二有噪声的音频波形;使用编码器神经网络来处理该第一有噪声的音频波形和该第二有噪声的音频波形;通过连结以下来生成混合嵌入:(i)来自该第一有噪声的音频波形的嵌入的干净特征维度,以及(ii)来自该第二有噪声的音频波形的嵌入的噪声特征维度;使用解码器神经网络来处理该混合嵌入,以生成重构音频波形;确定目标函数的梯度;以及使用梯度来更新该编码器神经网络和该解码器神经网络的参数值。
-
公开(公告)号:CN117616498A
公开(公告)日:2024-02-27
申请号:CN202280046175.9
申请日:2022-07-05
申请人: 谷歌有限责任公司
IPC分类号: G10L19/00 , G10L19/038
摘要: 方法、系统和装置,包括编码在计算机存储介质上的计算机程序。其中,方法中的一个包括:接收包括多个时间步长中的每个时间步长的相应音频样本的音频波形;使用编码器神经网络处理音频波形以生成表示音频波形的多个特征向量;使用多个向量量化器来生成所述多个特征向量中的每个特征向量的相应编译表示,向量量化器各自与代码向量的相应码本相关联,其中,每个特征向量的相应的编译表示识别多个代码向量,多个代码向量包括来自每个向量量化器的码本的相应代码向量,多个代码向量定义特征向量的量化表示;以及,通过压缩多个特征向量中的每个特征向量的相应编译表示来生成所述音频波形的压缩表示。
-
公开(公告)号:CN118887971A
公开(公告)日:2024-11-01
申请号:CN202410903951.3
申请日:2023-09-07
申请人: 谷歌有限责任公司
发明人: 尼尔·泽格多尔 , 大卫·格朗吉耶 , 马尔科·塔利亚萨基 , 拉斐尔·马里尼耶 , 奥利维尔·泰布尔 , 佐兰·博尔绍什 , 安德里亚·阿戈斯蒂内利 , 蒂莫·伊曼纽尔·登克 , 安托万·凯伦 , 杰西·恩格尔 , 玛洛·韦尔泽蒂 , 克里斯蒂安·弗兰克 , 马修·谢里菲 , 亚当·约瑟夫·罗伯茨
IPC分类号: G10L25/30 , G10L13/027 , G10H1/00 , G06N3/0455 , G06N3/0475 , G06N3/09 , G10L21/0272
摘要: 本申请涉及使用自回归生成神经网络来生成音频。用于生成音频信号的预测的方法、系统和设备,包括编码在计算机存储介质上的计算机程序。方法中的一种方法包括:接收生成音频信号的请求;获得音频信号的语义表示;使用一个或多个生成神经网络以至少语义表示为条件来生成音频信号的声学表示;以及使用解码器神经网络来处理至少声学表示以生成音频信号的预测。
-
公开(公告)号:CN117337467A
公开(公告)日:2024-01-02
申请号:CN202180098156.6
申请日:2021-06-22
申请人: 谷歌有限责任公司
IPC分类号: G10L25/87
摘要: 一种方法(600)包括接收与由多个说话者(10)说出的话语(120)相对应的音频信号(122)。该方法还包括将输入音频信号编码成T个时间嵌入(220)的序列。在每个与多个说话者中的相应说话者相对应的多个迭代中的每个迭代期间,该方法包括通过下述方式来为相应说话者选择相应说话者嵌入(240):确定对应的时间嵌入包括单个新说话者的话音活动的存在的概率,在先前迭代期间先前没有为该单个新说话者选择说话者嵌入;并且将相应说话者的相应说话者嵌入选择为该时间嵌入。该方法还包括,在每个时间步长处,基于选择的说话者嵌入和时间嵌入来预测多个说话者中的每个相应说话者的相应话音活动指示符(262)。
-
-
-
-
-
-