Patent search ap:("谷歌有限责任公司") AND inv:"马尔科·塔利亚萨基" Page 1

1.

发明公开
用于音频理解的经学习的音频前端机器学习模型审中-实审

公开(公告)号：CN116490921A

公开(公告)日：2023-07-25

申请号：CN202180067093.8

申请日：2021-10-04

Applicant: 谷歌有限责任公司

Inventor： 尼尔·泽格多尔 , 奥利维尔·泰布尔 , 费利克斯·得肖蒙格泰 , 马尔科·塔利亚萨基

IPC: G10L15/16

Abstract: 包括在计算机存储介质上编码的计算机程序的方法、系统和装置，用于使用经学习的音频前端机器学习模型来处理音频输入，所述经学习的音频前端机器学习模型处理音频输入以生成音频输入的表示。然后能够由音频理解模型处理该表示，以生成一个或多个音频理解任务中的每个音频理解任务的相应输出。

2.

发明公开
使用自回归生成神经网络来生成音频审中-公开

公开(公告)号：CN118382891A

公开(公告)日：2024-07-23

申请号：CN202380015080.5

申请日：2023-09-07

Applicant: 谷歌有限责任公司

Inventor： 尼尔·泽格多尔 , 大卫·格朗吉耶 , 马尔科·塔利亚萨基 , 拉斐尔·马里尼耶 , 奥利维尔·泰布尔 , 佐兰·博尔绍什 , 安德里亚·阿戈斯蒂内利 , 蒂莫·伊曼纽尔·登克 , 安托万·凯伦 , 杰西·恩格尔 , 玛洛·韦尔泽蒂 , 克里斯蒂安·弗兰克 , 马修·谢里菲 , 亚当·约瑟夫·罗伯茨

IPC: G10L13/00 , G06N3/0455 , G06N3/0475 , G10L25/30

Abstract: 用于生成音频信号的预测的方法、系统和设备，包括编码在计算机存储介质上的计算机程序。方法中的一种方法包括：接收生成音频信号的请求；获得音频信号的语义表示；使用一个或多个生成神经网络以至少语义表示为条件来生成音频信号的声学表示；以及使用解码器神经网络来处理至少声学表示以生成音频信号的预测。

3.

发明公开
用于麦克风风格转移的机器学习审中-实审

公开(公告)号：CN116472579A

公开(公告)日：2023-07-21

申请号：CN202180070897.3

申请日：2021-10-15

Applicant: 谷歌有限责任公司

Inventor： 马尔科·塔利亚萨基 , 比特·格费尔勒 , 李云鹏 , 佐兰·博尔绍什

IPC: G10L25/27 , G10L17/04

Abstract: 本公开的示例实施方式涉及用于麦克风风格转移的机器学习，例如，以促进诸如语音数据的音频数据的扩增，以提高在音频数据上训练的机器学习模型的健壮性。用于麦克风风格转移的系统和方法可以包括一个或多个机器学习的麦克风模型，该模型被训练以获得和扩增信号数据以模仿从目标麦克风获得的信号数据的特性。该系统和方法可以包括用于在风格转移之前增强样本的语音增强网络。然后可以将扩增输出用于各种下游任务。

4.

发明公开
使用自回归生成神经网络来生成音频审中-实审

公开(公告)号：CN118887971A

公开(公告)日：2024-11-01

申请号：CN202410903951.3

申请日：2023-09-07

Applicant: 谷歌有限责任公司

Inventor： 尼尔·泽格多尔 , 大卫·格朗吉耶 , 马尔科·塔利亚萨基 , 拉斐尔·马里尼耶 , 奥利维尔·泰布尔 , 佐兰·博尔绍什 , 安德里亚·阿戈斯蒂内利 , 蒂莫·伊曼纽尔·登克 , 安托万·凯伦 , 杰西·恩格尔 , 玛洛·韦尔泽蒂 , 克里斯蒂安·弗兰克 , 马修·谢里菲 , 亚当·约瑟夫·罗伯茨

IPC: G10L25/30 , G10L13/027 , G10H1/00 , G06N3/0455 , G06N3/0475 , G06N3/09 , G10L21/0272

Abstract: 本申请涉及使用自回归生成神经网络来生成音频。用于生成音频信号的预测的方法、系统和设备，包括编码在计算机存储介质上的计算机程序。方法中的一种方法包括：接收生成音频信号的请求；获得音频信号的语义表示；使用一个或多个生成神经网络以至少语义表示为条件来生成音频信号的声学表示；以及使用解码器神经网络来处理至少声学表示以生成音频信号的预测。

5.

发明公开
使用结构化潜在空间压缩音频波形审中-实审

公开(公告)号：CN118805219A

公开(公告)日：2024-10-18

申请号：CN202380023746.1

申请日：2023-03-16

Applicant: 谷歌有限责任公司

Inventor： 艾哈迈德·欧姆兰 , 尼尔·泽格多尔 , 佐兰·博尔绍什 , 费利克斯·得肖蒙格泰 , 马尔科·塔利亚萨基

IPC: G10L21/0208 , G06N3/0455 , G10L19/038

Abstract: 用于训练编码器神经网络和解码器神经网络的方法、系统和设备，包括编码在计算机存储介质上的计算机程序。在一个方面，一种方法包括：获得第一初始音频波形和第一有噪声的音频波形；获得第二初始音频波形和第二有噪声的音频波形；使用编码器神经网络来处理该第一有噪声的音频波形和该第二有噪声的音频波形；通过连结以下来生成混合嵌入：(i)来自该第一有噪声的音频波形的嵌入的干净特征维度，以及(ii)来自该第二有噪声的音频波形的嵌入的噪声特征维度；使用解码器神经网络来处理该混合嵌入，以生成重构音频波形；确定目标函数的梯度；以及使用梯度来更新该编码器神经网络和该解码器神经网络的参数值。

6.

发明公开
使用神经网络和向量量化器压缩音频波形审中-实审

公开(公告)号：CN117616498A

公开(公告)日：2024-02-27

申请号：CN202280046175.9

申请日：2022-07-05

Applicant: 谷歌有限责任公司

Inventor： 尼尔·泽格多尔 , 马尔科·塔利亚萨基 , 多米尼克·罗博列克

IPC: G10L19/00 , G10L19/038

Abstract: 方法、系统和装置，包括编码在计算机存储介质上的计算机程序。其中，方法中的一个包括：接收包括多个时间步长中的每个时间步长的相应音频样本的音频波形；使用编码器神经网络处理音频波形以生成表示音频波形的多个特征向量；使用多个向量量化器来生成所述多个特征向量中的每个特征向量的相应编译表示，向量量化器各自与代码向量的相应码本相关联，其中，每个特征向量的相应的编译表示识别多个代码向量，多个代码向量包括来自每个向量量化器的码本的相应代码向量，多个代码向量定义特征向量的量化表示；以及，通过压缩多个特征向量中的每个特征向量的相应编译表示来生成所述音频波形的压缩表示。

Patent Agency Ranking