-
公开(公告)号:CN108960277B
公开(公告)日:2023-01-24
申请号:CN201810460442.2
申请日:2018-05-15
申请人: 百度(美国)有限责任公司
IPC分类号: G06F18/214 , G06F40/279 , G06N3/0464 , G06N3/0455 , G06N3/048 , G06N3/047 , G06N3/0442 , G06N3/084 , G06N3/088 , G10L15/06
摘要: 本文中描述了用于使用具有注意力的序列到序列(Seq2Seq)模型生成自然语言句子的系统和方法。Seq2Seq模型可以在诸如机器翻译、图像字幕生成和语音识别的应用中实施。通过利用未标注的数据(通常是以语言模型的形式),性能得到了进一步的改进。本文中公开了在训练期间利用预训练的语言模型的“冷聚变”架构实施方式。具有冷聚变的Seq2Seq模型实施方式能够更好的利用享有更快收敛的语言信息,更好的泛化,并且虽然使用较少标注的训练数据,却几乎完全转移到新的域。
-
公开(公告)号:CN107077842B
公开(公告)日:2020-10-20
申请号:CN201580052394.8
申请日:2015-12-14
申请人: 百度(美国)有限责任公司
发明人: 阿维尼·汉奈 , 卡尔·凯斯 , 贾里德·卡斯帕 , 布赖恩·卡坦扎罗 , 格雷戈里·迪莫斯 , 艾瑞克·艾乐森 , 赖恩·普兰格 , 桑吉夫·萨西斯 , 桑古塔·舒布哈伯拉塔 , 亚当·科茨 , 安德鲁·恩吉
摘要: 本文中呈现了利用端到端深度学习开发的先进语音识别系统的实施方式。在实施方式中,模型架构显著地比传统语音系统更简单,传统语音系统依赖费力设计的处理管道;当在有噪声的环境中使用时,这些传统系统也往往表现不佳。相比之下,该系统的实施方式无需手工设计的部件来使背景噪声、混响或说话者变化模型化,而改为直接学习对这类效应具有稳健性的函数。既不需音素字典,也甚至不需“音素”的概念。实施方式包括:经良好优化的循环神经网络(RNN)训练系统,其可使用多个GPU;以及新数据集合的合成技术,其允许有效获得用于训练的大量变化的数据。该系统的实施方式还可比广泛使用、最先进的商业语音系统更好地处理具有挑战性的有噪声环境。
-
公开(公告)号:CN108735202A
公开(公告)日:2018-11-02
申请号:CN201810204872.8
申请日:2018-03-13
申请人: 百度(美国)有限责任公司
CPC分类号: G10L15/16 , G06F3/16 , G06N3/049 , G06N3/08 , G10L15/063 , G10L15/18 , G10L21/0208 , G10L2015/088
摘要: 本文中描述了用于创建和使用小占用资源关键词检索(KWS)系统的卷积递归神经网络(CRNN)的系统和方法。受到大型最新语音识别系统的启发,在实施方式中,将利用时域和频域中数据的结构的卷积层的优势与递归层结合,从而利用整个经处理的帧的上下文。考虑到性能与模型尺寸权衡之比,对架构参数的效果进行实验以确定优选的模型实施方式。提供了各种训练策略来提高性能。在实施方式中,通过仅使用~230k个参数并得到可接受的低延迟性,CRNN模型实施方式在广泛的环境中展现出高准确性和稳健的性能。
-
公开(公告)号:CN107077842A
公开(公告)日:2017-08-18
申请号:CN201580052394.8
申请日:2015-12-14
申请人: 百度(美国)有限责任公司
发明人: 阿维尼·汉奈 , 卡尔·凯斯 , 贾里德·卡斯帕 , 布赖恩·卡坦扎罗 , 格雷戈里·迪莫斯 , 艾瑞克·艾乐森 , 赖恩·普兰格 , 桑吉夫·萨西斯 , 桑古塔·舒布哈伯拉塔 , 亚当·科茨 , 安德鲁·恩吉
IPC分类号: G10L15/06
摘要: 本文中呈现了利用端到端深度学习开发的先进语音识别系统的实施方式。在实施方式中,模型架构显著地比传统语音系统更简单,传统语音系统依赖费力设计的处理管道;当在有噪声的环境中使用时,这些传统系统也往往表现不佳。相比之下,该系统的实施方式无需手工设计的部件来使背景噪声、混响或说话者变化模型化,而改为直接学习对这类效应具有稳健性的函数。既不需音素字典,也甚至不需“音素”的概念。实施方式包括:经良好优化的循环神经网络(RNN)训练系统,其可使用多个GPU;以及新数据集合的合成技术,其允许有效获得用于训练的大量变化的数据。该系统的实施方式还可比广泛使用、最先进的商业语音系统更好地处理具有挑战性的有噪声环境。
-
公开(公告)号:CN108735202B
公开(公告)日:2023-04-07
申请号:CN201810204872.8
申请日:2018-03-13
申请人: 百度(美国)有限责任公司
IPC分类号: G10L15/16 , G10L25/30 , G06N3/0464
摘要: 本文中描述了用于创建和使用小占用资源关键词检索(KWS)系统的卷积递归神经网络(CRNN)的系统和方法。受到大型最新语音识别系统的启发,在实施方式中,将利用时域和频域中数据的结构的卷积层的优势与递归层结合,从而利用整个经处理的帧的上下文。考虑到性能与模型尺寸权衡之比,对架构参数的效果进行实验以确定优选的模型实施方式。提供了各种训练策略来提高性能。在实施方式中,通过仅使用~230k个参数并得到可接受的低延迟性,CRNN模型实施方式在广泛的环境中展现出高准确性和稳健的性能。
-
公开(公告)号:CN108510975B
公开(公告)日:2022-12-06
申请号:CN201810160194.X
申请日:2018-02-26
申请人: 百度(美国)有限责任公司
发明人: 塞尔坎·安瑞克 , 麦克·赫扎诺夫斯基 , 亚当·科茨 , 格雷戈里·迪莫斯 , 安德鲁·吉米斯基 , 约翰·米勒 , 安德鲁·恩吉 , 乔纳森·赖曼 , 舒哈布拉塔·森古普帕 , 穆哈默德·休比
摘要: 描述了由深度神经网络构建的产品质量文本转语音(TTS)系统的实施方式。系统实施方式包括五个主要建筑块:用于定位音素边界的分段模型、字素到音素转换模型、音素持续时间预测模型、基本频率预测模型和音频合成模型。对于分段模型的实施方式,使用联接时间分类(CTC)损耗,用深度神经网络执行音素边界检测。对于音频合成模型的实施方式,创建WaveNet的变型,WaveNet的变型比原始WaveNet需要更少的参数且训练的更快。通过对每个组件使用神经网络,系统实施方式比传统的TTS系统更简单、更灵活,其中,每个组件都需要勤劳的特征工程师和广泛的领域专业知识。使用系统实施方式的推理可比实时更快地执行。
-
公开(公告)号:CN108960277A
公开(公告)日:2018-12-07
申请号:CN201810460442.2
申请日:2018-05-15
申请人: 百度(美国)有限责任公司
CPC分类号: G10L15/063 , G06N3/0445 , G06N3/0454 , G06N3/0481 , G06N3/08 , G06N3/088 , G10L15/16 , G10L15/183 , G06K9/6259 , G06F17/2765 , G06N3/084
摘要: 本文中描述了用于使用具有注意力的序列到序列(Seq2Seq)模型生成自然语言句子的系统和方法。Seq2Seq模型可以在诸如机器翻译、图像字幕生成和语音识别的应用中实施。通过利用未标注的数据(通常是以语言模型的形式),性能得到了进一步的改进。本文中公开了在训练期间利用预训练的语言模型的“冷聚变”架构实施方式。具有冷聚变的Seq2Seq模型实施方式能够更好的利用享有更快收敛的语言信息,更好的泛化,并且虽然使用较少标注的训练数据,却几乎完全转移到新的域。
-
公开(公告)号:CN108510985B
公开(公告)日:2022-11-18
申请号:CN201810159989.9
申请日:2018-02-26
申请人: 百度(美国)有限责任公司
发明人: 埃里克·巴顿伯格 , 瑞万·蔡尔德 , 亚当·科茨 , 克里斯托弗·丰纳 , 雅舍施·高尔 , 黄家骥 , 俊熙雄 , 阿贾伊·卡恩纳恩 , 马库斯·基尔 , 奥提尓·库马尔 , 刘海容 , 维奈·朗 , 桑吉夫·萨西斯 , 大卫·西塔潘 , 安鲁普·西瑞兰姆 , 朱臻垚
摘要: 本文中描述的是识别和解决端对端语音模型中的偏差源的系统和方法。在一个或多个实施方式中,端对端模型可以是递归神经网络,该递归神经网络具有两个2D卷积输入层,接着是多个双向递归层以及在softmax层之前的一个完全连接层。在一个或多个实施方式中,使用CTC损失函数训练端对端,以从音频的对数频谱直接预测字符的序列。通过优化的递归层和与对齐信息一起训练,可去除所配置的模型中的一些不希望有的偏差,这些不希望有的偏差是通过使用仅纯粹前向递归而引起的。
-
公开(公告)号:CN108510985A
公开(公告)日:2018-09-07
申请号:CN201810159989.9
申请日:2018-02-26
申请人: 百度(美国)有限责任公司
发明人: 埃里克·巴顿伯格 , 瑞万·蔡尔德 , 亚当·科茨 , 克里斯托弗·丰纳 , 雅舍施·高尔 , 黄家骥 , 俊熙雄 , 阿贾伊·卡恩纳恩 , 马库斯·基尔 , 奥提尓·库马尔 , 刘海容 , 维奈·朗 , 桑吉夫·萨西斯 , 大卫·西塔潘 , 安鲁普·西瑞兰姆 , 朱臻垚
摘要: 本文中描述的是识别和解决端对端语音模型中的偏差源的系统和方法。在一个或多个实施方式中,端对端模型可以是递归神经网络,该递归神经网络具有两个2D卷积输入层,接着是多个双向递归层以及在softmax层之前的一个完全连接层。在一个或多个实施方式中,使用CTC损失函数训练端对端,以从音频的对数频谱直接预测字符的序列。通过优化的递归层和与对齐信息一起训练,可去除所配置的模型中的一些不希望有的偏差,这些不希望有的偏差是通过使用仅纯粹前向递归而引起的。
-
公开(公告)号:CN108510975A
公开(公告)日:2018-09-07
申请号:CN201810160194.X
申请日:2018-02-26
申请人: 百度(美国)有限责任公司
发明人: 塞尔坎·安瑞克 , 麦克·赫扎诺夫斯基 , 亚当·科茨 , 格雷戈里·迪莫斯 , 安德鲁·吉米斯基 , 约翰·米勒 , 安德鲁·恩吉 , 乔纳森·赖曼 , 舒哈布拉塔·森古普帕 , 穆哈默德·休比
摘要: 描述了由深度神经网络构建的产品质量文本转语音(TTS)系统的实施方式。系统实施方式包括五个主要建筑块:用于定位音素边界的分段模型、字素到音素转换模型、音素持续时间预测模型、基本频率预测模型和音频合成模型。对于分段模型的实施方式,使用联接时间分类(CTC)损耗,用深度神经网络执行音素边界检测。对于音频合成模型的实施方式,创建WaveNet的变型,WaveNet的变型比原始WaveNet需要更少的参数且训练的更快。通过对每个组件使用神经网络,系统实施方式比传统的TTS系统更简单、更灵活,其中,每个组件都需要勤劳的特征工程师和广泛的领域专业知识。使用系统实施方式的推理可比实时更快地执行。
-
-
-
-
-
-
-
-
-