用于大词汇量连续语音识别的深度信任网络

    公开(公告)号:CN102411931B

    公开(公告)日:2014-01-29

    申请号:CN201110289015.0

    申请日:2011-09-14

    申请人: 微软公司

    IPC分类号: G10L15/14 G10L15/16

    摘要: 本发明涉及用于大词汇量连续语音识别的深度信任网络。在此描述了一种方法,该方法包括致使处理器接收采样的行为,其中该采样是讲出的发言、在线手写采样或者移动图像采样之一。该方法还包括致使处理器至少部分基于深度结构与依赖于上下文的隐马尔科夫模型(HMM)的组合的输出对该采样进行解码的动作,其中该深度结构被配置为输出依赖于上下文的单元的后验概率。该深度结构是深度信任网络,其包括许多层非线性单元,这些非线性单元具有通过预训练步骤以及之后的细调步骤所训练的层之间的连接权重。

    用于大词汇量连续语音识别的深度信任网络

    公开(公告)号:CN102411931A

    公开(公告)日:2012-04-11

    申请号:CN201110289015.0

    申请日:2011-09-14

    申请人: 微软公司

    IPC分类号: G10L15/14 G10L15/16

    摘要: 本发明涉及用于大词汇量连续语音识别的深度信任网络。在此描述了一种方法,该方法包括致使处理器接收采样的行为,其中该采样是讲出的发言、在线手写采样或者移动图像采样之一。该方法还包括致使处理器至少部分基于深度结构与依赖于上下文的隐马尔科夫模型(HMM)的组合的输出对该采样进行解码的动作,其中该深度结构被配置为输出依赖于上下文的单元的后验概率。该深度结构是深度信任网络,其包括许多层非线性单元,这些非线性单元具有通过预训练步骤以及之后的细调步骤所训练的层之间的连接权重。

    使用隐轨迹和隐马尔可夫模型进行语音识别的方法

    公开(公告)号:CN1521729A

    公开(公告)日:2004-08-18

    申请号:CN200410005917.7

    申请日:2004-01-21

    申请人: 微软公司

    IPC分类号: G10L15/14

    CPC分类号: G10L15/142

    摘要: 提供一种语音识别方法,其使用递归,基于与前两个帧相关联的与生成相关的值,为特定帧中的状态确定与生成相关的值,尤其是声道共振频率。与生成相关的值用于为所述状态确定观察到的特征向量的概率分布。然后从该概率分布中确定该帧所接收的观察值的概率。在一个实施例中,所述与生成相关的值使用该值的无噪声递归定义来确定。递归的使用大大改善了解码速度。当将解码算法应用于具有已知标音的训练数据时,产生强制对准,这改善了从现有技术中获得的语音分割。

    用于语音识别的深度结构的全序列训练

    公开(公告)号:CN102436811A

    公开(公告)日:2012-05-02

    申请号:CN201110299678.0

    申请日:2011-09-20

    申请人: 微软公司

    IPC分类号: G10L15/06 G10L15/14

    摘要: 本发明公开了用于语音识别的深度结构的全序列训练。本文公开了一种方法,该方法包括使处理器访问保留在计算机可读介质中的深度结构化模型的动作,其中该深度结构化模型包括带有所分配的权重的多个层、状态之间的转移概率、和语言模型分数。该方法还可包括使用基于序列而非一组不相关帧的优化准则来对该深度结构化模型的权重、转移概率和语言模型分数进行联合地充分优化的动作。

    用于语音识别的深度结构的全序列训练

    公开(公告)号:CN102436811B

    公开(公告)日:2014-05-14

    申请号:CN201110299678.0

    申请日:2011-09-20

    申请人: 微软公司

    IPC分类号: G10L15/14 G06K9/62

    摘要: 本发明公开了用于语音识别的深度结构的全序列训练。本文公开了一种方法,该方法包括使处理器访问保留在计算机可读介质中的深度结构化模型的动作,其中该深度结构化模型包括带有所分配的权重的多个层、状态之间的转移概率、和语言模型分数。该方法还可包括使用基于序列而非一组不相关帧的优化准则来对该深度结构化模型的权重、转移概率和语言模型分数进行联合地充分优化的动作。

    联合非线性随机投影、受限波尔兹曼机、以及基于批量的可并行优化来使用的深凸网络

    公开(公告)号:CN102737278A

    公开(公告)日:2012-10-17

    申请号:CN201210089488.0

    申请日:2012-03-30

    申请人: 微软公司

    IPC分类号: G06N3/08

    摘要: 本发明涉及结合非线性随机投影、受限波尔兹曼机、以及基于批量的可并行优化来使用的深凸网络。本文公开了一种包括以下动作的方法:使得处理器访问深结构化的、已分层的、或分等级的模型(称为深凸网络,被保持在计算机可读介质中),其中该深结构化的模型包括具有所分配的权重的多个层。这一已分层模型可以产生输出,该输出担当用于与隐马尔科夫模型中的各状态之间的转移概率相组合的分数,以及担当用于形成全语音识别器的语言模型分数。该方法联合使用非线性随机投影和RBM权重,并且它将较低模块的输出与原始数据进行堆叠以建立它的紧接的较高模块。执行基于批量的凸优化来学习深凸网络的权重的一部分,从而使它适于并行计算来完成训练。该方法还可包括使用基于序列而非一组不相关帧的优化准则来对该深度结构化的模型的权重、转移概率和语言模型分数进行联合地充分优化的动作。