语音识别方法、装置、设备及存储介质

    公开(公告)号:CN108550364B

    公开(公告)日:2019-04-30

    申请号:CN201810359112.4

    申请日:2018-04-20

    发明人: 李超 朱唯鑫 文铭

    摘要: 本发明实施例提供一种语音识别方法、装置、设备及存储介质。该方法包括:获取待识别的语音信号,采用预先训练的因果声学模型,根据语音信号中的当前帧和当前帧之前预设时间段内的帧,对语音信号中的当前帧进行识别,其中,因果声学模型基于因果卷积神经网络训练得到。本发明实施例提供的方法,在进行当前帧识别时,仅使用当前帧和当前帧之前的帧的信息,解决了现有技术中基于卷积神经网络的语音识别技术需要等待当前帧之后的帧而造成的硬延迟问题,提高了语音识别的实时性。

    用于生成车载声学模型的方法和装置

    公开(公告)号:CN109637525A

    公开(公告)日:2019-04-16

    申请号:CN201910075039.2

    申请日:2019-01-25

    发明人: 孙建伟 李超

    IPC分类号: G10L15/06

    摘要: 本公开的实施例公开了用于生成车载声学模型的方法和装置。该方法的一具体实施方式包括:从预先训练的声学模型组中选择声学模型作为初始声学模型;获取预先生成的训练样本集,其中,训练样本包括样本车载语音数据和对应于样本车载语音数据的样本车载语音识别结果;基于初始声学模型,将训练样本集中的训练样本中的样本车载语音数据作为输入,将与输入的样本车载语音数据相对应的样本车载语音识别结果,作为期望输出,训练得到车载声学模型。该实施方式丰富了模型的生成方式。

    语音识别模型的生成方法及其装置

    公开(公告)号:CN109616100A

    公开(公告)日:2019-04-12

    申请号:CN201910005075.1

    申请日:2019-01-03

    发明人: 徐扬凯 李超

    摘要: 本发明公开了一种语音识别模型的生成方法及其装置。其中,方法包括:获取多种环境下的噪声信号,以及无噪声的样本语音信号。根据多种环境下的噪声信号和无噪声的样本语音信号,生成多种带噪声的样本语音信号。使用样本语音信号,对深度神经网络进行训练,以生成语音识别模型。其中,样本语音信号包括多种带噪声的样本语音信号和无噪声的样本语音信号。由此,实现了使用不同的样本语音信号对深度神经网络进行训练,以生成能够应对不同环境噪声的语音识别模型,增强了语音识别模型的鲁棒性。解决了现有技术中不能对不同环境下的噪声进行处理的技术问题。

    用于生成模型的方法和装置

    公开(公告)号:CN109545193A

    公开(公告)日:2019-03-29

    申请号:CN201811550086.X

    申请日:2018-12-18

    发明人: 李超

    摘要: 本申请实施例公开了用于生成模型的方法和装置,以及用于生成信息的方法和装置。该用于生成模型的方法的一具体实施方式包括:获取针对目标音频集合的训练样本集合,其中,目标音频集合包括对初始音频执行截断处理得到的音频,训练样本与目标音频一一对应,训练样本集合中的训练样本包括目标音频集合中的目标音频的特征数据和标识信息,标识信息用于指示目标音频包括的音频帧中是否包括语音音频,初始音频包括语音音频;利用机器学习算法,将训练样本集合中的训练样本包括的特征数据作为输入,将与输入的特征数据对应的标识信息作为期望输出,训练得到语音识别模型。该实施方式丰富了模型的训练方式,有助于提高语音端点检测的准确度。

    用于生成模型的方法和装置

    公开(公告)号:CN109545192A

    公开(公告)日:2019-03-29

    申请号:CN201811550080.2

    申请日:2018-12-18

    发明人: 李超

    IPC分类号: G10L15/06 G10L15/22 G10L25/27

    摘要: 本申请实施例公开了用于生成模型的方法和装置,以及用于生成信息的方法和装置。该用于生成模型的方法的一具体实施方式包括:获取针对音频帧集合的训练样本集合,其中,音频帧集合中的音频帧与训练样本一一对应,训练样本集合中的训练样本包括音频帧集合中的音频帧的特征数据和标识信息,音频帧集合中的音频帧包括语音音频,语音音频包括声母音频和韵母音频,标识信息用于标识音频帧中的非语音音频,声母音频和韵母音频;利用机器学习算法,将训练样本集合中的训练样本包括的特征数据作为输入,将与输入的特征数据对应的标识信息作为期望输出,训练得到语音识别模型。该实施方式丰富了模型的训练方式,有助于提高语音端点检测的准确度。

    音频信号的掩蔽阈值估计方法、装置及存储介质

    公开(公告)号:CN108899047A

    公开(公告)日:2018-11-27

    申请号:CN201810949209.0

    申请日:2018-08-20

    发明人: 李超 朱唯鑫

    摘要: 本发明实施例提出一种音频信号的掩蔽阈值估计方法、装置及计算机可读存储介质。其中音频信号的掩蔽阈值估计方法包括:将待处理音频信号输入多任务的神经网络模型,所述神经网络模型是利用样本音频信号的声学特征、音素类别的标签和掩蔽阈值的标签训练得到的;从所述神经网络模型输出所述待处理音频信号的音素类别和所述待处理音频信号的掩蔽阈值;利用所述音素类别和所述掩蔽阈值对所述神经网络模型进行优化。本发明实施例的神经网络模型除了输出掩蔽阈值之外,又采用了音素类别作为神经网络模型的另一个输出,从而使用了更多的信息,有利于让网络学习的更好,从而获得更好的性能。

    语音活动检测方法、装置和设备
    87.
    发明公开

    公开(公告)号:CN108831508A

    公开(公告)日:2018-11-16

    申请号:CN201810605698.8

    申请日:2018-06-13

    发明人: 李超 文铭 朱唯鑫

    摘要: 本发明实施例提供一种语音活动检测方法、装置和设备。该方法包括:对待检测的音频信号进行平滑处理,计算经过平滑处理后的音频信号中每一帧信号的能量和过零率,根据每一帧信号的能量、过零率和预先训练的检测模型,确定每一帧信号是语音信号的概率,根据每一帧信号是语音信号的概率,确定音频信号中的噪声信号和语音信号。本发明实施例的方法,通过对包含噪声信号的音频信号进行平滑处理,使得音频信号中的噪声信号被大幅削弱,提升了语音活动检测在噪声环境中的性能。

    语音端点识别方法、装置及设备

    公开(公告)号:CN108766418A

    公开(公告)日:2018-11-06

    申请号:CN201810509977.4

    申请日:2018-05-24

    发明人: 李超 朱唯鑫

    摘要: 本发明提供一种语音端点识别方法、装置及设备。本发明的方法,通过分别用起点训练集和终点训练集训练循环神经网络得到起点识别模型和终点识别模型,根据所述各音频帧的声学特征和起点识别模型,识别出所述各音频帧中的语音起点帧,可以在保证对起点帧识别的准确性尽可能高的同时,不影响终点帧识别的延迟时间;根据所述各音频帧的声学特征和终点识别模型,识别出所述各音频帧中的语音终点帧,可以在保证对终点帧识别延迟尽可能短的同时,不影响起点帧识别的准确性,从而可以在提高起点帧识别的准确性的同时,缩短终点帧识别的延迟时间。

    声纹认证处理方法及装置
    89.
    发明授权

    公开(公告)号:CN105513597B

    公开(公告)日:2018-07-10

    申请号:CN201511024873.7

    申请日:2015-12-30

    发明人: 李超 吴本谷 朱林

    CPC分类号: G10L17/18 G10L17/04

    摘要: 本申请提出一种声纹认证处理方法和装置,其中,该方法包括:应用混合性别的深度神经网络DNN声纹基线系统,提取训练集中每条语音的第一特征向量;根据所述每条语音的第一特征向量以及预先标注的性别标签训练性别分类器;根据所述训练集中不同性别的语音数据,分别训练不同性别的DNN模型;根据不同性别的DNN模型以及所述训练集中不同性别的语音数据,分别训练不同性别的统一背景模型、特征向量提取模型、以及概率线性判别分析模型。建立了区分性别的声纹认证处理模型,以便提高了声纹认证的效率和准确性。

    远场语音声学模型训练方法及系统

    公开(公告)号:CN107680586A

    公开(公告)日:2018-02-09

    申请号:CN201710648047.2

    申请日:2017-08-01

    IPC分类号: G10L15/06 G10L15/16

    摘要: 本申请提供一种远场语音声学模型训练方法及系统,所述方法包括:将近场语音训练数据与远场语音训练数据进行混合,生成混合语音训练数据,其中所述远场语音训练数据是对近场语音训练数据进行数据增强处理得到的;使用所述混合语音训练数据训练深度神经网络,生成远场识别声学模型。能够避免现有技术中录制远场语音数据需要花费大量的时间成本和经济成本的问题;既减少了获取远场语音数据的时间和经济成本,又改善了远场语音识别效果。