特征提取方法、装置及重音检测的方法、装置

    公开(公告)号:CN104575519B

    公开(公告)日:2018-12-25

    申请号:CN201310488434.6

    申请日:2013-10-17

    Abstract: 本发明公开了一种特征提取方法、装置及重音检测的方法、装置,涉及语音检测技术。为解决现有技术在重音检测上准确率低的问题。技术方案包括:依据预设的音素与声学特征发音属性的对应关系,通过第一分类器进行输出所述声学特征发音属性的第一帧级特征向量;依据预设的音素与元辅音发音属性的对应关系,通过第二分类器将所述声学特征发音属性的第一帧级特征向量进行输出所述元辅音发音属性的第二帧级特征向量;将所述声学特征发音属性的第一帧级特征向量或所述元辅音发音属性的第二帧级特征向量进行映射所述帧级对应的音节级发音特征向量。该方案可以应用语音检测过程中。

    特征提取方法、装置及重音检测的方法、装置

    公开(公告)号:CN104575519A

    公开(公告)日:2015-04-29

    申请号:CN201310488434.6

    申请日:2013-10-17

    Abstract: 本发明公开了一种特征提取方法、装置及重音检测的方法、装置,涉及语音检测技术。为解决现有技术在重音检测上准确率低的问题。技术方案包括:依据预设的音素与声学特征发音属性的对应关系,通过第一分类器进行输出所述声学特征发音属性的第一帧级特征向量;依据预设的音素与元辅音发音属性的对应关系,通过第二分类器将所述声学特征发音属性的第一帧级特征向量进行输出所述元辅音发音属性的第二帧级特征向量;将所述声学特征发音属性的第一帧级特征向量或所述元辅音发音属性的第二帧级特征向量进行映射所述帧级对应的音节级发音特征向量。该方案可以应用语音检测过程中。

    韵律事件检测方法和装置

    公开(公告)号:CN104575518A

    公开(公告)日:2015-04-29

    申请号:CN201310487945.6

    申请日:2013-10-17

    Abstract: 本发明公开一种韵律事件检测方法和装置,涉及语音技术。为解决现有技术韵律事件检测的准确率较低的问题而发明。包括:接收到待检测语音时,获取预先训练一组受训语音得到的判别式模型M1、M2…Mn;以音节为单位划分待检测语音,得到至少一个待检测样本;提取每个待检测样本对应的待检测声学特征;使用判别式模型M1根据对应的待检测声学特征对每个待检测样本进行初步分类,得到每个待检测样本属于各个类别的第一概率;根据对应的联合检测特征,依次使用判别式模型M2…Mn分别对每个待检测样本进行分类,得到每个待检测样本属于各个类别的第二概率…第N概率;根据第N概率确定韵律检测结果。可以应用在自然语音的检测中。

    神经网络语言模型的训练方法、装置以及语音识别方法

    公开(公告)号:CN104376842A

    公开(公告)日:2015-02-25

    申请号:CN201310349690.7

    申请日:2013-08-12

    Abstract: 本发明公开了一种神经网络语言模型的训练方法、装置以及语音识别方法,涉及语音识别技术。为解决现有技术在降低神经网络语言模型计算复杂度时,神经网络语言模型识别正确率降低的问题。提供的技术方案包括:在对神经网络语言模型的参数进行训练的过程中,采用输出层的归一化因子对目标代价函数进行修正,获取修正后的目标代价函数;根据修正后的目标代价函数对神经网络语言模型的参数进行更新,获取神经网络语言模型训练后的目标参数,其中,目标参数使得训练后的神经网络语言模型中归一化因子为常数。该方案可以应用在神经网络语音识别过程中。

    韵律事件检测方法和装置

    公开(公告)号:CN104575518B

    公开(公告)日:2018-10-02

    申请号:CN201310487945.6

    申请日:2013-10-17

    Abstract: 本发明公开一种韵律事件检测方法和装置,涉及语音技术。为解决现有技术韵律事件检测的准确率较低的问题而发明。包括:接收到待检测语音时,获取预先训练一组受训语音得到的判别式模型M1、M2…Mn;以音节为单位划分待检测语音,得到至少一个待检测样本;提取每个待检测样本对应的待检测声学特征;使用判别式模型M1根据对应的待检测声学特征对每个待检测样本进行初步分类,得到每个待检测样本属于各个类别的第一概率;根据对应的联合检测特征,依次使用判别式模型M2…Mn分别对每个待检测样本进行分类,得到每个待检测样本属于各个类别的第二概率…第N概率;根据第N概率确定韵律检测结果。可以应用在自然语音的检测中。

    一种基于深度混合模型的说话人确认方法

    公开(公告)号:CN108694950B

    公开(公告)日:2021-10-01

    申请号:CN201810465602.2

    申请日:2018-05-16

    Applicant: 清华大学

    Abstract: 本发明提出一种基于深度混合模型的说话人确认方法,属于声纹识别、模式识别与机器学习技术领域。该方法首先获取目标说话人的训练语音数据并进行预处理,得到训练语音数据的梅尔倒谱特征集;对梅尔倒谱特征集建立第0层高斯混合模型并求导,得到一阶导数集;然后依次建立第一层高斯混合模型、第二层高斯混合模型,直至建立建立第S层高斯混合模型,将所有高斯混合模型组合得到说话人的深度混合模型;然后获取测试语音数据并提取梅尔倒谱特征集,建立测试语音数据的深度混合模型;计算两个模型的相似度:若相似度小于等于阈值,则测试语音数据属于目标说话人。本发明不仅考虑数据自身分布,还考虑数据的导数分布,提升说话人确认的准确性。

    一种用于声纹识别的信道匹配方法及其装置

    公开(公告)号:CN107481723A

    公开(公告)日:2017-12-15

    申请号:CN201710751356.2

    申请日:2017-08-28

    Applicant: 清华大学

    Inventor: 梁永立 何亮 吴晋

    Abstract: 本发明提出一种用于声纹识别的信道匹配方法及其装置,属于语音识别和语音通信领域。本发明方法首先采集语音数据,根据要模拟的通信模式对语音数据进行语音编码得到压缩语音数据;随后根据相应通信模式下信道模拟的误码率对压缩语音数据进行误码操作,得到信道模拟语音数据;最后对该语音数据进行语音解码操作,得到相应通信模式下的语音。本发明装置包括:语音采集及读取模块、语音编码模块、信道误码模拟模块、语音解码模块和数据存储模块。本发明可模拟固话、VOIP网络电话、微信电话、QQ电话、2G、3G、4G等语音通信过程,从而得到与测试语音信道条件相同的训练语音,有效解决了信道失配问题,适用于声纹识别的应用需求。

    一种基于二次建模的说话人识别方法

    公开(公告)号:CN106898355A

    公开(公告)日:2017-06-27

    申请号:CN201710031899.7

    申请日:2017-01-17

    Applicant: 清华大学

    Abstract: 本发明提出一种基于二次建模的说话人识别方法,属于声纹识别、模式识别与机器学习领域。该方法在模型训练阶段,获取待识别说话人的训练语音数据并预处理;根据训练语音数据训练得到第一个DNN模型;利用第一个DNN模型,对训练语音数据进行识别,提取易混语音数据;根据易混语音数据训练得到第二个DNN模型;在说话人识别阶段,获取待识别语音数据并预处理;利用第一个DNN模型对待识别语音数据进行识别,若识别概率大于设定阈值,则得到说话人识别结果;否则通过第二个DNN模型对待识别语音数据进行第二次识别,得到说话人识别结果。本发明通过建立两个DNN模型,同时考虑说话人宏观特征和微观特征,有效提高说话人识别的准确率。

Patent Agency Ranking