-
公开(公告)号:CN105261358A
公开(公告)日:2016-01-20
申请号:CN201410342840.6
申请日:2014-07-17
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明提供一种用于语音识别的n元文法模型构造方法及语音识别系统,所述方法包含:步骤101)通过神经网络语言模型训练得到词矢量,再对词矢量进行分类以及多层筛选,最终得到词类;步骤102)利用直接统计词频的方法扩充人工标注,即同类词替换时,直接统计与原句有变化的1至n元文法组合,进而得到扩充部分的n元文法模型;步骤103)人工标注生成初步的n元文法模型,再与扩充部分的n元文法模型进行模型插值,得到最终的n元文法模型。所述步骤101)进一步包含:步骤101-1)输入标注及训练文本;步骤101-2)通过神经网络语言模型训练得到词典中的词的相应词矢量;步骤101-3)用K均值法对词矢量分类;步骤101-4)对分类结果进行多层筛选,最终得到词类。
-
公开(公告)号:CN106611604B
公开(公告)日:2020-04-14
申请号:CN201510696366.1
申请日:2015-10-23
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明涉及一种基于深度神经网络的自动语音叠音检测方法,包括:训练用于叠音检测的深度神经网络模型;其中,该深度神经网络模型的输入层为语音的特征信息,输出层为针对叠音语音、单人语音、非语音三类状态的概率输出值;采用深度神经网络模型对自动语音做叠音检测。
-
公开(公告)号:CN106297773B
公开(公告)日:2019-11-19
申请号:CN201510290592.X
申请日:2015-05-29
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明涉及一种神经网络声学模型训练方法,所述方法具体包含:步骤101)搭建基础DNN网络架构,所述DNN网络架构包含:输入层,隐含层和输出层,其中输出层用于输出三音素状态集;步骤102)对输出的三音素状态集聚类,并将聚类后的三音素根据中心音素进行分类,分为中文音素、英文音素及非语音音素三类;步骤103)在输出层增加一组线索结点,该组线索结点分别对应步骤102)对三音素分类得到的三类结果;其中,加入的线索结点与最后一层隐含层全连接,得到最终网络架构;步骤104)针对得到的最终网络架构进行训练,当训练完成后将线索结点从网络中剥离,进而完成针对神经网络声学模型训练,再基于剥离后的网络进行语音识别。
-
公开(公告)号:CN106611604A
公开(公告)日:2017-05-03
申请号:CN201510696366.1
申请日:2015-10-23
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明涉及一种基于深度神经网络的自动语音叠音检测方法,包括:训练用于叠音检测的深度神经网络模型;其中,该深度神经网络模型的输入层为语音的特征信息,输出层为针对叠音语音、单人语音、非语音三类状态的概率输出值;采用深度神经网络模型对自动语音做叠音检测。
-
公开(公告)号:CN106297773A
公开(公告)日:2017-01-04
申请号:CN201510290592.X
申请日:2015-05-29
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L15/06
Abstract: 本发明涉及一种神经网络声学模型训练方法,所述方法具体包含:步骤101)搭建基础DNN网络架构,所述DNN网络架构包含:输入层,隐含层和输出层,其中输出层用于输出三音素状态集;步骤102)对输出的三音素状态集聚类,并将聚类后的三音素根据中心音素进行分类,分为中文音素、英文音素及非语音音素三类;步骤103)在输出层增加一组线索结点,该组线索结点分别对应步骤102)对三音素分类得到的三类结果;其中,加入的线索结点与最后一层隐含层全连接,得到最终网络架构;步骤104)针对得到的最终网络架构进行训练,当训练完成后将线索结点从网络中剥离,进而完成针对神经网络声学模型训练,再基于剥离后的网络进行语音识别。
-
-
-
-