-
公开(公告)号:CN106803422B
公开(公告)日:2020-05-12
申请号:CN201510844693.7
申请日:2015-11-26
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L15/06
Abstract: 本发明提出了一种基于长短时记忆网络的语言模型重估方法及系统,所述方法包含:步骤100)输入待识别的语言信息,并对输入的待识别的语言信息进行预处理;步骤101)用N元文法语言模型对预处理后的信息进行一遍解码,然后从中选取M个最优的候选结果;步骤102)在获得的M个最优的候选结果中引入一遍解码的识别结果作为历史句子信息;步骤103)用高元文法语言模型对选取的M个最优的候选结果进行重评估;步骤104)用基于LSTM结构的神经网络训练语言模型对引入历史句子信息的M个最优的候选结果进行重评估;步骤105)将用高元文法语言模型进行重评估的结果与用LSTM神经网络语言模型重评估的结果进行融合,选出最优结果,作为待识别的语言信息的最终识别结果。
-
公开(公告)号:CN110875044A
公开(公告)日:2020-03-10
申请号:CN201811002308.4
申请日:2018-08-30
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明公开了一种基于字相关得分计算的说话人识别方法,所述方法包括:步骤1)建立训练样本集,提取训练样本集中每个语音的特征向量,组成特征集合,利用该特征集合训练得到通用背景模型UBM;步骤2)基于DTW切分算法,将注册语音和测试语音分别切分为单独中文字的片段,利用通用背景模型UBM得到注册语音的每个字的GMM模型,由此计算注册语音和测试语音中相同中文字的语音谱特征片段的相似度,加权求和后得到判决分数S;步骤3)将步骤2)得到的判决分数S与设定的阈值进行比较:当S超过设定的阈值时,验证通过;否则,验证失败。本发明的方法能使说话人识别系统在密码口令长度较短的情况下,仍有很高的识别性能。
-
公开(公告)号:CN110858480A
公开(公告)日:2020-03-03
申请号:CN201810928881.1
申请日:2018-08-15
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明公开了一种基于N元文法神经网络语言模型的语音识别方法,所述方法包括:步骤1)建立并训练一个n阶N元文法神经网络语言模型;步骤2)对于每一条测试语音u,利用识别器选取K个得分最高的候选结果;基于训练好的n阶N元文法神经网络语言模型重新计算K个候选结果的语言模型得分;然后重新计算K个候选结果的得分,选取得分最高的候选结果作为测试语音u的最终识别结果。本发明的语音识别方法的性能及计算效率均优于基于RNN的语言模型的语音识别方法。
-
公开(公告)号:CN106959967B
公开(公告)日:2019-11-19
申请号:CN201610018320.9
申请日:2016-01-12
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G06F16/953 , H04L12/24 , H04L12/751
Abstract: 本发明提供了一种链路预测模型的训练方法,所述方法包括:步骤S1)对抓取网络数据进行预处理,将预处理后的网络数据提取训练集;步骤S2)对训练集构造的网络进行特征提取,将提取的特征组成特征集;所述特征包括:基于邻居的特征和基于网络游走的特征;步骤S3)对所述特征集用梯度迭代树模型进行特征转换,得到新的多维特征集;步骤S4)将特征集和新的多维特征集进行融合输入链路预测模型,训练得到所述链路预测模型的参数,从而得到训练完毕的链路预测模型。本发明的方法只需要从现有的特征集入手就能扩展特征集的数量;不需要再从网络中提取新的特征,极大地减少了特征提取难度;而且提升了模型的预测性能和鲁棒性。
-
公开(公告)号:CN106856092B
公开(公告)日:2019-11-15
申请号:CN201510906166.4
申请日:2015-12-09
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L15/16
Abstract: 本发明提供了基于前向神经网络语言模型的汉语语音关键词检索方法,所述方法包括:步骤1)将包含历史词的输入样本和目标词输入前向神经网络模型,对于每个目标词wi,加入概率分布为q(wi)的若干个噪声词,并将最后一个隐藏层的激活输出传至目标词和这些噪声词所在节点处,由此根据目标函数计算各层之间的转换矩阵;计算输出层的输出与目标词的误差,更新各转换矩阵直至前向神经网络模型训练完毕;步骤2)利用前向神经网络模型计算输入词历史的目标词概率;步骤3)将目标词概率用于解码器中,通过解码器对语音解码得到多候选识别结果的词图,再将词图转为混淆网络并生成逆序索引;在逆序索引中检索关键词,返回命中关键词及其出现的时间。
-
公开(公告)号:CN110085215A
公开(公告)日:2019-08-02
申请号:CN201810064982.9
申请日:2018-01-23
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明涉及一种基于生成对抗网络的语言模型数据增强方法,该方法包括:训练集S包含的都是正样本数据,生成模型Gθ生成的数据都是负样本数据,通过单独交替迭代训练生成模型Gθ和判别模型Dφ,迭代一定次数后,直到生成模型Gθ收敛,利用生成模型Gθ采样生成序列数据集合在上估计N元文法语言模型 在训练数据集上估计N元文法语言模型 最终通过插值算法得到增强的语言模型。针对现有技术中语言模型数据增强方法的存在的暴露偏差问题,本发明可以在一定程度上缓解暴露偏差问题,提高生成文本数据的质量,进而提高语言模型的性能,还可以有效提升低资源条件下N元文法语言模型的性能,以及相应语音识别系统的性能。
-
公开(公告)号:CN110070887A
公开(公告)日:2019-07-30
申请号:CN201810065070.3
申请日:2018-01-23
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明涉及一种语音特征重建方法及装置,该方法包括:基于二值掩蔽算法从待处理的原始语音信号中分离出第一有效语音信号;将第一有效语音信号转换为第一时频域特征;根据第一时频域特征以及预设长度的滑动窗,对预设的第一掩模矩阵进行处理,获取处理后的第一掩模矩阵;将处理后的第一掩模矩阵与第一时频域特征进行拼接,构成第一复合特征;将第一复合特征输入至预建立的最优深度神经网络模型中,重建与原始语音信号对应的所有语音特征。上述方式,可以实现语音信号缺失特征重建,尤其是恢复了被噪音遮蔽的语音成分,提升语音信号质量。
-
公开(公告)号:CN105261367B
公开(公告)日:2019-03-15
申请号:CN201410334124.3
申请日:2014-07-14
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L17/02
Abstract: 本发明涉及一种说话人识别方法,该方法首先生成说话人识别模型,把背景语音和目标说话人语音作为训练数据,训练出第一高斯混合‑通用背景模型,总变化空间,第二高斯混合‑通用背景模型,局部线性鉴别分析模型;利用第一高斯混合‑通用背景模型,总变化空间,第二高斯混合‑通用背景模型计算出待识别语音的总变化因子和总变化因子的后验概率,输入局部线性鉴别分析模型进行转换,得到维数更低的矢量,输入后端识别器输出识别结果。本方法增加了说话人间的鉴别性,可提高说话人识别性能;同时该方法可以对总变化因子进行降维,提升了识别速度,具有很高的实用性。
-
公开(公告)号:CN107688576A
公开(公告)日:2018-02-13
申请号:CN201610633439.7
申请日:2016-08-04
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
CPC classification number: G06F16/35 , G06K9/6269 , G06K9/6273 , G06N3/0454 , G06N3/08
Abstract: 本发明公开了一种CNN-SVM模型的构建方法,所述方法包括:从社交媒体上抓取基于某一事件的所有评论和转发信息,构建训练样本集;建立包含卷积层、采样层和分类层的CNN模型,利用训练样本集训练CNN模型的各层参数;将训练好参数的CNN模型中的卷积层、采样层与SVM分类器联合在一起,构成CNN-SVM模型;将训练样本集输入CNN-SVM模型,训练SVM分类器的参数;所述CNN-SVM模型构建完成。基于CNN-SVM模型,本发明还提供了一种倾向性分类方法,并构建转发树,能够对含有转发文本的待分类评论进行准确分类。本发明的倾向性分类方法可以提高分类的正确率。
-
公开(公告)号:CN104575497B
公开(公告)日:2017-10-03
申请号:CN201310517149.2
申请日:2013-10-28
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L15/183
Abstract: 本发明提供了一种声学模型建立方法及基于该模型的语音解码方法,所述方法包含:步骤101)基于训练数据,计算声学模型所需的三因子高斯混合模型的统计量;步骤102)采用自聚类方法根据统计量计算决策树问题集,基于得到的决策树的问题集采用决策树算法对所述统计量进行分割聚类,进而得到同位音素;步骤103)将基础音素集与所述同位音素合并作为含同位音素的音素集,并通过决策树过程对原始语音标注进行处理,处理后的语音标注称为含同位音素的语音标注;步骤104)基于含同位音素的音素集和语音标注,采用声学模型训练方法进行声学模型训练,生成含同位音素的声学模型。本发明将致力于解决黏着语语音识别系统中的高声学模型混淆度问题。
-
-
-
-
-
-
-
-
-