-
公开(公告)号:CN113077785A
公开(公告)日:2021-07-06
申请号:CN201911300918.7
申请日:2019-12-17
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明属于网络通信技术领域,具体涉及一种端到端的多语言连续语音流语音内容识别方法,该方法包括:将待识别的语音频谱特征输入至预先构建的基于深度神经网络的段级别语种分类模型,提取语句级别语种状态后验概率分布向量;将每一种语言种类的待识别的语音频谱特征序列和语句级别语种状态后验概率分布向量输入至预先构建的多语言语音识别模型,输出对应语言种类的语音识别结果。
-
公开(公告)号:CN111091817A
公开(公告)日:2020-05-01
申请号:CN201811242398.4
申请日:2018-10-24
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明公开了一种基于窗口输入的双向回馈神经网络的语音识别方法,所述方法包括:步骤1)建立和训练基于窗口输入的双向回馈神经网络BLSTM-E;步骤2)将待识别的语音帧输入步骤1)的基于窗口输入的双向回馈神经网络BLSTM-E,通过BLSTM-E的前向计算,计算出每个语音帧的后验概率;步骤3)将步骤2)中每个语音帧的后验概率输入解码器,解码器在语言模型的限制下,利用维特比算法在状态空间中搜索一条最优的结果作为识别结果。本发明提出的基于窗口输入的双向回馈神经网络BLSTM-E的语音识别方法,能够在每一帧的语音判决过程中将更广的时间域内的信息利用起来,取得了相比于传统BLSTM语音识别方法更精确的识别结果。
-
公开(公告)号:CN109975762A
公开(公告)日:2019-07-05
申请号:CN201711454053.0
申请日:2017-12-28
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明涉及一种水下声源定位方法,包括以下步骤:将通过水听器阵列接收的声源信号转换成数字声音信号;对所述数字声音信号进行做傅里叶变换;在信号带宽内每个频率上计算数据协方差矩阵,然后通过特征值分解提取能表征信号方位信息的特征向量;在训练阶段,利用时延神经网络学习训练样本,得到特征向量和声源方位的映射关系模型;在测试阶段,输入测试样本的特征向量到训练好的模型,得到声源的距离和深度估计值。本发明利用深度神经网络,实现鲁棒而高效的水下声源定位。
-
公开(公告)号:CN109754790A
公开(公告)日:2019-05-14
申请号:CN201711059592.4
申请日:2017-11-01
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明公开了一种基于混合声学模型的语音识别系统和方法,所述系统包括:信号处理及特征提取模块、发音词典、语言模型和解码器;所述系统还包括:混合声学模型;所述混合声学模型包括:前端的卷积神经网络和后端的时间延迟及长短时记忆混合神经网络;所述卷积神经网络作为一个特征提取模块放置在时间延迟及长短时记忆混合神经网络之前;所述卷积神经网络提取出来的鲁棒性特征和原有的特征进行拼接,一起作为后端时间延迟及长短时记忆混合神经网络的输入特征。本发明的系统基于卷积神经网络对特征的平移变换有更鲁棒的建模能力,能够有效降低模型识别错误率,提升多个任务集上的语音识别性能。
-
公开(公告)号:CN108281137A
公开(公告)日:2018-07-13
申请号:CN201710002097.3
申请日:2017-01-03
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种全音素框架下的通用语音唤醒识别方法及系统,所述方法包括:首先训练深度神经网络声学模型,根据唤醒词修改词典,构造基于filler的解码网络,并根据训练样本训练支持向量机分类器;对输入语音进行预处理,将处理后的语音特征输入解码网络进行解码,根据深度神经网络声学模型计算声学得分,得到解码结果;将识别成功的解码结果的统计量输入支持向量机分类器进行分类,得到最终的识别结果。本发明的方法对全部无调音素扩展得到的三音子状态进行建模得到的是通用声学模型,解码过程中限制解码路径,可以提高唤醒性能,同时结合后期处理部分通过对每条路径上音素后验概率等多维统计量进行分析,消除虚警率升高的隐患。
-
公开(公告)号:CN103021407A
公开(公告)日:2013-04-03
申请号:CN201210551676.0
申请日:2012-12-18
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明实施例涉及韩语语音识别方法及系统。所述方法包括:提取语音长时特征;对所述长时特征计算扩展音素集后验概率;对所述后验概率进行主成分分析PCA降维处理,得到基于所述长时特征的多层感知MLP特征;将所述MLP特征进行基于高斯混合-隐形马尔可夫模型GMM-HMM框架的语音识别,得到识别结果。本发明实施例利用长时特征在刻画协同发音方面的优势对韩语音素集进行细化分类,有效降低声学模型的混淆程度,提高了语音识别的效果。
-
公开(公告)号:CN112434716B
公开(公告)日:2024-03-29
申请号:CN201910774388.3
申请日:2019-08-21
Applicant: 中国科学院声学研究所
IPC: G06F18/24 , G06F18/213 , G06F18/10 , G01S15/00 , G01H3/00 , G06N3/0475 , G06N3/045 , G06N3/094
Abstract: 本发明公开了一种基于条件对抗生成网络的水下目标数据扩增方法及系统,所述方法包括:将某一目标类别对应的one‑hot向量与随机高斯白噪声级联,输入预先训练好的生成器,输出该目标类别的生成样本。本发明的方法能够利用少量的水下目标数据产生足量的与原样本类似的数据,使得其数据量能够满足深度学习的需求;而且能够利用一个模型实现多个目标类别的样本生成。
-
公开(公告)号:CN112949671B
公开(公告)日:2023-06-30
申请号:CN201911266932.X
申请日:2019-12-11
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G06F18/2415 , G06F18/213 , G06N3/047 , G06N3/048 , G06N3/088
Abstract: 本发明公开了一种基于无监督特征优化的信号分类方法及系统,所述方法包括:将待分类的信号进行预处理和分帧;提取每一帧信号的基于能量的时频分类特征;将每一帧信号的能量特征输入预先训练的无监督特征优化网络,输出优化特征;所述无监督特征优化网络的准则为最大化类间距离并最小化类内距离;将优化特征输入预先训练的分类器,输出分类结果。本发明的方法能够最大化利用训练样本的类内‑类间的关系,使得神经网络学习到的表征特征更具判别性。
-
公开(公告)号:CN110070874B
公开(公告)日:2021-07-30
申请号:CN201810065088.3
申请日:2018-01-23
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L17/02 , G10L17/10 , G10L21/0208
Abstract: 本发明涉及一种针对声纹识别的语音降噪方法及装置,该方法包括:对具有噪声的语音信号预处理后,进行特征提取,获取第一语音功率谱图;对第一语音功率谱图进行分解,获取第一模态信号和除第一模态之外的模态信号;对第一模态信号进行降噪,获取降噪后的模态信号;将降噪后的模态信号与所述除所述第一模态之外的模态信号进行相加重构,获取第二语音功率谱图。通过该方案,主要是分离出噪声最多的模态进行降噪处理。如此一来,在实现语音信号降噪处理的同时,还可以尽量避免了有效语音信号的损失,即说话人语音信息的损失,提升声纹识别效果。
-
公开(公告)号:CN106847259B
公开(公告)日:2020-04-03
申请号:CN201510882805.8
申请日:2015-12-03
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明提供一种音频关键词模板的筛选和优化方法,所述方法包括:步骤1)对每个音频关键词模板样本进行特征提取,将所提取的特征通过一个深层神经网络,计算在一个给定音素集上全部音素的后验概率;步骤2)计算模板的后验概率稳定性分数、发音可靠性分数和邻域相似性分数;步骤3)计算每个音频关键词模板的上述三种分数的加权平均值,记为平均分数;步骤4)按照平均分数从大到小的顺序进行排序,选取前L个音频关键词模板作为代表性发音模板;步骤5)对每个代表性发音模板进行处理,调整其发音序列上每一帧的各发音单元的后验概率,并最小化模板的邻域相似性分数;生成优化的L个音频检索词模板。
-
-
-
-
-
-
-
-
-