一种基于窗口输入的双向回馈神经网络的语音识别方法

    公开(公告)号:CN111091817A

    公开(公告)日:2020-05-01

    申请号:CN201811242398.4

    申请日:2018-10-24

    Abstract: 本发明公开了一种基于窗口输入的双向回馈神经网络的语音识别方法,所述方法包括:步骤1)建立和训练基于窗口输入的双向回馈神经网络BLSTM-E;步骤2)将待识别的语音帧输入步骤1)的基于窗口输入的双向回馈神经网络BLSTM-E,通过BLSTM-E的前向计算,计算出每个语音帧的后验概率;步骤3)将步骤2)中每个语音帧的后验概率输入解码器,解码器在语言模型的限制下,利用维特比算法在状态空间中搜索一条最优的结果作为识别结果。本发明提出的基于窗口输入的双向回馈神经网络BLSTM-E的语音识别方法,能够在每一帧的语音判决过程中将更广的时间域内的信息利用起来,取得了相比于传统BLSTM语音识别方法更精确的识别结果。

    一种水下声源定位方法

    公开(公告)号:CN109975762A

    公开(公告)日:2019-07-05

    申请号:CN201711454053.0

    申请日:2017-12-28

    Abstract: 本发明涉及一种水下声源定位方法,包括以下步骤:将通过水听器阵列接收的声源信号转换成数字声音信号;对所述数字声音信号进行做傅里叶变换;在信号带宽内每个频率上计算数据协方差矩阵,然后通过特征值分解提取能表征信号方位信息的特征向量;在训练阶段,利用时延神经网络学习训练样本,得到特征向量和声源方位的映射关系模型;在测试阶段,输入测试样本的特征向量到训练好的模型,得到声源的距离和深度估计值。本发明利用深度神经网络,实现鲁棒而高效的水下声源定位。

    一种基于混合声学模型的语音识别系统及方法

    公开(公告)号:CN109754790A

    公开(公告)日:2019-05-14

    申请号:CN201711059592.4

    申请日:2017-11-01

    Abstract: 本发明公开了一种基于混合声学模型的语音识别系统和方法,所述系统包括:信号处理及特征提取模块、发音词典、语言模型和解码器;所述系统还包括:混合声学模型;所述混合声学模型包括:前端的卷积神经网络和后端的时间延迟及长短时记忆混合神经网络;所述卷积神经网络作为一个特征提取模块放置在时间延迟及长短时记忆混合神经网络之前;所述卷积神经网络提取出来的鲁棒性特征和原有的特征进行拼接,一起作为后端时间延迟及长短时记忆混合神经网络的输入特征。本发明的系统基于卷积神经网络对特征的平移变换有更鲁棒的建模能力,能够有效降低模型识别错误率,提升多个任务集上的语音识别性能。

    一种黏着语语音识别方法及系统

    公开(公告)号:CN103021407A

    公开(公告)日:2013-04-03

    申请号:CN201210551676.0

    申请日:2012-12-18

    Abstract: 本发明实施例涉及韩语语音识别方法及系统。所述方法包括:提取语音长时特征;对所述长时特征计算扩展音素集后验概率;对所述后验概率进行主成分分析PCA降维处理,得到基于所述长时特征的多层感知MLP特征;将所述MLP特征进行基于高斯混合-隐形马尔可夫模型GMM-HMM框架的语音识别,得到识别结果。本发明实施例利用长时特征在刻画协同发音方面的优势对韩语音素集进行细化分类,有效降低声学模型的混淆程度,提高了语音识别的效果。

    一种针对声纹识别的语音降噪方法及装置

    公开(公告)号:CN110070874B

    公开(公告)日:2021-07-30

    申请号:CN201810065088.3

    申请日:2018-01-23

    Abstract: 本发明涉及一种针对声纹识别的语音降噪方法及装置,该方法包括:对具有噪声的语音信号预处理后,进行特征提取,获取第一语音功率谱图;对第一语音功率谱图进行分解,获取第一模态信号和除第一模态之外的模态信号;对第一模态信号进行降噪,获取降噪后的模态信号;将降噪后的模态信号与所述除所述第一模态之外的模态信号进行相加重构,获取第二语音功率谱图。通过该方案,主要是分离出噪声最多的模态进行降噪处理。如此一来,在实现语音信号降噪处理的同时,还可以尽量避免了有效语音信号的损失,即说话人语音信息的损失,提升声纹识别效果。

    一种音频关键词模板的筛选和优化方法

    公开(公告)号:CN106847259B

    公开(公告)日:2020-04-03

    申请号:CN201510882805.8

    申请日:2015-12-03

    Abstract: 本发明提供一种音频关键词模板的筛选和优化方法,所述方法包括:步骤1)对每个音频关键词模板样本进行特征提取,将所提取的特征通过一个深层神经网络,计算在一个给定音素集上全部音素的后验概率;步骤2)计算模板的后验概率稳定性分数、发音可靠性分数和邻域相似性分数;步骤3)计算每个音频关键词模板的上述三种分数的加权平均值,记为平均分数;步骤4)按照平均分数从大到小的顺序进行排序,选取前L个音频关键词模板作为代表性发音模板;步骤5)对每个代表性发音模板进行处理,调整其发音序列上每一帧的各发音单元的后验概率,并最小化模板的邻域相似性分数;生成优化的L个音频检索词模板。

Patent Agency Ranking