一种基于降噪自动编码器的语种识别分类方法及装置

    公开(公告)号:CN110858477A

    公开(公告)日:2020-03-03

    申请号:CN201810916756.9

    申请日:2018-08-13

    Abstract: 本发明提供一种基于降噪自动编码器的语种识别分类方法,其包括:步骤1)从待识别的语音片段中提取待识别的语音信号,获得底层声学特征;步骤2)从步骤1)获得的底层声学特征提取原始i-vector;步骤3)计算并获得音素向量pc(u);步骤4)将原始i-vector与音素向量pc(u)进行拼接,将其输入至基于DAE的i-vector补偿网络,获得补偿后的i-vector;步骤5)分别将步骤2)获得的原始i-vector和步骤4)获得的补偿后的i-vector输入至预先训练的逻辑回归分类器,获得对应的分数向量;步骤6)对步骤5)获得的对应的分数向量,进行分数融合,得到最终的分数向量,进而得到各个语种类别的概率,并判定所属的语种类别。

    一种语音对话管理系统
    152.
    发明授权

    公开(公告)号:CN105845137B

    公开(公告)日:2019-08-23

    申请号:CN201610158818.5

    申请日:2016-03-18

    Abstract: 本发明涉及一种语音对话管理系统,包括:对话管理器,用于存储和维护当前所有有效的对话进程,以及接收用户语义信息,并通过状态机给出相应的回复。状态机模型,用于保存对话领域结构的全部信息,是对对话领域的静态描述文档,在运行过程中需根据状态机模型所描述的领域规则进行状态维护并生成系统回复。状态机,用于在运行时跟踪对话进程的状态信息,在用户产生输入动作时对对话状态进行更新;以及根据当前对话状态动态地产生相应的回复,所述状态机涉及到的具体的领域信息由状态机模型指定。本发明实施例提供的语音对话管理系统,可内嵌JavaScript代码对特定的对话流程进行定制化,实现更灵活的对话管理。

    一种婴儿哭声检测方法及装置

    公开(公告)号:CN110085216A

    公开(公告)日:2019-08-02

    申请号:CN201810065385.8

    申请日:2018-01-23

    Abstract: 本发明涉及一种婴儿哭声检测方法及装置,包括:对预获取的样本训练集中的语音数据进行感知线性预测系数PLP特征提取,获取与样本训练集中的语音数据对应的语音特征;利用深度神经网络算法,对样本训练集中的语音数据和与语音数据对应的语音特征进行训练,获取婴儿哭声的声学模型;对测试语音数据进行PLP特征提取后,带入婴儿哭声的声学模型中进行学习,获取后验概率;根据后验概率,确定测试语音数据是否为婴儿哭声对应的语音数据。利用上述方式获取的婴儿哭声的声学模型对测试语音数据进行分类,获取与所述语音数据中每一帧语音数据对应的语音类型后验概率,然后根据语音类型后验概率确定测试语音数据是否为婴儿哭声对应的语音数据,将会更加精确。

    一种针对声纹识别的语音降噪方法及装置

    公开(公告)号:CN110070874A

    公开(公告)日:2019-07-30

    申请号:CN201810065088.3

    申请日:2018-01-23

    Abstract: 本发明涉及一种针对声纹识别的语音降噪方法及装置,该方法包括:对具有噪声的语音信号预处理后,进行特征提取,获取第一语音功率谱图;对第一语音功率谱图进行分解,获取第一模态信号和除第一模态之外的模态信号;对第一模态信号进行降噪,获取降噪后的模态信号;将降噪后的模态信号与所述除所述第一模态之外的模态信号进行相加重构,获取第二语音功率谱图。通过该方案,主要是分离出噪声最多的模态进行降噪处理。如此一来,在实现语音信号降噪处理的同时,还可以尽量避免了有效语音信号的损失,即说话人语音信息的损失,提升声纹识别效果。

    基于空间特征补偿的多通道语音识别声学建模方法及装置

    公开(公告)号:CN110047478A

    公开(公告)日:2019-07-23

    申请号:CN201810040168.3

    申请日:2018-01-16

    Abstract: 本发明涉及一种基于空间特征补偿的多通道语音识别声学建模方法及装置,所提出的模型基于传统的混合声学建模框架,即神经网络声学模型预测隐马尔科夫模型状态后验概率,该方法包括:提取麦克风阵列中的每个单通道录制的语音信号的声学特征和麦克风阵列中空间信息特征;将所述声学特征和所述空间信息特征,输入神经网络声学模型训练;所述神经网络声学模型输出预测的声学状态后验概率,使用声学模型优化准则对所述神经网络参数做迭代更新,生成基于空间特征补偿的多通道语音识别声学模型。该方法避免了传统方法中前后端分开优化导致的次优解;使神经网络声学模型有效的利用麦克风阵列提供的空间信息,提升了对多通道语音信号的声学建模能力。

    一种基于音频模板的语音关键词检索方法

    公开(公告)号:CN106297776B

    公开(公告)日:2019-07-09

    申请号:CN201510266553.6

    申请日:2015-05-22

    Abstract: 本发明涉及一种基于音频模板的语音关键词检索方法,包括:首先将语音样例模板和待检索语音转换成概率分布的序列,然后通过动态时间规整对语音样例模板和待检索语音进行匹配,获得待检索语音中关键词起止时间点和每个出现位置的声学置信度得分,最后对不同语音样例模板获得的得分进行规整,排序后得到检索结果。本发明的检索过程完全不要求特定语种的信息,最大化通用性和可移植性,同时减小检索过程中的运算量,加快了关键词检索的速度。

    一种基于滤波网络声学模型的多通道语音识别方法

    公开(公告)号:CN109427328A

    公开(公告)日:2019-03-05

    申请号:CN201710750635.7

    申请日:2017-08-28

    Abstract: 本发明公开了一种基于滤波网络声学模型的多通道语音识别方法,所述方法包括:步骤1)对于给定的麦克风阵列,建立和训练基于滤波网络的声学模型;所述模型为一个滤波网络连接一个LSTM声学模型;步骤2)采集给定麦克风阵列中的每个单通道语音信号作为待识别语音信号;步骤3)对采集的每个单通道语音信号进行预处理;然后,提取每个单通道语音信号的log-mel特征以及麦克风之间的交叉相关向量;将处理得到的特征输入训练好的基于滤波网络的声学模型,将输出的状态后验概率用于后续的语音识别过程,最终获得语音识别结果。本发明的方法将自适应滤波网络与声学模型联合优化,避免了传统方法中前后端分开优化导致的次优解。

    一种语种识别模型的训练方法及语种识别方法

    公开(公告)号:CN105280181B

    公开(公告)日:2018-11-13

    申请号:CN201410336650.3

    申请日:2014-07-15

    Abstract: 本发明涉及一种语种识别模型的训练方法及语种识别方法,包括:提取训练语音数据的音素后验概率,将音素后验概率转换到对数域,进行降维和均值方差规整得到音素相关特征;利用音素相关特征计算Baum‑Welch统计量,利用Baum‑Welch统计量提取音素变化量因子;对音素变化量因子进行建模,建立SVM模型(语种识别模型);将待识别语音数据的音素变化量因子对SVM模型进行打分,对得分进行均值方差规整,并对规整后的得分使用线性鉴别性分析和高斯后端规整进行得分校正,得到最终识别结果。该方法与传统的语种识别方法相比,降低了计算复杂度,语种识别性能得到明显提升,具有很高的实用性。

    一种基于CTC的声学模型训练方法

    公开(公告)号:CN108269568A

    公开(公告)日:2018-07-10

    申请号:CN201710002096.9

    申请日:2017-01-03

    Abstract: 本发明提供一种基于CTC的声学模型训练的方法,该方法包括:步骤1、训练一个初始的GMM模型,用该GMM模型对训练数据的文本标注进行时间点强制对齐,得到每个音素所对应的时间区域;步骤2、在每个音素后插入一个与该音素相关的“空白”符号,每个音素拥有一个特有的“空白”符号;步骤3、采用有限状态机,对加入“空白”符号后的音素标注序列构建一个CTC前后向计算的搜索路径图;步骤4、根据时间对齐结果,对每个音素出现的时间范围进行限制,并对该搜索路径图进行剪枝,将音素位置超出时间限制的路径减掉,得到最终CTC计算网络误差时所需的搜索路径图;步骤5、采用延时神经网络(Time-delay Neural Network,TDNN)结构结合CTC方法进行声学模型训练,得到最终的TDNN-CTC声学模型。

    一种基于自适应学习率的端到端的语音识别方法

    公开(公告)号:CN107293291A

    公开(公告)日:2017-10-24

    申请号:CN201610192763.X

    申请日:2016-03-30

    Abstract: 本发明提供一种基于自适应学习率的端到端的语音识别方法,该方法具体包括:(1)、采用双向递归神经网络作为声学模型,分别计算所述前向递归神经网络隐层和所述反向递归神经网络隐层 再采用长短时记忆单元(long-short term memory cell,LSTM)分别替代和 得到神经网络的最终输出,即y;(2)、将上述步骤(1)中的声学模型建模单元作为音素,采用connectionist temporal classification准则,引入了blank符号辅助对齐,构建和计算目标函数;对所述目标函数关于神经网络输出进行求偏导计算,再通过使用误差反向传播算法(error back propagation,BP)计算所述步骤(1)中权值矩阵中的参数集合w的梯度g;(3)、基于上述步骤(2)所提供的一阶梯度信息,即梯度g,再结合ADADELTA自适应学习率的方法,对所述参数集合w进行更新。

Patent Agency Ranking