基于音素混淆的中英文双语语音识别方法

    公开(公告)号:CN101447184A

    公开(公告)日:2009-06-03

    申请号:CN200810110555.6

    申请日:2008-06-03

    Abstract: 本发明涉及一种基于音素混淆的中英文双语语音识别方法,该方法采用两遍音素聚类的方法统一中英文音素集,重新训练得到中英文混合声学模型,并修正相应的双语发音字典,解码器根据这些实现中英文双语识别。基于TCM音素混淆的中英文双语语音识别系统对中文的识别率可与独立中文语音识别系统相比较;并且在毫无中文口音的英文数据,仅依靠标准中文和英文训练数据的前提下,对带有中文口音的英文片断的识别情况相对独立英文语音识别系统有了明显提高;同时基于TCM音素混淆的中英文双语语音识别系统也优于目前常见的利用对数似然准则进行音素聚类得到的双语识别系统的识别性能,具有很高的实用性。

    一种快速可在线应用的声道长度归整方法

    公开(公告)号:CN101447182A

    公开(公告)日:2009-06-03

    申请号:CN200810097981.0

    申请日:2008-05-21

    Abstract: 本发明涉及一种快速可在线应用的声道长度归整方法,包括如下步骤:1)在训练阶段训练一个与声道长度无关的归整后的声学模型;2)根据不同的归整因子对训练数据分类,训练多类GMM;3)测试时分段在多类GMM打分,快速计算声道长度归整因子;4)根据识别系统的实时性需求选择不同的段数,更新声道长度归整因子;5)用声道长度归整后的声学模型对归整后的声学特征解码。本发明的方法可以根据识别系统对实时性的要求,对测试语音可以选择分段的长度,从而让声道长度归整技术应用于在线的系统中。分段是为了消除判断不准确的静音的影响,又不至于把连续语音按帧拆的太分散而影响声学动态特征差分的值,同时还可以根据段的情况加不同的权重。

    一种基于数字信号处理的语音变声方法

    公开(公告)号:CN1248191C

    公开(公告)日:2006-03-29

    申请号:CN03137014.4

    申请日:2003-06-19

    Abstract: 本发明公开了一种基于数字信号处理的语音变声方法,包括步骤(1)选取需要变声的原始语音信号;(2)得到原始语音信号的基音周期长度;(3)根据基音周期长度定位整个原始语音信号的每一个基音周期的位置;(4)在原始语音信号中的基音周期之间删除/插入基音周期,得到缩短/伸长的语音信号;(5)将缩短/伸长的语音信号线性伸长/压缩至与原始语音信号一致的长度,得到变声后的语音信号。本发明是基于数字信号处理的语音变声方法,该方法简单实用,运算量很小,适于在DSP芯片上实时实现,变声的语音的自然度很高。而且变声后的语音的长度与原始语音长度一致,有利于实时传送变声后的语音信号。

    一种基于自注意力的汉语韵律层级预测方法及系统

    公开(公告)号:CN111354333B

    公开(公告)日:2023-11-10

    申请号:CN201811571546.7

    申请日:2018-12-21

    Abstract: 本发明公开了一种基于自注意力的汉语韵律层级预测方法,所述方法包括:对大量无标注文本进行学习获得单字的字向量,利用字向量将待预测的文本转换为字向量序列,将字向量序列输入训练好的韵律层级预测模型,输出文本的词位和韵律层级。本发明的方法利用韵律层级预测模型进行汉语韵律层级预测,在保证预测性能的同时以字粒度的特征作为输入,避免了对于分词系统的依赖及其可能造成的负面影响,该模型利用自注意力机制,直接对文本中任意两个字间的关系建模,可实现并行化计算;并利用额外数据进行预训练提高模型性能,实现对待处理文本各韵律层级同时准确的预测,避免了错误的传递。

    一种基础心音识别方法及设备

    公开(公告)号:CN111938691B

    公开(公告)日:2022-03-18

    申请号:CN202010829479.5

    申请日:2020-08-18

    Abstract: 本发明涉及一种心音识别方法,包括:采集多个原始心音数据;对多个原始心音数据进行低通滤波,并计算多个原始心音数据所对应的同态包络;采用双门限法对多个同态包络进行筛选,得到至少一个备选心音数据段;将至少一个备选心音数据段进行短时傅里叶变换,得到至少一个备选心音数据段所对应的备选心音段时频谱;将至少一个备选心音段时频谱输入心音识别分支卷积神经网络进行分类,得到至少一个备选心音段时频谱的分类结果。

    一种多通道远场语音识别方法

    公开(公告)号:CN110867178B

    公开(公告)日:2022-01-21

    申请号:CN201810986855.4

    申请日:2018-08-28

    Abstract: 本发明涉及一种多通道远场语音识别方法,其包括:步骤1)提取每个通道的远场语音信号的语音特征,串接多个通道的语音特征,获得语音特征向量;步骤2)计算任意两个通道之间的GCC特征,将GCC特征与步骤1)获得的语音特征向量拼接,获得远场特征向量,作为训练远场学生模型的训练数据;步骤3)对专家模型进行训练,获得训练后的专家模型;同时采用知识升华策略,对远场学生模型进行训练,获得训练后的远场学生模型;步骤4)将待识别语音信号的特征和GCC特征拼接,获得拼接后的特征向量,并将其输入至训练后的远场学生模型,获得对应的远场后验概率向量,进而得到对应的后验概率值,再经过维特比解码,对待识别的语音信号进行识别。

    一种基于空洞卷积神经网络的端到端语种识别分类方法

    公开(公告)号:CN113539238A

    公开(公告)日:2021-10-22

    申请号:CN202010247070.2

    申请日:2020-03-31

    Abstract: 本发明公开了一种基于空洞卷积神经网络的端到端语种识别分类方法,包括:待训练语种识别网络接收,并对训练语音中提取的帧级别声学底层特征进行至少一层空洞卷积后,输出训练语音后验概率;将训练语音后验概率与真实类别标签的最小均方误差作为待训练语种识别网络的损失函数,通过减小优化函数的值进行梯度回传并更新待训练语种识别网络的参数,得到训练后语种识别网络;提取测试语音的帧级别声学底层特征;训练后语种识别网络接收测试语音的帧级别声学底层特征,输出测试语音后验概率;根据测试语音后验概率判定测试语音中的至少一个语种类别。在输出特征图的分辨率不变的情况下,不降低单个神经元的感受野,弱化语音中的时间信息丢失问题。

Patent Agency Ranking