一种多语言连续语音流语音内容识别方法及系统

    公开(公告)号:CN112489622B

    公开(公告)日:2024-03-19

    申请号:CN201910782981.2

    申请日:2019-08-23

    Abstract: 本发明提出一种多语言连续语音流语音内容识别方法及系统,所述方法包括:将待识别的多语言连续语音流输入帧级别语种分类模型,输出段级别语种特征向量;将段级别语种特征向量输入段级别语种分类模型,输出段级别语种状态的后验概率分布;根据段级别语种状态的后验概率分布,基于维特比检索算法,计算多语言连续语音流的最佳的语种状态路径;根据所述最佳语种状态路径对待识别的多语言连续语音流进行切分获得语种状态区间;将切分后的语种状态区间送入多语言声学模型以及相应的多语言解码器中进行解码,得到所述多语言连续语音流的内容识别结果。本发明通过将语种分类模型与维特比检索算法相融合,解决了连续语音流中多语言内容并存的语言种类动态检测和识别的问题。

    基于语言种类和语音内容协同分类的多语言语音识别方法

    公开(公告)号:CN110895932A

    公开(公告)日:2020-03-20

    申请号:CN201810974049.5

    申请日:2018-08-24

    Abstract: 本发明公开了基于语言种类和语音内容协同分类的多语言语音识别方法,所述方法包括:步骤1)建立和训练语言种类和语音内容协同分类声学模型;该声学模型融合了包含语种相关信息的语种特征向量,在多语言识别过程中能够利用语种特征向量对特定语种的音素分类层做模型自适应优化;步骤2)将待识别的语音特征序列输入训练好的语言种类和语音内容协同分类声学模型,输出特征序列对应的音素后验概率分布;解码器结合特征的序列音素后验概率分布生成若干个候选词序列和其对应的声学模型得分;步骤3)将候选词序列的声学模型得分和语言模型得分进行结合作为总体分数,将总体分数最高的候选词序列作为特定语言的语音内容的识别结果。

    一种基于迁移神经网络声学模型的语音识别系统及方法

    公开(公告)号:CN110070855A

    公开(公告)日:2019-07-30

    申请号:CN201810077556.9

    申请日:2018-01-23

    Abstract: 本发明涉及一种基于迁移神经网络声学模型的语音识别系统及方法,该系统包括:信号处理及特征提取模块、语言模型、解码器和迁移神经网络声学模型;其中迁移神经网络声学模型包括鲁棒神经网络和定向神经网络;本系统通过对鲁棒神经网络模型的模型参数进行固定,同时通过神经网络间的层间横向连接,将鲁棒声学模型的信息传递到目标声学模型中,不仅保留了原鲁棒声学模型的性能,同时还对目标语言做特定的优化。解决了低资源语言的鲁棒声学模型的快速构建的问题,通过利用数据充分的语言的声学模型进行模型参数迁移的方式,来提升目标低资源语言的声学模型性能以及训练的收敛速度。

    基于语言种类和语音内容协同分类的多语言语音识别方法

    公开(公告)号:CN110895932B

    公开(公告)日:2022-05-03

    申请号:CN201810974049.5

    申请日:2018-08-24

    Abstract: 本发明公开了基于语言种类和语音内容协同分类的多语言语音识别方法,所述方法包括:步骤1)建立和训练语言种类和语音内容协同分类声学模型;该声学模型融合了包含语种相关信息的语种特征向量,在多语言识别过程中能够利用语种特征向量对特定语种的音素分类层做模型自适应优化;步骤2)将待识别的语音特征序列输入训练好的语言种类和语音内容协同分类声学模型,输出特征序列对应的音素后验概率分布;解码器结合特征的序列音素后验概率分布生成若干个候选词序列和其对应的声学模型得分;步骤3)将候选词序列的声学模型得分和语言模型得分进行结合作为总体分数,将总体分数最高的候选词序列作为特定语言的语音内容的识别结果。

    一种基于迁移神经网络声学模型的语音识别系统及方法

    公开(公告)号:CN110070855B

    公开(公告)日:2021-07-23

    申请号:CN201810077556.9

    申请日:2018-01-23

    Abstract: 本发明涉及一种基于迁移神经网络声学模型的语音识别系统及方法,该系统包括:信号处理及特征提取模块、语言模型、解码器和迁移神经网络声学模型;其中迁移神经网络声学模型包括鲁棒神经网络和定向神经网络;本系统通过对鲁棒神经网络模型的模型参数进行固定,同时通过神经网络间的层间横向连接,将鲁棒声学模型的信息传递到目标声学模型中,不仅保留了原鲁棒声学模型的性能,同时还对目标语言做特定的优化。解决了低资源语言的鲁棒声学模型的快速构建的问题,通过利用数据充分的语言的声学模型进行模型参数迁移的方式,来提升目标低资源语言的声学模型性能以及训练的收敛速度。

    一种多语言连续语音流语音内容识别方法及系统

    公开(公告)号:CN112489622A

    公开(公告)日:2021-03-12

    申请号:CN201910782981.2

    申请日:2019-08-23

    Abstract: 本发明提出一种多语言连续语音流语音内容识别方法及系统,所述方法包括:将待识别的多语言连续语音流输入帧级别语种分类模型,输出段级别语种特征向量;将段级别语种特征向量输入段级别语种分类模型,输出段级别语种状态的后验概率分布;根据段级别语种状态的后验概率分布,基于维特比检索算法,计算多语言连续语音流的最佳的语种状态路径;根据所述最佳语种状态路径对待识别的多语言连续语音流进行切分获得语种状态区间;将切分后的语种状态区间送入多语言声学模型以及相应的多语言解码器中进行解码,得到所述多语言连续语音流的内容识别结果。本发明通过将语种分类模型与维特比检索算法相融合,解决了连续语音流中多语言内容并存的语言种类动态检测和识别的问题。

Patent Agency Ranking