一种由双编码器组成的transformer的重庆方言语音识别方法

    公开(公告)号:CN116416968A

    公开(公告)日:2023-07-11

    申请号:CN202111656134.5

    申请日:2021-12-30

    摘要: 本发明公开一种由双编码器组成的transformer的重庆方言语音识别方法,包括以下步骤:1)获取语音数据;2)对语音数据进行傅里叶转换,得到语音频谱图;3)得到向量V;4)获取transformer模型的输入X;5)得到参数Q、参数K、参数V;6)将参数Q、参数K、参数V输入到transformer模型的编码器encoder1和编码器encoder2中,分别得到编码器输出Y1和编码器输出Y2;7)将编码器输出Y1输入到Gate CNN网络中,得到语音识别文本概率分布p1;将编码器输出Y2输入到transformer模型的解码器中,得到语音识别文本概率分布p2;8)计算得到语音识别文本P。本发明设计了两个不同的解码器分别对两个dropout输出做解码,进一步增加了整个解码结构的鲁棒性。

    一种由双编码器组成的transformer的重庆方言语音识别方法

    公开(公告)号:CN116416968B

    公开(公告)日:2024-09-24

    申请号:CN202111656134.5

    申请日:2021-12-30

    摘要: 本发明公开一种由双编码器组成的transformer的重庆方言语音识别方法,包括以下步骤:1)获取语音数据;2)对语音数据进行傅里叶转换,得到语音频谱图;3)得到向量V;4)获取transformer模型的输入X;5)得到参数Q、参数K、参数V;6)将参数Q、参数K、参数V输入到transformer模型的编码器encoder1和编码器encoder2中,分别得到编码器输出Y1和编码器输出Y2;7)将编码器输出Y1输入到Gate CNN网络中,得到语音识别文本概率分布p1;将编码器输出Y2输入到transformer模型的解码器中,得到语音识别文本概率分布p2;8)计算得到语音识别文本P。本发明设计了两个不同的解码器分别对两个dropout输出做解码,进一步增加了整个解码结构的鲁棒性。

    一种基于语法树的神经心理量表答案筛选方法、系统及介质

    公开(公告)号:CN116525045A

    公开(公告)日:2023-08-01

    申请号:CN202211492716.9

    申请日:2022-11-25

    摘要: 本发明公开一种基于语法树的神经心理量表答案筛选方法、系统及介质,方法步骤包括:1)获取测试者的音频,并将音频转录为心理量表文本;2)对标注有词边界的词序列进行依存句法分析,得到文本特征;3)对文本特征进行中心词提取,得到心理量表文本的中心词;4)对心理量表文本的中心词进行分析,得到语义角色识别结果;5)判断所述语义角色识别结果中是否包含MMSE量表中临床总结的语义角色,若是,则得到心理量表答案。系统包括音频获取及转换模块、分词模块、词性标注模块、实体识别模块、依存句法分析模块、中心词提取及分析模块、答案输出模块;本发明可以准确提取出测试者的真实意图,提高了人工智能技术应用在神经心理量表中的准确率。

    一种通过迁移学习提升重庆方言语音识别的方法

    公开(公告)号:CN116416967B

    公开(公告)日:2024-09-24

    申请号:CN202111651840.0

    申请日:2021-12-30

    摘要: 本发明公开一种通过迁移学习提升重庆方言语音识别的方法,步骤为:1)获取语音数据;2)得到语音频谱图;3)对语音频谱图向量化,得到向量V;4)获取transformer模型的输入X;5)将参数Q、参数K、参数V输入到transformer模型的编码器中,得到编码器输出Y1和编码器输出Y2;6)将编码器输出Y1和编码器输出Y2输入到transformer模型的解码器中,得到语音识别文本;8)确定拼音BERT模型的输入x;9)将输入x输入到拼音BERT模型中,得到语音识别结果。本发明通过pipeline设计模式,将ASR中的声学模型,语言模型独立开,增强了ASR模型选择的多样性。

    一种通过迁移学习提升重庆方言语音识别的方法

    公开(公告)号:CN116416967A

    公开(公告)日:2023-07-11

    申请号:CN202111651840.0

    申请日:2021-12-30

    摘要: 本发明公开一种通过迁移学习提升重庆方言语音识别的方法,步骤为:1)获取语音数据;2)对语音数据进行傅里叶转换,得到语音频谱图;3)利用VGG网络对语音频谱图向量化,得到向量V;4)获取transformer模型的输入X;5)得到参数Q、参数K、参数V;6)将参数Q、参数K、参数V输入到transformer模型的编码器encoder1和编码器encoder2中,分别得到编码器输出Y1和编码器输出Y2;7)将编码器输出Y1和编码器输出Y2输入到transformer模型的解码器中,得到语音识别文本;8)确定拼音BERT模型的输入x;9)将输入x输入到拼音BERT模型中,得到语音识别结果。本发明能更全面的捕捉到语义层面信息,并通过pipeline设计模式,将ASR中的声学模型,语言模型独立开,增强了ASR模型选择的多样性。