一种通过迁移学习提升重庆方言语音识别的方法

    公开(公告)号:CN116416967B

    公开(公告)日:2024-09-24

    申请号:CN202111651840.0

    申请日:2021-12-30

    摘要: 本发明公开一种通过迁移学习提升重庆方言语音识别的方法,步骤为:1)获取语音数据;2)得到语音频谱图;3)对语音频谱图向量化,得到向量V;4)获取transformer模型的输入X;5)将参数Q、参数K、参数V输入到transformer模型的编码器中,得到编码器输出Y1和编码器输出Y2;6)将编码器输出Y1和编码器输出Y2输入到transformer模型的解码器中,得到语音识别文本;8)确定拼音BERT模型的输入x;9)将输入x输入到拼音BERT模型中,得到语音识别结果。本发明通过pipeline设计模式,将ASR中的声学模型,语言模型独立开,增强了ASR模型选择的多样性。

    一种通过迁移学习提升重庆方言语音识别的方法

    公开(公告)号:CN116416967A

    公开(公告)日:2023-07-11

    申请号:CN202111651840.0

    申请日:2021-12-30

    摘要: 本发明公开一种通过迁移学习提升重庆方言语音识别的方法,步骤为:1)获取语音数据;2)对语音数据进行傅里叶转换,得到语音频谱图;3)利用VGG网络对语音频谱图向量化,得到向量V;4)获取transformer模型的输入X;5)得到参数Q、参数K、参数V;6)将参数Q、参数K、参数V输入到transformer模型的编码器encoder1和编码器encoder2中,分别得到编码器输出Y1和编码器输出Y2;7)将编码器输出Y1和编码器输出Y2输入到transformer模型的解码器中,得到语音识别文本;8)确定拼音BERT模型的输入x;9)将输入x输入到拼音BERT模型中,得到语音识别结果。本发明能更全面的捕捉到语义层面信息,并通过pipeline设计模式,将ASR中的声学模型,语言模型独立开,增强了ASR模型选择的多样性。

    一种基于Tensorflow目标检测的动作识别方法

    公开(公告)号:CN111860103A

    公开(公告)日:2020-10-30

    申请号:CN202010390890.7

    申请日:2020-05-11

    摘要: 本发明公开一种基于Tensorflow目标检测的动作识别方法,主要步骤为:1)获取含有人体姿态和目标物体的视频流,并分解为若干帧图像;2)构造卷积神经网络,并训练得到目标物体识别模型;3)利用目标物体识别模型框选出每帧图像中的目标物体,并为矩形框打上类别标签;4)基于矩形框的左上角归一化坐标(xmin_nor,ymin_nor)、右下角归一化坐标值(xmax_nor,ymax_nor)确定目标物体坐标;5)对目标物体坐标进行处理;6)建立动作识别模型;7)将处理后的矩形框坐标输入到动作识别模型中,对人体姿态进行识别。本发明基于对坐标数据进行欧氏距离、相对位置提取的方法,实现了动作识别模型的建立,通过设置阈值和时序条件分析多个视频帧数据快速准确完成了动作识别。

    一种由双编码器组成的transformer的重庆方言语音识别方法

    公开(公告)号:CN116416968A

    公开(公告)日:2023-07-11

    申请号:CN202111656134.5

    申请日:2021-12-30

    摘要: 本发明公开一种由双编码器组成的transformer的重庆方言语音识别方法,包括以下步骤:1)获取语音数据;2)对语音数据进行傅里叶转换,得到语音频谱图;3)得到向量V;4)获取transformer模型的输入X;5)得到参数Q、参数K、参数V;6)将参数Q、参数K、参数V输入到transformer模型的编码器encoder1和编码器encoder2中,分别得到编码器输出Y1和编码器输出Y2;7)将编码器输出Y1输入到Gate CNN网络中,得到语音识别文本概率分布p1;将编码器输出Y2输入到transformer模型的解码器中,得到语音识别文本概率分布p2;8)计算得到语音识别文本P。本发明设计了两个不同的解码器分别对两个dropout输出做解码,进一步增加了整个解码结构的鲁棒性。