基于车载多模交互的语音识别方法及装置、介质和设备

    公开(公告)号:CN115410561A

    公开(公告)日:2022-11-29

    申请号:CN202211359138.1

    申请日:2022-11-02

    IPC分类号: G10L15/08 G06V40/20 G06V10/80

    摘要: 本发明涉及数据处理领域,公开了一种基于车载多模交互的语音识别方法及装置、介质、设备,包括:获取车内语音数据,从车内语音数据中提取出语音特征向量;提取出面部特征向量、唇部特征向量、手势特征向量;获取车辆状态数据,从车辆状态数据中提取出车辆状态特征向量;确定面部特征向量、唇部特征向量、手势特征向量和车辆状态特征向量各自对应的调和系数;将面部特征向量、唇部特征向量、手势特征向量和车辆状态特征向量进行多模融合,得到第一融合特征向量;将第一融合特征向量和语音特征向量进行融合处理,得到第二融合特征向量;将第二融合特征向量输入至语音识别模型中,得到语音识别结果。本发明实施例可以提高车载语音识别准确率。

    基于车载多模交互的语音识别方法及装置、介质和设备

    公开(公告)号:CN115410561B

    公开(公告)日:2023-02-17

    申请号:CN202211359138.1

    申请日:2022-11-02

    IPC分类号: G10L15/08 G06V40/20 G06V10/80

    摘要: 本发明涉及数据处理领域,公开了一种基于车载多模交互的语音识别方法及装置、介质、设备,包括:获取车内语音数据,从车内语音数据中提取出语音特征向量;提取出面部特征向量、唇部特征向量、手势特征向量;获取车辆状态数据,从车辆状态数据中提取出车辆状态特征向量;确定面部特征向量、唇部特征向量、手势特征向量和车辆状态特征向量各自对应的调和系数;将面部特征向量、唇部特征向量、手势特征向量和车辆状态特征向量进行多模融合,得到第一融合特征向量;将第一融合特征向量和语音特征向量进行融合处理,得到第二融合特征向量;将第二融合特征向量输入至语音识别模型中,得到语音识别结果。本发明实施例可以提高车载语音识别准确率。