-
公开(公告)号:CN115410561A
公开(公告)日:2022-11-29
申请号:CN202211359138.1
申请日:2022-11-02
申请人: 中汽数据有限公司
摘要: 本发明涉及数据处理领域,公开了一种基于车载多模交互的语音识别方法及装置、介质、设备,包括:获取车内语音数据,从车内语音数据中提取出语音特征向量;提取出面部特征向量、唇部特征向量、手势特征向量;获取车辆状态数据,从车辆状态数据中提取出车辆状态特征向量;确定面部特征向量、唇部特征向量、手势特征向量和车辆状态特征向量各自对应的调和系数;将面部特征向量、唇部特征向量、手势特征向量和车辆状态特征向量进行多模融合,得到第一融合特征向量;将第一融合特征向量和语音特征向量进行融合处理,得到第二融合特征向量;将第二融合特征向量输入至语音识别模型中,得到语音识别结果。本发明实施例可以提高车载语音识别准确率。
-
公开(公告)号:CN115410561B
公开(公告)日:2023-02-17
申请号:CN202211359138.1
申请日:2022-11-02
申请人: 中汽数据有限公司
摘要: 本发明涉及数据处理领域,公开了一种基于车载多模交互的语音识别方法及装置、介质、设备,包括:获取车内语音数据,从车内语音数据中提取出语音特征向量;提取出面部特征向量、唇部特征向量、手势特征向量;获取车辆状态数据,从车辆状态数据中提取出车辆状态特征向量;确定面部特征向量、唇部特征向量、手势特征向量和车辆状态特征向量各自对应的调和系数;将面部特征向量、唇部特征向量、手势特征向量和车辆状态特征向量进行多模融合,得到第一融合特征向量;将第一融合特征向量和语音特征向量进行融合处理,得到第二融合特征向量;将第二融合特征向量输入至语音识别模型中,得到语音识别结果。本发明实施例可以提高车载语音识别准确率。
-