专利检索 ap:("中汽数据有限公司") AND inv:"韩瑞龙" 第 1 页

1.

发明公开
基于车载多模交互的语音识别方法及装置、介质和设备有权

公开(公告)号：CN115410561A

公开(公告)日：2022-11-29

申请号：CN202211359138.1

申请日：2022-11-02

申请人： 中汽数据有限公司

发明人： 王增喜 , 于波 , 王赟芝 , 方琳 , 潘霞 , 张苏林 , 宗岩 , 焦莉莉 , 韩瑞龙 , 秦川琪 , 张莹

IPC分类号： G10L15/08 , G06V40/20 , G06V10/80

摘要： 本发明涉及数据处理领域，公开了一种基于车载多模交互的语音识别方法及装置、介质、设备，包括：获取车内语音数据，从车内语音数据中提取出语音特征向量；提取出面部特征向量、唇部特征向量、手势特征向量；获取车辆状态数据，从车辆状态数据中提取出车辆状态特征向量；确定面部特征向量、唇部特征向量、手势特征向量和车辆状态特征向量各自对应的调和系数；将面部特征向量、唇部特征向量、手势特征向量和车辆状态特征向量进行多模融合，得到第一融合特征向量；将第一融合特征向量和语音特征向量进行融合处理，得到第二融合特征向量；将第二融合特征向量输入至语音识别模型中，得到语音识别结果。本发明实施例可以提高车载语音识别准确率。

2.

发明授权
基于车载多模交互的语音识别方法及装置、介质和设备有权

公开(公告)号：CN115410561B

公开(公告)日：2023-02-17

申请号：CN202211359138.1

申请日：2022-11-02

申请人： 中汽数据有限公司

发明人： 王增喜 , 于波 , 王赟芝 , 方琳 , 潘霞 , 张苏林 , 宗岩 , 焦莉莉 , 韩瑞龙 , 秦川琪 , 张莹

IPC分类号： G10L15/08 , G06V40/20 , G06V10/80

摘要： 本发明涉及数据处理领域，公开了一种基于车载多模交互的语音识别方法及装置、介质、设备，包括：获取车内语音数据，从车内语音数据中提取出语音特征向量；提取出面部特征向量、唇部特征向量、手势特征向量；获取车辆状态数据，从车辆状态数据中提取出车辆状态特征向量；确定面部特征向量、唇部特征向量、手势特征向量和车辆状态特征向量各自对应的调和系数；将面部特征向量、唇部特征向量、手势特征向量和车辆状态特征向量进行多模融合，得到第一融合特征向量；将第一融合特征向量和语音特征向量进行融合处理，得到第二融合特征向量；将第二融合特征向量输入至语音识别模型中，得到语音识别结果。本发明实施例可以提高车载语音识别准确率。