发明公开
- 专利标题: 一种基于多模态的复杂场景语音识别方法和装置
-
申请号: CN202010928961.4申请日: 2020-09-07
-
公开(公告)号: CN112151030A公开(公告)日: 2020-12-29
- 发明人: 印二威 , 吴竞寒 , 闫慧炯 , 谢良 , 邓宝松 , 范晓丽 , 罗治国 , 闫野
- 申请人: 中国人民解放军军事科学院国防科技创新研究院 , 天津(滨海)人工智能军民融合创新中心
- 申请人地址: 北京市丰台区东大街53号院
- 专利权人: 中国人民解放军军事科学院国防科技创新研究院,天津(滨海)人工智能军民融合创新中心
- 当前专利权人: 中国人民解放军军事科学院国防科技创新研究院,天津(滨海)人工智能军民融合创新中心
- 当前专利权人地址: 北京市丰台区东大街53号院
- 代理机构: 北京丰浩知识产权代理事务所
- 代理商 李学康
- 主分类号: G10L15/22
- IPC分类号: G10L15/22 ; G10L15/06 ; G10L15/16 ; G10L15/25 ; G10L25/24 ; G10L25/30 ; G10L25/45
摘要:
本发明公开了一种基于多模态的复杂场景语音识别方法,其步骤包括:若监测到所采集的用户唇部图像发生变化,则同步采集语音输入对应的音频信号、唇部图像信号和面部肌电信号,确定信号在空间和时间域的多源数据特征,使用语音识别模型对多源数据特征进行编码和建模,获得不同模态表达内容的共性信息,得到多模态语音信息,使用语言模型,合成文本。本发明还公开了基于多模态的复杂场景语音识别装置,包括数据采集模块、特征提取模块、编解码模块、文本合成模块和交互模块。本发明实现了在声带受损、高噪声、高封闭、高隐私性要求等复杂场景环境下的高效、准确、鲁棒的语音识别,为复杂人机交互场景提供了更可靠的语音交互技术和系统。
公开/授权文献
- CN112151030B 一种基于多模态的复杂场景语音识别方法和装置 公开/授权日:2023-11-21