一种基于多模态的复杂场景语音识别方法和装置

发明公开

CN112151030A 一种基于多模态的复杂场景语音识别方法和装置审中-实审

请登陆查看更多内容

专利标题： 一种基于多模态的复杂场景语音识别方法和装置
申请号： CN202010928961.4

申请日： 2020-09-07
公开(公告)号： CN112151030A

公开(公告)日： 2020-12-29
发明人: 印二威 , 吴竞寒 , 闫慧炯 , 谢良 , 邓宝松 , 范晓丽 , 罗治国 , 闫野
申请人： 中国人民解放军军事科学院国防科技创新研究院 , 天津(滨海)人工智能军民融合创新中心
申请人地址： 北京市丰台区东大街53号院
专利权人： 中国人民解放军军事科学院国防科技创新研究院,天津(滨海)人工智能军民融合创新中心
当前专利权人： 中国人民解放军军事科学院国防科技创新研究院,天津(滨海)人工智能军民融合创新中心
当前专利权人地址： 北京市丰台区东大街53号院
代理机构： 北京丰浩知识产权代理事务所
代理商 李学康
主分类号： G10L15/22
IPC分类号： G10L15/22 ; G10L15/06 ; G10L15/16 ; G10L15/25 ; G10L25/24 ; G10L25/30 ; G10L25/45

摘要：

本发明公开了一种基于多模态的复杂场景语音识别方法，其步骤包括：若监测到所采集的用户唇部图像发生变化，则同步采集语音输入对应的音频信号、唇部图像信号和面部肌电信号，确定信号在空间和时间域的多源数据特征，使用语音识别模型对多源数据特征进行编码和建模，获得不同模态表达内容的共性信息，得到多模态语音信息，使用语言模型，合成文本。本发明还公开了基于多模态的复杂场景语音识别装置，包括数据采集模块、特征提取模块、编解码模块、文本合成模块和交互模块。本发明实现了在声带受损、高噪声、高封闭、高隐私性要求等复杂场景环境下的高效、准确、鲁棒的语音识别，为复杂人机交互场景提供了更可靠的语音交互技术和系统。

公开/授权文献

CN112151030B 一种基于多模态的复杂场景语音识别方法和装置公开/授权日：2023-11-21

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G10	乐器；声学
G10L	语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码
G10L15/00	语音识别（G10L17/00优先）
G10L15/22	.在语音识别过程中（例如在人机对话过程中）使用的程序