一种基于多模态的复杂场景语音识别方法和装置
摘要:
本发明公开了一种基于多模态的复杂场景语音识别方法,其步骤包括:若监测到所采集的用户唇部图像发生变化,则同步采集语音输入对应的音频信号、唇部图像信号和面部肌电信号,确定信号在空间和时间域的多源数据特征,使用语音识别模型对多源数据特征进行编码和建模,获得不同模态表达内容的共性信息,得到多模态语音信息,使用语言模型,合成文本。本发明还公开了基于多模态的复杂场景语音识别装置,包括数据采集模块、特征提取模块、编解码模块、文本合成模块和交互模块。本发明实现了在声带受损、高噪声、高封闭、高隐私性要求等复杂场景环境下的高效、准确、鲁棒的语音识别,为复杂人机交互场景提供了更可靠的语音交互技术和系统。
0/0