-
公开(公告)号:CN111967334A
公开(公告)日:2020-11-20
申请号:CN202010699862.3
申请日:2020-07-20
摘要: 本发明公开了一种人体意图识别方法,所述方法包括:实时采集当前人体的特征信号;基于所述特征信号生成所述当前人体对应的多源数据特征以及眼睛选定的注视点坐标;识别所述多源数据特征以及眼睛选定的注视点坐标,生成所述多源数据特征对应的语音文本以及所述注视点坐标对应的场景图像描述文本;针对所述语音文本以及场景图像描述文本进行实体抽取,生成所述语音文本以及场景图像描述文本对应的实体片段;采用共指消解算法处理所述实体片段,生成目标对象;基于所述语音文本、场景图像描述文本以及目标对象,生成人体意图识别结果。因此,采用本申请实施例,通过针对特定场景的口眼协同交互信息处理后得到识别结果,从而提升了机器识别人体意图的准确率。
-
公开(公告)号:CN112151030A
公开(公告)日:2020-12-29
申请号:CN202010928961.4
申请日:2020-09-07
摘要: 本发明公开了一种基于多模态的复杂场景语音识别方法,其步骤包括:若监测到所采集的用户唇部图像发生变化,则同步采集语音输入对应的音频信号、唇部图像信号和面部肌电信号,确定信号在空间和时间域的多源数据特征,使用语音识别模型对多源数据特征进行编码和建模,获得不同模态表达内容的共性信息,得到多模态语音信息,使用语言模型,合成文本。本发明还公开了基于多模态的复杂场景语音识别装置,包括数据采集模块、特征提取模块、编解码模块、文本合成模块和交互模块。本发明实现了在声带受损、高噪声、高封闭、高隐私性要求等复杂场景环境下的高效、准确、鲁棒的语音识别,为复杂人机交互场景提供了更可靠的语音交互技术和系统。
-
-
公开(公告)号:CN111967334B
公开(公告)日:2023-04-07
申请号:CN202010699862.3
申请日:2020-07-20
摘要: 本发明公开了一种人体意图识别方法,所述方法包括:实时采集当前人体的特征信号;基于所述特征信号生成所述当前人体对应的多源数据特征以及眼睛选定的注视点坐标;识别所述多源数据特征以及眼睛选定的注视点坐标,生成所述多源数据特征对应的语音文本以及所述注视点坐标对应的场景图像描述文本;针对所述语音文本以及场景图像描述文本进行实体抽取,生成所述语音文本以及场景图像描述文本对应的实体片段;采用共指消解算法处理所述实体片段,生成目标对象;基于所述语音文本、场景图像描述文本以及目标对象,生成人体意图识别结果。因此,采用本申请实施例,通过针对特定场景的口眼协同交互信息处理后得到识别结果,从而提升了机器识别人体意图的准确率。
-
公开(公告)号:CN114821781B
公开(公告)日:2024-06-07
申请号:CN202210442789.0
申请日:2022-04-25
IPC分类号: G06V40/20 , G06V20/40 , G06V10/143 , G06V10/80 , G06V10/82 , G06N3/0442 , G06N3/0464 , G10L15/25
摘要: 本发明公开了一种基于红外微光望远镜的多源融合唇语识别方法和系统,方法包括获取红外热成像视频和微光视频,提取唇部区域的红外热成像图像数据和微光图像数据;使用多源融合唇语识别模型对唇部区域的红外热成像图像数据和微光图像数据进行识别,得到识别出的文本;将识别出的文本显示或发送至其他接收设备。本发明所提供的方法,为在复杂光照环境、远距离和特殊应用场合提供了更加安全可靠的信息获取与交互方式,弥补了单一视频数据来源特征提取和唇部图像识别的局限性,通过多源数据特征融合建模极大地提高了唇语识别的准确性,拓展了唇语识别技术的应用范围和场景,为唇语识别技术的发展提供了新的方向。
-
公开(公告)号:CN114821781A
公开(公告)日:2022-07-29
申请号:CN202210442789.0
申请日:2022-04-25
摘要: 本发明公开了一种基于红外微光望远镜的多源融合唇语识别方法和系统,方法包括获取红外热成像视频和微光视频,提取唇部区域的红外热成像图像数据和微光图像数据;使用多源融合唇语识别模型对唇部区域的红外热成像图像数据和微光图像数据进行识别,得到识别出的文本;将识别出的文本显示或发送至其他接收设备。本发明所提供的方法,为在复杂光照环境、远距离和特殊应用场合提供了更加安全可靠的信息获取与交互方式,弥补了单一视频数据来源特征提取和唇部图像识别的局限性,通过多源数据特征融合建模极大地提高了唇语识别的准确性,拓展了唇语识别技术的应用范围和场景,为唇语识别技术的发展提供了新的方向。
-
-
-
-
-