专利检索 ap:("中国人民解放军军事科学院国防科技创新研究院" OR "天津(滨海)人工智能军民融合创新中心") AND inv:"吴竞寒" 第 1 页

1.

发明公开
一种人体意图识别方法、系统以及存储介质有权

公开(公告)号：CN111967334A

公开(公告)日：2020-11-20

申请号：CN202010699862.3

申请日：2020-07-20

申请人： 中国人民解放军军事科学院国防科技创新研究院 , 天津(滨海)人工智能军民融合创新中心

发明人： 闫野 , 吴竞寒 , 印二威 , 谢良 , 邓宝松 , 范晓丽 , 罗治国 , 闫慧炯 , 杨超

IPC分类号： G06K9/00 , G06K9/62 , G06F40/30 , G06N3/04 , G06N3/08

摘要： 本发明公开了一种人体意图识别方法，所述方法包括：实时采集当前人体的特征信号；基于所述特征信号生成所述当前人体对应的多源数据特征以及眼睛选定的注视点坐标；识别所述多源数据特征以及眼睛选定的注视点坐标，生成所述多源数据特征对应的语音文本以及所述注视点坐标对应的场景图像描述文本；针对所述语音文本以及场景图像描述文本进行实体抽取，生成所述语音文本以及场景图像描述文本对应的实体片段；采用共指消解算法处理所述实体片段，生成目标对象；基于所述语音文本、场景图像描述文本以及目标对象，生成人体意图识别结果。因此，采用本申请实施例，通过针对特定场景的口眼协同交互信息处理后得到识别结果，从而提升了机器识别人体意图的准确率。

2.

发明公开
一种基于多模态的复杂场景语音识别方法和装置审中-实审

公开(公告)号：CN112151030A

公开(公告)日：2020-12-29

申请号：CN202010928961.4

申请日：2020-09-07

申请人： 中国人民解放军军事科学院国防科技创新研究院 , 天津(滨海)人工智能军民融合创新中心

发明人： 印二威 , 吴竞寒 , 闫慧炯 , 谢良 , 邓宝松 , 范晓丽 , 罗治国 , 闫野

IPC分类号： G10L15/22 , G10L15/06 , G10L15/16 , G10L15/25 , G10L25/24 , G10L25/30 , G10L25/45

摘要： 本发明公开了一种基于多模态的复杂场景语音识别方法，其步骤包括：若监测到所采集的用户唇部图像发生变化，则同步采集语音输入对应的音频信号、唇部图像信号和面部肌电信号，确定信号在空间和时间域的多源数据特征，使用语音识别模型对多源数据特征进行编码和建模，获得不同模态表达内容的共性信息，得到多模态语音信息，使用语言模型，合成文本。本发明还公开了基于多模态的复杂场景语音识别装置，包括数据采集模块、特征提取模块、编解码模块、文本合成模块和交互模块。本发明实现了在声带受损、高噪声、高封闭、高隐私性要求等复杂场景环境下的高效、准确、鲁棒的语音识别，为复杂人机交互场景提供了更可靠的语音交互技术和系统。

3.

发明授权
一种基于多模态的复杂场景语音识别方法和装置有权

公开(公告)号：CN112151030B

公开(公告)日：2023-11-21

申请号：CN202010928961.4

申请日：2020-09-07

申请人： 中国人民解放军军事科学院国防科技创新研究院 , 天津(滨海)人工智能军民融合创新中心

发明人： 印二威 , 吴竞寒 , 闫慧炯 , 谢良 , 邓宝松 , 范晓丽 , 罗治国 , 闫野

IPC分类号： G10L15/22 , G10L15/06 , G10L15/16 , G10L15/25 , G10L25/24 , G10L25/30 , G10L25/45

4.

发明授权
一种人体意图识别方法、系统以及存储介质有权

公开(公告)号：CN111967334B

公开(公告)日：2023-04-07

申请号：CN202010699862.3

申请日：2020-07-20

申请人： 中国人民解放军军事科学院国防科技创新研究院 , 天津(滨海)人工智能军民融合创新中心

发明人： 闫野 , 吴竞寒 , 印二威 , 谢良 , 邓宝松 , 范晓丽 , 罗治国 , 闫慧炯 , 杨超

IPC分类号： G06F18/10 , G06F18/24 , G06F18/25 , G06F40/30 , G06N3/0464 , G06N3/08

摘要： 本发明公开了一种人体意图识别方法，所述方法包括：实时采集当前人体的特征信号；基于所述特征信号生成所述当前人体对应的多源数据特征以及眼睛选定的注视点坐标；识别所述多源数据特征以及眼睛选定的注视点坐标，生成所述多源数据特征对应的语音文本以及所述注视点坐标对应的场景图像描述文本；针对所述语音文本以及场景图像描述文本进行实体抽取，生成所述语音文本以及场景图像描述文本对应的实体片段；采用共指消解算法处理所述实体片段，生成目标对象；基于所述语音文本、场景图像描述文本以及目标对象，生成人体意图识别结果。因此，采用本申请实施例，通过针对特定场景的口眼协同交互信息处理后得到识别结果，从而提升了机器识别人体意图的准确率。

5.

发明授权
一种基于红外微光望远镜的多源融合唇语识别方法和系统有权

公开(公告)号：CN114821781B

公开(公告)日：2024-06-07

申请号：CN202210442789.0

申请日：2022-04-25

申请人： 中国人民解放军军事科学院国防科技创新研究院

发明人： 张亚坤 , 张敬 , 吴竞寒 , 秦伟 , 印二威 , 谢良 , 罗治国 , 张皓洋 , 闫野

IPC分类号： G06V40/20 , G06V20/40 , G06V10/143 , G06V10/80 , G06V10/82 , G06N3/0442 , G06N3/0464 , G10L15/25

摘要： 本发明公开了一种基于红外微光望远镜的多源融合唇语识别方法和系统，方法包括获取红外热成像视频和微光视频，提取唇部区域的红外热成像图像数据和微光图像数据；使用多源融合唇语识别模型对唇部区域的红外热成像图像数据和微光图像数据进行识别，得到识别出的文本；将识别出的文本显示或发送至其他接收设备。本发明所提供的方法，为在复杂光照环境、远距离和特殊应用场合提供了更加安全可靠的信息获取与交互方式，弥补了单一视频数据来源特征提取和唇部图像识别的局限性，通过多源数据特征融合建模极大地提高了唇语识别的准确性，拓展了唇语识别技术的应用范围和场景，为唇语识别技术的发展提供了新的方向。

6.

发明公开
一种基于红外微光望远镜的多源融合唇语识别方法和系统审中-实审

公开(公告)号：CN114821781A

公开(公告)日：2022-07-29

申请号：CN202210442789.0

申请日：2022-04-25

申请人： 中国人民解放军军事科学院国防科技创新研究院

发明人： 张亚坤 , 张敬 , 吴竞寒 , 秦伟 , 印二威 , 谢良 , 罗治国 , 张皓洋 , 闫野

IPC分类号： G06V40/20 , G06V20/40 , G06V10/143 , G06V10/80 , G06V10/82 , G06N3/04 , G10L15/25

摘要： 本发明公开了一种基于红外微光望远镜的多源融合唇语识别方法和系统，方法包括获取红外热成像视频和微光视频，提取唇部区域的红外热成像图像数据和微光图像数据；使用多源融合唇语识别模型对唇部区域的红外热成像图像数据和微光图像数据进行识别，得到识别出的文本；将识别出的文本显示或发送至其他接收设备。本发明所提供的方法，为在复杂光照环境、远距离和特殊应用场合提供了更加安全可靠的信息获取与交互方式，弥补了单一视频数据来源特征提取和唇部图像识别的局限性，通过多源数据特征融合建模极大地提高了唇语识别的准确性，拓展了唇语识别技术的应用范围和场景，为唇语识别技术的发展提供了新的方向。

搜索结果

国家/区域

专利有效性

申请日

公布(公告)日

申请人

申请人所在国/区域

发明人

IPC

IPC部

IPC大类

IPC小类

IPC大组

IPC小组

外观分类