-
公开(公告)号:CN118509716A
公开(公告)日:2024-08-16
申请号:CN202410539709.2
申请日:2024-04-30
摘要: 本发明公开了一种音视耳机唇语视频帧校正方法及装置,该方法包括:获取音视耳机的唇语采集摄像头的优化内参矩阵和优化外参矩阵;使用唇语采集摄像头采集唇语视频;利用优化内参矩阵和优化外参矩阵,对唇语视频中的每个唇语视频帧进行处理,得到去畸变唇语视频帧;提取每个去畸变唇语视频帧的关键特征点集合;利用关键特征点集合对齐去畸变唇语视频帧,得到矫正唇语视频帧。本发明方法能够有效提高视听耳机唇语识别的精度,且算法简单,硬件要求低,能够在计算性能受限的芯片上快速部署。
-
公开(公告)号:CN118466532A
公开(公告)日:2024-08-09
申请号:CN202410545464.4
申请日:2024-05-02
IPC分类号: G05D1/46
摘要: 本发明公开了一种无人机飞行与载荷协同控制装置及方法,该方法包括:所述左手数据采集单元和右手数据采集单元分别采集左手运动数据信息和右手运动数据信息;所述飞行数据处理单元,对所述运动数据信息进行手势识别,得到所述载荷控制指令和所述飞行控制指令,并发送至所述无人机控制执行单元;所述无人机控制执行单元,控制无人机执行所述载荷控制指令和飞行控制指令,得到所述无人机飞行状态信息,反馈所述无人机飞行状态信息至飞行数据处理单元,并利用所述屏幕显示模块进行实时显示。本发明替代遥控器操作无人机,实现了无人机飞行和载荷的协同控制,突破了现有研究中仅控制无人机飞行而忽略对无人机载荷进行控制的局限性。
-
公开(公告)号:CN118397087A
公开(公告)日:2024-07-26
申请号:CN202410545461.0
申请日:2024-05-01
IPC分类号: G06T7/73 , G06T7/90 , G06V10/26 , G06V10/44 , G06V10/75 , G06V10/82 , G06V20/64 , G06N3/0464 , G06N3/0895
摘要: 本发明公开了一种全景相机位姿估计方法及装置,所述方法包括:获取所述定位场景的三维稠密点云;利用所述定位场景的三维稠密点云和所述虚拟全景相机的位姿信息,生成定位场景的合成全景图像;对全景图像进行分割处理,得到定位场景的透视图;对透视图进行特征提取与匹配,得到真实全景图像特征点与合成全景图像的对应点的点对数据集;利用全景图像定位算法模型和全局位姿优化模型,对所述点对数据集进行处理,得到定位场景的全局最优位姿信息。本发明实现了全景相机快速准确的自主定位,解决了全景图像失真导致定位效果降低的问题。
-
公开(公告)号:CN117826985A
公开(公告)日:2024-04-05
申请号:CN202311622882.0
申请日:2023-11-30
摘要: 本发明公开了一种用于人机交互的一体式智能AR设备,包括前端、中端和后端三个部分,前端包括显示模块、SLAM模块、环境感知模块、距离感应模块、语音采集模块、眼动模块、用于为SLAM模块、显示模块的发热位置进行散热的前端散热模块和转轴调节模块;中端包括侧带模块、走线模块、扬声器模块、音量调节模块、确认与返回模块和头带模块;后端包括主控模块、后端散热模块、转轴调节模块、亮度调节模块、指示灯模块、外部接口、开关模块、能源模块和光感模块,相比现有技术,本发明一体式设计,重心分配合理,提高整体设备佩戴舒适性,将整个AR设备佩戴到头上,避免绕线的风险,通过调节机构调节头带大小,以适配不同人的使用需求。
-
公开(公告)号:CN117826419A
公开(公告)日:2024-04-05
申请号:CN202311622878.4
申请日:2023-11-30
摘要: 本本发明公开了一种小空间多功能AR头显结构,包括头显结构,头显结构包括外部壳体和内部模组,内部模组包括显示模组、眼动模组、SLAM模组、散热模组以及主支撑结构,主支撑结构包括主金属支撑支架,主金属支撑支架上方固定有四个鱼眼摄像头、RGB摄像头、SLAM接口压板、散热支架、显示板和SLAM板,且采用上下堆叠的方式,直接或间接与主金属支撑支架连接;显示模组固定于主金属支撑支架下方,相比现有技术,本发明合理布置各个模组之间的位置关系,在确保功能正常情况下,最小化了体积空间;在功能上满足AR产品应用的基本需求,集成了光学显示、眼动追踪、SLAM、图像采集、语音交互等功能,集成度高。
-
公开(公告)号:CN117334197A
公开(公告)日:2024-01-02
申请号:CN202311236657.3
申请日:2023-09-22
IPC分类号: G10L15/25 , G10L15/20 , G06V40/16 , G06V10/82 , G06N3/0464
摘要: 本发明公开了一种基于图像处理的唇语识别方法及装置,该方法包括:获取待识别图像信息;待识别图像信息包括若干张采集用户语音输入时同步获取的人脸图像;对待识别图像信息进行特征提取处理,得到唇部特征信息;唇部特征信息包括若干个唇部特征向量;对唇部特征信息进行识别处理,得到唇语识别结果。可见,本申请有利于提高在高噪声环境下语音识别的准确率,从而提高语音识别的精度和鲁棒性。
-
公开(公告)号:CN115906906A
公开(公告)日:2023-04-04
申请号:CN202211452497.1
申请日:2022-11-21
摘要: 本发明涉及图像处理技术以及增强现实技术领域,尤其涉及一种人工标识生成方法、解码方法及系统,本发明设计的黑白色人工标识包括n×n个编码位,编码位基色为黑色,依据是否包含白色图形来表示1或者0,编码位由黑色方形边框包围,方形边框用以辅助算法快速定位以及提供4个用于求解位姿的角点;任选一个编码位填充基色为黑色的异类多边形,异类多边形负责规定整个标识的解码顺序;剩下的编码位都填充与异类多边形不一样的多边形,负责信息的存储;本发明提供的检测识别方法,无需校验位即可保证识别准确率,且在识别阶段无需考虑旋转即可正确识别,计算步骤得到了简化。标识可提供n×n+4个特征点以供位姿解算,因此得到的位姿解算精度更高。
-
公开(公告)号:CN113269157B
公开(公告)日:2022-09-16
申请号:CN202110772691.7
申请日:2021-07-08
摘要: 本发明公开了一种隐秘环境下融合IMU和sEMG的加密手势识别方法,其步骤包括:在肌电手环的稀疏电极间加入一个压力传感器,使用肌电手环采集sEMG,并由压力传感器获得压力数据,同时使用数据手套采集IMU信号;将所采集的肌电信号传入压力补偿模块,根据获得的压力数据对所述采集的sEMG进行补偿;通过sEMG识别使用者身份后自动按照预先设定的加密融合方法对sEMG与IMU进行融合;然后将融合模块输出的融合图像传至手势识别模块进行手势的分类与识别,得到识别结果。本方法无需任何视觉信号,可以在隐秘环境下进行操控,并且通过sEMG信号加密与所提出的sEMG与IMU信号融合方法更加保证了控制的安全性。
-
公开(公告)号:CN114821753A
公开(公告)日:2022-07-29
申请号:CN202210432529.5
申请日:2022-04-23
IPC分类号: G06V40/18 , G06V10/774 , G06V10/82 , G06N3/04 , G06F3/01
摘要: 本发明公开了一种基于视觉图像信息的眼动交互系统,包括头戴式AR眼镜、睁闭眼识别模块、注视点坐标预测模块、闭眼计时模块和指令集识别模块。头戴式AR眼镜逐帧采集双眼图像,睁闭眼识别模块负责识别左右双眼分别处于睁眼状态还是闭眼状态,如果睁闭眼识别模块将双眼图像都识别为睁眼状态,则利用注视点坐标预测模块实时预测当前双眼的注视点坐标。如果有一只眼睛图像识别为闭眼状态或者双眼图像都识别为闭眼状态,则利用指令集识别模块对眼动动作指令进行判别。本发明系统无须繁琐的标定过程,可以随戴随用,同时具有良好的自适应性和鲁棒性,具有低成本以及适用性广泛的优点。
-
公开(公告)号:CN113419624A
公开(公告)日:2021-09-21
申请号:CN202110587991.8
申请日:2021-05-27
摘要: 本发明公开了一种基于头部时序信号校正的眼动交互方法与装置,属于计算机视觉技术领域。所述方法包括:采集大量连续多帧双眼图像以及对应的头部运动时序信息、实际屏幕注视点坐标,并对采集到的数据进行预处理;使用所采集的大量数据训练深度卷积网络注视点预测模型,获得连续多帧双眼图像和头部运动时序信息到预估注视点坐标的映射关系;将已有或实时采集数据输入已完成训练的深度卷积网络注视点预测模型,获取预估注视点。本发明融合头部时序信号与眼部图像时序信号,使用深度学习强大的特征处理能力,能准确快速估计人眼注视点;通过预先训练深度卷积网络注视点预测模型,新用户使用时无需校正,直接佩戴头戴式眼动仪即可进行实时眼动交互。
-
-
-
-
-
-
-
-
-