一种基于BERT预训练语言模型的语音指令识别方法

    公开(公告)号:CN119479646A

    公开(公告)日:2025-02-18

    申请号:CN202411591268.7

    申请日:2024-11-08

    Abstract: 本发明涉及语音识别技术领域,公开了一种基于BERT预训练语言模型的语音指令识别方法,该方法包括:接收待识别语音,并通过自动语音识别模型将待识别语音转化为文本序列;微调BERT预训练语言模型,并利用微调后的BERT预训练语言模型对文本序列进行文本分类,得到待识别语音对应的指令类别;利用知识蒸馏对微调后的BERT预训练语言模型进行模型压缩,得到序列分类模型;利用序列分类模型对文本序列进行特征提取,得到待识别语音对应的指令类别标签,本发明考虑到音频数据较文本数据更难获取的情况,选用BERT预训练语言模型,提高分类准确性,利用知识蒸馏进行模型压缩,识别到待识别语音指令类别标签,为人机交互提供数据支撑。

    一种无标记的轻量化Web AR方法及系统

    公开(公告)号:CN113936120B

    公开(公告)日:2024-07-12

    申请号:CN202111184543.X

    申请日:2021-10-12

    Abstract: 本发明公开了一种无标记的轻量化Web AR方法及系统,该方法包括:Web终端采集环境图像,实时获取视频流和IMU数据;根据获取的视频流和IMU数据进行位姿估计,其中,所述位姿估计通过系统文件中的视觉惯性里程计算法和轻量级位姿估计来确定,并使用视觉惯性里程计算法求解的路标点更新地图;判断视觉惯性里程计算法得到的位姿是否有效,如果有效,则采用视觉惯性里程计算法得到的位姿更新虚拟世界的相机位姿和场景,否则,采用轻量级位姿估计得到的结果进行更新;根据系统文件中的AR模型,对更新后的虚拟世界的相机位姿和场景进行渲染,并将渲染后的结果输出给视频流,呈现给用户。

    一种三维人体重建方法及系统
    25.
    发明公开

    公开(公告)号:CN118037952A

    公开(公告)日:2024-05-14

    申请号:CN202410086329.8

    申请日:2024-01-22

    Abstract: 本发明公开一种三维人体重建方法及系统,该方法包括:获取人体姿态数据集和RGBD图像训练数据,基于人体姿态数据集和RGBD图像训练数据,分别构建人体形状网络模型和深度隐式人体表面网络模型;实时获取人体的RGBD图像,将RGBD图像输入到人体形状网络模型和深度隐式人体表面网络模型,得到人体形状模型以及表征全局深度RGBD图像;将表征全局深度RGBD图像投影至三维空间,得到三维点集,并从三维点集中获得采样点集;获取所有采样点的采样点特征,根据采样点特征和人体形状模型,计算采样点的表面占用值;并根据表面占用值,利用等直面提取法从对应采样点中提取人体表面模型,获得三维人体模型。本发明能够较为便捷地获取输入信息并且得到高质量的三维人体模型。

    一种单目视觉惯性里程计方法及系统

    公开(公告)号:CN118032001A

    公开(公告)日:2024-05-14

    申请号:CN202410089910.5

    申请日:2024-01-23

    Abstract: 本发明公开了一种单目视觉惯性里程计方法及系统,该方法包括:获取数据图像以及IMU数据;对数据图像进行特征提取,得到光流特征,并对光流特征进行编码,得到图像特征编码结果;对IMU数据进行数据转换,并对转换后的IMU数据进行积分处理,生成基于IMU的位姿变化量;根据图像特征编码结果和位置变化量,估计出最终位置变化量;并基于最终位置变化量,对具有位移估计部分元和角度估计部分的基于多尺度Transformer的神经网络模型进行训练,得到位姿估计模型;利用位姿估计模型,基于单目相机捕获的实时数据图像和惯性传感器所采集的实时IMU数据,进行最后位姿估计。本发明操作门槛低,计算量少,长距离估计精度高。

    一种支持增强现实功能的Web浏览器系统及其工作方法

    公开(公告)号:CN108255487B

    公开(公告)日:2024-01-23

    申请号:CN201711479633.5

    申请日:2017-12-29

    Abstract: 本发明提供一种支持增强现实功能的Web浏览器系统及其工作方法,所述系统包括:用户界面,用于向用户提供可视化界面;浏览器内核子系统,用于在网页中拉起摄像头,并获取摄像头所拍摄的视频流,将所述视频流进行解码获得待处理的图像,并对增强现实业务所需要的虚拟信息进行渲染;增强现实扩展内核子系统,用于封装增强现实所需要的底层算法,管理需要被识别的标识物,绑定虚拟信息和Marker之间的位置关系,并在摄像头位置变化和/或Marker位置变化时保持虚拟信息和Marker之间的位置约束关系。本发明能够实现增强现实应用/活动的大规模普适化推广应用。

    一种端云融合的室内Web AR导航方法及系统

    公开(公告)号:CN116429103A

    公开(公告)日:2023-07-14

    申请号:CN202211739315.9

    申请日:2022-12-30

    Abstract: 本发明实现了一种端云融合的室内Web AR导航方法及系统,具体工作分为以下几点:(1)本发明引入了基于地图构建的视觉定位方式,相较于其他定位系统,部署简单成本低。(2)本发明依赖三维重建从相机运动中恢复周围环境,构建稀疏点云地图并实现尺度恢复以适配真实环境的坐标系,确保预先构建的地图可用且精度高。(3)本发明采用分层定位方式以实现大规模地图定位,考虑到只依赖视觉定位方式无法满足Web AR导航系统的实时性,引入了行人航位推算以实现短期位姿跟踪。(4)本发明统一云端视觉定位和PDR求解位姿,使得行人运动轨迹平滑。(5)本发明通过将AR导航功能移植至Web端以实现无需部署的跨平台系统。

    一种支持实时背景替换的居家办公视频监控方法及系统

    公开(公告)号:CN115209111A

    公开(公告)日:2022-10-18

    申请号:CN202210884211.0

    申请日:2022-07-26

    Abstract: 本发明公开了一种支持实时背景替换的居家办公视频监控方法及系统,其方法步骤如下:客户端用户通过电脑登录推流客户端程序,登录成功后客户端用户工作状态由离线更新为在线;客户端用户点击工作按钮,监控模块会向客户端用户申请摄像头权限,客户端用户授权摄像头权限后,监控模块会实时采集客户端用户的摄像头视频流。本发明能够采集、处理和分析多个监控视频流,对视频中的人员进行实时前景分割以及背景替换,并且对当前所有监控进行信息汇总与可视化,能够实时提供员工的监控信息和考勤数据,解决了员工居家办公时监管困难的问题,同时确保了监控内容的实时性、隐私性和安全性,对公司居家办公考勤管理有很大的帮助。

Patent Agency Ranking