-
公开(公告)号:CN116258931B
公开(公告)日:2023-09-15
申请号:CN202211611986.7
申请日:2022-12-14
Applicant: 之江实验室
IPC: G06V10/80 , G06V10/774 , G06V10/44
Abstract: 基于ViT和滑窗注意力融合的视觉指代表达理解方法,包括:获取训练图像和对应的指代表达文本;对图像和指代表达文本进行预处理;构建基于ViT和滑窗注意力融合策略的视觉指代网络;输入训练的图像及对应的指代表达文本,对视觉指代网络进行训练;将测试图像及描述图像中感兴趣目标的指代表达文本,输入到训练好的视觉指代网络模型,获得视觉指代表达理解的结果。本发明还包括基于ViT和滑窗注意力融合的视觉指代表达理解系统。本发明基于ViT的结构使用窗口注意力进行视觉特征提取和基于滑窗策略来融合多模态特征,大大降低了模型的计算量和推理时间,同时视觉指代表达理解能够帮助机器人对人的意图进行理解,从而提高人机交互的能力。
-
公开(公告)号:CN115972229B
公开(公告)日:2023-07-18
申请号:CN202310269719.4
申请日:2023-03-14
Applicant: 之江实验室
Abstract: 本发明公开了一种可快速动作的机器人伸缩装置,包括固定框,所述固定框包括安装底板、顶板及两侧的两块安装侧板,所述顶板内侧设有用于安装头部的头部安装件,所述顶板具有供头部穿过的头部避让孔;所述安装侧板内侧设有用于安装肢体的肢体安装件,所述安装侧板具有供肢体穿过的肢体避让孔;所述固定框内设有用于驱动头部安装件和肢体安装件运动、从而使头部及肢体至少部分缩进所述固定框内的驱动装置,所述驱动装置包括固定在安装底板上的舵机,以及由舵机驱动转动从而带动所述头部安装件和肢体安装件运动的转动架。
-
公开(公告)号:CN116214547A
公开(公告)日:2023-06-06
申请号:CN202310510635.5
申请日:2023-05-08
Applicant: 之江实验室
IPC: B25J11/00
Abstract: 本申请提供一种机器人头部运动机构及机器人,包括:头部组件和锥齿轮差动机构,包括可围绕左右方向延伸的第一轴线转动设置的第一锥齿轮和第二锥齿轮、以及与第一锥齿轮和第二锥齿轮啮合的第三锥齿轮,头部组件固定连接于第三锥齿轮的轴心处;锥齿轮差动机构在第一传动方式下,第一锥齿轮与第二锥齿轮的转动方向相反,第三锥齿轮在第一锥齿轮和第二锥齿轮的驱动下可围绕前后方向延伸的第二轴线转动,使头部组件可围绕第二轴线左右摆动;在第二传动方式下,第一锥齿轮和第二锥齿轮的转动方向相同,第三锥齿轮在第一锥齿轮和第二锥齿轮的驱动下可围绕第一轴线转动,使头部组件可围绕第一轴线俯仰运动。可以提高机器人头部的运动自由度。
-
公开(公告)号:CN116141341A
公开(公告)日:2023-05-23
申请号:CN202310432715.3
申请日:2023-04-21
Applicant: 之江实验室
IPC: B25J9/16
Abstract: 本发明公开了一种满足笛卡尔空间约束的五自由度机械臂指向动作实现方法,包括:获取机械臂的各个关节杆长、待指向目标点、待指向目标点轨迹序列;以腕部坐标系向外坐标轴与待指向目标点共线为主要优化目标,构建非线性优化方程组;以待指向目标点轨迹序列作为输入,使用序列最小二乘法对非线性优化方程组进行优化求解;若优化求解得到的关节变量和上一帧的关节变量的变化量超出可允许范围,则选用上一帧的关节变量赋到关节变量序列中;反之则对将优化求解得到的关节变量加入关节变量序列中,并对关节变量序列进行角度插补;将进行角度插补后的关节角度序列数据传输到机器人工控机上,以使用伺服控制的方法驱动5R机械臂指向目标点轨迹。
-
公开(公告)号:CN116071553A
公开(公告)日:2023-05-05
申请号:CN202310160328.9
申请日:2023-02-16
IPC: G06V10/26 , G06V10/764 , G06V10/82 , G06V10/80 , G06V20/70 , G06N3/0464 , G06N3/0455 , G06N3/0895 , G06N3/084
Abstract: 本发明公开了一种基于朴素Vision Transformer的弱监督语义分割方法,包括:将基于输入图像得到的补丁标记和可学习的类标记输入到transformer编码器中得到特征输出;然后基于输出的补丁标记部分通过重排列和卷积操作得到粗糙CAM,并从编码器的模型参数中提取出自注意力图;接着通过自适应注意力图融合模块对自注意力图进行融合,得到交叉注意力图和补丁自注意力图依次对粗糙CAM进行优化得到最终的细CAM;最后分别基于编码器输出的类标记、粗CAM以及细CAM通过全局池化得到类别预测,与类别标记计算交叉熵损失函数来对网络进行优化;基于梯度截断解码器的在线再训练。本发明还提供了相应的基于朴素Vision Transformer的弱监督语义分割装置。
-
公开(公告)号:CN116070173A
公开(公告)日:2023-05-05
申请号:CN202310237418.3
申请日:2023-03-07
Applicant: 之江实验室
Abstract: 本发明公开了一种跨模态任务指令理解的指读方法及系统,包括:对采集的音频数据进行语音识别得到文本数据;基于文本数据进行第一层任务分类得到第一层任务标签;在第一层任务标签为问题回答时,依据捕获图像确定指尖位置及指向信息;基于捕获图像进行目标检测得到候选视觉实体,基于指尖位置及指向信息从候选视觉实体中筛选目标视觉实体;依据目标视觉实体进行第二层任务分类确定第二层任务标签;依据第二层任务标签进行第二层任务规划并执行二层任务,该方法和系统通过将视觉确认与实体确认作为补充,以捕获缺失的代词指代对象信息,实现指代消解,帮助完成对跨模态指令的任务理解。
-
公开(公告)号:CN114419634B
公开(公告)日:2022-07-26
申请号:CN202210309939.0
申请日:2022-03-28
Applicant: 之江实验室
IPC: G06V30/40 , G06V30/304 , G06V30/148 , G06K9/62 , G06V10/26 , G06V10/762 , G06V30/19 , G06V10/764
Abstract: 本发明公开了一种基于特征规则的曲谱解析方法与装置。首先使用摄像头对纸质版的曲谱进行图像采集,在采集到的图像中检测曲谱所在的区域,并针对区域内的曲谱图像进行旋转校正。在校正后的曲谱图像中,先根据曲谱的谱线特征分离出谱线和符号,同时获取谱线及符号在图像上的像素坐标。分离出的符号根据符号特征进行分类,分为符号、描述符两种类型的符号,同时根据像素坐标可以获得三者之间的关联。符号可以获取音符的音调和拍号信息,描述符可以获取调号、谱号、连音、升降调等曲谱信息。综合符号和描述符及他们之间的关联关系,就能够智能解析出曲谱所包含的乐曲信息。本发明公开的曲谱解析方法具有音符识别准确率高的特点。
-
公开(公告)号:CN114083545B
公开(公告)日:2022-07-01
申请号:CN202210076251.2
申请日:2022-01-24
Applicant: 之江实验室
Abstract: 本发明公开了一种基于视觉感知的运动物体机器人抓取方法及装置,该方法包括:获取第一相机视角下的第一能量函数和第二相机视角下的第二能量函数;根据第一和第二能量函数,计算物体中心坐标系下的综合能量函数;对综合能量函数进行最小化,得到位姿变换增量;根据位姿变换增量,更新在每个相机视角下的物体位姿;将若干次更新后的物体位姿输入物体运动预测模型中,预测未来预定时间内物体的第一位姿;将第一位姿与抓取位姿数据库中的所有第二位姿进行比较,将与第二位姿差值最小且差值小于预定阈值的第一位姿作为抓取位姿对应的机械臂末端位姿;根据机械臂末端位姿,控制机械臂运动后控制末端执行器进行物体抓取。
-
公开(公告)号:CN114549592A
公开(公告)日:2022-05-27
申请号:CN202210433994.0
申请日:2022-04-24
Applicant: 之江实验室
Abstract: 本发明公开了一种非合作抛体的轨迹预测与捕获方法和装置,其创新性地高效应用了高帧率RGB相机以及RGBD深度相机的感知信息,实现抛体在空间的快速精确定位。基于定位信息,本发明又提出了基于卡尔曼滤波的抛体轨迹粗拟合以及基于物理学建模的轨迹精拟合实现方案,通过融合轨迹粗拟合与精拟合信息,本发明方法可根据实际场景和任务特点,低成本,高精度,高稳定性的实现空间抛体的轨迹预测与捕获。
-
公开(公告)号:CN114419634A
公开(公告)日:2022-04-29
申请号:CN202210309939.0
申请日:2022-03-28
Applicant: 之江实验室
IPC: G06V30/40 , G06V30/304 , G06V30/148 , G06K9/62 , G06V10/26 , G06V10/762 , G06V30/19 , G06V10/764
Abstract: 本发明公开了一种基于特征规则的曲谱解析方法与装置。首先使用摄像头对纸质版的曲谱进行图像采集,在采集到的图像中检测曲谱所在的区域,并针对区域内的曲谱图像进行旋转校正。在校正后的曲谱图像中,先根据曲谱的谱线特征分离出谱线和符号,同时获取谱线及符号在图像上的像素坐标。分离出的符号根据符号特征进行分类,分为符号、描述符两种类型的符号,同时根据像素坐标可以获得三者之间的关联。符号可以获取音符的音调和拍号信息,描述符可以获取调号、谱号、连音、升降调等曲谱信息。综合符号和描述符及他们之间的关联关系,就能够智能解析出曲谱所包含的乐曲信息。本发明公开的曲谱解析方法具有音符识别准确率高的特点。
-
-
-
-
-
-
-
-
-