基于表检索的同时定位与建图方法和装置

    公开(公告)号:CN112116657B

    公开(公告)日:2023-12-19

    申请号:CN202010787859.7

    申请日:2020-08-07

    发明人: 宋呈群 程俊

    摘要: 本申请提供一种基于表检索的同时定位与建图方法和装置,方法通过获取用于进行同时定位与建图的关键图像帧,并对关键图像帧进行特征提取处理,获取第一特征;对第一特征进行语义检测,获取关键图像帧中各第一特征的语义信息;基于动态构建的语义表对关键图像帧中各第一特征的语义信息进行检索匹配,识别出关键图像帧中拍摄到的视为静态对象物体的第二特征;通过动态构建的语义表检索对第二特征进行数据关联/回环检测处理,基于关键图像帧生成对应的实时环境地图,动态构建的语义表用于记载在构建实时环境地图过程中从历史拍摄的关键图像帧中获得的所有第一特征的语义信息。该方法通过语义表检索快速获得建图地标,计算成本低,耗时少,实时性好。

    视觉SLAM路径规划方法、装置、电子设备及存储介质

    公开(公告)号:CN117213515A

    公开(公告)日:2023-12-12

    申请号:CN202311170257.7

    申请日:2023-09-11

    IPC分类号: G01C21/34 G01C21/30

    摘要: 本申请涉及一种视觉SLAM路径规划方法、装置、电子设备以及存储介质。所述方法包括:获取当前场景的离线地图,所述当前场景的离线地图由SLAM算法预先构建;通过相机获取当前图像帧,对当前图像帧进行ORB特征点提取,并将ORB特征点与当前场景的离线地图进行匹配,得到所述相机的位姿信息;通过深度学习模型对所述当前图像帧进行目标点检测,并利用位姿变换计算得到目标点的位置坐标;以所述相机的位姿信息作为路径规划的起始点,以所述目标点的位置坐标作为路径规划的终点,使用路径规划算法在所述离线地图上进行路径规划。本申请实施例充分利用了离线地图的信息,能够较为准确地匹配特征点与地图点,得到较为准确的位姿信息。

    基于注意力机制的多模态信息融合识别方法及系统

    公开(公告)号:CN114332573A

    公开(公告)日:2022-04-12

    申请号:CN202111557072.2

    申请日:2021-12-18

    摘要: 本发明涉及一种基于注意力机制的多模态信息融合识别方法及系统。该方法及系统首先对人体动作的RGB和depth视频帧序列进行压缩表示,生成整个视频的时空信息表示图;然后分别将RGB和depth的时空表示图输入双流深度卷积网络提取其高层语义特征;之后将这两种模态的特征输入注意力信息融合模块得到两个不同的多模态融合特征表示;最后将这两个多模态特征向量相加或拼接操作整合成一个特征向量,通过全连接层和softmax函数分类,得到待测视频中的所属动作类,能够有效地利用RGB和depth数据的互补信息,产生语义丰富的多模态特征表示,极大地提高人体动作识别的准确率和抗干扰能力。

    一种行人轨迹预测方法、系统、设备及存储介质

    公开(公告)号:CN118172383A

    公开(公告)日:2024-06-11

    申请号:CN202211580181.0

    申请日:2022-12-09

    摘要: 本申请实施例涉及行人轨迹预测技术领域,特别涉及一种行人轨迹预测方法、系统、设备及存储介质,该方法包括以下步骤:首先,基于行人的历史轨迹序列,构建时空图;然后,对时空图的边缘特征进行初始化处理,并通过边缘特征选择机制,对空域图初始邻接矩阵进行处理,得到空域图的邻接矩阵;接下来,分别在时域图初始邻接矩阵、空域图的邻接矩阵中提取时空特征,并将时空特征与节点特征进行特征融合,得到空域特征表达、时域特征表达;最后,将空域特征表达、时域特征表达进行时空特征融合,并解码得预测轨迹的坐标分布。本申请提供的行人轨迹预测方法,能够融合行人的空间交互和轨迹的时域依赖性,提高行人轨迹的预测精确度。

    一种基于文本的图像编辑方法和电子设备

    公开(公告)号:CN114092758A

    公开(公告)日:2022-02-25

    申请号:CN202111188395.9

    申请日:2021-10-12

    摘要: 本申请涉及图像处理领域,提供了一种基于文本的图像编辑方法和电子设备,所述方法包括:获取目标源图像的图像整体特征和图像局部特征,以及目标文本的句子整体特征和句子词特征;根据图像整体特征、图像局部特征、句子整体特征和句子词特征,基于图像编辑模型对目标源图像进行编辑,得到目标编辑图像;其中,图像编辑模型包括:采样编码模块和至少一个级联的生成模块。采用编码模块可以输出图像编辑过程的中间编辑结果,若中间编辑结果不满足用户需求,图像编辑模型可以调整中间编辑结果,将调整后的中间结果输入至少一个级联的生成模块,从而解决了ManiGAN输出的图像编辑结果不符合用户要求的问题。

    交互投影方法及装置
    8.
    发明授权

    公开(公告)号:CN106774846B

    公开(公告)日:2019-12-03

    申请号:CN201611050637.7

    申请日:2016-11-24

    发明人: 程俊 宋呈群 姜军

    IPC分类号: G06F3/01

    摘要: 本发明适用于图像处理技术领域,提供了一种交互投影方法及装置,包括:依据投射画面预测得出第一投影图像,并根据所述第一投影图像和摄像机捕获到的所述投射画面的第二投影图像提取手部前景及所述手部阴影;从所述手部前景及所述手部阴影中,获取指尖和所述指尖阴影的位置;根据所述指尖和所述指尖阴影的位置进行触控判定。上述交互投影方法利用单个普通摄像头即可实现用于交互的手部动作提取与触控判定,设备结构简单,操作容易实现,且不需要昂贵的深度摄像机或高速摄像机,可实现低成本的徒手人机交互。

    一种视频动作检测方法、终端及存储介质

    公开(公告)号:CN116137072A

    公开(公告)日:2023-05-19

    申请号:CN202310191382.X

    申请日:2023-02-22

    摘要: 本发明公开了一种视频动作检测方法、终端及存储介质,采用深度优先遍历算法对待检测视频中待检测个体的骨架节点进行深度优先遍历,得到深度优先序列;选取待检测个体的其中一个骨架节点作为节点参考点,并基于节点参考点以及该待检测视频的骨架序列,确定在待检测视频的每帧图像中各骨架节点所对应的RGB值;将深度优先序列作为沿伪图像的高度方向各骨架节点的排序顺序,将骨架序列的时序方向作为伪图像的宽度方向,以及将每帧图像中各骨架节点所对应的RGB值作为伪图像的深度方向,以构建待检测视频中待检测个体的伪图像;基于伪图像,确定待检测视频中待检测个体的动作信息,以提高视频动作检测的准确度。

    一种机器人标定方法及终端

    公开(公告)号:CN110866956A

    公开(公告)日:2020-03-06

    申请号:CN201911028907.8

    申请日:2019-10-28

    IPC分类号: G06T7/80

    摘要: 本申请适用于计算机技术领域,提供了一种机器人标定方法及终端,包括:获取待标定机器人拍摄的第一图像;基于每个所述第一标定图像中的角点坐标、第一目标角点坐标、每个所述第一图像对应的相机内参,计算每个所述第一图像对应的相机外参;基于每个所述第一图像对应的相机外参,确定每个所述待标定机器人的标定数据。上述方式,终端获取待标定机器人拍摄标定设备得到的图像,并基于该图像中的角点坐标、目标角点坐标、相机内参,计算得到待标定机器人对应的相机外参,从而得到待标定机器人的标定数据。这种标定方法标定成本低、灵活性好、效率高、步骤简单,利于机器人标定。