一种基于时序预测模型的视觉机器人控制方法

    公开(公告)号:CN118331052A

    公开(公告)日:2024-07-12

    申请号:CN202410441627.4

    申请日:2024-04-12

    摘要: 本发明属于深度强化学习与机器人控制领域,公开一种基于时序预测模型的视觉机器人控制方法。本发明旨在具有环境背景动态干扰的场景下,实现高维观测图像中任务相关信息的提取,从而提高训练的样本效率和泛化性,以高效完成各种视觉机器人控制任务。包括以下步骤:弱增强视图生成;具有上下文意识的强增强视图生成;通过时序预测网络进行未来状态表征预测;计算辅助任务损失;计算强化学习损失并进行端到端联合训练;在验证环境中进行应用。通过本发明在高维图像输入控制任务场景下,模型可以提取高质量且鲁棒的状态表征,显著地提升视觉机器人训练时的样本效率,同时具有更强的泛化性,适用于未知动态干扰环境下的决策,以高效完成复杂控制任务。

    一种基于动态图通信的多智能体强化学习协同方法

    公开(公告)号:CN116306966A

    公开(公告)日:2023-06-23

    申请号:CN202310114762.3

    申请日:2023-02-15

    发明人: 李奇峰 葛宏伟

    IPC分类号: G06N20/00

    摘要: 本发明属于人工智能与多智能体协同领域,涉及一种基于动态图通信的多智能体强化学习协同方法。针对已有方法通信开销大,难以满足现实应用需求,以及难以学习到高级合作策略的问题,本发明旨在在符合更加现实的受限通信条件下,实现有效的通信,从而促进智能体间的合作,学习到高级的合作策略。包括以下步骤:动态通信图建立;通信权重自适应生成;智能体间实时通信;智能体进行动作价值估计;超网络进行智能体间信用分配;利用时序差分损失进行参数更新;在验证环境中进行应用。通过本发明在较小通信开销的前提下,使得模型可以自适应地进行有效的通信,并显著地提升智能体间的合作性能,同时具有更高的可拓展性,可广泛应用于多智能体协同领域。

    一种基于多重网络合作的零样本学习算法

    公开(公告)号:CN111738313B

    公开(公告)日:2022-11-11

    申请号:CN202010511084.0

    申请日:2020-06-08

    摘要: 本发明属于机器学习和迁移学习的交叉领域,公开一种基于多重网络合作的零样学习算法,包括生成网络一、生成网络二、对抗网络和重构网络。首先,将反向视觉特征空间作为嵌入空间,通过视觉特征中心生成网络实现映射。其次,采用更深层次的神经网络来生成,将残差网络模块引入到生成网络一和二中。之后,为减少过度拟合和提高可扩展性,引入一个对抗网络识别视觉特征中心的生成。最后,利用一个反向生成过程的重构网络来限制生成的视觉特征中心与每个类的原始语义表示之间的结构相关性。本发明在传统的零样本学习和广义零样本学习上都获得了令人满意的结果,对具有潜在应用前景的、识别无标注的海量未知类别的图像识别任务发挥促进作用。

    一种基于多粒度标签的交叉域自适应行人重识别方法

    公开(公告)号:CN111666851B

    公开(公告)日:2022-02-15

    申请号:CN202010466677.X

    申请日:2020-05-28

    发明人: 葛宏伟 刘常堃

    摘要: 本发明属于计算机视觉与行人识别的交叉领域,一种基于多粒度标签的交叉域自适应行人重识别方法。本方法首先基于深度学习的方法提出了多粒度分辨率网络,该网络结构在分块多粒度网络的基础上,增加了多分辨率的特征信息,使得模型在细节特征提取能力上得到了提高。此外,通过增加注意力机制,使模型自适应学习不同粒度的权重占比,提升多粒度分辨率网络的性能。为提高无标签数据的利用率,在源域和目标域之间的交叉域自适应训练过程中采用聚类得到目标域的多粒度“伪标签”,形成每张行人图像拥有一个主身份标识以及多个分块身份标识的多粒度标签结构,补充行人特征的部分相似性。本方法可以扩展到更多的无标签数据,且对数据的分布无约束条件。

    一种基于多视角编码迁移强化学习的区域信号灯协同控制方法

    公开(公告)号:CN113299084A

    公开(公告)日:2021-08-24

    申请号:CN202110600132.8

    申请日:2021-05-31

    摘要: 本发明公开了一种基于多视角编码迁移强化学习的区域信号灯协同控制方法,属于机器学习与智能交通的交叉领域。方法包括一种多视角状态编码器以及一种迁移强化学习框架。提出的多视角状态编码器将路口的一维,二维状态以及邻域路口传来的状态信息进行整合编码,将结果作为路口智能体的实际输入。在提出的迁移强化学习框架中,首先独立地训练若干个专注于拟合能力的专家智能体;然后利用迁移来的专家智能体联合指导训练一个专注于泛化能力的种子智能体;最后将种子智能体的参数迁移到各个路口上进行自适应训练,并计算这些智能体与专家智能体的效果差异决定是否进行迭代训练。最终的智能体同时具有更好的决策能力和泛化性能,有效地缓解了交通拥堵。

    一种基于自注意力机制模范生成对抗网络的人脸图像眼部补全方法

    公开(公告)号:CN111738940A

    公开(公告)日:2020-10-02

    申请号:CN202010491147.0

    申请日:2020-06-02

    IPC分类号: G06T5/00

    摘要: 本发明提供一种基于自注意力机制模范生成对抗网络的人脸图像眼部补全方法,属于机器学习领域。首先选取一张属于同一身份的人的不同姿态的脸部照片作为参考,将对应的参考图像、参考图像的眼部、缺失图像、缺失图像的眼部以及10维的噪声向量输入到我们所构建的模型的生成器网络中,生成器网络由一定数量的卷积层、残差块、反卷积层构成,最终生成器输出一张经过补全的人脸图像。再将生成的补全图像经过鉴别器网络进行判别真假。本发明能够提高生成的人脸的眼部图像的质量,同时生成的眼部部位并不是直接简单复制参考图像的,并且生成的眼部部位没有陷入模式崩溃的问题,都是相对应各自身份的。

    一种基于深度强化学习的黄桃挖核机器人行为控制方法

    公开(公告)号:CN107944476B

    公开(公告)日:2019-06-21

    申请号:CN201711102908.3

    申请日:2017-11-10

    摘要: 本发明属于计算机应用及人工智能技术领域,涉及一种基于深度强化学习的黄桃挖核机器人行为控制策略。针对传统的机械控制方法难以有效的对黄桃挖核机器人进行行为控制问题,本发明提出了一种基于深度强化学习的方法对具有视觉功能的黄桃挖核机器人进行行为控制,以期提高其工作性能。本专利发挥了深度学习的感知能力和强化学习的决策能力,使机器人能够利用深度学习识别桃核状态,进而,通过强化学习的方法指导单片机控制电机挖除桃核,以最终完成挖核任务。本发明对于利用机器代替人工劳力的挖核任务具有优势。

    一种基于Q值迁移深度强化学习的多交叉口信号灯协同控制方法

    公开(公告)号:CN109559530A

    公开(公告)日:2019-04-02

    申请号:CN201910011893.2

    申请日:2019-01-07

    发明人: 葛宏伟 宋玉美

    IPC分类号: G08G1/081 G06N3/04

    摘要: 本发明提供一种基于Q值迁移深度强化学习的多交叉口信号灯协同控制方法,属于机器学习与智能交通的交叉领域。本方法首先将一个区域的多交叉口交通网络建模为多Agent系统,各个Agent在学习策略过程中同时考虑最近时刻的相邻Agent动作的影响,使得多个Agent能协同地进行多交叉口的信号灯控制。每个Agent通过一个深度Q网络自适应控制一个交叉口,网络输入为各自对应路口的原始状态信息的离散交通状态编码。在其学习过程中将最近时刻相邻Agent的最优动作Q值迁移到网络的损失函数中。本方法能够提升区域路网的交通流量,提高道路的利用率,减少车辆的排队长度,缓解交通拥堵。该方法对各交叉口结构无限制。

    一种基于压缩和聚类的批量蛋白质同源性搜索方法

    公开(公告)号:CN106022000B

    公开(公告)日:2018-06-08

    申请号:CN201610309077.6

    申请日:2016-05-11

    发明人: 葛宏伟 余景洪

    IPC分类号: G06F19/24

    摘要: 本发明公开了一种基于压缩和聚类的批量蛋白质同源性搜索方法,属于计算机应用技术与生物技术的交叉领域。该方法充分利用了蛋白质数据库序列和查询序列中存在的序列相似信息,首先对查询序列和蛋白质数据库通过冗余分析和冗余移除过程进行压缩操作;进而对压缩后的蛋白质数据库进行相似子序列聚类,然后在聚类数据库基础上利用映射原理进行查找以发现潜在的结果,并根据找到的潜在结果集建立可执行数据库;最后在可执行数据库上进行同源性搜索,以获得最终的同源性序列。本发明的方法通过在构建的可执行数据库上进行同源性搜索,大大减少了重复序列比对和无间隙扩展的时间。