一种离线元强化学习的上下文分布偏移缓解方法及系统

    公开(公告)号:CN117725983A

    公开(公告)日:2024-03-19

    申请号:CN202311721370.X

    申请日:2023-12-14

    IPC分类号: G06N3/092 G06N3/0985

    摘要: 本发明提出一种离线元强化学习的上下文分布偏移缓解方法,包括:构建离线元强化学习的模型,基于该模型的行为策略采集训练任务的上下文信息,以该训练任务的上下文信息和该训练任务的任务编码,训练该模型的上下文编码器和元策略;其中,训练该上下文编码器时,最大化该任务编码和该训练任务的互信息,并最小化该任务编码和该行为策略的互信息;基于该模型的探索策略,以该上下文编码器和该元策略执行目标任务。本发明还提出一种离线元强化学习的上下文分布偏移缓解系统,以及一种用于实现离线元强化学习的上下文分布偏移缓解的数据处理装置。

    一种基于特征和融合模式搜索的目标检测方法及系统

    公开(公告)号:CN117689865A

    公开(公告)日:2024-03-12

    申请号:CN202211025096.8

    申请日:2022-08-25

    摘要: 本发明提出一种基于特征和融合模式搜索的目标检测方法和系统,包括:构建包括融合特征搜索单元和融合模式搜索单元的特征融合网络;融合特征搜索单元从图片的多尺度特征中搜索得到各尺度下的最优特征;从所有最优特征中选择两个特征作为候选特征对,融合模式搜索单元根据候选特征对,从包括多个候选融合操作的操作集中搜索得到融合策略,对候选特征对进行特征融合,得到融合特征;基于融合特征确定图片中检测目标的预测位置类别。使用了神经网络搜索算法并根据上述关键因素设计融合特征搜索单元和融合模式搜索单元,减小了搜索时的计算开销和内存开销并有效找到好的结构。

    基于特征和路径搜索的目标检测方法及系统

    公开(公告)号:CN117671231A

    公开(公告)日:2024-03-08

    申请号:CN202211024977.8

    申请日:2022-08-25

    摘要: 本发明提出一种基于特征和路径搜索的目标检测方法和系统,包括:构建包括融合特征搜索单元和融合路径搜索单元的特征融合网络;该融合特征搜索单元从图片的多尺度特征中搜索得到各尺度下的最优特征;对各尺度下的该最优特征的通道进行分组,该融合路径搜索单元从各分组中搜索得到候选特征,构建多个由两个候选特征构成的候选特征对;基于预设的融合策略对该候选特征对进行特征融合,得到每个该候选特征对的融合特征,以确定图片中检测目标的预测位置类别。

    因果关系驱动的分层强化学习框架及分层强化学习方法

    公开(公告)号:CN115271090A

    公开(公告)日:2022-11-01

    申请号:CN202210700253.4

    申请日:2022-06-20

    IPC分类号: G06N20/00 G06N5/04

    摘要: 本发明提出一种基于因果关系驱动的分层强化学习框架,包括:因果关系发现模块,用于获取智能体的强化学习环境中各环境变量之间的因果关系,并构建为因果关系图;子目标分层结构构造模块,用于根据该环境变量的变化函数,构建分层强化学习的子目标集合,选取该环境变量中的可控变量,通过该因果关系图从该子目标集合中选出与该可控变量关联的子目标为可达子目标,以所有该可达子目标的逻辑关系为该分层强化学习的分层关系。还提出一种基于因果关系驱动的分层强化学习方法,以及一种数据处理装置。

    基于上下文符号策略的元强化学习自动控制方法及系统

    公开(公告)号:CN117991628A

    公开(公告)日:2024-05-07

    申请号:CN202211378151.1

    申请日:2022-11-04

    摘要: 本发明提出一种基于上下文符号策略的元强化学习自动控制方法和系统,包括:将基础控制对象的运动轨迹的上下文变量输入参数生成器,得到上下文变量中所有动作维度在符号网络中的预测参数;路径选择器通过在预测参数上乘以二进制掩码,以从符号网络中选择代表符号表达式形式的路径;符号网络根据路径和预测参数,生成训练样本的预测控制策略;使用预测控制策略控制基础控制对象,根据其运动轨迹使用强化学习训练更新参数生成器和路径选择器;将目标控制对象的上下文变量输入训练完的路径选择器和参数生成器,得到符号网络的结构和参数,从而得到目标控制对象符号化的控制策略,以控制策略控制目标控制对象完成控制目标。

    硬件感知的高效特征融合网络搜索方法及系统

    公开(公告)号:CN117689864A

    公开(公告)日:2024-03-12

    申请号:CN202211024965.5

    申请日:2022-08-25

    摘要: 本发明提出一种硬件感知的高效特征融合网络搜索方法和系统,包括:构建包括融合特征搜索单元、融合路径搜索单元和融合模式搜索单元的特征融合网络;特征融合网络从图片的多尺度特征中搜索得到各尺度下的最优特征;对各尺度下的最优特征的通道进行分组,融合路径搜索单元从各分组中搜索得到候选特征,构建多个由两个候选特征构成的候选特征对;根据候选特征对,融合模式搜索单元从包括多个候选融合操作的操作集中搜索得到融合策略,并以融合策略对候选特征对进行特征融合,得到每个候选特征对的融合特征;基于融合特征确定图片中检测目标的预测位置类别。把在目标硬件上特征融合网络的硬件开销作为搜索目标;在目标硬件上能实现精度和计算开销的良好权衡。

    机械臂控制方法及装置
    7.
    发明公开

    公开(公告)号:CN117532610A

    公开(公告)日:2024-02-09

    申请号:CN202311666755.0

    申请日:2023-12-06

    IPC分类号: B25J9/16 B25J13/00

    摘要: 本发明提出一种机械臂控制方法及装置,该方法包含:构建机械臂控制的模拟环境,获取环境状态信息,所述环境状态信息包含机械臂的位姿与速度,以及待操作物体位置;以所述环境状态信息作为输入信息,输入至符号网络中,所述符号网络的输出为机械臂动作值,包含机械臂的关节速度;从所述符号网络中选择合适的路径生成符号策略;依据所述符号策略部署机械臂的控制任务。该方法能够提高符号策略学习的效率,从而使用更少的交互数据学习到机械臂控制,提高了机械臂控制的精度。

    一种基于对象的强化学习方法及系统

    公开(公告)号:CN117689912A

    公开(公告)日:2024-03-12

    申请号:CN202211013747.1

    申请日:2022-08-23

    摘要: 本发明提出一种基于对象的强化学习方法和系统,包括:智能体采集在当前所处环境的观测图像,从该观测图像中识别出对象的位置,并对其进行无监督聚类,得到各对象的类别标签;以该对象的类别标签为监督,通过卷积神经网络对该观测数据进行对象抽取,得到该观测图像的对象表示;基于该观测图像的对象表示,构建该观测图像中对象间的关系,作为该观测图像的特征向量,基于该特征向量执行学习策略,得到目标动作,该智能体执行该目标动作与该环境产生交互。该发明可以提升强化学习中策略的推理能力,使其具备较高的泛化能力。

    一种多任务强化学习方法及系统
    9.
    发明公开

    公开(公告)号:CN117829250A

    公开(公告)日:2024-04-05

    申请号:CN202311695347.8

    申请日:2023-12-11

    摘要: 本发明提出一种多任务强化学习方法,包括:以混合专家模型构建强化学习模型,将该强化学习模型根据功能划分为多个模块,并对该模块进行对比学习训练;其中,以该混合专家模型部分为该强化学习模型的共享模块;对某一任务的每一步执行过程中,基于该任务的时序信息和任务信息,选取该模块构成模块组合,以该模块组合执行当前步的任务。本发明还提出一种多任务强化学习系统,以及一种用于实现多任务强化学习的数据处理装置。

    一种捕捉环境中可控因素的表示学习方法及系统

    公开(公告)号:CN117688983A

    公开(公告)日:2024-03-12

    申请号:CN202211014964.2

    申请日:2022-08-23

    IPC分类号: G06N3/0464 G06N3/08 G06T9/00

    摘要: 本发明提出一种捕捉环境中可控因素的表示学习方法和系统,包括:智能体采集在当前所处环境的观测图像,通过卷积神经网络对该观测图像进行编码,得到当前时刻t该观测图像的表示;统计该当前时刻t该观测图像的表示、t时刻到t+k‑1时刻策略所采取的动作序列和第t+k时刻该观测图像的表示,三者之间的互信息作为可控因素的度量;基于该度量构建损失函数,以最大化该度量,基于该度量最大时对应的时刻t该观测图像的表示,执行学习策略,得到目标动作,该智能体执行该目标动作与该环境产生交互。本发明通过捕捉环境中的可控因素,能有效过滤其他可预测的噪声,因此在复杂环境上具备更好的鲁棒性。