基于最小二乘截断时域差分学习的路径规划决策优化方法

    公开(公告)号:CN114518751B

    公开(公告)日:2024-09-24

    申请号:CN202111682698.6

    申请日:2021-12-31

    摘要: 本发明公开一种基于最小二乘截断时域差分学习的路径规划决策优化方法,步骤包括:S1.使用第一策略收集智能体与环境交互样本,并学习特征表示的基函数;S2.评价器使用执行器生成的第二策略收集智能体与环境交互样本,利用基函数获得样本特征,并利用投影均方贝尔曼误差作为截断指标,以控制采用最小二乘时域差分或线性时域差分进行参数更新,获取近似最优的策略评价器;S3.使用执行器生成的策略收集与环境交互样本,并利用基函数获得样本特征,使用步骤S2中评价器作为策略执行器的评价函数,得到控制策略输出;S4.按照得到的控制策略控制智能体进行路径规划。本发明具有实现方法简单、规划决策效率以及准确性高等优点。

    一种自适应密集伪标签选择方法、装置、设备和介质

    公开(公告)号:CN117809114A

    公开(公告)日:2024-04-02

    申请号:CN202311870508.2

    申请日:2023-12-29

    IPC分类号: G06V10/764 G06V10/774

    摘要: 本申请属于目标检测技术领域,涉及一种自适应密集伪标签选择方法、装置、设备和介质。方法包括:获取原始图片,经过数据增强后输入训练模型,得到训练结果;根据特征丰富度得分,对训练结果进行掩码操作,得到特征丰富度得分图;根据密集伪标签选择方法和特征丰富度得分图,设置选择机制,在训练结果中自适应选择满足选择机制的密集伪标签作为监督信号;对作为监督信号的密集伪标签进行损失计算,并更新所述训练模型。采用本申请能够保持密集伪标签的有效性和简洁性。

    基于语义域自适应的机器人技能虚实迁移学习方法及系统

    公开(公告)号:CN118862668A

    公开(公告)日:2024-10-29

    申请号:CN202410916221.7

    申请日:2024-07-09

    摘要: 本发明提供一种基于语义域自适应的机器人技能虚实迁移学习方法及系统,该方法包括:S1.构建仿真环境,生成仿真环境对应的感知语义标签,构成源域仿真图像与标签对样本集;S2.输入仿真图像与实物图像,使用基于对抗学习的语义域自适应方法训练语义抽象网络模型;S3.使用仿真语义基于强化学习方法对机器人技能策略神经网络进行训练,得到机器人系统技能策略模型;S4.使用语义抽象神经网络模型将真实环境图像转换为语义信息,将实物语义信息输入至机器人技能策略神经网络模型中得到实时的机器人控制指令。本发明能够实现对机器人技能策略的高效、安全地虚实迁移,具有实现操作简单、迁移性能强、安全可靠性以及效率高等优点。

    基于最小二乘截断时域差分学习的路径规划决策优化方法

    公开(公告)号:CN114518751A

    公开(公告)日:2022-05-20

    申请号:CN202111682698.6

    申请日:2021-12-31

    IPC分类号: G05D1/02

    摘要: 本发明公开一种基于最小二乘截断时域差分学习的路径规划决策优化方法,步骤包括:S1.使用第一策略收集智能体与环境交互样本,并学习特征表示的基函数;S2.评价器使用执行器生成的第二策略收集智能体与环境交互样本,利用基函数获得样本特征,并利用投影均方贝尔曼误差作为截断指标,以控制采用最小二乘时域差分或线性时域差分进行参数更新,获取近似最优的策略评价器;S3.使用执行器生成的策略收集与环境交互样本,并利用基函数获得样本特征,使用步骤S2中评价器作为策略执行器的评价函数,得到控制策略输出;S4.按照得到的控制策略控制智能体进行路径规划。本发明具有实现方法简单、规划决策效率以及准确性高等优点。

    基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法及系统

    公开(公告)号:CN114454160A

    公开(公告)日:2022-05-10

    申请号:CN202111680444.0

    申请日:2021-12-31

    IPC分类号: B25J9/16

    摘要: 本发明公开一种基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法,步骤包括:S1.在智能体与环境交互过程中使用第一控制策略采集样本,构造基函数;S2.在智能体与环境交互过程中通过Actor模块生成的第二控制策略采集样本,使用基函数构造样本特征并放入经验池;S3.由Critic模块从经验池中采样,使用最小二乘软贝尔曼残差更新Critic的权值系数并计算软状态动作值函数;Actor模块通过最小化软状态动作值函数的玻尔兹曼分布的KL散度,更新Actor的权值系数,获得最终的控制策略;S4.按照获得的控制策略控制智能体的机械臂抓取。本发明具有实现方法简单、控制效率及精度高等优点。

    基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法及系统

    公开(公告)号:CN114454160B

    公开(公告)日:2024-04-16

    申请号:CN202111680444.0

    申请日:2021-12-31

    IPC分类号: B25J9/16

    摘要: 本发明公开一种基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法,步骤包括:S1.在智能体与环境交互过程中使用第一控制策略采集样本,构造基函数;S2.在智能体与环境交互过程中通过Actor模块生成的第二控制策略采集样本,使用基函数构造样本特征并放入经验池;S3.由Critic模块从经验池中采样,使用最小二乘软贝尔曼残差更新Critic的权值系数并计算软状态动作值函数;Actor模块通过最小化软状态动作值函数的玻尔兹曼分布的KL散度,更新Actor的权值系数,获得最终的控制策略;S4.按照获得的控制策略控制智能体的机械臂抓取。本发明具有实现方法简单、控制效率及精度高等优点。