-
公开(公告)号:CN114518751B
公开(公告)日:2024-09-24
申请号:CN202111682698.6
申请日:2021-12-31
申请人: 中国人民解放军国防科技大学
IPC分类号: G05D1/43 , G05D1/633 , G05D1/644 , G05D1/648 , G05D109/10
摘要: 本发明公开一种基于最小二乘截断时域差分学习的路径规划决策优化方法,步骤包括:S1.使用第一策略收集智能体与环境交互样本,并学习特征表示的基函数;S2.评价器使用执行器生成的第二策略收集智能体与环境交互样本,利用基函数获得样本特征,并利用投影均方贝尔曼误差作为截断指标,以控制采用最小二乘时域差分或线性时域差分进行参数更新,获取近似最优的策略评价器;S3.使用执行器生成的策略收集与环境交互样本,并利用基函数获得样本特征,使用步骤S2中评价器作为策略执行器的评价函数,得到控制策略输出;S4.按照得到的控制策略控制智能体进行路径规划。本发明具有实现方法简单、规划决策效率以及准确性高等优点。
-
公开(公告)号:CN117809114A
公开(公告)日:2024-04-02
申请号:CN202311870508.2
申请日:2023-12-29
申请人: 中国人民解放军国防科技大学
IPC分类号: G06V10/764 , G06V10/774
摘要: 本申请属于目标检测技术领域,涉及一种自适应密集伪标签选择方法、装置、设备和介质。方法包括:获取原始图片,经过数据增强后输入训练模型,得到训练结果;根据特征丰富度得分,对训练结果进行掩码操作,得到特征丰富度得分图;根据密集伪标签选择方法和特征丰富度得分图,设置选择机制,在训练结果中自适应选择满足选择机制的密集伪标签作为监督信号;对作为监督信号的密集伪标签进行损失计算,并更新所述训练模型。采用本申请能够保持密集伪标签的有效性和简洁性。
-
公开(公告)号:CN118862668A
公开(公告)日:2024-10-29
申请号:CN202410916221.7
申请日:2024-07-09
申请人: 中国人民解放军国防科技大学
IPC分类号: G06F30/27 , G06V10/82 , G06V10/774 , G06V10/84 , G06N3/096 , G06N3/094 , G06N3/092 , G06N3/008
摘要: 本发明提供一种基于语义域自适应的机器人技能虚实迁移学习方法及系统,该方法包括:S1.构建仿真环境,生成仿真环境对应的感知语义标签,构成源域仿真图像与标签对样本集;S2.输入仿真图像与实物图像,使用基于对抗学习的语义域自适应方法训练语义抽象网络模型;S3.使用仿真语义基于强化学习方法对机器人技能策略神经网络进行训练,得到机器人系统技能策略模型;S4.使用语义抽象神经网络模型将真实环境图像转换为语义信息,将实物语义信息输入至机器人技能策略神经网络模型中得到实时的机器人控制指令。本发明能够实现对机器人技能策略的高效、安全地虚实迁移,具有实现操作简单、迁移性能强、安全可靠性以及效率高等优点。
-
公开(公告)号:CN117611887A
公开(公告)日:2024-02-27
申请号:CN202311562265.6
申请日:2023-11-21
申请人: 中国人民解放军国防科技大学
IPC分类号: G06V10/764 , G06V10/40 , G06V10/774 , G06V10/82 , G06N3/0895 , G06N5/04
摘要: 本申请涉及一种类间隔自适的因果推理半监督图像分类方法和装置。所述方法包括:根据有标签图像样本的类条件分布和无标签图像样本的类边缘分布,计算得到与图像样本所属类边缘分布相关的倾向性得分;在图像分类模型输出的类别概率中引入相应类别的倾向性得分,以作为类别相关的动态间隔阈值,并以此构建损失函数;优化损失函数,得到训练好的图像分类模型,以进行目标图像分类。采用本方法能够有效处理动态开放场景中无标记图像数据中普遍存在的类别不平衡问题,提高图像分类的精度与鲁棒性。
-
公开(公告)号:CN114518751A
公开(公告)日:2022-05-20
申请号:CN202111682698.6
申请日:2021-12-31
申请人: 中国人民解放军国防科技大学
IPC分类号: G05D1/02
摘要: 本发明公开一种基于最小二乘截断时域差分学习的路径规划决策优化方法,步骤包括:S1.使用第一策略收集智能体与环境交互样本,并学习特征表示的基函数;S2.评价器使用执行器生成的第二策略收集智能体与环境交互样本,利用基函数获得样本特征,并利用投影均方贝尔曼误差作为截断指标,以控制采用最小二乘时域差分或线性时域差分进行参数更新,获取近似最优的策略评价器;S3.使用执行器生成的策略收集与环境交互样本,并利用基函数获得样本特征,使用步骤S2中评价器作为策略执行器的评价函数,得到控制策略输出;S4.按照得到的控制策略控制智能体进行路径规划。本发明具有实现方法简单、规划决策效率以及准确性高等优点。
-
公开(公告)号:CN114454160A
公开(公告)日:2022-05-10
申请号:CN202111680444.0
申请日:2021-12-31
申请人: 中国人民解放军国防科技大学
IPC分类号: B25J9/16
摘要: 本发明公开一种基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法,步骤包括:S1.在智能体与环境交互过程中使用第一控制策略采集样本,构造基函数;S2.在智能体与环境交互过程中通过Actor模块生成的第二控制策略采集样本,使用基函数构造样本特征并放入经验池;S3.由Critic模块从经验池中采样,使用最小二乘软贝尔曼残差更新Critic的权值系数并计算软状态动作值函数;Actor模块通过最小化软状态动作值函数的玻尔兹曼分布的KL散度,更新Actor的权值系数,获得最终的控制策略;S4.按照获得的控制策略控制智能体的机械臂抓取。本发明具有实现方法简单、控制效率及精度高等优点。
-
公开(公告)号:CN114454160B
公开(公告)日:2024-04-16
申请号:CN202111680444.0
申请日:2021-12-31
申请人: 中国人民解放军国防科技大学
IPC分类号: B25J9/16
摘要: 本发明公开一种基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法,步骤包括:S1.在智能体与环境交互过程中使用第一控制策略采集样本,构造基函数;S2.在智能体与环境交互过程中通过Actor模块生成的第二控制策略采集样本,使用基函数构造样本特征并放入经验池;S3.由Critic模块从经验池中采样,使用最小二乘软贝尔曼残差更新Critic的权值系数并计算软状态动作值函数;Actor模块通过最小化软状态动作值函数的玻尔兹曼分布的KL散度,更新Actor的权值系数,获得最终的控制策略;S4.按照获得的控制策略控制智能体的机械臂抓取。本发明具有实现方法简单、控制效率及精度高等优点。
-
公开(公告)号:CN115272821A
公开(公告)日:2022-11-01
申请号:CN202210848453.4
申请日:2022-07-19
申请人: 中国人民解放军国防科技大学
摘要: 本申请涉及一种基于特征显著性的目标识别方法、装置和计算机设备,通过构建并训练极限学习稀疏自编码网络,其中极限学习稀疏自编码网络中的隐藏层节点数小于输入层节点数和输出层节点数;根据训练好的极限学习稀疏自编码网络的输入层和隐藏层构建显著性成分提取网络,将卷积特征输入显著性成分提取网络得到卷积特征的显著性成分,融合显著性成分和卷积特征得到显著特征;将显著特征输入预先训练好的识别模型得到目标识别结果。本发明可以兼顾识别结果的精度和计算速度。
-
-
-
-
-
-
-