基于知识嵌入强化学习的决策方法、装置、设备及介质

    公开(公告)号:CN117115608A

    公开(公告)日:2023-11-24

    申请号:CN202311086572.1

    申请日:2023-08-28

    Abstract: 本发明涉及人工智能技术领域,特别涉及一种基于知识嵌入强化学习的决策方法、装置、设备及介质。方法包括:获取目标环境待决策的原始图像;将所述待决策的原始图像输入至预先训练好的强化学习模型,输出与所述待决策的原始图像相对应的决策;所述预先训练好的强化学习模型包括策略网络、评价网络、回报函数和知识融合模块,所述知识融合模块用于将输入的原始图像与先验知识进行融合,以得到包含先验知识的图向量,所述策略网络用于基于所述图向量向所述目标环境输出决策。本发明,可以得到更加符合预期的决策。

    一种受限约束下的月背复杂地形可通过性判别方法及系统

    公开(公告)号:CN110310369B

    公开(公告)日:2023-08-15

    申请号:CN201910477360.3

    申请日:2019-06-03

    Abstract: 本发明提出一种受限约束下的月背复杂地形可通过性判别方法及系统。嫦娥4号巡视器作为人类首个月背移动探测平台,在月球背面执行巡视探测任务。月背地形更加的崎岖复杂,坑哇遍布,且执行任务多,给巡视探测带来了更高的技术挑战和难度。其移动、休眠、科学探测等任务需要在各种约束条件下完成,这些约束条件比嫦娥3号更加严格,包括,高度阈值,坡度阈值,最大曲率,休眠点滚动角、俯仰角与偏航角,太阳方位、中继星方位、移动速度、避障相机参与地形分析等。本专利提出了一种受限约束下的月背复杂地形可通过性判别方法,对复杂地形地貌上的导航路径进行可通过性判别,为月面巡视探测奠定基础。

    一种基于多任务学习的在轨自主加注控制方法及系统

    公开(公告)号:CN111942621B

    公开(公告)日:2022-03-04

    申请号:CN202010693554.X

    申请日:2020-07-17

    Abstract: 一种基于多任务学习的在轨自主加注控制方法及系统,属于空间技术领域。本发明方法包括:构建任务表达网络G和任务执行网络H,在在轨加注虚拟环境中使用强化学习方法训练与微调任务表达网络G和任务执行网络H,直到两个网络的参数收敛,形成多任务策略网络F;在一种基于多任务学习的在轨自主加注控制系统中,将真实机械臂运动状态复位,使用多任务策略网络F对真实机械臂进行控制,使真实机械臂执行相应动作,完成在轨加注操作任务。针对多种操作任务独立学习引起的自主性不足问题,将深度强化学习和多任务学习方法相结合,实现了多种操作任务策略网络的统一表达和学习,相比于人工设计任务状态判断与切换,提升了自主性与鲁棒性。

    一种航天器深度强化学习莱维飞行控制系统

    公开(公告)号:CN113419548A

    公开(公告)日:2021-09-21

    申请号:CN202110593261.9

    申请日:2021-05-28

    Abstract: 一种航天器深度强化学习莱维飞行控制系统,包括:自主规划模块,根据航天器的状态信息获取特征,利用该特征进行预测,并获得莱维飞行参数;莱维飞行模块,利用莱维飞行参数,确定下一时刻的飞行轨迹;航天器姿轨控模块,用于控制飞行器跟踪下一时刻的飞行轨迹。本发明在莱维飞行的基础上,采用深度强化学习以综合考虑各种因素,选择最佳的飞行轨迹,以保证在最优的飞行性能。

    一种多智能体分布式强化学习方法

    公开(公告)号:CN113269329A

    公开(公告)日:2021-08-17

    申请号:CN202110484030.4

    申请日:2021-04-30

    Abstract: 一种多智能体分布式强化学习方法,包括多智能体组织形式、智能体网络设计和训练方法。通过强化学习的方式实现整个网络系统的自适应网络服务,解决网络的分布式自主覆盖、目标追踪、缺位补充等高层次协同操作背后的关键技术,提升整个系统的综合感知保障能力和自愈合能力,使得整个系统具备极强的自组织、自配置和自管理能力,具备自我防护、系统修复和重构能力,以应对外部环境的变化。

    一种航天器干扰力矩的快速在轨闭环辨识方法、系统和介质

    公开(公告)号:CN108279695B

    公开(公告)日:2021-03-26

    申请号:CN201810072869.5

    申请日:2018-01-25

    Abstract: 一种航天器干扰力矩的快速在轨闭环辨识方法、系统和介质,本发明针对含挠性振动和液体晃动的航天器在变轨时主发动机点火期间的姿态控制问题,提出了一种变轨干扰力矩的快速闭环辨识方法。包括以下步骤:(1)由陀螺测量的角速度积分得到姿态角,并由控制器计算得到所需控制量;(2)根据姿态角输入和计算的控制量,输入干扰估计方程,得到干扰力矩的初步估计值;(3)将干扰力矩的初步估计值进一步输入到滤波器,过滤掉低频的挠性和液体晃动信息,得到最终的干扰估计值。利用该方法,可以在存在挠性振动和液体晃动时,对干扰力矩进行快速准确辨识。该干扰辨识结果可以直接前馈给积分项,从而可以减少主发动机开机时引起的姿态超调。

    一种基于多任务学习的在轨自主加注控制方法及系统

    公开(公告)号:CN111942621A

    公开(公告)日:2020-11-17

    申请号:CN202010693554.X

    申请日:2020-07-17

    Abstract: 一种基于多任务学习的在轨自主加注控制方法及系统,属于空间技术领域。本发明方法包括:构建任务表达网络G和任务执行网络H,在在轨加注虚拟环境中使用强化学习方法训练与微调任务表达网络G和任务执行网络H,直到两个网络的参数收敛,形成多任务策略网络F;在一种基于多任务学习的在轨自主加注控制系统中,将真实机械臂运动状态复位,使用多任务策略网络F对真实机械臂进行控制,使真实机械臂执行相应动作,完成在轨加注操作任务。针对多种操作任务独立学习引起的自主性不足问题,将深度强化学习和多任务学习方法相结合,实现了多种操作任务策略网络的统一表达和学习,相比于人工设计任务状态判断与切换,提升了自主性与鲁棒性。

    一种三爪式通用对接机构抓捕控制方法

    公开(公告)号:CN111891411A

    公开(公告)日:2020-11-06

    申请号:CN202010687194.2

    申请日:2020-07-16

    Abstract: 本发明实施例提供了一种三爪式通用对接机构抓捕控制方法,包括:根据目标对接环的对接环参数,配置三爪式手爪的初始状态和控制参数;控制所述三爪式手爪的行程,抓捕所述目标对接环;依据相对测量信息,对所述三爪式手爪和所述目标对接环的位置进行校正;对位置校正后的所述三爪式手爪和所述目标对接环进行姿态校正;将所述姿态校正后的三爪式手爪和所述目标对接环,与手爪机构进行锁定。本发明实施例对对接目标具有很强的适应性,具有良好的应用前景,由于需要在超近距离实现对目标星对接环的捕获、校准和锁紧,因此只在捕获初期引入相对测量敏感器,后期需要联合对接机构行程估计两星相对位置。

Patent Agency Ranking