面向复杂任务的空间机器人操作方法及装置

    公开(公告)号:CN117508670A

    公开(公告)日:2024-02-06

    申请号:CN202311533613.7

    申请日:2023-11-16

    IPC分类号: B64G4/00 G06N3/092 G06N5/01

    摘要: 本发明涉及人工智能技术领域,特别涉及一种面向复杂任务的空间机器人操作方法及装置。方法包括:获取预先训练好的技能库,所述技能库中包括用于完成目标任务的多个子技能;将所述技能库和所述目标任务输入预先训练好的强化学习模型中,得到在不同时刻需要执行的子技能;其中,在不同时刻下,与所述目标任务相关的环境状态不同,每个子技能分别用于执行所述目标任务中的一个子任务,所述强化学习模型是基于所述技能库和预设任务训练得到的;基于各个子技能指导空间机器人依次完成相应子任务的空间操作,直至完成所述目标任务。本发明,可以使机器人准确地完成复杂的空间任务。

    卫星控制系统在轨故障信息的获取方法及装置

    公开(公告)号:CN116360394A

    公开(公告)日:2023-06-30

    申请号:CN202310301245.7

    申请日:2023-03-24

    IPC分类号: G05B23/02

    摘要: 本发明涉及一种卫星控制系统在轨故障信息的获取方法及装置。方法包括:获取卫星控制系统的系统级故障码和每个部件的部件级故障码;系统级故障码是基于系统使用层面对各部件进行检测生成的,每个部件级故障码均是由相应部件自检生成的;基于每个故障码判断卫星控制系统中的各部件是否存在故障,若是,则生成每个故障部件的故障信息,故障信息至少包括故障时间和故障数据;基于预设的传输通道,将每个故障码发送至地面设备,地面设备用于基于接收到的故障码判断卫星控制系统中的各部件是否存在故障;基于下传指令,将每个故障部件的故障信息下传至地面设备。本发明方法能够快速准确地将在轨卫星的故障信息下传至地面设备,提高在轨故障的诊断效率。

    一种空间精细操作的离线强化学习方法及系统

    公开(公告)号:CN114819179A

    公开(公告)日:2022-07-29

    申请号:CN202210233709.0

    申请日:2022-03-10

    摘要: 本发明公开了一种空间精细操作的离线强化学习方法及系统,其中,该方法包括如下步骤:步骤1:采集离线多任务交互数据,并对离线多任务交互数据进行分割;步骤2:基于分割后的离线多任务交互数据,进行离线多任务演员‑评论家优化得到全局策略网络;步骤3:将全局策略网络作为控制器,移植到真实物理环境。本发明实现空间精细操作的交互数据一次离线采集、多种任务多次重复利用,提升样本采集与样本利用效率。

    基于知识嵌入强化学习的决策方法、装置、设备及介质

    公开(公告)号:CN117115608A

    公开(公告)日:2023-11-24

    申请号:CN202311086572.1

    申请日:2023-08-28

    摘要: 本发明涉及人工智能技术领域,特别涉及一种基于知识嵌入强化学习的决策方法、装置、设备及介质。方法包括:获取目标环境待决策的原始图像;将所述待决策的原始图像输入至预先训练好的强化学习模型,输出与所述待决策的原始图像相对应的决策;所述预先训练好的强化学习模型包括策略网络、评价网络、回报函数和知识融合模块,所述知识融合模块用于将输入的原始图像与先验知识进行融合,以得到包含先验知识的图向量,所述策略网络用于基于所述图向量向所述目标环境输出决策。本发明,可以得到更加符合预期的决策。

    一种基于多任务学习的在轨自主加注控制方法及系统

    公开(公告)号:CN111942621B

    公开(公告)日:2022-03-04

    申请号:CN202010693554.X

    申请日:2020-07-17

    摘要: 一种基于多任务学习的在轨自主加注控制方法及系统,属于空间技术领域。本发明方法包括:构建任务表达网络G和任务执行网络H,在在轨加注虚拟环境中使用强化学习方法训练与微调任务表达网络G和任务执行网络H,直到两个网络的参数收敛,形成多任务策略网络F;在一种基于多任务学习的在轨自主加注控制系统中,将真实机械臂运动状态复位,使用多任务策略网络F对真实机械臂进行控制,使真实机械臂执行相应动作,完成在轨加注操作任务。针对多种操作任务独立学习引起的自主性不足问题,将深度强化学习和多任务学习方法相结合,实现了多种操作任务策略网络的统一表达和学习,相比于人工设计任务状态判断与切换,提升了自主性与鲁棒性。

    一种基于多任务学习的在轨自主加注控制方法及系统

    公开(公告)号:CN111942621A

    公开(公告)日:2020-11-17

    申请号:CN202010693554.X

    申请日:2020-07-17

    摘要: 一种基于多任务学习的在轨自主加注控制方法及系统,属于空间技术领域。本发明方法包括:构建任务表达网络G和任务执行网络H,在在轨加注虚拟环境中使用强化学习方法训练与微调任务表达网络G和任务执行网络H,直到两个网络的参数收敛,形成多任务策略网络F;在一种基于多任务学习的在轨自主加注控制系统中,将真实机械臂运动状态复位,使用多任务策略网络F对真实机械臂进行控制,使真实机械臂执行相应动作,完成在轨加注操作任务。针对多种操作任务独立学习引起的自主性不足问题,将深度强化学习和多任务学习方法相结合,实现了多种操作任务策略网络的统一表达和学习,相比于人工设计任务状态判断与切换,提升了自主性与鲁棒性。

    一种星载火情信息多通道发布系统

    公开(公告)号:CN114419868B

    公开(公告)日:2024-03-15

    申请号:CN202111326419.2

    申请日:2021-11-10

    IPC分类号: G08B25/10 H04B7/185

    摘要: 一种星载火情信息多通道发布系统,包括:火点检测敏感器,用于获取火点成像信息,并与短报文系统、整星SRTU通讯;短报文系统与火点检测敏感器、地面指挥终端通讯;整星SRTU与火点检测敏感器、地面指挥终端通讯;智能处理中心控制单元用于确定空间地理信息要素发送给火点检测敏感器,接收火点检测敏感器输出的遥感测量信息,并对接收的遥感测量信息进行剔野、计算和存储;智能处理中心控制单元根据地面指令进行火点信息发布;地面指挥终端,用于接收图像数据和或火点信息,并对外发布。

    面向复杂场景的强化学习决策方法及装置

    公开(公告)号:CN117493884A

    公开(公告)日:2024-02-02

    申请号:CN202311533174.X

    申请日:2023-11-16

    摘要: 本发明涉及人工智能技术领域,特别涉及一种面向复杂场景的强化学习决策方法及装置。获取目标环境的当前状态和与该当前状态对应的事件状态集,所述事件状态集是预先训练好的事件生成网络模型基于该当前状态确定的;所述事件生成网络模型是基于包含多个样本对的样本集训练得到的,每个所述样本对均包括目标环境的环境状态和与该环境状态相对应的事件集中各事件发生的概率;将所述当前状态和所述事件状态集输入至预先训练好的强化学习网络模型,输出与该当前状态相对应的决策,所述强化学习网络模型是以所述目标环境的环境状态和所述事件生成网络模型输出的事件状态集为输入训练得到的。本发明方法,可以对复杂场景做出准确的决策。