训练及控制方法、装置、计算设备和介质

    公开(公告)号:CN113867147B

    公开(公告)日:2024-06-11

    申请号:CN202111155048.6

    申请日:2021-09-29

    IPC分类号: G05B13/04

    摘要: 本公开提供了一种训练及控制方法、装置、计算设备和介质,其中,训练方法包括:获取当前轮目标系统对应的各个智能对象的初始奖励信息;初始奖励信息用于表征对应的智能对象在当前轮中的任务完成度;针对目标系统中的至少一个智能对象中的每个智能对象,基于各个智能对象的位置信息、初始奖励信息、以及当前轮的局部协调系数,确定该智能对象在当前轮的目标奖励信息;以及,基于该智能对象在当前轮对应的目标奖励信息,调整该智能对象的运行网络的网络参数,基于调整后的该智能对象的运行网络的网络参数确定下一轮的初始奖励信息;重复执行上述步骤,直至对各个智能对象的运行网络的训练达到预设训练截止条件,得到训练好的各运行网络。

    训练及控制方法、装置、计算设备和介质

    公开(公告)号:CN113867147A

    公开(公告)日:2021-12-31

    申请号:CN202111155048.6

    申请日:2021-09-29

    IPC分类号: G05B13/04

    摘要: 本公开提供了一种训练及控制方法、装置、计算设备和介质,其中,训练方法包括:获取当前轮目标系统对应的各个智能对象的初始奖励信息;初始奖励信息用于表征对应的智能对象在当前轮中的任务完成度;针对目标系统中的至少一个智能对象中的每个智能对象,基于各个智能对象的位置信息、初始奖励信息、以及当前轮的局部协调系数,确定该智能对象在当前轮的目标奖励信息;以及,基于该智能对象在当前轮对应的目标奖励信息,调整该智能对象的运行网络的网络参数,基于调整后的该智能对象的运行网络的网络参数确定下一轮的初始奖励信息;重复执行上述步骤,直至对各个智能对象的运行网络的训练达到预设训练截止条件,得到训练好的各运行网络。