机器学习模型和设备
    2.
    发明公开

    公开(公告)号:CN116745779A

    公开(公告)日:2023-09-12

    申请号:CN202080108336.3

    申请日:2020-11-13

    IPC分类号: G06N20/00

    摘要: 提供了用于实现强化学习的方法和设备。一种在客户端节点中根据策略命令环境中的动作的方法包括识别环境的一个或多个临界状态,当前策略针对所述临界状态提供不可靠动作。方法进一步包括向服务器发起重新训练请求的传输,重新训练请求包括与一个或多个临界状态相关的信息。方法进一步包括从服务器接收新策略(其中新策略由服务器基于与一个或多个临界状态相关的信息使用强化学习来生成),以及根据新策略来命令环境中的动作。