在实验室环境中训练演员-评论家算法

    公开(公告)号:CN115151916A

    公开(公告)日:2022-10-04

    申请号:CN202180016801.5

    申请日:2021-05-05

    IPC分类号: G06N3/04 G06N3/08 G06N20/00

    摘要: 强化学习方法可以使用演员‑评论家网络,其中(1)附加的仅限实验室的状态信息用于训练在生产场合中没有这种附加的仅限实验室的信息的情况下采取很多行动的策略;并且(2)复杂的资源需求策略被提炼成可以更容易地在生产时以有限的计算资源运行的要求不高的策略。生产演员网络可以使用先前用大型演员网络进行训练的大型评论家网络的冻结版本来优化。这些方法的各方面可以利用其中评论家网络对动作值函数而不是状态值函数进行建模的演员‑评论家方法。