一种被控系统运行调度的监督强化学习方法及装置

    公开(公告)号:CN118674068A

    公开(公告)日:2024-09-20

    申请号:CN202410804234.5

    申请日:2024-06-20

    摘要: 本发明涉及强化学习领域,提供了一种被控系统运行调度的监督强化学习方法及装置,包括:确定各状态‑动作对的Q因子、Q因子样本方差以及已消耗样本总量;计算各状态下各非观测最优动作的重要性,将重要性排名前△M个非观测最优动作发送至监督者;调整已消耗采样总量,利用采样数据分配算法对各状态‑动作对的Q因子样本方差及已消耗样本总量进行分析得到各状态下各动作目标样本量;确定各动作补充采样数量;根据各动作补充采样数量进行补充采样,利用补充采样结果重新确定之前的步骤;判断已消耗样本总量满足动作采样数量约束条件,若是,则输出各状态下观测到的最优动作,本发明能够将监督者的监督与采样数据融合起来,提升学习效率及性能。