一种被控系统运行调度的高效率强化学习方法及装置
摘要:
本发明涉及强化学习领域,提供了一种被控系统运行调度的高效率强化学习方法及装置,方法包括:对被控系统的各状态‑动作对进行采样,根据采样结果确定各状态下各动作的动作类型、Q因子样本方差及已消耗样本总量;利用采样数据分配算法确定各状态下各动作目标样本量;根据各动作目标样本量与各动作已消耗样本量,确定各动作补充采样数量;根据各动作补充采样数量进行补充采样,利用补充采样的仿真结果重新确定各动作的动作类型、各状态‑动作对的Q因子样本方差;调整已消耗采样总量,判断已消耗样本总量满足动作采样数量约束条件,若是,则输出各状态下观测到的最优动作,本发明能够区分各状态动作的重要性,提升采样效率及优化策略性能。
0/0