基于对偶行为正则化的离线强化学习方法
摘要:
本发明公开了一种基于对偶行为正则化的离线强化学习方法,属于离线强化学习领域,首先,在反探索行为值正则化策略评估过程中,利用Q值与行为Q值的残差奖励作为Q值损失函数的反探索行为值正则项来驱动Q值逼近行为Q值;然后,在温和局部行为克隆正则化策略提升过程中,利用行为策略在不同状态下动作样本的估计方差来设计策略损失函数的温和局部行为克隆正则项,有效规范行为克隆的约束强度;最后,不断耦合迭代设计的反探索行为值正则化策略评估和温和局部行为克隆正则化策略提升,直至整个策略迭代过程学习到满足强化学习智能体部署需求的任务解决策略。本发明不仅有效缓解了过度乐观Q值的估计偏差,并且高效提升了策略改进的潜力。
0/0