发明公开
摘要:
本发明公开了一种面向闭环工业大数据的逆强化学习控制器设计方法,包括:首先,将历史闭环工业大数据作为专家示教的轨迹来源,构建强化学习的状态空间、动作空间及交互环境,训练逆强化学习智能体;其次,在逆强化学习训练过程中,基于生成对抗网络和闭环工业大数据进行完全离线的控制器设计,使其产生的轨迹分布和历史闭环大数据一致;最后,将训练好的逆强化学习智能体用于在线优化控制。本发明为逆强化学习智能体赋予了从历史工业大数据中学习控制器的能力,有效提升强化学习算法的样本效率和安全性,从而提供了一种工业控制器设计的纯数据驱动解决方案。