一种基于强化学习的非线性双时间尺度工业系统H无穷组合控制方法

    公开(公告)号:CN115933383A

    公开(公告)日:2023-04-07

    申请号:CN202211454633.0

    申请日:2022-11-21

    Abstract: 本发明公开了一种基于强化学习的非线性双时间尺度工业系统H无穷组合控制方法,包括:利用奇异摄动理论,将原始H无穷控制问题进行分解得到快子问题和慢子问题,并引入坐标转换将快慢子问题重塑成两个标准的子问题;解决快慢子系统数据不可测的问题,进一步推导基于重构数据的H无穷强化学习迭代算法;在快慢时间尺度内分别引入执行‑评价‑扰动神经网络近似控制器、性能指标和扰动,基于最小二乘法迭代更新神经网络的权重,得到基于强化学习的快、慢H无穷控制器;再进行组合,得到非线性双时间尺度工业控制系统跨尺度强化学习组合H无穷控制器。本发明避免了在强化学习框架下设计双时间尺度工业系统控制器时潜在的高维和病态数值问题。

    一种基于值分布DDPG算法的燃煤发电系统协调控制方法

    公开(公告)号:CN116755409B

    公开(公告)日:2024-01-12

    申请号:CN202310812903.9

    申请日:2023-07-04

    Abstract: 本发明公开了一种基于值分布DDPG算法的燃煤发电系统协调控制方法,包括:将燃煤发电系统协调控制问题建模为马尔可夫决策过程;通过Q函数评估长期期望控制代价函数,使用分位数对标量Q值进行分布建模;引入贝尔曼算子的分布型表达式构建目标分布,度量分布之间的1‑Wassertein最小距离,设计分位数损失与最小化分布之间的距离;构建估计网络和目标网络两个行动者‑评论家网络结构,标准化燃煤发电系统的数据样本,采用DDPG算法以实现对值分布的估计和策略的更新,得到协调控制策略。本发明基于系统运行数据和值分布DDPG算法解决了环境复杂不确定性燃煤发电系统协调控制中难以精确建模、缺乏自适应能力等难题。

    一种基于经验导向Q学习的锅炉汽轮机系统负荷控制方法

    公开(公告)号:CN118192249B

    公开(公告)日:2024-08-09

    申请号:CN202410428471.6

    申请日:2024-04-10

    Abstract: 本发明公开了一种基于经验导向Q学习的锅炉汽轮机系统负荷控制方法,包括:将原始负荷控制问题转化为关于跟踪误差的增广误差系统调节问题;基于锅炉汽轮机运行历史数据构建经验池,提出离策略Q学习方法,根据批量采样信息更新状态‑动作值函数,设计评价神经网络近似Q函数,并结合最小二乘法迭代更新状态‑动作值Q函数;再利用的采样‑训练循环嵌套训练框架,进一步在线优化评价网络权值;设计Q学习自适应控制器,生成具有优化趋向的数据存入经验池,实现Q学习算法的导向学习,以自适应调整系统的负荷控制策略。本发明高效利用系统运行数据和经验导向的学习方式,解决了锅炉汽轮机系统负荷控制中的数据利用难和数据质量要求高等难题。

    一种基于Q学习的双时间尺度燃煤发电系统最优跟踪控制方法

    公开(公告)号:CN115933410B

    公开(公告)日:2023-07-07

    申请号:CN202310024334.1

    申请日:2023-01-09

    Abstract: 本发明公开了一种基于Q学习的双时间尺度燃煤发电系统最优跟踪控制方法,包括:将燃煤发电系统建模为双时间尺度系统;将燃煤发电最优跟踪控制问题转化为降阶增广误差系统的调节问题;引入连续单调有界奇函数,将不对称输入约束在控制范围的中值附近进行对称转换;设计不加额外惩罚项的性能指标函数,将约束控制问题转变为无约束控制问题;根据从原始燃煤发电系统采样获取的信息更新状态‑动作值函数,提出Q学习算法,利用单个评价神经网络近似Q函数,通过最小二乘法更新神经网络权值,运用策略梯度下降法设计自适应降阶控制器。本发明通过利用奇异摄动理论和系统运行数据解决了燃煤发电系统优化控制中的难以精确建模、非对称输入约束等难题。

    一种基于Q学习的双时间尺度燃煤发电系统最优跟踪控制方法

    公开(公告)号:CN115933410A

    公开(公告)日:2023-04-07

    申请号:CN202310024334.1

    申请日:2023-01-09

    Abstract: 本发明公开了一种基于Q学习的双时间尺度燃煤发电系统最优跟踪控制方法,包括:将燃煤发电系统建模为双时间尺度系统;将燃煤发电最优跟踪控制问题转化为降阶增广误差系统的调节问题;引入连续单调有界奇函数,将不对称输入约束在控制范围的中值附近进行对称转换;设计不加额外惩罚项的性能指标函数,将约束控制问题转变为无约束控制问题;根据从原始燃煤发电系统采样获取的信息更新状态‑动作值函数,提出Q学习算法,利用单个评价神经网络近似Q函数,通过最小二乘法更新神经网络权值,运用策略梯度下降法设计自适应降阶控制器。本发明通过利用奇异摄动理论和系统运行数据解决了燃煤发电系统优化控制中的难以精确建模、非对称输入约束等难题。

    一种基于经验导向Q学习的锅炉汽轮机系统负荷控制方法

    公开(公告)号:CN118192249A

    公开(公告)日:2024-06-14

    申请号:CN202410428471.6

    申请日:2024-04-10

    Abstract: 本发明公开了一种基于经验导向Q学习的锅炉汽轮机系统负荷控制方法,包括:将原始负荷控制问题转化为关于跟踪误差的增广误差系统调节问题;基于锅炉汽轮机运行历史数据构建经验池,提出离策略Q学习方法,根据批量采样信息更新状态‑动作值函数,设计评价神经网络近似Q函数,并结合最小二乘法迭代更新状态‑动作值Q函数;再利用的采样‑训练循环嵌套训练框架,进一步在线优化评价网络权值;设计Q学习自适应控制器,生成具有优化趋向的数据存入经验池,实现Q学习算法的导向学习,以自适应调整系统的负荷控制策略。本发明高效利用系统运行数据和经验导向的学习方式,解决了锅炉汽轮机系统负荷控制中的数据利用难和数据质量要求高等难题。

    一种基于值分布DDPG算法的燃煤发电系统协调控制方法

    公开(公告)号:CN116755409A

    公开(公告)日:2023-09-15

    申请号:CN202310812903.9

    申请日:2023-07-04

    Abstract: 本发明公开了一种基于值分布DDPG算法的燃煤发电系统协调控制方法,包括:将燃煤发电系统协调控制问题建模为马尔可夫决策过程;通过Q函数评估长期期望控制代价函数,使用分位数对标量Q值进行分布建模;引入贝尔曼算子的分布型表达式构建目标分布,度量分布之间的1‑Wassertein最小距离,设计分位数损失与最小化分布之间的距离;构建估计网络和目标网络两个行动者‑评论家网络结构,标准化燃煤发电系统的数据样本,采用DDPG算法以实现对值分布的估计和策略的更新,得到协调控制策略。本发明基于系统运行数据和值分布DDPG算法解决了环境复杂不确定性燃煤发电系统协调控制中难以精确建模、缺乏自适应能力等难题。

Patent Agency Ranking