一种基于多任务深度强化学习的购售电联合策略优化方法

发明公开

CN116029415A 一种基于多任务深度强化学习的购售电联合策略优化方法审中-实审

请登陆查看更多内容

专利标题： 一种基于多任务深度强化学习的购售电联合策略优化方法
申请号： CN202211340354.1

申请日： 2022-10-28
公开(公告)号： CN116029415A

公开(公告)日： 2023-04-28
发明人: 徐弘升 , 王珂 , 吴峰
申请人： 河海大学
申请人地址： 江苏省南京市江宁开发区佛城西路8号
专利权人： 河海大学
当前专利权人： 河海大学
当前专利权人地址： 江苏省南京市江宁开发区佛城西路8号
代理机构： 南京纵横知识产权代理有限公司
代理商 冯宁
主分类号： G06Q10/04
IPC分类号： G06Q10/04 ; G06Q30/0202 ; G06Q50/06 ; G06N3/0455 ; G06N3/0442 ; G06N3/08 ; G06N7/01 ; G06N20/00 ; H02J3/00

摘要：

本发明公开了一种基于多任务深度强化学习的购售电联合策略优化方法，该方法将售电商购售电联合策略优化问题导入分层电力市场建模成马尔可夫决策模型，并分别定义马尔可夫决策模型的状态、动作和奖励函数；基于马尔可夫决策模型构建基于多任务学习机制的购售电联合策略优化深度强化学习求解框架；并采用多任务深度强化学习神经网络结构对求解框架进行求解，得到最优的负荷申报和零售电价联合策略。本发明充分考虑了售电商在现货市场做购电量决策和在零售市场做零售电价决策两个任务之间的相关性，构建了基于多任务学习机制的购售电联合策略优化深度强化学习求解框架，考虑两个任务之间天然的耦合性对两个任务的并行求解得到最优联合的策略。

信息查询

中国专利公布公告

审查信息

Global Dossier

Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06Q	专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法；其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10/00	行政；管理
G06Q10/04	.预测或优化，例如线性规划、“旅行商问题”或“下料问题”