Invention Publication
- Patent Title: 强化学习架构及强化学习架构模型参数拷贝方法
-
Application No.: CN202310280376.1Application Date: 2023-03-21
-
Publication No.: CN116205288APublication Date: 2023-06-02
- Inventor: 李杰 , 王洪哲 , 刘思言 , 刘美杰 , 柴博 , 李忠伟 , 赵保华 , 句容滨 , 周飞 , 张天一 , 邱鹏
- Applicant: 国网智能电网研究院有限公司 , 国网辽宁省电力有限公司锦州供电公司 , 国网辽宁省电力有限公司 , 国家电网有限公司
- Applicant Address: 北京市昌平区未来科技城滨河大道18号; ; ;
- Assignee: 国网智能电网研究院有限公司,国网辽宁省电力有限公司锦州供电公司,国网辽宁省电力有限公司,国家电网有限公司
- Current Assignee: 国网智能电网研究院有限公司,国网辽宁省电力有限公司锦州供电公司,国网辽宁省电力有限公司,国家电网有限公司
- Current Assignee Address: 北京市昌平区未来科技城滨河大道18号; ; ;
- Agency: 北京三聚阳光知识产权代理有限公司
- Agent 李静玉
- Main IPC: G06N3/092
- IPC: G06N3/092

Abstract:
本发明实施例涉及一种强化学习架构及强化学习架构模型参数拷贝方法,包括:智能体学习模块、智能体交互模块和所述智能体学习模块与智能体交互模块之间的交互通道;所述智能体学习模块输出智能体模型参数,所述智能体模型参数通过所述交互通道传送并输入到所述智能体交互模块;所述智能体交互模块输出智能体决策单元与环境向量交互后的交互片段,所述交互片段通过所述交互通道传送并输入到所述智能体学习模块。由此架构,可以增强架构稳定性、提高架构学习效率和系统资源利用率,有助于更好更快地实现大规模强化学习。
Information query