基于环境奖励模糊自适应的强化学习方法、装置及介质

Invention Publication

CN117808117A 基于环境奖励模糊自适应的强化学习方法、装置及介质审中-实审

Please log in to see more content

Patent Title: 基于环境奖励模糊自适应的强化学习方法、装置及介质
Application No.: CN202311595879.4

Application Date: 2023-11-27
Publication No.: CN117808117A

Publication Date: 2024-04-02
Inventor: 李杰 , 王洪哲 , 王轶申 , 刘美杰 , 柴博 , 李忠伟 , 赵保华 , 句容滨 , 周飞 , 张天一 , 邱鹏
Applicant: 国网智能电网研究院有限公司 , 国网辽宁省电力有限公司锦州供电公司 , 国网辽宁省电力有限公司 , 国家电网有限公司
Applicant Address: 北京市昌平区未来科技城滨河大道18号; ; ;
Assignee: 国网智能电网研究院有限公司,国网辽宁省电力有限公司锦州供电公司,国网辽宁省电力有限公司,国家电网有限公司
Current Assignee: 国网智能电网研究院有限公司,国网辽宁省电力有限公司锦州供电公司,国网辽宁省电力有限公司,国家电网有限公司
Current Assignee Address: 北京市昌平区未来科技城滨河大道18号; ; ;
Agency: 北京安博达知识产权代理有限公司
Agent 徐国文
Main IPC: G06N20/00
IPC: G06N20/00 ; G06N5/048 ; G06N5/046 ; G06N5/025

Abstract:

基于环境奖励模糊自适应的强化学习方法、装置及介质，该方法通过环境客观指标数值计算与趋势分析、环境客观指标关联的权重系数增量的模糊计算、环境客观指标关联的权重系数增量的二次处理和环境总体奖励合成，实现环境奖励模糊自适应，再结合状态、动作和智能体等其他强化学习必需要素，进而实现基于环境奖励模糊自适应的强化学习。本发明在确保环境奖励自适应调整方向与环境实际特性变化的相关性的同时，实现自动探索“最优奖励”，提升了强化学习的泛化性，进而深化和扩展了强化学习的应用价值和领域。

Information query

Chinese Patent Announcement Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06N	基于特定计算模型的计算机系统
G06N20/00	机器学习