发明公开
- 专利标题: 一种博弈策略优化方法、系统及存储介质
-
申请号: CN202010399728.1申请日: 2020-05-13
-
公开(公告)号: CN111291890A公开(公告)日: 2020-06-16
- 发明人: 王轩 , 漆舒汉 , 张加佳 , 胡书豪 , 黄旭忠 , 刘洋 , 蒋琳 , 廖清 , 夏文 , 李化乐
- 申请人: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
- 申请人地址: 广东省深圳市南山区桃源街道深圳大学城哈尔滨工业大学校区
- 专利权人: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
- 当前专利权人: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
- 当前专利权人地址: 广东省深圳市南山区桃源街道深圳大学城哈尔滨工业大学校区
- 代理机构: 深圳市添源知识产权代理事务所
- 代理商 罗志伟
- 主分类号: G06N5/04
- IPC分类号: G06N5/04 ; G06N3/08 ; G06N20/00
摘要:
本发明提供了一种博弈策略优化方法、系统及存储介质,该博弈策略优化方法包括建立基于最大熵的策略递度算法步骤和多智能体最优反应策略求解步骤。本发明的有益效果是:本发明采用中心化训练和分散式执行的方式,提高动作估值网络的准确性,同时引入了全局基线奖励来更准确地衡量智能体的动作收益,以此来解决人博弈中的信用分配问题。同时引入了最大熵方法来进行策略评估,平衡了策略优化过程中的探索与利用。
公开/授权文献
- CN111291890B 一种博弈策略优化方法、系统及存储介质 公开/授权日:2021-01-01