专利检索 ap:("哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)") AND inv:"黄旭忠" 第 1 页

1.

发明公开
一种博弈策略优化方法、系统及存储介质有权

公开(公告)号：CN111291890A

公开(公告)日：2020-06-16

申请号：CN202010399728.1

申请日：2020-05-13

申请人： 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)

发明人： 王轩 , 漆舒汉 , 张加佳 , 胡书豪 , 黄旭忠 , 刘洋 , 蒋琳 , 廖清 , 夏文 , 李化乐

IPC分类号： G06N5/04 , G06N3/08 , G06N20/00

摘要： 本发明提供了一种博弈策略优化方法、系统及存储介质，该博弈策略优化方法包括建立基于最大熵的策略递度算法步骤和多智能体最优反应策略求解步骤。本发明的有益效果是：本发明采用中心化训练和分散式执行的方式，提高动作估值网络的准确性，同时引入了全局基线奖励来更准确地衡量智能体的动作收益，以此来解决人博弈中的信用分配问题。同时引入了最大熵方法来进行策略评估，平衡了策略优化过程中的探索与利用。

2.

发明授权
一种博弈策略优化方法、系统及存储介质有权

公开(公告)号：CN111291890B

公开(公告)日：2021-01-01

申请号：CN202010399728.1

申请日：2020-05-13

申请人： 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)

发明人： 王轩 , 漆舒汉 , 张加佳 , 胡书豪 , 黄旭忠 , 刘洋 , 蒋琳 , 廖清 , 夏文 , 李化乐

IPC分类号： G06N5/04 , G06N3/08 , G06N20/00

摘要： 本发明提供了一种博弈策略优化方法、系统及存储介质，该博弈策略优化方法包括建立基于最大熵的策略递度算法步骤和多智能体最优反应策略求解步骤。本发明的有益效果是：本发明采用中心化训练和分散式执行的方式，提高动作估值网络的准确性，同时引入了全局基线奖励来更准确地衡量智能体的动作收益，以此来解决人博弈中的信用分配问题。同时引入了最大熵方法来进行策略评估，平衡了策略优化过程中的探索与利用。