专利检索 ap:("浙江大学") AND inv:"王趵翔" 第 1 页

1.

发明公开
基于多智能体强化学习的去混淆游戏策略模型生成方法审中-实审

公开(公告)号：CN115300910A

公开(公告)日：2022-11-08

申请号：CN202210836775.7

申请日：2022-07-15

申请人： 浙江大学

发明人： 况琨 , 李佳晖 , 王趵翔 , 刘扶芮 , 肖俊 , 吴飞

IPC分类号： A63F13/56 , A63F13/822 , G06N3/04 , G06N3/08 , G06N5/04

摘要： 本发明公开了一种基于多智能体强化学习的去混淆游戏策略模型生成方法。本发明将深度学、因果推理、图网络结合在面向游戏智能体控制的多智能体强化学习中。相比于一般的多智能体强化学习算法，本发明利用因果推理中的后门准则和图网络来去除多智能体强化学习中由环境带来的混淆，有效地提升了游戏策略模型的整体性能。本发明首次在基于多智能体强化学习中的游戏策略模型生成中应用因果推理技术去除混淆，与其他主流的方法相比，本发明的性能更加优越。

2.

发明授权
基于多智能体强化学习的去混淆游戏策略模型生成方法有权

公开(公告)号：CN115300910B

公开(公告)日：2023-07-21

申请号：CN202210836775.7

申请日：2022-07-15

申请人： 浙江大学

发明人： 况琨 , 李佳晖 , 王趵翔 , 刘扶芮 , 肖俊 , 吴飞

IPC分类号： A63F13/56 , A63F13/822 , G06N3/042 , G06N3/045 , G06N3/092 , G06N5/04

摘要： 本发明公开了一种基于多智能体强化学习的去混淆游戏策略模型生成方法。本发明将深度学、因果推理、图网络结合在面向游戏智能体控制的多智能体强化学习中。相比于一般的多智能体强化学习算法，本发明利用因果推理中的后门准则和图网络来去除多智能体强化学习中由环境带来的混淆，有效地提升了游戏策略模型的整体性能。本发明首次在基于多智能体强化学习中的游戏策略模型生成中应用因果推理技术去除混淆，与其他主流的方法相比，本发明的性能更加优越。