专利检索 ap:("中国科学院自动化研究所") AND inv:"王陆" 第 1 页

1.

发明公开
多智能体信用分配方法、装置、可读存储介质和智能体有权

公开(公告)号：CN115660110A

公开(公告)日：2023-01-31

申请号：CN202211672682.1

申请日：2022-12-26

申请人： 中国科学院自动化研究所

发明人： 张俊格 , 张茗奕 , 杨光开 , 陈皓 , 黄凯奇 , 陈丹丹 , 王陆

IPC分类号： G06N20/00

摘要： 本发明提供了一种多智能体信用分配方法、装置、可读存储介质和智能体，涉及强化学习、多智能体技术领域。该方法包括：定义信用分配智能体在预设环境中的信用分配策略空间；使信用分配智能体学习一个信用分配策略，使信用分配智能体在训练时按照信用分配策略探索信用分配策略空间，并基于全局状态信息输出动作；从动作得到目标动作，并将目标动作作为多智能体协同的信用分配策略。该方法从形式上定义了信用分配策略空间，并基于值分解框架提出了随机化信用分配方法，在训练时基于可学习的策略分布，能够以一定概率采样出一个信用分配策略，最终实现了对信用分配策略空间的有效探索，得到更好的信用分配策略，增强算法在多智能体合作任务上的能力。

2.

发明授权
多智能体信用分配方法、装置、可读存储介质和智能体有权

公开(公告)号：CN115660110B

公开(公告)日：2023-04-14

申请号：CN202211672682.1

申请日：2022-12-26

申请人： 中国科学院自动化研究所

发明人： 张俊格 , 张茗奕 , 杨光开 , 陈皓 , 黄凯奇 , 陈丹丹 , 王陆

IPC分类号： G06N20/00

摘要： 本发明提供了一种多智能体信用分配方法、装置、可读存储介质和智能体，涉及强化学习、多智能体技术领域。该方法包括：定义信用分配智能体在预设环境中的信用分配策略空间；使信用分配智能体学习一个信用分配策略，使信用分配智能体在训练时按照信用分配策略探索信用分配策略空间，并基于全局状态信息输出动作；从动作得到目标动作，并将目标动作作为多智能体协同的信用分配策略。该方法从形式上定义了信用分配策略空间，并基于值分解框架提出了随机化信用分配方法，在训练时基于可学习的策略分布，能够以一定概率采样出一个信用分配策略，最终实现了对信用分配策略空间的有效探索，得到更好的信用分配策略，增强算法在多智能体合作任务上的能力。