Patent search ap:("北京邮电大学") AND inv:"胡成" Page 1

1.

发明公开
一种基于通用合作知识的多智能体协作方法审中-实审

公开(公告)号：CN119578452A

公开(公告)日：2025-03-07

申请号：CN202411655649.7

申请日：2024-11-19

Applicant: 北京邮电大学

Inventor： 胡成 , 何召锋 , 刘文军 , 项刘宇 , 孟宪奎 , 吴惠甲

IPC: G06N3/006 , G06N3/0442 , G06N3/092

Abstract: 本发明公开了一种基于通用合作知识的多智能体协作方法，包括以下步骤：确定任务领域，并选取若干个合作任务；构建多任务训练框架，所述训练框架包括为每一个合作任务设置的感知网络和决策网络，所述决策网络包括共享决策层和任务特定决策层；基于每一个合作任务，对所述多任务训练框架进行训练，基于训练后的决策网络，构建任务共享决策网络模型；将所述任务共享决策网络模型迁移到新的任务领域中进行训练，完成当前任务中多智能体的协作。本发明采用一种多任务的学习方法，通过将学得的共享策略网络应用于其它相同或不同领域的合作任务中进行训练，促进智能体之间的协作和协调。

2.

发明授权
多智能体强化学习方法及装置、电子设备、存储介质有权

公开(公告)号：CN118052272B

公开(公告)日：2024-11-01

申请号：CN202410189439.7

申请日：2024-02-20

Applicant: 北京邮电大学

Inventor： 胡成 , 何召锋 , 刘文军 , 程祥 , 项刘宇 , 吴惠甲 , 孟宪奎

IPC: G06N3/092 , G06N20/00 , G06N3/042 , G06F18/23 , G06F18/2413

Abstract: 本公开提供了一种多智能体强化学习方法及装置、电子设备、存储介质，属于超图表示学习技术领域，该方法包括：基于多智能体系统中各个智能体的观测信息生成多条超边。每条超边连接多个智能体，多条超边组成超图结构。超图结构为多智能体系统对应的通信结构。基于各个智能体的观测信息计算多智能体之间的消息权重。基于通信结构和消息权重生成多智能体系统对应的关联度。基于关联度对各个智能体的通信信息进行融合，得到每个智能体对应的融合通信信息。融合通信信息用于指导对应智能体的动作。本公开提供的多智能体强化学习方法及装置、电子设备、存储介质能对多个来自不同智能体的异构信息进行通信融合。

3.

发明公开
一种基于涌现混合专家模型的多任务强化学习方法审中-实审

公开(公告)号：CN119623566A

公开(公告)日：2025-03-14

申请号：CN202411723421.7

申请日：2024-11-28

Applicant: 北京邮电大学

Inventor： 胡成 , 何召锋 , 刘文军 , 项刘宇 , 王晨旭 , 孟宪奎 , 吴惠甲 , 常兴阳

IPC: G06N3/092 , G06N3/0499 , G06F18/23

Abstract: 本发明公开了一种基于涌现混合专家模型的多任务强化学习方法，包括以下步骤：构建多任务强化学习网络，所述多任务强化学习网络包括若干个前馈神经网络，每个前馈神经网络前面连接一个路由网络；对每个前馈神经网络进行聚类分析，均分为若干个专家模块；基于策略梯度下降方法对每个路由网络进行训练，并更新对应专家模块的参数；选取多任务学习环境中的实验任务；对于每个实验任务，基于训练后的路由网络激活对应的专家模块进行解耦处理，完成多任务强化学习。本发明为多任务学习提供了高效稳定的优化策略，有效缓解了多任务学习中参数共享与任务之间相互干扰的难题。

4.

发明公开
多智能体强化学习方法及装置、电子设备、存储介质有权

公开(公告)号：CN118052272A

公开(公告)日：2024-05-17

申请号：CN202410189439.7

申请日：2024-02-20

Applicant: 北京邮电大学

Inventor： 胡成 , 何召锋 , 刘文军 , 程祥 , 项刘宇 , 吴惠甲 , 孟宪奎

IPC: G06N3/092 , G06N20/00 , G06N3/042 , G06F18/23 , G06F18/2413

Abstract: 本公开提供了一种多智能体强化学习方法及装置、电子设备、存储介质，属于超图表示学习技术领域，该方法包括：基于多智能体系统中各个智能体的观测信息生成多条超边。每条超边连接多个智能体，多条超边组成超图结构。超图结构为多智能体系统对应的通信结构。基于各个智能体的观测信息计算多智能体之间的消息权重。基于通信结构和消息权重生成多智能体系统对应的关联度。基于关联度对各个智能体的通信信息进行融合，得到每个智能体对应的融合通信信息。融合通信信息用于指导对应智能体的动作。本公开提供的多智能体强化学习方法及装置、电子设备、存储介质能对多个来自不同智能体的异构信息进行通信融合。

5.

发明公开
一种协作与竞争场景下的可泛化智能体生成方法审中-实审

公开(公告)号：CN119558343A

公开(公告)日：2025-03-04

申请号：CN202411713024.1

申请日：2024-11-27

Applicant: 北京邮电大学

Inventor： 何召锋 , 王晨旭 , 项刘宇 , 胡成 , 张俊格 , 杨耀东

IPC: G06N3/006 , G06N3/045 , G06N3/092 , G06N5/04

Abstract: 本发明公开了一种协作与竞争场景下的可泛化智能体生成方法，包括：构建多样性策略池；选取一个子环境，提取团队智能体的策略网络参数，并赋值给学习者；采用多智能体强化学习算法对学习者的策略网络参数进行优化更新，获得学习者的第一策略网络参数；构建回合记忆库，对队友和对手的观测数据进行视角对齐转换；在优化更新过程中，基于学习者观测特征，从回合记忆库中检索与学习者最匹配的观测数据；对检索到的观测数据进行位置编码处理后，基于超网络生成学习者的第二策略网络参数；结合第一策略网络参数和第二策略网络参数，获得优化后的学习者策略网络参数。本发明智能体的设定能够在当前环境下与未知的队友和对手进行有效的协作与竞争。

Patent Agency Ranking