一种基于技能发现与分配的多智能体强化学习方法及装置

Invention Publication

CN117828477A 一种基于技能发现与分配的多智能体强化学习方法及装置审中-实审

Please log in to see more content

Patent Title: 一种基于技能发现与分配的多智能体强化学习方法及装置
Application No.: CN202410032637.2

Application Date: 2024-01-09
Publication No.: CN117828477A

Publication Date: 2024-04-05
Inventor: 王震 , 李彤 , 白辰甲
Applicant: 西北工业大学 , 西北工业大学深圳研究院
Applicant Address: 陕西省西安市友谊西路127号;
Assignee: 西北工业大学,西北工业大学深圳研究院
Current Assignee: 西北工业大学,西北工业大学深圳研究院
Current Assignee Address: 陕西省西安市友谊西路127号;
Agency: 西安双鼎知识产权代理事务所
Agent 党娟娟; 郭永丽
Main IPC: G06F18/2415
IPC: G06F18/2415 ; G06F18/22 ; G06N3/092

Abstract:

本发明公开了一种基于技能发现与分配的多智能体强化学习方法及装置，涉及多智能体强化学习领域。能够解决现有技术中因参数共享导致智能体之间的行为同质化的问题，增强智能体行为的多样性，从而更好的适应需要复杂协调的任务场景，该方法包括：根据参数化的神经网络和每个智能体的观测潜变量得到技能集合包括的每个技能的技能概率；根据下一个时间段智能体待执行的技能、当前时间段智能体的观测潜变量和当前时间段智能体的技能策略得到当前时间段智能体的总价值函数；根据当前时间段智能体的内在奖励、当前时间段智能体的总价值函数、下一个时间段智能体的总价值函数得到智能体的损失函数。

Information query

Chinese Patent Announcement Global Dossier Espacenet