-
公开(公告)号:CN114841074B
公开(公告)日:2024-10-22
申请号:CN202210540972.4
申请日:2022-05-17
申请人: 重庆大学
IPC分类号: G06F30/27
摘要: 本发明涉及一种基于状态观测与经验池的非线性多智能体一致性方法,属于计算机领域。首先在跟随者对领导者状态无法获取的场景下,使用反步法和动态面控制法为每个智能体设计了全维观测器来观测领导者的状态。之后,一致性问题就转换成了每个跟随者对各自的领导者状态观测器的最优跟踪问题。下一步针对控输入受非对称饱和约束定义了一个非二次代价函数来处理,然后定义新的增广系统下的最优控制问题,并使用强化学习策略算法来迭代求解,并分析了策略迭代下解的稳定性和最优性。对于最优控制的HJB方程难以直接求解的困难,本发明利用神经网络良好的逼近性质,使用actor‑critic框架进行求解。
-
公开(公告)号:CN102200787B
公开(公告)日:2013-04-17
申请号:CN201110096582.4
申请日:2011-04-18
申请人: 重庆大学
IPC分类号: G05D13/04
摘要: 本发明公开了一种机器人行为多层次集成学习方法及系统,涉及机器人行为控制技术,包括数据采样模块,用于输入机器人的信息数据;非监督学习模块,获取用于表达机器人运行环境的实时变化的环境模式特征向量;监督学习模块,以环境模式特征向量为输入信号,实时在线地把环境模式特征向量映射为机器人所需行为的动作命令;激励学习模块,对机器人行为控制器参数进行实时在线优化精确整定,使控制器达到可靠和稳定的工作状态;命令输出模块,本发明提出的方法及系统可用于不同类型的机器人、具备学习新的机器人行为的能力和优化现有机器人行为以适应运行环境的动态变化,从而提高机器人的智能与自主控制能力、增强学习系统的普适性和简化控制器的设计。
-
公开(公告)号:CN115327901A
公开(公告)日:2022-11-11
申请号:CN202210937157.1
申请日:2022-08-05
申请人: 重庆大学
IPC分类号: G05B13/04
摘要: 本发明涉及一种异步框架下非仿射多智能体动态事件触发跟踪控制方法,属于机器人控制技术领域。该方法包括以下步骤:S1:建立辨识系统模型;S2:异步通信框架及控制器框架分析;S3:求解基于强化学习的异步动态事件触发控制器。在多智能体协同中,设计了通信触发器,只有在通信触发器被触发时,智能体才与邻居结点进行交换信息,并将交互后的信息进行缓存,用于后续的计算。这种控制方式极大的节约了通信资源。
-
公开(公告)号:CN102200787A
公开(公告)日:2011-09-28
申请号:CN201110096582.4
申请日:2011-04-18
申请人: 重庆大学
IPC分类号: G05D13/04
摘要: 本发明公开了一种机器人行为多层次集成学习方法及系统,涉及机器人行为控制技术,包括数据采样模块,用于输入机器人的信息数据;非监督学习模块,获取用于表达机器人运行环境的实时变化的环境模式特征向量;监督学习模块,以环境模式特征向量为输入信号,实时在线地把环境模式特征向量映射为机器人所需行为的动作命令;激励学习模块,对机器人行为控制器参数进行实时在线优化精确整定,使控制器达到可靠和稳定的工作状态;命令输出模块,本发明提出的方法及系统可用于不同类型的机器人、具备学习新的机器人行为的能力和优化现有机器人行为以适应运行环境的动态变化,从而提高机器人的智能与自主控制能力、增强学习系统的普适性和简化控制器的设计。
-
公开(公告)号:CN115327901B
公开(公告)日:2024-10-29
申请号:CN202210937157.1
申请日:2022-08-05
申请人: 重庆大学
IPC分类号: G05B13/04
摘要: 本发明涉及一种异步框架下非仿射多智能体动态事件触发跟踪控制方法,属于机器人控制技术领域。该方法包括以下步骤:S1:建立辨识系统模型;S2:异步通信框架及控制器框架分析;S3:求解基于强化学习的异步动态事件触发控制器。在多智能体协同中,设计了通信触发器,只有在通信触发器被触发时,智能体才与邻居结点进行交换信息,并将交互后的信息进行缓存,用于后续的计算。这种控制方式极大的节约了通信资源。
-
公开(公告)号:CN114841074A
公开(公告)日:2022-08-02
申请号:CN202210540972.4
申请日:2022-05-17
申请人: 重庆大学
IPC分类号: G06F30/27
摘要: 本发明涉及一种基于状态观测与经验池的非线性多智能体一致性方法,属于计算机领域。首先在跟随者对领导者状态无法获取的场景下,使用反步法和动态面控制法为每个智能体设计了全维观测器来观测领导者的状态。之后,一致性问题就转换成了每个跟随者对各自的领导者状态观测器的最优跟踪问题。下一步针对控输入受非对称饱和约束定义了一个非二次代价函数来处理,然后定义新的增广系统下的最优控制问题,并使用强化学习策略算法来迭代求解,并分析了策略迭代下解的稳定性和最优性。对于最优控制的HJB方程难以直接求解的困难,本发明利用神经网络良好的逼近性质,使用actor‑critic框架进行求解。
-
-
-
-
-