-
公开(公告)号:CN118690778A
公开(公告)日:2024-09-24
申请号:CN202410803426.4
申请日:2024-06-20
Applicant: 北京理工大学
Abstract: 本发明公开了基于硬注意力增强的近端策略优化方法、终端及存储介质,涉及人工智能与控制技术领域。本发明通过硬注意力模块对智能体的观测数据进行整理、排列以及筛选,有效降低系统状态空间复杂度和无关的冗余信息的干扰。另外还采用近端策略优化方法,通过基于全局信息的评价网络与决策网络进行交替迭代训练,评价网络可以对决策网络的习得策略进行准确、合理的评价,提高强化学习方法应用于复杂干扰环境下大规模多智能体协同任务时的学习效率、策略性能以及鲁棒性。从而解决现有技术中大规模多智能体系统状态维度爆炸、单个智能体观测受限的问题,实现在复杂干扰环境中执行大规模群体对抗任务。
-
公开(公告)号:CN114879492B
公开(公告)日:2024-09-13
申请号:CN202210386266.9
申请日:2022-04-13
Applicant: 北京理工大学
IPC: G05B13/04
Abstract: 本发明属于多智能体系统协同控制领域,尤其涉及一种完全数据驱动的多智能体系统事件触发控制方法。本发明解决了无向通信拓扑下,未知模型的多智能体系统一致性控制问题。首先,提出了一种仅使用局部信息的完全分布式自适应事件触发控制策略,并得到了基于模型的一致性条件;进一步,利用预先收集的输入数据和状态数据,构建了基于数据的系统模型;通过将基于模型的一致性条件与基于数据的系统模型相结合,设计了数据驱动一致性控制器,实现了多智能体系统的状态渐近一致。
-
公开(公告)号:CN115616985B
公开(公告)日:2024-07-30
申请号:CN202210680785.6
申请日:2022-06-15
Applicant: 北京理工大学
IPC: G05B19/418
Abstract: 本发明方法提供了一种基于数据的系统自触发状态闭环控制方法,分为离线采样和在线触发两部分。在离线采样时,待镇定系统的控制量不更新,仅在自触发时刻需要更新,因此待镇定系统和控制器仅在自触发时刻进行通讯,减小通讯次数和时间,同时不影响系统稳定性。控制器求解基于采样数据的最优化问题,生成开环矩阵参数和控制增益矩阵。在线触发时,开环矩阵参数和控制增益矩阵输送至自触发模块,计算下一自触发时刻,传递给待镇定系统和控制器。待镇定系统在下一自触发时刻时将状态值传送至控制器,控制器更新控制量。由此可见,本发明不需要预先的系统辨识,只需要数据采样并计算自触发时刻,就可以对系统进行自触发状态闭环控制。
-
公开(公告)号:CN117994821B
公开(公告)日:2024-07-26
申请号:CN202410406090.8
申请日:2024-04-07
Applicant: 北京理工大学
IPC: G06V40/10 , G06V20/52 , G06V10/143 , G06V10/80 , G06V10/44 , G06V10/82 , G06V10/74 , G06F16/583 , G06N3/0464 , G06N3/0455 , G06N3/084 , G06N3/048
Abstract: 本发明属于计算机视觉和模式识别领域,应用于智能安防领域,具体为一种基于信息补偿对比学习的可见光‑红外跨模态行人再识别方法。本发明设计的混合模态对比学习损失函数能够通过训练对比学习编码映射网络生成的可见光对比编码,可见光中间模态对比编码,红外对比编码,红外中间模态对比学习编码,最大化可见光对比编码和红外对比编码之间的互信息,充分让网络挖掘出有利于身份辨识力提高的特征信息。
-
公开(公告)号:CN117464676A
公开(公告)日:2024-01-30
申请号:CN202311488524.5
申请日:2023-11-09
Applicant: 北京理工大学
IPC: B25J9/16
Abstract: 本发明公开了一种基于改进Dreamer框架的机械臂抓取方法,涉及智能生产制造领域,本发明首先通过对机械臂建模和观测动作空间及奖励函数设计构建自主决策强化学习问题模型。其次,搭建了一个具有一套基本控制接口的机械臂操作仿真平台,可与各种强化学习算法相结合。然后,通过所提出的带有前向预测的世界模型有效对生产环境进行模拟和预测,令世界模型同时学习向前与向后两种环境动力学,提高了交互得到的训练数据利用率。最后,将改进的世界模型嵌入深度强化学习算法Dreamer框架中,在搭建的平台上在线交互训练机械臂自主抓放,最终在训练的收敛速度、样本效率以及表现性能等方面均表现良好,对现实中实现智能制造中机械臂自主决策环节有重要意义。
-
公开(公告)号:CN117041001A
公开(公告)日:2023-11-10
申请号:CN202310767436.2
申请日:2023-06-27
Applicant: 北京理工大学
IPC: H04L41/042 , H04L47/783
Abstract: 本发明公开了一种切换异构不确定性下分布式数据驱动协同方法,涉及分布式探测系统协同技术领域,在离线数据收集阶段,收集每个单体系统输入‑状态轨迹和不确定性的边界,构造基于数据的粗糙集合。在线运行阶段,每个单体将实时输入和状态数据融入粗糙集合中得到精炼集合,根据精炼集合设计控制器,从而实现未知分布式系统的协同一致,因此本发明无需预先的系统辨识,只需要数据采样,就可以实现分布式时变状态反馈控制器的设计,在这一分布式时变状态反馈控制器的作用下,分布式系统能够实现渐进一致,最终实现对未知分布式系统进行一致控制。
-
公开(公告)号:CN116740021A
公开(公告)日:2023-09-12
申请号:CN202310704231.X
申请日:2023-06-14
Applicant: 北京理工大学
IPC: G06T7/00 , G06V10/764 , G06V10/44 , G06N3/0464 , G06N3/09
Abstract: 本发明提供了一种工业场景数据集下的图卷积视觉关系检测方法,针对视觉关系检测技术在真实的工业场景数据集下缺少应用的问题,建立一个工业场景下的视觉关系检测数据集;整个数据集的构建过程包括相关主题的定义、相关照片的搜集、识别的物体和关系类别的初步筛查、物体和关系的标注、物体和关系类别的最终确定;而针对将具有异构性的图卷积网络引入视觉关系检测领域不充分的问题,设计了一个基于K‑最邻近图和自适应滤波的视觉关系检测模型;K‑最邻近图用于建立谓词节点的邻接矩阵,自适应滤波的结构采用改进的图卷积形式进行;总体而言,建立一个新的工业场景数据集并设计了一个考虑异构性图卷积的视觉关系检测方法。
-
公开(公告)号:CN116363552A
公开(公告)日:2023-06-30
申请号:CN202310144010.1
申请日:2023-02-17
Applicant: 北京理工大学
IPC: G06V20/40 , G06V10/774 , G06V10/80 , G06V10/82 , G06V10/94 , G06N3/0464 , G06N3/0455 , G06N3/08 , G06N3/048
Abstract: 本发明涉及计算机视觉技术领域,特别涉及一种应用于边缘设备的实时目标检测方法;包括:构建目标检测模型;对数据集进行数据增强处理;将数据增强后的图像输入至目标检测模型;利用损失函数进行比对,计算预测结果和标签数据的误差,利用优化器通过误差与目标检测模型的梯度信息对目标检测模型参数进行优化;将训练完成的目标检测模型转化为量化模型并将量化模型部署在边缘设备上,对使用场景中的视频流进行目标检测。本发明通过更加轻量化的、可重参数化的Rep‑ELAN结构和解耦检测头,能够在几乎不损失计算速度的同时大幅增加检测器的准确度;本发明的数据增强处理方法,能够在数据集标签不充分时大幅提高数据标签的有效性,提高训练效率和训练效果。
-
公开(公告)号:CN116184982A
公开(公告)日:2023-05-30
申请号:CN202310080255.2
申请日:2023-01-18
Applicant: 北京理工大学
IPC: G05B23/02
Abstract: 本发明方法提供了一种基于噪声数据的未知系统状态估计方法,该方法的实时分为离线阶段和在现阶段。离线阶段,向系统施加一列持续激励的输入序列,记录相应的状态和输出。利用收集到的输入‑状态‑输出轨迹,通过求解三个低复杂的SDP问题进行控制器参数设计。利用求解获得的参数构建基于状态估计的反馈控制器。在线运行阶段,系统侧每一时刻向控制器侧传输当前时刻的输出值,控制器系统输出状态估计以及控制输入,并将控制输入传送回系统对系统进行镇定。由此可见,本发明不需要预先的系统辨识,只需要数据采样进行控制器设计,从而对未知系统进行状态估计和镇定。
-
公开(公告)号:CN116175581A
公开(公告)日:2023-05-30
申请号:CN202310228383.7
申请日:2023-03-03
Applicant: 北京理工大学
IPC: B25J9/16
Abstract: 本发明涉及一种基于随机离散策略‑评价网络的强化学习机器人连续动作控制方法,属于强化学习技术领域。首先对机器人控制问题中的高维连续动作进行离散化,将整体连续动作空间按各个维度分别离散化,将每个动作维度视为一个智能体并分配一个独立策略;其次构建基于Actor‑Critic结构的强化学习模型,其中分解策略网络模块以离散动作概率分布的形式对机器人控制问题中各动作维度的局部策略进行分解表示,该网络可以优化算法整体的计算成本;集中评价网络模块用于对机器人控制的全局策略提供评价,最后,在训练过程中综合软强化学习思想,通过最大化随机熵提升采样效率,实现强化学习的高效收敛,并有效提升机器人的控制效果。
-
-
-
-
-
-
-
-
-