一种智能体训练方法、装置、存储介质及电子设备

    公开(公告)号:CN117540214A

    公开(公告)日:2024-02-09

    申请号:CN202311677765.4

    申请日:2023-12-07

    Applicant: 吉林大学

    Abstract: 本说明书公开了一种智能体训练方法、装置、存储介质及电子设备,其中方法包括:获取环境向量、智能体的局部状态向量和动作向量进行拼接,得到智能体的全局向量,采用对比模块对全局向量进行计算,得到目标向量,采用集成评价网络对目标向量进行评价得到样本评分,对样本评分进行处理得到预估评分,计算对比模块、策略网络和集成评价网络的损失函数,基于损失函数对网络参数进行调整,直至损失函数指示收敛,得到训练完成的对比模块、策略网络和集成评价网络,采用本说明书,采用对比模块辅助评价网络进行训练增加额外的损失函数,提高目标向量的表示能力,并通过集成式评价网络减少预估时产生的误差,提高了智能体训练模型的样本训练效率。

    基于多智能体强化学习的多路口交通信号灯公平控制方法

    公开(公告)号:CN118298648A

    公开(公告)日:2024-07-05

    申请号:CN202410269549.4

    申请日:2024-03-11

    Applicant: 吉林大学

    Abstract: 本发明属于智能交通控制技术领域,具体公开了基于多智能体强化学习的多路口交通信号灯公平控制方法,设计了一种新型的公平性度量指标,并提出了一种公平性感知的多智能体强化学习方法,可以在确保模型性能不受影响的前提下,提供相对公平的动作决策;提出了反事实数据增强的模块,通过利用反事实思想,基于已有的交互数据实现数据集的扩展,有利于丰富交互数据的多样性,进而在交互数据收集受限的任务中提高训练样本效率;设计了辅助自监督表示学习任务,通过状态之间天然的时序关系构建自监督表示学习损失,额外训练损失的引入有利于状态信息特征提取,提升模型训练样本效率。

    一种安装有无线开关控制的计算机装置

    公开(公告)号:CN204537042U

    公开(公告)日:2015-08-05

    申请号:CN201520212438.6

    申请日:2015-04-09

    Applicant: 吉林大学

    Abstract: 本实用新型公开了一种安装有无线开关控制的计算机装置,包括底座、触摸开关、显示屏支撑框、音响、显示屏和无线控制模块;所述显示屏支撑框底端安装在底座上;所述显示屏嵌入在屏幕支撑框中;所述音响安装在显示屏支撑框内侧端;所述无线控制模块和触摸开关设置在显示屏支撑框底端,且在屏幕支撑框内设置有工作单元;该新型设置有无线开关控制的计算机,通过与安卓手机连接进而实现远距离的控制计算机的电源通断,且在屏幕支撑框内侧端设置有音响,改变了现有技术中计算机需要外置音响进而占据空间且不便携带的情形;整体结构简单,实用性强,易于推广使用。

Patent Agency Ranking