-
公开(公告)号:CN119250154A
公开(公告)日:2025-01-03
申请号:CN202411341357.6
申请日:2024-09-25
Applicant: 北京理工大学深圳汽车研究院(电动车辆国家工程实验室深圳研究院)
Abstract: 本申请公开了一种强化学习方法及系统,涉及强化学习领域,该方法包括:获取目标应用场景下的次优演示数据;通过智能体根据次优演示数据进行模仿学习,得到初始策略;基于初始策略,确定多个行为序列;根据多个行为序列,对奖励模型进行迭代训练,以得到训练后的奖励模型;基于训练后的奖励模型,在KL散度的对比强化学习算法中引入正则项,以得到带有正则项的对比强化学习损失函数;根据多个行为序列,基于训练后的奖励模型及带有正则项的对比强化学习损失函数,进行强化学习,以得到目标应用场景下最终的强化学习策略。本申请通过对奖励模型和对比强化学习的损失函数进行改进,智能体模仿学习次优演示数据后,能够快速学习到更优的策略。