Patent search ap:("北京理工大学深圳汽车研究院(电动车辆国家工程实验室深圳研究院)") AND inv:"赵文艺" Page 1

1.

发明公开
一种强化学习方法及系统审中-实审

公开(公告)号：CN119250154A

公开(公告)日：2025-01-03

申请号：CN202411341357.6

申请日：2024-09-25

Applicant: 北京理工大学深圳汽车研究院(电动车辆国家工程实验室深圳研究院)

Inventor： 南金瑞 , 赵文艺 , 葛子奇 , 申哲宇 , 高振洋

IPC: G06N3/092 , G06N3/006

Abstract: 本申请公开了一种强化学习方法及系统，涉及强化学习领域，该方法包括：获取目标应用场景下的次优演示数据；通过智能体根据次优演示数据进行模仿学习，得到初始策略；基于初始策略，确定多个行为序列；根据多个行为序列，对奖励模型进行迭代训练，以得到训练后的奖励模型；基于训练后的奖励模型，在KL散度的对比强化学习算法中引入正则项，以得到带有正则项的对比强化学习损失函数；根据多个行为序列，基于训练后的奖励模型及带有正则项的对比强化学习损失函数，进行强化学习，以得到目标应用场景下最终的强化学习策略。本申请通过对奖励模型和对比强化学习的损失函数进行改进，智能体模仿学习次优演示数据后，能够快速学习到更优的策略。

Patent Agency Ranking