一种强化学习方法及系统
    1.
    发明公开

    公开(公告)号:CN119250154A

    公开(公告)日:2025-01-03

    申请号:CN202411341357.6

    申请日:2024-09-25

    Abstract: 本申请公开了一种强化学习方法及系统,涉及强化学习领域,该方法包括:获取目标应用场景下的次优演示数据;通过智能体根据次优演示数据进行模仿学习,得到初始策略;基于初始策略,确定多个行为序列;根据多个行为序列,对奖励模型进行迭代训练,以得到训练后的奖励模型;基于训练后的奖励模型,在KL散度的对比强化学习算法中引入正则项,以得到带有正则项的对比强化学习损失函数;根据多个行为序列,基于训练后的奖励模型及带有正则项的对比强化学习损失函数,进行强化学习,以得到目标应用场景下最终的强化学习策略。本申请通过对奖励模型和对比强化学习的损失函数进行改进,智能体模仿学习次优演示数据后,能够快速学习到更优的策略。

Patent Agency Ranking