一种基于安全互模拟度量的视觉强化学习方法
摘要:
本发明公开了一种基于安全互模拟度量的视觉强化学习方法,首先,建立序列条件变分推断模型、安全互模拟度量模型与安全强化学习模型,并初始化模型参数;对于每个环境步,收集经验样本,构建拉格朗日损失函数,并更新拉格朗日乘子;对于每个梯度步,从经验回放池中采样数据序列,构建序列条件变分推断模型损失函数与安全互模拟度量模型损失函数并更新模型参数,构建安全强化学习模型并更新模型参数;最后,重复上述步骤直到获得最优模型参数。本发明能够学习到紧凑且富含信息的视觉状态表征,同时满足预设的安全约束要求。
公开/授权文献
0/0