一种表格型密集强化学习方法、计算机存储介质及终端

    公开(公告)号:CN118245763A

    公开(公告)日:2024-06-25

    申请号:CN202410382456.2

    申请日:2024-03-29

    申请人: 清华大学

    IPC分类号: G06F18/21 G06F18/2415

    摘要: 本申请公开一种表格型密集强化学习方法、计算机存储介质及终端,包括:从关键状态集合中均匀采样初始状态,使得初始状态均为关键状态;根据学习率、时序差分误差及关键状态集合的示性函数,对未达到最优的兴趣事件的发生概率Q(s,a)进行更新学习。本公开实施例从关键状态集合中均匀采样初始状态,基于包含关键状态集合的示性函数实现兴趣事件的发生概率Q(s,a)的更新学习,使得训练数据包含的关键状态信息密集化,减少了计算量、节省了计算资源,提升了未达到最优的兴趣事件的发生概率Q(s,a)的学习效率。

    驾驶行为模型训练方法、自然驾驶环境重建方法及装置

    公开(公告)号:CN118587691A

    公开(公告)日:2024-09-03

    申请号:CN202410832192.6

    申请日:2024-06-25

    申请人: 清华大学

    摘要: 一种驾驶行为模型训练方法、自然驾驶环境重建方法及装置。利用数据驱动的方式对复杂环境下车辆的驾驶行为模型进行训练,通过对该模型在时间上的串行调用与空间上的并行调用,重建时空连续的自然驾驶环境;通过模型驱动的方法对自动驾驶系统测试环境中的背景车辆进行模拟,并与被测的自动驾驶系统进行实时交互,可以模拟复杂的真实路况,对设有自动驾驶系统的汽车在复杂交互环境下进行测试,有效保障自然驾驶环境中背景车辆的行为与真实环境中的车辆的行为状态趋近,提高了测试的准确性。

    一种稀疏关键度预测模型训练方法、预测系统和方法

    公开(公告)号:CN118535992A

    公开(公告)日:2024-08-23

    申请号:CN202410585343.2

    申请日:2024-05-11

    申请人: 清华大学

    IPC分类号: G06F18/2415 G06F18/214

    摘要: 一种稀疏关键度预测模型训练方法、预测系统和方法,所述训练方法包括:获取智能系统安全关键事件发生时的正样本集P和不发生时的负样本集N,根据P和N进行第一阶段无监督奖励模型训练,排除N中简单负样本,保留假性正样本;基于正样本集P和假性正样本构建正样本集P2和负样本集N2,进行第二阶段基于改进双支网络的有监督分类模型的训练,获得难例分类模型;获取关键数据作为第三阶段训练数据,对难例分类模型进行提高分类准确度的基于密集强化学习方法的第三阶段微调,获得稀疏关键度预测模型,能有效解决安全关键事件环境变量的稀疏度灾难,解决了极度不平衡数据集的学习问题,获得了高精度的智能系统安全关键事件概率预测模型。