一种基于强化学习的模型训练方法以及相关装置

    公开(公告)号:CN111985640A

    公开(公告)日:2020-11-24

    申请号:CN202010662161.2

    申请日:2020-07-10

    IPC分类号: G06N3/08 G06N3/04 G06K9/62

    摘要: 本申请公开了一种基于强化学习的模型训练方法以及相关装置,可以应用于游戏策略模拟的过程中。通过获取预设强化学习模型和多个目标强化学习模型;然后将目标样本输入预设强化学习模型,并在强化学习环境中进行迭代计算,以得到样本集合;并从样本集合中提取经验样本,以结合目标强化学习模型建立正则化安德森目标函数;进一步的通过得到安德森系数向量确定损失函数,以对预设强化学习模型进行训练。由于在训练过程中的样本为循环使用的过程,提高了数据的利用率,进而减少了智能体与环境的交互次数,提高了强化学习模型训练的效率。

    训练姿态估计模型的方法、装置、姿态估计的方法及装置

    公开(公告)号:CN112418399B

    公开(公告)日:2024-03-26

    申请号:CN202011309347.6

    申请日:2020-11-20

    申请人: 清华大学

    摘要: 本文公开一种训练姿态估计模型的方法、装置、姿态估计的方法及装置,本发明实施例获取包括第一数据集和第二数据集的原始图像数据集;其中,第一数据集中包含的原始图像均进行了人体三维关键点标记;第二数据集中仅小于预设比例的原始图像标记了人体三维关键点;通过采用共用编码器的循环对抗生成网络对第一数据集和第二数据集中的原始图像进行训练,获得了用于姿态估计模型训练的具有多样性的待标记图像;通过共用编码器获得待标记图像的图像特征后,通过关键点检测模型对获得图像特征的图像进行人体三维关键点标记;通过标记的人体三维关键点对姿态估计模型进行参数调整,实现了姿态估计模型的训练。

    一种视频识别方法
    4.
    发明公开

    公开(公告)号:CN117523454A

    公开(公告)日:2024-02-06

    申请号:CN202311560317.6

    申请日:2023-11-21

    申请人: 清华大学

    摘要: 本公开提供了一种视频识别方法,涉及计算机技术领域,旨在高效地实现视频识别。所述方法包括:将目标视频输入视频识别模型,得到全局特征提取网络输出的目标视频的各个视频帧的全局特征图;将各个视频帧的全局特征图输入策略网络,得到多个目标视频帧;其中,目标视频帧包含的信息量大于非目标视频帧包含的信息量;将每个目标视频帧的全局特征图输入策略网络,得到每个目标视频帧的目标图像区域;其中,目标图像区域包含的信息量大于非目标图像区域包含的信息量;将每个目标视频帧的目标图像区域输入局部特征提取网络,得到每个目标视频帧的局部特征图;将每个目标视频帧的局部特征图输入分类器,得到目标视频的识别结果。

    一种模型训练方法、路径跟踪方法、装置及电子设备

    公开(公告)号:CN116777954A

    公开(公告)日:2023-09-19

    申请号:CN202310708844.0

    申请日:2023-06-14

    申请人: 清华大学

    发明人: 宋士吉 杨琪森

    IPC分类号: G06T7/246 G06N3/04

    摘要: 本申请提供了一种模型训练方法、路径跟踪方法、装置及电子设备,包括:获取由多个轨迹点信息构成的轨迹切片信息;获取轨迹切片信息中各个轨迹点信息对应的行动者隐藏状态值和评论者隐藏状态值;基于轨迹切片信息、行动者隐藏状态值和评论者隐藏状态值进行优势估计,得到Q值序列;基于Q值序列确定行动者网络梯度和评论者网络梯度;基于行动者网络梯度更新行动者网络的参数,基于评论者网络梯度更新评论者网络的参数,得到路径跟踪模型。集合历史轨迹切片信息和网络的隐藏状态信息对模型中的行动者网络和评论者网络进行Q值序列的计算,通过Q值序列对模型中的行动者网络和评论者网络进行运算能够提升训练得到的路径跟踪模型的路径追踪精度。

    图像处理方法、装置、电子设备及存储介质

    公开(公告)号:CN116403061A

    公开(公告)日:2023-07-07

    申请号:CN202310340521.0

    申请日:2023-03-31

    申请人: 清华大学

    摘要: 本公开提供了一种图像处理方法、装置、电子设备及存储介质,涉及计算机视觉技术领域。所述方法包括:获取输入图像的图像向量;从所述图像向量中,获取多个查询矩阵;对所述图像向量进行移动处理,得到按行展开的键值矩阵;根据所述多个查询矩阵和所述键值矩阵,得到每个所述查询矩阵对应的输出矩阵,每个所述查询矩阵对应的输出矩阵包含:所述图像向量对所述查询矩阵的注意力;根据所述多个输出矩阵,输出所述输入图像的图像处理结果。

    基于分布鲁棒优化模型的列车计划时刻表编制方法及装置

    公开(公告)号:CN115759693A

    公开(公告)日:2023-03-07

    申请号:CN202211538894.0

    申请日:2022-12-01

    申请人: 清华大学

    发明人: 宋士吉 刘琳钰

    IPC分类号: G06Q10/0631 G06Q50/30

    摘要: 本申请实施例涉及交通运输计划制定和优化技术领域,具体涉及一种基于分布鲁棒优化模型的列车计划时刻表编制方法及装置,旨在列车行车时长不确定情况下,如何利用有限的历史运行时长数据,编制能够更好地兼顾通行效率和鲁棒性的计划时刻表。所述方法首先针对运行图编制和重调度决策过程,构建数据驱动的以经验分布为中心的1‑Wasserstein两阶段分布鲁棒列车时刻表优化模型,所述两阶段分布鲁棒列车时刻表优化模型以最小化列车的总行驶时长和总晚点程度为目标;将列车的线路计划、列车运行的历史数据输入到所述两阶段分布鲁棒列车时刻表优化模型中,通过设计主问题和子问题迭代求解算法,对所述两阶段分布鲁棒列车时刻表优化模型进行求解,得到列车计划时刻表。

    一种心脏三维模型生成方法、装置、设备及存储介质

    公开(公告)号:CN114663410A

    公开(公告)日:2022-06-24

    申请号:CN202210332317.X

    申请日:2022-03-31

    申请人: 清华大学

    摘要: 本申请实施例涉及数据处理技术领域,具体涉及一种心脏三维模型生成方法、装置、设备及存储介质,旨在快速准确地采集心脏二维超声图像以及建立心脏三维模型。所述方法包括:通过机械臂夹持超声探头采集得到多组心脏二维超声影像;对所述多组心脏二维超声影像进行三维重建,得到多个心脏三维先验模型;通过所述多组心脏二维超声影像与所述多个心脏三维先验模型对深度神经网络进行自监督训练,得到心脏三维模型生成网络;通过所述心脏三维模型生成网络执行心脏三维模型生成任务,得到心脏三维模型。

    一种检测图像信息的方法、装置和存储介质

    公开(公告)号:CN112818809A

    公开(公告)日:2021-05-18

    申请号:CN202110109437.9

    申请日:2021-01-25

    申请人: 清华大学

    摘要: 本申请公开了一种检测图像信息的方法、装置和存储介质,具体为获取至少一对待处理图像对样本;基于第一图像样本和第一重构图像特征信息,计算第二特征提取模型的重构损失函数;基于第二重构图像特征信息和第一图像样本,计算第三特征提取模型的对抗损失函数;基于重构损失函数和对抗损失函数,对第一特征提取模型中的第一模型参数进行优化,生成优化后的第一特征提取模型;将获取的待处理图像对输入优化后的第一特征提取模型,生成待处理图像对中的第一图像和第二图像之间的差异信息。本申请实施例通过利用未标注差异信息的图像对样本,降低了第一特征提取模型对于标注数据的依赖,提升了模型的识别效率和识别准确率。

    一种影像识别方法和装置
    10.
    发明公开

    公开(公告)号:CN112766323A

    公开(公告)日:2021-05-07

    申请号:CN202011643346.5

    申请日:2020-12-30

    申请人: 清华大学

    IPC分类号: G06K9/62 G06N3/04 G06N3/08

    摘要: 本申请实施例公开了一种影像识别方法和装置,该方法包括:获取待识别影像以及训练好的影像识别模型;将待识别影像输入影像识别模型,并由影像识别模型输出待识别影像对应的疾病类型;影像识别模型是以预设的训练数据集包含的标注数据集合对第一卷积神经网络进行训练,并基于训练数据集包含的未标注数据集合以及训练后的第一卷积神经网络获得未标注数据集合中每个未标注数据对应的伪标签;基于伪标签以及元学习方法对第二卷积神经网络进行训练获得的;第二卷积神经网络与第一卷积神经网络结构相同;训练好的第二卷积神经网络作为影像识别模型。该实施例方案实现了不引入额外的超参数,具有更低的部署成本,适用性更广。