共享循环神经网络的高效值函数迭代强化学习方法

    公开(公告)号:CN111582441B

    公开(公告)日:2021-07-30

    申请号:CN202010298982.2

    申请日:2020-04-16

    申请人: 清华大学

    IPC分类号: G06N3/04 G06N3/08

    摘要: 本发明公开了一种共享循环神经网络的高效值函数迭代强化学习方法,该方法包括:通过智能体与环境进行交互获得样本数据,并将样本数据添加至样本池中;在样本池中随机选取样本数据作为训练样本数据;根据训练样本数据对Critic网络的输出进行归一化,并对其MLP网络和共享LSTM参数进行更新;循环迭代对Critic网络更新两次后,根据训练样本数据对Actor网络的MLP部分参数进行更新;对Critic网络中的第三Critic网络和第四Critic网络、Actor网络的第二Actor网络参数进行更新。该方法将循环神经网络与值函数迭代相结合,提高算法训练效率,缩短算法训练时间。

    颈椎脊髓高信号的检测方法及系统

    公开(公告)号:CN109934824B

    公开(公告)日:2021-02-12

    申请号:CN201910238688.X

    申请日:2019-03-27

    申请人: 清华大学

    摘要: 本发明公开了一种颈椎脊髓高信号的检测方法及系统,其中,该方法包括:获取颈椎脊髓图像,对颈椎脊髓图像进行分割、有效性验证和分段处理生成多个候选区域和多个候选区域对应的编号;通过预设方法对多个候选区域进行特征提取得到每一个候选区域的特征向量;通过LDA算法对每一个候选区域的特征向量进行分类,根据分类结果判断颈椎脊髓图像是否存在脊髓高信号,若存在,则根据多个候选区域对应的编号对脊髓高信号进行定位。该方法有效地缩小由于医疗资源不匹配造成的错诊,避免延误病人的病情,辅助医生进行诊断,提高诊疗效率。

    一种无人摩托转向控制参数整定方法和装置

    公开(公告)号:CN111736618A

    公开(公告)日:2020-10-02

    申请号:CN202010598923.7

    申请日:2020-06-28

    申请人: 清华大学

    IPC分类号: G05D1/08 G06N3/00

    摘要: 本申请实施例公开了一种无人摩托转向控制参数整定方法和装置,该方法包括:将无人摩托的每个主动平衡参数各自对应为粒子群算法中粒子的一个维度;所述主动平衡参数为一个或多个;将粒子中的每个维度分别设置为不同的初始值,以获取多个初始粒子,并由所述多个初始粒子组成粒子种群;从所述粒子种群中选择出最优粒子;将所述最优粒子的维度对应的主动平衡参数作为所述无人摩托的转向控制参数。通过该实施例方案,实现了不依赖于工程师经验,具有可靠的科学依据,提高了无人摩托主动平衡过程的稳定性。

    柔性臂的机械结构
    14.
    发明授权

    公开(公告)号:CN107186707B

    公开(公告)日:2020-09-29

    申请号:CN201710602428.7

    申请日:2017-07-21

    申请人: 清华大学

    摘要: 本发明公开了一种柔性臂的机械结构,柔性臂的机械结构包括:柔性整臂,柔性整臂具有驱动端和自由端,柔性整臂包括多个柔性段单元,每个柔性段单元包括:多个柔性关节;多个刚性薄壁管,多个柔性关节和多个刚性薄壁管在柔性整臂的延伸方向上交替相连;多个过线圆环;多个绳索,每个柔性段单元的多个绳索沿柔性整臂的周向间隔设置,每个绳索的一端与所在柔性段单元上邻近自由端的过线圆环相连;驱动机构,驱动机构与柔性整臂的驱动端相连,每个绳索的另一端依次穿过所经过的过线圆环与驱动机构传动连接。根据本发明实施例的柔性臂的机械结构具有刚度大、负载能力强等优点。

    无人摩托静态障碍避障路径规划计算方法

    公开(公告)号:CN110032187A

    公开(公告)日:2019-07-19

    申请号:CN201910279187.6

    申请日:2019-04-09

    申请人: 清华大学

    IPC分类号: G05D1/02 G01C21/34

    摘要: 本发明公开了一种无人摩托静态障碍避障路径规划方法,该方法包括以下步骤:建立无人摩托的平衡动力学模型与运动学模型;使用自适应分辨率的A*算法,在栅格地图上获取一条连接初始节点与目标节点的通路;结合平衡动力学模型与运动学模型,使用RRT算法对所述通路进行剪枝,生成一条无人摩托可执行的路径。该方法通过采用低精度地图,多层次展现环境,以及采用历史路径、历史地图的剪枝技术,极大降低算法的运行时间,实现路径规划中对于实时性的需求,当环境变化时也能够较快地适应,从而可以拓展为动态障碍物的避障算法。

    一种发动机的故障预测方法

    公开(公告)号:CN107044349B

    公开(公告)日:2018-12-14

    申请号:CN201710249558.7

    申请日:2017-04-17

    IPC分类号: F02C9/00 G01M15/14

    摘要: 本发明公开了一种发动机的故障预测方法,包括以下步骤:获取所述发动机的多个传感器的有效测量数据;对所述有效测量数据进行归一化处理;将归一化处理后的所述有效测量数据进行切片处理,形成多个切片样本;将多个所述切片样本分别送入深度神经网络进行特征提取,特征提取后连接到全连接网络;根据所述全连接网络的输出,通过softmax分类器进行分类,确定所述发动机的剩余使用寿命。本发明提出的发动机的故障预测方法,流程简单,易于操作,能够广泛应用于飞行器的各类发动机中。

    并行化不完美信息博弈策略生成方法、装置、电子设备以及存储介质

    公开(公告)号:CN113779870B

    公开(公告)日:2024-08-23

    申请号:CN202110975035.7

    申请日:2021-08-24

    申请人: 清华大学

    IPC分类号: G06F30/27 G06F18/23213

    摘要: 本申请属于机器学习技术领域,具体而言,涉及一种并行化不完美信息博弈策略生成方法、装置、电子设备以及存储介质。该方法包括:利用非完全回忆聚类方法,对不完美信息博弈的原始特征空间进行压缩,得到抽象特征空间;利用MCCFR最小化方法,在所述抽象特征空间内,通过自我博弈,迭代生成蓝图策略;利用特征字符串的哈希算法,对蓝图策略进行分布式存储和更新。该方法使用非完全回忆进行特征空间抽象,提升策略鲁棒性;在MCCFR算法的基础上使用整体期望收益替代后悔值进行间隔更新,使用采样动作频数生成最终策略,结合特征映射和并行框架,提高算法收敛速度,缩短算法训练时间。

    多智能体协同规划方法、装置、电子设备及存储介质

    公开(公告)号:CN114629798B

    公开(公告)日:2023-08-18

    申请号:CN202210102211.0

    申请日:2022-01-27

    申请人: 清华大学

    摘要: 本申请涉及多智能体协同规划技术领域,特别涉及一种多智能体协同规划方法、装置、电子设备及存储介质,其中,方法包括:采集中心智能体和对应目标点之间的相对位置;基于相对位置,利用预设的图神经网络对至少一个近邻智能体或中心智能体进行定向采样,获取定向采样结果,其中,图神经网络由CNN、TOKF‑GraphSAGE和MLP复合构建;利用预设的图神经网络由定向采样结果采样聚合为面向任务的多智能体的最佳协同动作。由此,解决了信息部分可知情况下对近邻智能体进行定向采样信息的问题,根据中心智能体和目标点的相对位置,对朝向目标点区域的近邻智能体进行定向采样,提高训练的效率和稳定性。

    基于点云DCA特征的非合作目标位姿跟踪方法及装置

    公开(公告)号:CN112070832B

    公开(公告)日:2023-02-17

    申请号:CN202010790024.7

    申请日:2020-08-07

    申请人: 清华大学

    摘要: 本申请公开了一种基于点云DCA特征的非合作目标位姿跟踪方法及装置,其中,该方法包括:对三维目标点云模型和三维场景点云模型进行特征点检测;提取三维目标点云模型和三维场景点云模型中的点云局部特征描述子;根据FLANN算法对三维目标点云模型的点云局部特征描述子和三维场景点云模型中的点云局部特征描述子进行特征匹配;通过RANSAC算法去除特征匹配结果中的错误匹配,得到三维目标点云模型的初步位姿估计;将初步位姿估计作为迭代最近点算法的初始值,通过迭代最近点算法对位姿估计进行精调。该方法提出一种简洁高效的非合作目标位姿测量方法,可以更好的实现目标航天器相对位姿的测量。

    基于生成对抗机制的强化学习探索方法及装置

    公开(公告)号:CN112052936B

    公开(公告)日:2022-06-03

    申请号:CN202010720742.7

    申请日:2020-07-24

    申请人: 清华大学

    IPC分类号: G06N3/04 G06N3/08

    摘要: 本发明公开了一种基于生成对抗机制的强化学习探索方法及装置,其中,该方法包括:构建第一动作价值网络、第二动作价值网络、状态价值网络、目标状态价值网络、策略网络、密度模型网络和鉴别网络;基于生成对抗机制和离线强化学习算法的学习过程,对第一动作价值网络、第二动作价值网络、状态价值网络、目标状态价值网络、策略网络、密度模型网络和鉴别网络进行更新;根据更新的多个网络生成更新后的策略模型,对策略模型进行测试。该方法设计出一种利用探索过程中的正确决策加速和稳定强化学习训练过程的探索算法。