一种基于安全互模拟度量的视觉强化学习方法

    公开(公告)号:CN117933349B

    公开(公告)日:2024-07-26

    申请号:CN202410106823.6

    申请日:2024-01-25

    IPC分类号: G06N3/092

    摘要: 本发明公开了一种基于安全互模拟度量的视觉强化学习方法,首先,建立序列条件变分推断模型、安全互模拟度量模型与安全强化学习模型,并初始化模型参数;对于每个环境步,收集经验样本,构建拉格朗日损失函数,并更新拉格朗日乘子;对于每个梯度步,从经验回放池中采样数据序列,构建序列条件变分推断模型损失函数与安全互模拟度量模型损失函数并更新模型参数,构建安全强化学习模型并更新模型参数;最后,重复上述步骤直到获得最优模型参数。本发明能够学习到紧凑且富含信息的视觉状态表征,同时满足预设的安全约束要求。

    一种基于安全互模拟度量的视觉强化学习方法

    公开(公告)号:CN117933349A

    公开(公告)日:2024-04-26

    申请号:CN202410106823.6

    申请日:2024-01-25

    IPC分类号: G06N3/092

    摘要: 本发明公开了一种基于安全互模拟度量的视觉强化学习方法,首先,建立序列条件变分推断模型、安全互模拟度量模型与安全强化学习模型,并初始化模型参数;对于每个环境步,收集经验样本,构建拉格朗日损失函数,并更新拉格朗日乘子;对于每个梯度步,从经验回放池中采样数据序列,构建序列条件变分推断模型损失函数与安全互模拟度量模型损失函数并更新模型参数,构建安全强化学习模型并更新模型参数;最后,重复上述步骤直到获得最优模型参数。本发明能够学习到紧凑且富含信息的视觉状态表征,同时满足预设的安全约束要求。

    一种基于自适应动态窗口法的UUV三维避障规划方法

    公开(公告)号:CN117826819A

    公开(公告)日:2024-04-05

    申请号:CN202410004949.2

    申请日:2024-01-02

    IPC分类号: G05D1/43 G05D1/622

    摘要: 本发明公开了一种基于自适应动态窗口法的UUV三维避障规划方法,构建了一种基于Tanhshrink函数的与目标距离相关的艏向评价函数,针对陷阱障碍物,设计了艏向评价函数的自适应调整策略;构建了一种与UUV巡航速度相关的速度评价函数,针对动态障碍物,设计了速度评价函数的自适应调整策略。与现有方法相比,本发明可基于自适应的动态窗口法进行自适应的UUV避障规划,有效提高了UUV轨迹的平滑性,有效提高了算法对复杂环境的适应性。

    基于对偶行为正则化的离线强化学习方法

    公开(公告)号:CN117236413A

    公开(公告)日:2023-12-15

    申请号:CN202311065344.6

    申请日:2023-08-22

    IPC分类号: G06N3/092

    摘要: 本发明公开了一种基于对偶行为正则化的离线强化学习方法,属于离线强化学习领域,首先,在反探索行为值正则化策略评估过程中,利用Q值与行为Q值的残差奖励作为Q值损失函数的反探索行为值正则项来驱动Q值逼近行为Q值;然后,在温和局部行为克隆正则化策略提升过程中,利用行为策略在不同状态下动作样本的估计方差来设计策略损失函数的温和局部行为克隆正则项,有效规范行为克隆的约束强度;最后,不断耦合迭代设计的反探索行为值正则化策略评估和温和局部行为克隆正则化策略提升,直至整个策略迭代过程学习到满足强化学习智能体部署需求的任务解决策略。本发明不仅有效缓解了过度乐观Q值的估计偏差,并且高效提升了策略改进的潜力。

    一种基于虚拟分类器的高光谱图像领域自适应方法

    公开(公告)号:CN115410088A

    公开(公告)日:2022-11-29

    申请号:CN202211235431.7

    申请日:2022-10-10

    摘要: 本发明公开了一种基于虚拟分类器的高光谱图像领域自适应方法,其用于无监督高光谱图像分类任务。首先,通过基于空‑谱近邻图的图卷积网络来提取高光谱图像的领域不变特征;然后,构建一个基于特征相似性度量的虚拟分类器来输出目标域样本的类别概率;此外,通过最小化真实和虚拟分类器之间的分歧,以使不同领域但具有相似特征的像素被分为同一个类别;最后,通过构造一个软原型对比损失并将其最小化,以对齐不同领域特征相似的样本且使不相似的样本互相远离。

    一种基于双分类器对抗增强网络的高光谱图像分类方法

    公开(公告)号:CN114723994A

    公开(公告)日:2022-07-08

    申请号:CN202210401324.0

    申请日:2022-04-18

    摘要: 本发明公开了一种基于双分类器对抗增强网络的高光谱图像分类方法,首先将原始HSI的源域和目标域数据进行向量化并输入BCAAN进行训练,使用源域数据预训练整个网络;然后固定特征生成器,使用目标域数据训练两分类器,使其差异最大;然后固定两分类器,使用目标域数据优化特征生成器,使两分类器差异最小;使用预训练的网络获取目标域数据的伪标签,每个样本对应两个伪标签;把两伪标签相同且输出概率皆大于区分阈值的目标域数据选为可靠样本。使用随机置零的方式对可靠样本进行数据增强,后将可靠的目标域和增强后的数据添加到源域数据中。最后,训练一个epoch后重新采样,基于分类器差异在对抗的过程中对齐源域和目标域,直到模型收敛。

    一种非三角结构系统不依赖初始条件的预设性能控制方法

    公开(公告)号:CN114063458A

    公开(公告)日:2022-02-18

    申请号:CN202111374061.0

    申请日:2021-11-19

    IPC分类号: G05B13/04

    摘要: 本发明公开了一种非三角结构系统不依赖初始条件的预设性能控制方法,具体思路如下:首先建立非三角结构非线性系统的动力学模型;然后利用神经网络与变量分离技术构建一种结构简单的状态观测器;接着构造具有特定性质的转移转换函数对跟踪误差作非线性变换;最后利用受限李雅普诺夫函数理论设计基于输出反馈且不依赖于初始条件的预设性能控制器。本发明的预设性能控制方法能够保证跟踪误差从任意有界初值以给定的速度在给定的时间内收敛到给定的精度范围内,不仅消除了常规预设性能控制方法必须满足的初始条件约束,而且实现了跟踪误差收敛到给定的精度范围内的时间的可预先设定,提高了预设性能控制方法的实用性。

    基于双超图正则化的肿瘤基因表达谱数据双聚类方法

    公开(公告)号:CN109215741B

    公开(公告)日:2022-02-08

    申请号:CN201810948044.5

    申请日:2018-08-20

    IPC分类号: G16B40/30 G16B25/10 G06K9/62

    摘要: 本发明公开了一种基于双超图正则化的肿瘤基因表达谱数据双聚类方法,通过对肿瘤基因表达谱数据的样本和基因分别进行聚类;然后,对肿瘤基因表达谱数据的样本和基因分别建立样本超图和基因超图,来获取样本和基因的固有几何结构;最后,将样本超图和基因超图分别作为主成分分析的样本超图正则项和基因超图正则项,确定优化目标函数,最后通过优化目标函数分别优化样本聚类矩阵和基因聚类矩阵,得到最终的样本聚类和基因聚类。本发明在基于主成分分析法的基础上,通过双超图正则化进行双聚类的优化,从而在保留主成分分析法的优点基础上更好的获取肿瘤基因表达谱数据中的复杂信息,最终提高获得聚类的精确性。

    一种基于无监督宽度学习的高光谱图像聚类方法

    公开(公告)号:CN109685105B

    公开(公告)日:2019-10-25

    申请号:CN201811366436.7

    申请日:2018-11-16

    IPC分类号: G06K9/62 G06K9/00

    摘要: 本发明的一种基于无监督宽度学习的高光谱图像聚类方法,首先,为保留原始高光谱图像的本征流形结,利用图正则稀疏自动编码器微调输入到映射特征和映射特征到增量节点的权重;接着,无监督宽度学习的模型目标函数由图正则项和连接权重的l2范数项构成,并通过求解广义特征值分解问题,得到无监督宽度学习的模型权重以及无监督宽度学习的输出;最后,利用谱聚类得到聚类结果。