-
公开(公告)号:CN115456091A
公开(公告)日:2022-12-09
申请号:CN202211140121.7
申请日:2022-09-20
IPC分类号: G06K9/62 , G06F17/16 , G06F16/2458
摘要: 一种基于隐性马尔科夫模型的飞机位置预测方法。无需大量样本进行预处理与训练,能够在小样本情况下进行有效建模。无需事先得知敌方飞机型号与机动模型,通过已有训练机或仿真环境即可有效完成动作预测任务。采用飞机动作赋予飞机运动参数更容易观察的特征,且该特征服从马尔科夫分布,使飞机运动成为一个与飞机动作相关的隐性马尔科夫过程,极大减少建模难度,在小样本情况下极大提高预测精度,同时赋予模型一定解释性,更好进行离线或在线的修改。经测定,通过实际轨迹预测飞机未来10s位置误差在1km以内,通过观测轨迹预测飞机未来10s位置误差在3km以内。
-
公开(公告)号:CN114021456A
公开(公告)日:2022-02-08
申请号:CN202111303805.X
申请日:2021-11-05
摘要: 本发明公开一种基于强化学习的智能体无效行为切换抑制方法,属于航空工程、强化学习领域。通过智能体与仿真环境交互进行数据采样,并基于深度强化学习进行模型训练;将本算法加入模型训练过程,抑制智能体在执行时无效动作切换的产生,平滑强化学习智能体的动作执行机制。本发明能够达到较为明显的智能体无效动作切换抑制效果。
-
公开(公告)号:CN113742065A
公开(公告)日:2021-12-03
申请号:CN202110904681.4
申请日:2021-08-07
摘要: 本申请涉及机器学习技术领域,具体涉及一种基于kubernetes容器集群的分布式强化学习方法及装置。该方法包括:步骤S1、将采样任务以容器的形式运行在第一Kubernetes集群中,所述采样任务用于在机器学习的网络参数中进行采样;步骤S2、将训练任务以容器的形式运行在第二Kubernetes集群中,所述训练任务用于根据采样的数据进行机器学习,形成网络参数。本申请能够大幅提升实验效率及节约成本,仅需要一条命令一键更新容器镜像,集群就会自动滚动更新,从小时级别缩短到分钟级别。
-
公开(公告)号:CN115456090A
公开(公告)日:2022-12-09
申请号:CN202211140085.4
申请日:2022-09-20
摘要: 一种基于知识推理机的战斗机多层次复合意图预测方法,用于解决现有技术对战斗机作战意图预测精度低、预测维度单一的技术问题。实现步骤为:首先采集多源传感器数据,预处理样本数据;然后融合样本数据,并抽取数据信息中的实体、关系、属性,构建包含威胁要素、优势要素、攻击指数在内的数据结构化知识;利用专家知识库获取敌机机动动作类型,综合战场态势指标,进行知识推理,获得包含单机意图、协同意图、作战任务意图在内的多层次复合意图预测结果。本发明充分结合了战斗机身份信息、位置信息、行为信息等知识,采用多源数据融合、多层次意图复合的关联建模方法,提高了战斗机意图预测的准确性。
-
公开(公告)号:CN114358247A
公开(公告)日:2022-04-15
申请号:CN202111625582.9
申请日:2021-12-28
摘要: 本发明公开一种基于因果关系推断的智能体行为解释方法,属辅助决策、因果推断技术领域。通过对采用强化学习进行训练的智能体进行训练数据采集,数据包含智能体训练过程中的环境状态、采取的动作和奖励信息;将数据通过因果关系发现、数据回归拟合的方法进行离线训练,输出合理的行为因果关系模型;利用行为因果关系模型对智能体行为进行在线解释。本发明可以达到很好的行为解释效果。
-
公开(公告)号:CN114020413B
公开(公告)日:2024-07-23
申请号:CN202111303747.0
申请日:2021-11-05
摘要: 本发明公开一种基于Kubernetes容器集群的分布式强化学习系统设计方法,属于大规模分布式强化学习系统设计领域通过使用了Kubernetes系统构建容器集群,将强化学习系统的功能模块抽象成一个个服务容器,将模型训练和采样部分构建成一个强化学习模型容器集群,并且通过Manager负责整个训练过程中任务分发、资源管理调度。本发明可以提高大规模强化学习的资源利用率,减少人工干预,加快大规模强化学习部署和训练。
-
公开(公告)号:CN113743583B
公开(公告)日:2024-02-02
申请号:CN202110904687.1
申请日:2021-08-07
IPC分类号: G06N3/0499 , G06N3/092 , G05D1/24
摘要: 本申请涉及机器学习技术领域,具体涉及一种基于强化学习的智能体无效行为切换抑制方法。该方法包括:步骤S1、在记忆库中采样一个batch的样本数据;步骤S2、更新强化学习模型的内层模型策略网络与价值网络;步骤S3、固定内层网络参数,更新外层模型策略网络与价值网络,其中,引入智能体无效行为切换算子,并在外层模型相对于内层模型执行无效行为时,降低其价值网络的奖励;步骤S4、以外层模型策略网络的强化学习策略作为智能体实时交互策略并采集数据,更新所述记忆库的交互数据;步骤S5、重复上述步骤,直至模型收敛。本申请在不引入额外人工标注的条件下有效降低智能体的频繁动作切换,不影响模型收敛性能,并提升强化学习模型的鲁棒性与实用性。
-
公开(公告)号:CN114020413A
公开(公告)日:2022-02-08
申请号:CN202111303747.0
申请日:2021-11-05
摘要: 本发明公开一种基于Kubernetes容器集群的分布式强化学习系统设计方法,属于大规模分布式强化学习系统设计领域通过使用了Kubernetes系统构建容器集群,将强化学习系统的功能模块抽象成一个个服务容器,将模型训练和采样部分构建成一个强化学习模型容器集群,并且通过Manager负责整个训练过程中任务分发、资源管理调度。本发明可以提高大规模强化学习的资源利用率,减少人工干预,加快大规模强化学习部署和训练。
-
公开(公告)号:CN113743583A
公开(公告)日:2021-12-03
申请号:CN202110904687.1
申请日:2021-08-07
摘要: 本申请涉及机器学习技术领域,具体涉及一种基于强化学习的智能体无效行为切换抑制方法。该方法包括:步骤S1、在记忆库中采样一个batch的样本数据;步骤S2、更新强化学习模型的内层模型策略网络与价值网络;步骤S3、固定内层网络参数,更新外层模型策略网络与价值网络,其中,引入智能体无效行为切换算子,并在外层模型相对于内层模型执行无效行为时,降低其价值网络的奖励;步骤S4、以外层模型策略网络的强化学习策略作为智能体实时交互策略并采集数据,更新所述记忆库的交互数据;步骤S5、重复上述步骤,直至模型收敛。本申请在不引入额外人工标注的条件下有效降低智能体的频繁动作切换,不影响模型收敛性能,并提升强化学习模型的鲁棒性与实用性。
-
-
-
-
-
-
-
-