发明公开

人机策略生成方法
摘要:
本公开实施例中提供了一种人机策略生成方法,针对多智能体博弈场景,采用Minimax与DQN相结合的方法,构建神经网络来逼近值函数;改进网络结构,通过dropout采样的方式对模型的认知不确定性进行建模,继续训练神经网络使其趋于稳定;构建教师学生网络对模型的偶然不确定性进行自监督学习;推理阶段使用划定可信度阈值的方法实现高可信度空战博弈;在推理时记录不确定度高的场景进行多次迭代训练以获得更高性能模型。通过本申请的处理方案,生成策略的同时能够对模型的不确定性进行量化,进而构建更具安全性的空战博弈策略生成系统。
0/0