一种决策网络模型自博弈训练方法及系统

    公开(公告)号:CN109598342B

    公开(公告)日:2021-07-13

    申请号:CN201811410380.0

    申请日:2018-11-23

    IPC分类号: G06N3/08 G06N3/04

    摘要: 一种决策网络模型自博弈训练方法,包括如下步骤:步骤一、采用模拟退火算法对EN网络的初始网络参数进行变异,变异后得到红方EN网络和蓝方EN网络;步骤二、将步骤一中所述的红方EN网络和蓝方EN网络放入对抗环境进行博弈对抗,记录对抗关键节点的决策数据和EN值;步骤三、对步骤二中博弈对抗的胜利方的决策数据和EN值作为有效样本进行保存,将失败方的数据淘汰;步骤四、根据步骤三中的有效样本对EN网络进行训练,获得优化后的网络参数,将优化后的网络参数作为新的初始网络参数;步骤五、循环重复步骤一到步骤四,实现自博弈训练。本发明通过使用自博弈训练方法,可以形成层次化的AI决策智能体,为博弈指挥员提供高水平辅助决策支持。