决策模型的训练方法、装置、设备及存储介质
摘要:
本申请实施例公开了一种决策模型的训练方法、装置、设备及存储介质,属于人工智能技术领域。该方法包括:将第一样本对局状态信息以及第一样本任务输入任务网络,得到任务网络输出的第一样本任务参数;基于第一样本任务参数,通过强化学习方式对任务网络进行训练,得到训练后的任务网络;将第二样本对局状态信息输入决策模型,得到决策模型输出的第二样本任务参数,决策模型包括调度网络以及训练后的任务网络,调度网络用于基于第二样本对局状态信息向任务网络输出第二样本任务;基于第二样本任务以及第二样本任务参数,通过强化学习方式联合训练调度网络和任务网络;提高了决策模型的训练效率,且提高了决策模型输出任务参数的准确性。
公开/授权文献
0/0