决策模型的训练方法、装置、设备及存储介质

发明授权

请登陆查看更多内容

专利标题： 决策模型的训练方法、装置、设备及存储介质
申请号： CN202311266701.5

申请日： 2023-09-28
公开(公告)号： CN116983656B

公开(公告)日： 2023-12-26
发明人: 姚兴虎 , 陈悉儿
申请人： 腾讯科技(深圳)有限公司
申请人地址： 广东省深圳市南山区高新区科技中一路腾讯大厦35层
专利权人： 腾讯科技(深圳)有限公司
当前专利权人： 腾讯科技(深圳)有限公司
当前专利权人地址： 广东省深圳市南山区高新区科技中一路腾讯大厦35层
代理机构： 北京三高永信知识产权代理有限责任公司
代理商 徐耿铭
主分类号： A63F13/67
IPC分类号： A63F13/67 ; A63F13/822 ; G06N3/0442 ; G06N3/092

摘要：

本申请实施例公开了一种决策模型的训练方法、装置、设备及存储介质，属于人工智能技术领域。该方法包括：将第一样本对局状态信息以及第一样本任务输入任务网络，得到任务网络输出的第一样本任务参数；基于第一样本任务参数，通过强化学习方式对任务网络进行训练，得到训练后的任务网络；将第二样本对局状态信息输入决策模型，得到决策模型输出的第二样本任务参数，决策模型包括调度网络以及训练后的任务网络，调度网络用于基于第二样本对局状态信息向任务网络输出第二样本任务；基于第二样本任务以及第二样本任务参数，通过强化学习方式联合训练调度网络和任务网络；提高了决策模型的训练效率，且提高了决策模型输出任务参数的准确性。

公开/授权文献

CN116983656A 决策模型的训练方法、装置、设备及存储介质公开/授权日：2023-11-03

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

A	人类生活必需
A63	运动；游戏；娱乐活动
A63F	纸牌，棋盘或轮盘赌游戏；利用小型运动物体的室内游戏；视频游戏；其他类目不包含的游戏
A63F13/00	视频游戏，即使用二维或多维电子显示器的游戏
A63F13/60	.在执行游戏程序时或之前生成或修改游戏内容，如特别适合游戏开发或集成游戏关卡编辑器的创作工具
A63F13/67	..适应性的或通过向玩家的动作学习，例如技能水平的调整或重新使用存储成功的作战序列