-
公开(公告)号:CN110580196B
公开(公告)日:2021-04-06
申请号:CN201910864432.X
申请日:2019-09-12
Applicant: 北京邮电大学
Abstract: 一种实现并行任务调度的多任务强化学习方法,基于异步优势表演者批评家算法实现,包括下列操作步骤:(1)对算法模型进行设置操作以更好的解决并行多任务调度问题,包括设置状态空间、设置动作空间、设置奖励定义;(2)对算法网络进行如下改进:用深度神经网络来表示策略函数和值函数;全局网络由输入层、共享子网络和输出子网络构成;(3)设置算法的新损失函数;(4)利用采集观测的并行任务调度数据,训练算法网络,算法收敛后,将所述算法网络用于并行任务调度。
-
公开(公告)号:CN110580196A
公开(公告)日:2019-12-17
申请号:CN201910864432.X
申请日:2019-09-12
Applicant: 北京邮电大学
Abstract: 一种实现并行任务调度的多任务强化学习方法,基于异步优势表演者批评家算法实现,包括下列操作步骤:(1)对算法模型进行设置操作以更好的解决并行多任务调度问题,包括设置状态空间、设置动作空间、设置奖励定义;(2)对算法网络进行如下改进:用深度神经网络来表示策略函数和值函数;全局网络由输入层、共享子网络和输出子网络构成;(3)设置算法的新损失函数;(4)利用采集观测的并行任务调度数据,训练算法网络,算法收敛后,将所述算法网络用于并行任务调度。
-