一种基于深度强化学习的物流机器人调度方法
摘要:
本发明公开了一种基于深度强化学习的物流机器人调度方法。本方法包括:首先,构建并训练深度状态价值网络DVN,通过对历史订单数据进行离线学习,采用时序差分法更新状态价值函数,并通过多物流机器人深度强化学习方法优化调度策略;然后,通过DVN和KM组合优化算法实现物流机器人与订单的实时匹配;最终,调度空闲物流机器人前往预期收益较高的区域等待下一轮调度。本发明通过构建深度状态价值网络DVN和采用组合优化方法,实现医院物流机器人对物流订单的高效调度。本发明在提升订单响应速度和减少订单等待时间方面有显著优势,并且适用于各类医院场景,能够有效提高物流调度效率,优化资源配置。
公开/授权文献
0/0