一种基于强化学习和数字孪生体的物流分拣方法

    公开(公告)号:CN117114524B

    公开(公告)日:2024-01-26

    申请号:CN202311369261.6

    申请日:2023-10-23

    摘要: 本发明公开了一种基于强化学习和数字孪生体的物流分拣方法,包括以下步骤:S1.采集物流分拣系统中历史货物数据;S2.采集物流分拣系统中分拣机的分拣格口的历史分拣数据,拟合格口处理效率函数;S3.通过聚类算法整合包牌信息,获取包牌类别相似度矩阵和转移概率矩阵;S4.设计强化学习策略以及价值网络,构造蒙特卡洛树的叶节点;S5.通过对蒙特卡洛树的叶节点进行展开,获取最优的格口分拣策略;S6.对于不同物流中转场的物流分拣系统,构建数字孪生体,并获取最优格口分拣策略。本发明分别统计格口锁格货物件数和锁格时间数据,采用蒙特卡洛树搜索强化学习算法,提高分拣计划的泛化性,适应不同场地条件因素的中转场物流分拣系统。

    一种基于深度强化学习的全网时延和吞吐率联合优化方法

    公开(公告)号:CN116996895A

    公开(公告)日:2023-11-03

    申请号:CN202311252907.2

    申请日:2023-09-27

    IPC分类号: H04W16/22 H04L41/16 H04W24/06

    摘要: 本发明公开了一种基于深度强化学习的全网时延和吞吐率联合优化方法,包括以下步骤:S1.搭建包含无线接入网、传输网和核心网三层网络结构的5G通信平台,并表征全网平均时延和平均吞吐率;S2.构建用于优化全网平均时延和平均吞吐率的速率控制模型,所述速率控制模型包括位于无线接入网和传输网之间的第一个速率控制模块和位于传输网和核心网之间的第二个速率控制模块;S3.构建深度强化学习模型,该模型包含一个Actor网络,一个Critic网络和一个缓存模块;S4.基于深度强化学习模型训练确定速率控制模块参数;S5.对5G全网的时延和吞吐率进行联合优化。本发明基于深度强化学习实现了全网时延和吞吐率的联合优化控制。

    一种基于深度强化学习的全网时延和吞吐率联合优化方法

    公开(公告)号:CN116996895B

    公开(公告)日:2024-01-02

    申请号:CN202311252907.2

    申请日:2023-09-27

    IPC分类号: H04W16/22 H04L41/16 H04W24/06

    摘要: 本发明公开了一种基于深度强化学习的全网时延和吞吐率联合优化方法,包括以下步骤:S1.搭建包含无线接入网、传输网和核心网三层网络结构的5G通信平台,并表征全网平均时延和平均吞吐率;S2.构建用于优化全网平均时延和平均吞吐率的速率控制模型,所述速率控制模型包括位于无线接入网和传输网之间的第一个速率控制模块和位于传输网和核心网之间的第二个速率控制模块;S3.构建深度强化学习模型,该模型包含一个Actor网络,一个Critic网络和一个缓存模块;S4.基于深度强化学习模型训练确定速率控制模块参数;S5.对5G全网的时延和吞吐率进行联合优化。本发明基于深度强化学习实现了全网时延和吞吐率的联合优化控制。

    一种基于强化学习和数字孪生体的物流分拣方法

    公开(公告)号:CN117114524A

    公开(公告)日:2023-11-24

    申请号:CN202311369261.6

    申请日:2023-10-23

    摘要: 本发明公开了一种基于强化学习和数字孪生体的物流分拣方法,包括以下步骤:S1.采集物流分拣系统中历史货物数据;S2.采集物流分拣系统中分拣机的分拣格口的历史分拣数据,拟合格口处理效率函数;S3.通过聚类算法整合包牌信息,获取包牌类别相似度矩阵和转移概率矩阵;S4.设计强化学习策略以及价值网络,构造蒙特卡洛树的叶节点;S5.通过对蒙特卡洛树的叶节点进行展开,获取最优的格口分拣策略;S6.对于不同物流中转场的物流分拣系统,构建数字孪生体,并获取最优格口分拣策略。本发明分别统计格口锁格货物件数和锁格时间数据,采用蒙特卡洛树搜索强化学习算法,提高分拣计划的泛化性,适应不同场地条件因素的中转场物流分拣系统。

    一种基于元强化学习的全网多业务联合优化方法

    公开(公告)号:CN116996921B

    公开(公告)日:2024-01-02

    申请号:CN202311252903.4

    申请日:2023-09-27

    摘要: 本发明公开了一种基于元强化学习的全网多业务联合优化方法,包括以下步骤:S1.搭建包含无线接入网、传输网和核心网三层网络结构的5G通信平台,并确定联合优化的目标函数;S2.构建面向多业务的路由缓存模块;S3.构建元强化学习模型,包含 个Actor网络,一个Critic网络和一个任务经验集缓存模块;S4.基于元强化学习模型训练确定路由缓存模块参数;S5.进行5G全网的多业务联合优化。本发明通过控制通信全网在各层网管处的路由缓存方法,实现对多业务的全网联合优化。

    一种基于元强化学习的全网多业务联合优化方法

    公开(公告)号:CN116996921A

    公开(公告)日:2023-11-03

    申请号:CN202311252903.4

    申请日:2023-09-27

    摘要: 本发明公开了一种基于元强化学习的全网多业务联合优化方法,包括以下步骤:S1.搭建包含无线接入网、传输网和核心网三层网络结构的5G通信平台,并确定联合优化的目标函数;S2.构建面向多业务的路由缓存模块;S3.构建元强化学习模型,包含#imgabs0#个Actor网络,一个Critic网络和一个任务经验集缓存模块;S4.基于元强化学习模型训练确定路由缓存模块参数;S5.进行5G全网的多业务联合优化。本发明通过控制通信全网在各层网管处的路由缓存方法,实现对多业务的全网联合优化。

    一种基于分层策略的异构任务调度方法

    公开(公告)号:CN114915665B

    公开(公告)日:2022-10-21

    申请号:CN202210821020.X

    申请日:2022-07-13

    发明人: 黄川 崔曙光 李然

    摘要: 本发明公开了一种基于分层策略的异构任务调度方法,包括以下步骤:S1.构建异构任务调度模型并确定调度的目标问题;S2.构建基于分层策略的异构任务调度的离线学习模型:第一层策略模块,包含K个完全相同的深度强化学习模块,即DRL模块,其中第k个模块称为DRLk;每一个DRL模块包含一个评估行动网络,一个评估价值网络,一个目标行动网络,一个目标价值网络和一个经历缓存模块,第二层策略模块的输入为,输出为;S3.进行离线训练得到成熟的模型;S4.对训练得到的模型进行在线应用,实现异构任务调度。本发明提供的异构任务调度方法,适用于存在高维状态和行动空间以及时变约束条件的马尔科夫决策过程,有效实现了异构任务的联合调度。

    一种基于深度强化学习的组播调度方法

    公开(公告)号:CN113490157B

    公开(公告)日:2022-02-25

    申请号:CN202110761307.3

    申请日:2021-07-06

    发明人: 黄川 崔曙光 李然

    IPC分类号: H04W4/06 H04W72/12

    摘要: 本发明公开了一种基于深度强化学习的组播调度方法,所述方法包括以下步骤:S1.构建组播网络模型并确定组播调度的目标问题;设一个小区中,用户随机请求提前缓存在基站里的N种内容,基站采用M个可用信道施行这N个内容的组播传输;考虑时隙化的模型,组播传输的开始和结束都发生在时隙的初始或结尾,而不会发生在时隙中间;S2.构建组播网络的离线学习模型;S3.进行离线训练得到成熟的模型;S4.对训练得到的模型进行在线应用,实现组播调度。本发明提供的组播调度方法,适用于带有时变约束条件和高维离散行动空间的马尔科夫决策过程,有效实现了异步组播通信下的组播调度。

    一种基于分层策略的异构任务调度方法

    公开(公告)号:CN114915665A

    公开(公告)日:2022-08-16

    申请号:CN202210821020.X

    申请日:2022-07-13

    发明人: 黄川 崔曙光 李然

    摘要: 本发明公开了一种基于分层策略的异构任务调度方法,包括以下步骤:S1.构建异构任务调度模型并确定调度的目标问题;S2.构建基于分层策略的异构任务调度的离线学习模型:第一层策略模块,包含K个完全相同的深度强化学习模块,即DRL模块,其中第k个模块称为DRLk;每一个DRL模块包含一个评估行动网络,一个评估价值网络,一个目标行动网络,一个目标价值网络和一个经历缓存模块,第二层策略模块的输入为,输出为;S3.进行离线训练得到成熟的模型;S4.对训练得到的模型进行在线应用,实现异构任务调度。本发明提供的异构任务调度方法,适用于存在高维状态和行动空间以及时变约束条件的马尔科夫决策过程,有效实现了异构任务的联合调度。

    一种融合组合优化与强化学习加速收敛的物流分拣方法

    公开(公告)号:CN117556959A

    公开(公告)日:2024-02-13

    申请号:CN202311626360.8

    申请日:2023-11-28

    摘要: 本发明公开了一种融合组合优化与强化学习加速收敛的物流分拣方法,包括以下步骤:S1.统计历史班次的包牌所含货物件量比例数据,预测未来班次的货物件量比例数据;S2.通过目标组合优化,获得包牌所占格口数量最优分配;S3.基于分拣机的分拣格口的历史分拣数据,拟合格口处理效率函数;S4.获取包牌类别相似度矩阵和转移概率矩阵;S5.基于包牌类别的相似度和转移概率矩阵设计强化学习策略以及价值网络,构造蒙特卡洛树的叶节点;S6.通过对蒙特卡洛树的叶节点进行展开,获取最优的格口分拣策略。本发明降低分拣计划优化更新的复杂度,加快蒙特卡洛树搜索的搜索速度,实现满足较高时效要求的多目标分拣优化策略。