一种基于强化学习的数据中心机房的控制方法及装置

    公开(公告)号:CN118625661A

    公开(公告)日:2024-09-10

    申请号:CN202410656749.5

    申请日:2024-05-24

    Abstract: 本说明书涉及数据中心技术领域,提供了一种基于强化学习的数据中心机房的控制方法及装置。所述方法包括:根据数据中心模拟机房中的每一空调单元的状态,及空调单元的临近设备的状态,为每一空调单元建立状态转换模型;将数据中心模拟机房中所有空调单元的状态转移模型,组合构建代理模型;根据代理模型的状态数据及强化学习算法,训练得到一个基础策略;将基础策略部署至各空调单元,分别使用与各空调单元相关的数据对部署至空调单元的基础策略微调,记录每一空调单元的微调策略。本说明书基于代理模型进行高样本效率的强化学习训练,得到单ACU控制的基础策略;引入平衡回放技术对基础策略进行微调,提高强化学习样本效率、控制精度及性能。

    一种基于多目标强化学习的策略生成方法及装置

    公开(公告)号:CN119398190A

    公开(公告)日:2025-02-07

    申请号:CN202411191254.6

    申请日:2024-08-28

    Applicant: 清华大学

    Inventor: 牟倪 栾垚 贾庆山

    Abstract: 本说明书涉及强化学习技术领域,提供了一种基于多目标强化学习的策略生成方法及装置。该方法包括:接收多目标策略优化请求;根据多目标策略优化请求对应的若干个状态动作序列片段、多目标权重特征以及用于评估状态动作序列片段的二元评估器,构建多目标反馈指标数据;建立显式的多目标奖励模型;利用多目标反馈指标数据训练多目标奖励模型;根据若干个状态动作序列片段对应的状态、动作以及训练后的多目标奖励模型,建立马尔可夫决策过程模型;根据马尔可夫决策过程模型,在多目标策略优化请求对应的学习环境下,利用多目标强化学习算法训练得到多目标策略。通过本说明书实施例,可提高基于多目标强化学习的策略生成精度。

    一种被控系统群的运行策略协同优化方法及装置

    公开(公告)号:CN118674109A

    公开(公告)日:2024-09-20

    申请号:CN202410798959.8

    申请日:2024-06-20

    Abstract: 本发明涉及运行策略优化领域,提供了一种被控系统群的运行策略协同优化方法及装置,方法包括:根据仿真结果确定各动作的Q因子样本方差、各最优动作与非最优动作的Q因子融合值的性能差别以及已消耗样本总量;利用采样数据分配算法对上述量进行分析得到各动作目标样本量;根据各动作目标样本量与各动作已消耗样本量确定各动作补充采样量;根据补充采样量进行补充采样,利用补充仿真结果重新确定各动作的Q因子样本方差、性能差别以及已消耗样本总量;调整已消耗样本总量,判断已消耗样本总量是否小于预设总采样量,若是重新计算目标样本量及之后步骤,若否输出最优动作。本发明协同使用动作一致性的被控系统的运行数据,能够提升优化效率及性能。

    解决MAB问题的经典量子混合强化学习模拟方法及装置

    公开(公告)号:CN116263880B

    公开(公告)日:2024-08-13

    申请号:CN202111532865.9

    申请日:2021-12-15

    Applicant: 清华大学

    Abstract: 本发明提供了一种解决MAB问题的经典量子混合强化学习模拟方法及装置,方法包括:设计关于多摇臂MAB求解问题的量子结合经典的强化学习学习范式;确定MAB求解问题的摇臂数量m并引入量子辅助比特数量n;根据摇臂的数量和辅助比特的数量对量子态进行普通初始态制备和引入迭代次数信息的特定的初始态制备,其中在初始化时对于每一个摇臂的量子态概率是均等的;对完成初始化的量子态进行测量获得摇臂结果,并利用摇臂结果实现对应量子态幅值的增大;根据摇臂结果选择对应摇臂对应量子态区间的前进指针信息进行加一更新并再次对量子态进行迭代测量确定最优摇臂。

    权衡个性化热舒适与HVAC能耗的强化学习方法及装置

    公开(公告)号:CN117606133A

    公开(公告)日:2024-02-27

    申请号:CN202311568306.2

    申请日:2023-11-22

    Applicant: 清华大学

    Inventor: 周翰辰 贾庆山

    Abstract: 本说明书实施例涉及智能建筑节能优化领域,尤其涉及一种权衡个性化热舒适与HVAC能耗的强化学习方法及装置。该方法的实现步骤如下:(1)构建基于机理的HVAC系统能耗模型;(2)构建基于热平衡法的房间传热机理模型;(3)构建基于PMV指标的用户个性化舒适度模型;(4)构建个性化舒适度与能耗权衡优化问题及基于Q学习的强化学习求解算法框架。通过本说明书实施例,能够充分满足不同冷热偏好、不同消费习惯的用户的热舒适需求,避免不必要的能源浪费,通过预冷机制充分利用低电价优势实现节能,通过用户实时反馈及时调整运行策略,鲁棒性强。

    多智能体强化学习方法、装置及自动车主体

    公开(公告)号:CN117521839A

    公开(公告)日:2024-02-06

    申请号:CN202210891565.8

    申请日:2022-07-27

    Abstract: 本申请公开了一种多智能体强化学习方法、装置及自动车主体,属于人工智能技术领域。方法包括:获取多个全局状态信息,任一个全局状态信息用于表征在任一次更新时多智能体系统的状态;对于任一个全局状态信息,获取任一个全局状态信息在当前次更新时任一智能体的累计差异信息和相邻智能体的累计差异信息,任一智能体的累计差异信息用于表征任一智能体的策略网络在各次更新时更新程度的差异之和;根据多个全局状态信息在当前次更新时任一智能体的累计差异信息和相邻智能体的累计差异信息,对任一智能体的策略网络进行更新。实现了基于分布式的方式更新任一智能体的策略网络,从而实现了多智能体的强化学习。

    冷源系统的节能控制方法、装置、电子设备和存储介质

    公开(公告)号:CN113825356B

    公开(公告)日:2023-11-28

    申请号:CN202110856943.4

    申请日:2021-07-28

    Abstract: 本申请实施例公开了一种冷源系统的节能控制方法、装置、电子设备和存储介质;本申请实施例可以获取冷源系统的当前状态量和预设控制模型的目标控制策略,根据当前状态量和目标控制策略预测冷源系统在目标时段下多个维度的预测状态量,并将多个维度的预测状态量进行融合,根据预设奖励函数和预设约束条件对融合后预测状态量进行收益计算,再采用预设控制模型,基于收益值确定冷源系统在预设时间段的总收益值,当总收益值不满足预设条件时,根据总收益对目标控制策略进行调整,并将调整后控制策略作为目标控制策略继续预测,当总收益值满足预设条件时,输出训练后控制模型,用以对冷源系统进行控制。该方案可以有效地实现冷源系统的节能控制。

Patent Agency Ranking