Patent search ap:("清华大学" OR "中讯邮电咨询设计院有限公司") AND inv:"贾庆山" Page 1

1.

发明公开
一种基于强化学习的数据中心机房的控制方法及装置审中-实审

公开(公告)号：CN118625661A

公开(公告)日：2024-09-10

申请号：CN202410656749.5

申请日：2024-05-24

Applicant: 清华大学 , 中讯邮电咨询设计院有限公司

Inventor： 牟倪 , 胡潇 , 贾庆山 , 贺晓 , 朱旭

IPC: G05B13/04 , H05K7/20 , G06N20/00

Abstract: 本说明书涉及数据中心技术领域，提供了一种基于强化学习的数据中心机房的控制方法及装置。所述方法包括：根据数据中心模拟机房中的每一空调单元的状态，及空调单元的临近设备的状态，为每一空调单元建立状态转换模型；将数据中心模拟机房中所有空调单元的状态转移模型，组合构建代理模型；根据代理模型的状态数据及强化学习算法，训练得到一个基础策略；将基础策略部署至各空调单元，分别使用与各空调单元相关的数据对部署至空调单元的基础策略微调，记录每一空调单元的微调策略。本说明书基于代理模型进行高样本效率的强化学习训练，得到单ACU控制的基础策略；引入平衡回放技术对基础策略进行微调，提高强化学习样本效率、控制精度及性能。

2.

发明公开
一种基于多目标强化学习的策略生成方法及装置审中-实审

公开(公告)号：CN119398190A

公开(公告)日：2025-02-07

申请号：CN202411191254.6

申请日：2024-08-28

Applicant: 清华大学

Inventor： 牟倪 , 栾垚 , 贾庆山

IPC: G06N20/00 , G06N7/01

Abstract: 本说明书涉及强化学习技术领域，提供了一种基于多目标强化学习的策略生成方法及装置。该方法包括：接收多目标策略优化请求；根据多目标策略优化请求对应的若干个状态动作序列片段、多目标权重特征以及用于评估状态动作序列片段的二元评估器，构建多目标反馈指标数据；建立显式的多目标奖励模型；利用多目标反馈指标数据训练多目标奖励模型；根据若干个状态动作序列片段对应的状态、动作以及训练后的多目标奖励模型，建立马尔可夫决策过程模型；根据马尔可夫决策过程模型，在多目标策略优化请求对应的学习环境下，利用多目标强化学习算法训练得到多目标策略。通过本说明书实施例，可提高基于多目标强化学习的策略生成精度。

3.

发明公开
一种被控系统群的运行策略协同优化方法及装置审中-实审

公开(公告)号：CN118674109A

公开(公告)日：2024-09-20

申请号：CN202410798959.8

申请日：2024-06-20

Applicant: 清华大学 , 南方电网科学研究院有限责任公司

Inventor： 贾庆山 , 郭琦 , 黄立滨 , 余佳微 , 郭天宇 , 卢远宏 , 郭海平 , 涂亮

IPC: G06Q10/04 , G06Q10/0631 , G06Q10/067 , G06Q50/06 , G06F17/18 , G06N20/00

Abstract: 本发明涉及运行策略优化领域，提供了一种被控系统群的运行策略协同优化方法及装置，方法包括：根据仿真结果确定各动作的Q因子样本方差、各最优动作与非最优动作的Q因子融合值的性能差别以及已消耗样本总量；利用采样数据分配算法对上述量进行分析得到各动作目标样本量；根据各动作目标样本量与各动作已消耗样本量确定各动作补充采样量；根据补充采样量进行补充采样，利用补充仿真结果重新确定各动作的Q因子样本方差、性能差别以及已消耗样本总量；调整已消耗样本总量，判断已消耗样本总量是否小于预设总采样量，若是重新计算目标样本量及之后步骤，若否输出最优动作。本发明协同使用动作一致性的被控系统的运行数据，能够提升优化效率及性能。

4.

发明公开
一种面向单约束待控系统的在线约束强化学习方法及装置审中-实审

公开(公告)号：CN118674067A

公开(公告)日：2024-09-20

申请号：CN202410804230.7

申请日：2024-06-20

Applicant: 清华大学 , 南方电网科学研究院有限责任公司

Inventor： 贾庆山 , 郭琦 , 黄立滨 , 余佳微 , 郭天宇 , 卢远宏 , 郭海平 , 涂亮

IPC: G06N20/00 , G06F17/18 , G06Q10/067 , G06Q10/0631 , G06Q50/06

Abstract: 本发明提供了一种面向单约束待控系统的在线约束强化学习方法及装置，包括：按照预设采样量对各动作的仿真结果进行采样，根据采样的仿真结果确定观测的最优动作、可行动作及不可行动作；计算各可行动作及最优动作的Q因子和样本方差、各不可行动作的约束函数QH因子及样本方差；利用采样数据分配算法得到各动作目标样本量；根据各动作目标样本量确定各动作补充采样量；利用补充采样的仿真结果重新确定可行动作及最优动作的Q因子和样本方差、各不可行动作的约束函数QH因子及样本方差；调整已消耗采样总量，判断已消耗样本总量是否满足动作采样量约束条件，若是，输出最优动作至待控系统，本发明能够提升优化策略性能。

5.

发明授权
解决MAB问题的经典量子混合强化学习模拟方法及装置有权

公开(公告)号：CN116263880B

公开(公告)日：2024-08-13

申请号：CN202111532865.9

申请日：2021-12-15

Applicant: 清华大学

Inventor： 贾庆山 , 刘一沛 , 王旭

IPC: G06N10/00 , G06N20/00

Abstract: 本发明提供了一种解决MAB问题的经典量子混合强化学习模拟方法及装置，方法包括：设计关于多摇臂MAB求解问题的量子结合经典的强化学习学习范式；确定MAB求解问题的摇臂数量m并引入量子辅助比特数量n；根据摇臂的数量和辅助比特的数量对量子态进行普通初始态制备和引入迭代次数信息的特定的初始态制备，其中在初始化时对于每一个摇臂的量子态概率是均等的；对完成初始化的量子态进行测量获得摇臂结果，并利用摇臂结果实现对应量子态幅值的增大；根据摇臂结果选择对应摇臂对应量子态区间的前进指针信息进行加一更新并再次对量子态进行迭代测量确定最优摇臂。

6.

发明公开
权衡个性化热舒适与HVAC能耗的强化学习方法及装置审中-实审

公开(公告)号：CN117606133A

公开(公告)日：2024-02-27

申请号：CN202311568306.2

申请日：2023-11-22

Applicant: 清华大学

Inventor： 周翰辰 , 贾庆山

IPC: F24F11/89 , G05B13/04 , F24F7/007 , F24F11/47 , F24F1/0018 , F24F1/0035 , F24F11/64 , F24F11/74 , F24F11/80

Abstract: 本说明书实施例涉及智能建筑节能优化领域，尤其涉及一种权衡个性化热舒适与HVAC能耗的强化学习方法及装置。该方法的实现步骤如下：(1)构建基于机理的HVAC系统能耗模型；(2)构建基于热平衡法的房间传热机理模型；(3)构建基于PMV指标的用户个性化舒适度模型；(4)构建个性化舒适度与能耗权衡优化问题及基于Q学习的强化学习求解算法框架。通过本说明书实施例，能够充分满足不同冷热偏好、不同消费习惯的用户的热舒适需求，避免不必要的能源浪费，通过预冷机制充分利用低电价优势实现节能，通过用户实时反馈及时调整运行策略，鲁棒性强。

7.

发明公开
多智能体强化学习方法、装置及自动车主体审中-实审

公开(公告)号：CN117521839A

公开(公告)日：2024-02-06

申请号：CN202210891565.8

申请日：2022-07-27

Applicant: 北京三快在线科技有限公司 , 清华大学

Inventor： 李阔 , 贾庆山 , 张涛 , 白钰 , 任冬淳 , 夏华夏

IPC: G06N20/00

Abstract: 本申请公开了一种多智能体强化学习方法、装置及自动车主体，属于人工智能技术领域。方法包括：获取多个全局状态信息，任一个全局状态信息用于表征在任一次更新时多智能体系统的状态；对于任一个全局状态信息，获取任一个全局状态信息在当前次更新时任一智能体的累计差异信息和相邻智能体的累计差异信息，任一智能体的累计差异信息用于表征任一智能体的策略网络在各次更新时更新程度的差异之和；根据多个全局状态信息在当前次更新时任一智能体的累计差异信息和相邻智能体的累计差异信息，对任一智能体的策略网络进行更新。实现了基于分布式的方式更新任一智能体的策略网络，从而实现了多智能体的强化学习。

8.

发明授权
模型训练方法、装置、能效预测方法、装置和存储介质有权

公开(公告)号：CN110866592B

公开(公告)日：2023-12-29

申请号：CN201911032274.8

申请日：2019-10-28

Applicant: 腾讯科技(深圳)有限公司 , 清华大学

Inventor： 夏恒 , 夏俐 , 赵千川 , 贾庆山 , 管晓宏 , 杨震 , 朱华 , 高江 , 岳上 , 韩建军 , 栗权 , 林森 , 赵静洲 , 徐东 , 黄现东 , 郑焕琼

IPC: G06N3/0464 , G06N3/044 , G06N3/084 , G06Q10/04

Abstract: 本发明实施例公开了一种模型训练方法、装置、能效预测方法、装置和存储介质，其中，通过获取数据中心的历史能耗使用效率，以及获取对应的历史能耗使用效率相关数据，并构建时序训练集和时序测试集；再构建基于长短期记忆网络结构的循环神经网络模型，并根据时序训练集对循环神经网络模型进行训练，直至循环神经网络模型收敛；最后根据时序测试集对收敛的循环神经网络模型的进行校验，当校验通过时，将收敛的循环神经网络模型作为用于预测数据中心的能耗使用效率的能耗使用效率预测模型。相比于现有技术，本发明能够使得训练得到能耗使用效率预测模型的预测准确度较高，从而更准确的对数据中心的能耗使用效率进行预测。

9.

发明授权
冷源系统的节能控制方法、装置、电子设备和存储介质有权

公开(公告)号：CN113825356B

公开(公告)日：2023-11-28

申请号：CN202110856943.4

申请日：2021-07-28

Applicant: 腾讯科技(深圳)有限公司 , 清华大学

Inventor： 林依挺 , 吴俊杰 , 夏恒 , 贾庆山 , 王宇恒 , 唐静娴 , 陆翔

IPC: H05K7/20 , G06N3/092 , G06N20/20

Abstract: 本申请实施例公开了一种冷源系统的节能控制方法、装置、电子设备和存储介质；本申请实施例可以获取冷源系统的当前状态量和预设控制模型的目标控制策略，根据当前状态量和目标控制策略预测冷源系统在目标时段下多个维度的预测状态量，并将多个维度的预测状态量进行融合，根据预设奖励函数和预设约束条件对融合后预测状态量进行收益计算，再采用预设控制模型，基于收益值确定冷源系统在预设时间段的总收益值，当总收益值不满足预设条件时，根据总收益对目标控制策略进行调整，并将调整后控制策略作为目标控制策略继续预测，当总收益值满足预设条件时，输出训练后控制模型，用以对冷源系统进行控制。该方案可以有效地实现冷源系统的节能控制。

10.

发明授权
一种模型训练方法、能耗使用效率预测方法、装置和介质有权

公开(公告)号：CN110866528B

公开(公告)日：2023-11-28

申请号：CN201911032302.6

申请日：2019-10-28

Applicant: 腾讯科技(深圳)有限公司 , 清华大学

Inventor： 夏恒 , 夏俐 , 赵千川 , 贾庆山 , 管晓宏 , 杨震 , 朱华 , 高江 , 岳上 , 韩建军 , 栗权 , 林森 , 赵静洲 , 徐东 , 黄现东 , 郑焕琼

IPC: G06V10/26 , G06V10/774 , G06V10/764

Abstract: 本发明实施例公开了一种模型训练方法、能耗使用效率预测方法、装置和介质，其中，首先获取数据中心的历史能耗使用效率，以及获取对应的历史能耗使用效率相关特征；然后根据历史能耗使用效率和历史能耗使用效率相关特征构建训练集和测试集；再构建轻量梯度提升机模型，并根据训练集对轻量梯度提升机模型进行训练；最后根据测试集对训练后的轻量梯度提升机模型的进行校验，当校验通过时，将训练后的轻量梯度提升机模型作为用于预测数据中心的能耗使用效率的能耗使用效率预测模型。相比于现有技术，本发明能够使得训练得到的能耗使用效率

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification