-
公开(公告)号:CN114510319A
公开(公告)日:2022-05-17
申请号:CN202111635865.1
申请日:2021-12-29
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种基于Kubernetes集群GPU空间共享的方法,涉及计算机技术领域,针对当前数据处理集群中GPU资源利用率低的问题,提出了关于GPU显存与活跃线程相结合的打分规则,并为了能够有效调度GPU资源,在集群中添加了Scheduler Extender和Device Plugin,进一步改变了以往调度策略中的静态调度方案,使用改进的蚁群算法,能够有效提高集群资源利用率,降低企业使用成本,提高效益。
-
公开(公告)号:CN109800066B
公开(公告)日:2020-11-03
申请号:CN201811524080.5
申请日:2018-12-13
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提供一种数据中心节能调度方法及系统,通过获取当前数据中心内所有服务器的资源利用率、任务队列中待调度任务的资源需求以及当前外部环境参数,利用预设的预测模型来预测所述待调度任务在任意一台服务器上部署后数据中心总功耗以及机房空调设置参数;依据预测结果确定符合预设条件的数据中心节能调度方案,并且按照该方案对数据中心总能耗进行调度。本发明通过机器学习的方法联合调度服务器系统与机房空调系统的能耗,解决了相关技术中存在针对单一层面优化、采用不准确能耗模型、基于CFD仿真调度而导致的节能效率低的问题,达到了跨层统一优化数据中心总能耗的效果。
-
公开(公告)号:CN114510319B
公开(公告)日:2025-05-02
申请号:CN202111635865.1
申请日:2021-12-29
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种基于Kubernetes集群GPU空间共享的方法,涉及计算机技术领域,针对当前数据处理集群中GPU资源利用率低的问题,提出了关于GPU显存与活跃线程相结合的打分规则,并为了能够有效调度GPU资源,在集群中添加了Scheduler Extender和Device Plugin,进一步改变了以往调度策略中的静态调度方案,使用改进的蚁群算法,能够有效提高集群资源利用率,降低企业使用成本,提高效益。
-
公开(公告)号:CN109902818B
公开(公告)日:2021-05-25
申请号:CN201910035752.4
申请日:2019-01-15
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种面向深度学习训练任务的分布式加速方法及系统。该方法的步骤包括:(1)搭建分布式GPU训练集群;(2)采用换入换出策略,调节分布式GPU训练集群中单个GPU工作节点上的minibatch size;(3)根据步骤2)确定的minibatch size调整学习率;(4)采用步骤(2)和(3)确定的超参数minibatch size和学习率进行深度学习训练。本发明在不影响训练准确率的前提下,简单高效地通过减少集群间参数更新通信的次数大幅度地压缩通信时间,相较于单GPU模式,在多GPU模式下能够充分提高集群扩展效率,对超深神经网络模型的训练过程实现加速。
-
公开(公告)号:CN109951438B
公开(公告)日:2020-11-20
申请号:CN201910035739.9
申请日:2019-01-15
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种分布式深度学习的通信优化方法及系统。该方法包括:1)对于分布式深度学习的训练过程中各计算节点产生的梯度,采用稀疏化方法选取部分梯度值;2)对采用稀疏化方法选取的部分梯度值进行量化,将量化后的梯度值作为梯度通信的传输对象,传输给参数服务器。本发明提出了梯度的稀疏化传递和量化压缩的结合,并且针对训练过程中的不同特点划分了三个不同的训练阶段,根据不同的训练状况进行调整,将梯度压缩的效果进一步提升,提高了分布式场景下的训练效率,并且没有对收敛性能和模型的精度产生明显的负面影响。
-
公开(公告)号:CN109951438A
公开(公告)日:2019-06-28
申请号:CN201910035739.9
申请日:2019-01-15
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种分布式深度学习的通信优化方法及系统。该方法包括:1)对于分布式深度学习的训练过程中各计算节点产生的梯度,采用稀疏化方法选取部分梯度值;2)对采用稀疏化方法选取的部分梯度值进行量化,将量化后的梯度值作为梯度通信的传输对象,传输给参数服务器。本发明提出了梯度的稀疏化传递和量化压缩的结合,并且针对训练过程中的不同特点划分了三个不同的训练阶段,根据不同的训练状况进行调整,将梯度压缩的效果进一步提升,提高了分布式场景下的训练效率,并且没有对收敛性能和模型的精度产生明显的负面影响。
-
公开(公告)号:CN109800066A
公开(公告)日:2019-05-24
申请号:CN201811524080.5
申请日:2018-12-13
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提供一种数据中心节能调度方法及系统,通过获取当前数据中心内所有服务器的资源利用率、任务队列中待调度任务的资源需求以及当前外部环境参数,利用预设的预测模型来预测所述待调度任务在任意一台服务器上部署后数据中心总功耗以及机房空调设置参数;依据预测结果确定符合预设条件的数据中心节能调度方案,并且按照该方案对数据中心总能耗进行调度。本发明通过机器学习的方法联合调度服务器系统与机房空调系统的能耗,解决了相关技术中存在针对单一层面优化、采用不准确能耗模型、基于CFD仿真调度而导致的节能效率低的问题,达到了跨层统一优化数据中心总能耗的效果。
-
公开(公告)号:CN114721818A
公开(公告)日:2022-07-08
申请号:CN202210236957.0
申请日:2022-03-11
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种基于Kubernetes集群的GPU分时共享方法和系统。该方法包括:在Kubernetes集群的工作节点中设置前端模块,所述前端模块是安装在容器内部的GPU设备库,所述GPU设备库通过拦截CUDA库中所有与内存和计算相关的API来调度GPU在任务中的使用;在Kubernetes集群的工作节点中设置后端模块,所述后端模块管理容器间的令牌及令牌的时间配额,通过令牌及其时间配额实现GPU的分时共享。本发明提出了关于GPU分时共享规则,在镜像中加入GPU设备库作为前端,在节点中加入后端模块进行控制,能够保证节点中多个容器之间的任务执行的安全性和公平性。
-
公开(公告)号:CN109919310B
公开(公告)日:2021-05-18
申请号:CN201910035753.9
申请日:2019-01-15
Applicant: 中国科学院信息工程研究所
IPC: G06N3/063
Abstract: 本发明涉及一种面向深度学习训练任务的GPU内存优化方法及系统。该方法包括:(1)设计基本换入换出操作;(2)在训练开始前首先进行静态数据采集;(3)不采取换入换出策略,先训练若干个epoches,在此期间进行动态数据采集;(4)建立换入换出策略的性能模型,并明确GPU计算、内存、PCIe通信三者之间的制约关系;(5)根据性能模型确定最优策略;(6)剩余的epoch采用最优minibatch size及其匹配的换入换出策略继续训练直至结束。本发明解决了超深神经网络模型无法训练或可训练minibatch size太小引起训练效率低的问题,能够充分利用GPU资源提升超深神经网络模型训练效率。
-
公开(公告)号:CN109919310A
公开(公告)日:2019-06-21
申请号:CN201910035753.9
申请日:2019-01-15
Applicant: 中国科学院信息工程研究所
IPC: G06N3/063
Abstract: 本发明涉及一种面向深度学习训练任务的GPU内存优化方法及系统。该方法包括:(1)设计基本换入换出操作;(2)在训练开始前首先进行静态数据采集;(3)不采取换入换出策略,先训练若干个epoches,在此期间进行动态数据采集;(4)建立换入换出策略的性能模型,并明确GPU计算、内存、PCIe通信三者之间的制约关系;(5)根据性能模型确定最优策略;(6)剩余的epoch采用最优minibatch size及其匹配的换入换出策略继续训练直至结束。本发明解决了超深神经网络模型无法训练或可训练minibatch size太小引起训练效率低的问题,能够充分利用GPU资源提升超深神经网络模型训练效率。
-
-
-
-
-
-
-
-
-