-
公开(公告)号:CN112418438B
公开(公告)日:2022-08-26
申请号:CN202011327005.7
申请日:2020-11-24
Applicant: 国电南瑞科技股份有限公司 , 国网电力科学研究院有限公司 , 南瑞集团有限公司 , 国电南瑞南京控制系统有限公司
Abstract: 本发明公开了一种基于容器的机器学习流程化训练任务执行方法及系统,提出适用于机器学习模型训练与评估的抽象化过程描述语言,对机器学习模型训练所涉及的算法选择、超参设置、损失函数、优化函数、执行计划等关键环节提供模板化配置,并通过模型构建任务调度框架实现自动化模型快速训练与评估,通过免编码方式提高机器学习应用模型构建效率;通过基于容器的集群CPU、GPU、内存等算力资源的统一管控,提供多租户资源隔离、弹性扩展的容器化机器学习模型训练环境,实现集群计算资源的高效利用与统筹管理。
-
公开(公告)号:CN112418438A
公开(公告)日:2021-02-26
申请号:CN202011327005.7
申请日:2020-11-24
Applicant: 国电南瑞科技股份有限公司 , 国网电力科学研究院有限公司 , 南瑞集团有限公司 , 国电南瑞南京控制系统有限公司
Abstract: 本发明公开了一种基于容器的机器学习流程化训练任务执行方法及系统,提出适用于机器学习模型训练与评估的抽象化过程描述语言,对机器学习模型训练所涉及的算法选择、超参设置、损失函数、优化函数、执行计划等关键环节提供模板化配置,并通过模型构建任务调度框架实现自动化模型快速训练与评估,通过免编码方式提高机器学习应用模型构建效率;通过基于容器的集群CPU、GPU、内存等算力资源的统一管控,提供多租户资源隔离、弹性扩展的容器化机器学习模型训练环境,实现集群计算资源的高效利用与统筹管理。
-
公开(公告)号:CN114356543A
公开(公告)日:2022-04-15
申请号:CN202111460970.6
申请日:2021-12-02
Applicant: 国电南瑞科技股份有限公司 , 国网电力科学研究院有限公司 , 国网河北省电力有限公司 , 国家电网有限公司
Abstract: 本发明公开了一种基于Kubernetes的多租户机器学习任务资源调度方法,对不同用户可使用的算力资源进行配额管理,同时监测Kubernetes平台中各Node节点资源状态信息,考虑节点所在宿主机的资源利用率的问题,避免出现调度结果不准确的问题,同时通过监测实时调度和预调度request需求信息,根据调度任务需求信息对各Node节点进行优先级排序,获取最优节点的主机标签,根据标签对各类机器学习模型训练与预测任务的资源需求进行合理分配。本发明有效的预防和减少Kubernetes平台中节点资源使用的倾斜问题,实现多节点负载均衡,提高节点资源的利用率。
-
公开(公告)号:CN114356543B
公开(公告)日:2025-01-28
申请号:CN202111460970.6
申请日:2021-12-02
Applicant: 国电南瑞科技股份有限公司 , 国网电力科学研究院有限公司 , 国网河北省电力有限公司 , 国家电网有限公司
Abstract: 本发明公开了一种基于Kubernetes的多租户机器学习任务资源调度方法,对不同用户可使用的算力资源进行配额管理,同时监测Kubernetes平台中各Node节点资源状态信息,考虑节点所在宿主机的资源利用率的问题,避免出现调度结果不准确的问题,同时通过监测实时调度和预调度request需求信息,根据调度任务需求信息对各Node节点进行优先级排序,获取最优节点的主机标签,根据标签对各类机器学习模型训练与预测任务的资源需求进行合理分配。本发明有效的预防和减少Kubernetes平台中节点资源使用的倾斜问题,实现多节点负载均衡,提高节点资源的利用率。
-
-
-