一种面向国产异构算力集群的作业调度方法及系统

    公开(公告)号:CN118519766A

    公开(公告)日:2024-08-20

    申请号:CN202410597016.9

    申请日:2024-05-14

    IPC分类号: G06F9/50

    摘要: 本公开提出一种面向国产异构算力集群的作业调度方法及系统,方法包括:在一个调度周期中,根据待调度作业的资源量、算力类型请求,及节点的算力类型标签,从异构算力集群中筛选出候选节点;考虑异构算力资源的性能差异,基于加权轮询计算候选节点权重,将权重最高的候选节点作为第一目标节点;根据异构算力集群及候选节点中各类资源占比对候选节点的资源使用空间进行评分,将评分最高的候选节点作为第二目标节点;随机选择最终目标节点,将待调度作业调度到最终目标节点。本公开通过在节点预选阶段添加初次筛选提升节点预选效率,在节点优选阶段,考虑异构算力资源性能差异和集群的整体性,克服了负载不均衡、异构算力不兼容的问题。

    一种基于K8s的多租户深度学习模型研发系统及方法

    公开(公告)号:CN114385126B

    公开(公告)日:2022-06-21

    申请号:CN202210291793.1

    申请日:2022-03-24

    摘要: 本发明属于资源调度技术领域,提供了一种基于K8s的多租户深度学习模型研发系统及方法,基于Docker、K8s等主流技术,针对不同租户的深度学习模型研发需求,通过微服务总线、微服务控制器和资源服务组件等统一数据、接口、资源标准,建立基于K8s的隔离空间,实现数据存储、模型设计、模型训练、模型评估、模型发布的自动化容器集群环境搭建和参数配置,支持资源管理、用户管理、权限管理、项目管理、数据管理、模型管理等操作,帮助用户快速高效地进行深度学习模型研发,解决了资源监控、自定义模型构建等方面不完善的问题,极大地提高AI应用开发的效率和资源利用率,满足多种业务场景的需求。