基于Kubernetes的算力调度方法和装置
摘要:
本申请公开了一种基于Kubernetes的算力调度方法和装置,涉及人工智能领域。该方法包括:对机器学习本次训练任务需要的计算资源进行解析,分解出目标加速卡类型和与数量,结合Kubernetes集群中所有机器节点的算力全局数据,按照预设策略筛选出对应的机器节点集合,据此锁定本次训练任务所使用机器节点的计算资源,在本次训练任务所使用的机器节点上建立节点间的互信互联网络,运行本次训练任务所使用的机器节点,学习训练程序完成训练。该装置包括:初始模块、解析模块、筛选模块、建立模块和训练模块。本申请实现了资源的智能化分配,无需人工调整,极大地提高了效率。
公开/授权文献
0/0