-
公开(公告)号:CN115392478A
公开(公告)日:2022-11-25
申请号:CN202210909190.3
申请日:2022-07-29
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种基于Serverless的分布式AI训练系统、方法,系统包括:ServerlessAI训练云函数单元,由一组AI训练云函数服务构成的集合,用于提供AI训练过程中所需的各类计算服务;ServerlessAI训练工作流控制单元,在接收到用户提交的AI训练作业的请求的情况下,依据所述AI训练作业的训练配置信息编排所述ServerlessAI训练云函数单元的各云函数服务的协作关系来组建训练工作流,并依据所述训练工作流执行所述AI训练作业,完成AI模型训练。该系统基于Serverless计算模型重新构建分布式训练框架,在保障训练效率的情况下,有效的降低了分布式AI训练对计算资源的消耗,提高了资源利用效率。
-
公开(公告)号:CN115373816A
公开(公告)日:2022-11-22
申请号:CN202210869036.8
申请日:2022-07-22
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种基于应用控制状态管理的无服务器计算应用执行方法和系统,包括:无服务器计算平台获取无服务器计算应用,其云函数通过引入控制状态管理程序库实现控制状态管理功能;根据函数使用该控制状态管理程序库提供的应用程序编程接口创建控制状态对象,为控制状态对象创建全局唯一的字符串,作为该控制状态对象的对象引用;使用该应用程序编程接口传入函数名和该对象引用,启动该函数名对应的目标函数,并将该对象引用作为参数传递,使该目标函数共享该控制状态对象;直到该无服务器计算应用的用户代码全部执行完毕,得到无服务器计算应用的执行结果。
-