-
公开(公告)号:CN115204369A
公开(公告)日:2022-10-18
申请号:CN202210823499.0
申请日:2022-07-14
申请人: 北京潞晨科技有限公司
摘要: 本发明公开了一种面对AI大模型的分布式张量管理方法,涉及张量管理技术领域,具体为一种面对AI大模型的分布式张量管理方法,包括通过数据并行和模型并行的两种并行训练和推理方式,一方面可通过切分模型的输入张量,使得各个机器上有相同的模型但是处理不同的输入,从而减少总体的训练时间,另一方面可通过切分模型的参数张量,使得模型均匀地分布在各个机器上,从而减少每个机器的内存开销,均摊所有计算操作,将分布式张量底层的数据移动自动封装和处理,对用户提供张量粒度的分布式方案,并通过对分布式训练推理的核心数据结构张量,做有效抽象和管理,从而提供用户从单机到分布式模型训练推理的便捷转化。
-
公开(公告)号:CN116050512A
公开(公告)日:2023-05-02
申请号:CN202211738333.5
申请日:2022-12-31
申请人: 北京潞晨科技有限公司
摘要: 本发明公开了自动激活值检查点搜索和自动张量并行搜索的融合系统,涉及深度学习技术领域,包括网络线性化、元信息抽取、自动激活值检查点求解器、自动张量并行求解器、两阶段求解器,通过使用元信息抽取为自动张量并行求解器提供所需的内存开销和运算开销信息,自动张量并行求解器根据所给的内存预算和元信息进行求解,两阶段求解器将一系列张量并行策略进行网络线性化,将线性化网络传给自动激活值检查点求解器,自动激活值检查点求解器将内存开销控制在真实内存预算之下,将自动张量并行和自动激活值检查点的策略复合起来,进一步减缓深度学习训练中遇到的内存墙问题,同时两阶段求解器也能保证解决内存问题的同时兼顾模型训练的性能。
-
公开(公告)号:CN115480702A
公开(公告)日:2022-12-16
申请号:CN202211123681.1
申请日:2022-09-15
申请人: 北京潞晨科技有限公司
摘要: 本发明公开了基于搜索的分布式张量的不同排布方式间的自动转换系统,涉及分布式张量转换技术领域,包括排布转换方案搜索器、模拟器、缓存表与执行器;所述排布转换方案搜索器,用于得到从起始序列到目标序列转换序列表;所述模拟器,用于在不真实执行的情况下,根据模型给出序列转换过程中,每个操作的开销,并累积起来;所述缓存表,用于缓存在所有搜索过的方案;该基于搜索的分布式张量的不同排布方式间的自动转换系统,通过设置有排布转换方案搜索器、模拟器、缓存表与执行器,完成高维集群下的分布式张量排布的自动转换,模拟器给出的信息,可以用来做分布式张量排布的选择或者自动并行方案的选择,缓存表可以使运行时的搜索开销大幅降低。
-
公开(公告)号:CN115423092A
公开(公告)日:2022-12-02
申请号:CN202211032557.4
申请日:2022-08-26
申请人: 北京潞晨科技有限公司
摘要: 本发明公开了通信技术领域的一种基于分布式异构计算的大规模推荐系统训练方法,包括如下步骤:Cache初始化;Cache换入换出算法构建;索引映射算法构建;在GPU中,利用PyTorch提供的Embedding或Embedding_bag函数进行Sparsefeature的计算,以及模型后续的Dense部分的计算,本技术方案可以充分利用GPU计算资源,计算速度增快;将按行换入换出优化成按块进行换入换出,提高了吞吐量;最后充分利用计算资源进一步扩展模型的规模,对模型进行分布式扩展,该方法具有创造性和市场推广价值。
-
公开(公告)号:CN114860445A
公开(公告)日:2022-08-05
申请号:CN202210501949.4
申请日:2022-05-10
申请人: 北京潞晨科技有限公司
摘要: 本发明公开了一种面向大模型训练的张量存储管理方法,涉及计算机技术领域,具体为一种面向大模型训练的张量存储管理方法,包括大模型异构训练的内存管理软件,所述内存管理软件包括内存管理器和内存信息统计器,所述内存管理软件让张量在训练过程中动态分布在CPU‑GPU的存储空间内,从而让模型训练突破GPU的内存墙,所述内存管理器负责模型数据张量,所述内存管理器用于标记所述张量的状态信息,所述大模型训练包括预热阶段和正式阶段,定时采集系统的CPU或者GPU的内存使用情况,并根据每组的统计时刻,精确统计非模型数据数值,通过管理张量在CPU和GPU的存储方式,使大模型训练突破内存墙,在相同存储硬件配置下,可以完成更大模型的训练。
-
公开(公告)号:CN115455150A
公开(公告)日:2022-12-09
申请号:CN202211181058.1
申请日:2022-09-27
申请人: 北京潞晨科技有限公司
摘要: 本发明公开了一种混合词频嵌入的双重张量并行方法,具体包括以下步骤:S1、通过任务分配器先扫描一遍训练用到的数据集,统计每个查询的词id出现次数,然后利用贪心算法(minimax:使切割后嵌入表之间词频的最大差距尽量小)将嵌入表的行按词频总数均匀切割到并行的设备上,使每个设备上的词频数基本一致,本发明涉及深度学习技术领域。该混合词频嵌入的双重张量并行方法,通过嵌入表的词频分布信息,在张量并行时做到了按访问量均匀横向切割,保证训练量的均摊;同时支持嵌入袋的操作,相比于单纯的嵌入有效缩减了设备间通信的开销;在并行的每个设备上,按照词频将嵌入表进行二次切割,并进行算法压缩,有效地进一步减小了每个设备上的内存消耗。
-
公开(公告)号:CN115374909A
公开(公告)日:2022-11-22
申请号:CN202211020000.9
申请日:2022-08-24
申请人: 北京潞晨科技有限公司
摘要: 本发明公开了元信息计算图生成系统,涉及深度学习技术领域,具体为元信息计算图生成系统,其特征在于:包括元信息代理、具备计算元信息能力的追踪器、补丁操作、元信息的计算图;该元信息计算图生成系统,通过元信息代理、具备计算元信息能力的追踪器、补丁操作、元信息的计算图的组合使用,本发明的代理具有更多元信息,比如形状、类型、维度等。同时,通过劫持PyTorch中的算子计算函数,拥有像正常张量一样在模型的前向传播中流动的能力,具有高通用性,支持立即模式框架,支持对控制流追踪,计算图生成速度快,代价低,获取的计算图带有足够多的元信息(形状、类型、维度等)。
-
公开(公告)号:CN115061804A
公开(公告)日:2022-09-16
申请号:CN202210801965.5
申请日:2022-07-07
申请人: 北京潞晨科技有限公司
摘要: 本发明公开了计算机技术领域的一种细粒度多维度的大规模机器学习性能分析方法,基于Colossal‑AIProfiler和Colossal‑AIGemini内存策略管理工具一起实现,其使用的流程和PyTorchProfiler类似,Colossal‑AIProfiler被设计为一个上下文管理器,能够通过with语句很快完成开启和关闭,可以精确记录处于不同状态的Tensor信息,从而得到目前内存使用的具体情况,帮助开发者更好地优化在机器学习过程中内存的使用量和调度策略,帮助开发者将程序的带宽性能与数据移动带宽的理论上限进行比较,进行客观精准的性能分析,获得当前程序对资源的利用率,找到程序的主要优化方向,具有创造性。
-
公开(公告)号:CN114816801A
公开(公告)日:2022-07-29
申请号:CN202210502345.1
申请日:2022-05-09
申请人: 北京潞晨科技有限公司
摘要: 本发明公开了基于多种通信模式的深度学习大模型推理部署方法,具体涉及程序模型领域,包括以下步骤:S1、对大模型进行模型并行与流水线并行分割;S2、进程运行,其中一个为主进程,除了主进程外的其他进程中,仅有通信初始化逻辑;S3、初始化所有通信;S4、主进程通过远程过程调用在所有进程上对相应模型分块进行实例化;S5、当一个推断请求到来时,主进程通过远程过程调用通知所有进程相应的信息,被调用的进程将执行信息压入自己的消息队列,后启动推理过程,本发明能够统一程序入口,实现非阻塞的流水线推理,在行为上,可将分布式推理封装成单设备推理具有相同行为,易于对分布式推理进行管理。
-
公开(公告)号:CN117873741A
公开(公告)日:2024-04-12
申请号:CN202310210388.7
申请日:2023-03-07
申请人: 北京潞晨科技有限公司
摘要: 本发明公开了一种面向AI大模型的流水线并行中间件方法,包括流水线中间件,其中流水线中间件包含有划分模块和调度器模块,划分模块包含有大模型和子模型划分器,调度器模块包含有子模型调度器,所述划分模块和调度器模块之间设置有流水线中间层。本发明设计的中间件的固定解耦表示使流水线划分技术和调度技术的开发更便捷。只需要符合唯一的中间件表示,无需再考虑复杂的适配,同时中间件带来的统一表示使生产环境中部署深度学习流水线并行更高效。
-
-
-
-
-
-
-
-
-