一种面对AI大模型的分布式张量管理方法

    公开(公告)号:CN115204369A

    公开(公告)日:2022-10-18

    申请号:CN202210823499.0

    申请日:2022-07-14

    IPC分类号: G06N3/04 G06N3/08

    摘要: 本发明公开了一种面对AI大模型的分布式张量管理方法,涉及张量管理技术领域,具体为一种面对AI大模型的分布式张量管理方法,包括通过数据并行和模型并行的两种并行训练和推理方式,一方面可通过切分模型的输入张量,使得各个机器上有相同的模型但是处理不同的输入,从而减少总体的训练时间,另一方面可通过切分模型的参数张量,使得模型均匀地分布在各个机器上,从而减少每个机器的内存开销,均摊所有计算操作,将分布式张量底层的数据移动自动封装和处理,对用户提供张量粒度的分布式方案,并通过对分布式训练推理的核心数据结构张量,做有效抽象和管理,从而提供用户从单机到分布式模型训练推理的便捷转化。

    基于搜索的分布式张量的不同排布方式间的自动转换系统

    公开(公告)号:CN115480702A

    公开(公告)日:2022-12-16

    申请号:CN202211123681.1

    申请日:2022-09-15

    IPC分类号: G06F3/06 G06N3/08

    摘要: 本发明公开了基于搜索的分布式张量的不同排布方式间的自动转换系统,涉及分布式张量转换技术领域,包括排布转换方案搜索器、模拟器、缓存表与执行器;所述排布转换方案搜索器,用于得到从起始序列到目标序列转换序列表;所述模拟器,用于在不真实执行的情况下,根据模型给出序列转换过程中,每个操作的开销,并累积起来;所述缓存表,用于缓存在所有搜索过的方案;该基于搜索的分布式张量的不同排布方式间的自动转换系统,通过设置有排布转换方案搜索器、模拟器、缓存表与执行器,完成高维集群下的分布式张量排布的自动转换,模拟器给出的信息,可以用来做分布式张量排布的选择或者自动并行方案的选择,缓存表可以使运行时的搜索开销大幅降低。

    一种面向大模型训练的张量存储管理方法

    公开(公告)号:CN114860445A

    公开(公告)日:2022-08-05

    申请号:CN202210501949.4

    申请日:2022-05-10

    发明人: 方佳瑞 尤鹏

    IPC分类号: G06F9/50 G06F17/16 G06N3/04

    摘要: 本发明公开了一种面向大模型训练的张量存储管理方法,涉及计算机技术领域,具体为一种面向大模型训练的张量存储管理方法,包括大模型异构训练的内存管理软件,所述内存管理软件包括内存管理器和内存信息统计器,所述内存管理软件让张量在训练过程中动态分布在CPU‑GPU的存储空间内,从而让模型训练突破GPU的内存墙,所述内存管理器负责模型数据张量,所述内存管理器用于标记所述张量的状态信息,所述大模型训练包括预热阶段和正式阶段,定时采集系统的CPU或者GPU的内存使用情况,并根据每组的统计时刻,精确统计非模型数据数值,通过管理张量在CPU和GPU的存储方式,使大模型训练突破内存墙,在相同存储硬件配置下,可以完成更大模型的训练。

    一种混合词频嵌入的双重张量并行方法

    公开(公告)号:CN115455150A

    公开(公告)日:2022-12-09

    申请号:CN202211181058.1

    申请日:2022-09-27

    IPC分类号: G06F16/33 G06K9/62

    摘要: 本发明公开了一种混合词频嵌入的双重张量并行方法,具体包括以下步骤:S1、通过任务分配器先扫描一遍训练用到的数据集,统计每个查询的词id出现次数,然后利用贪心算法(minimax:使切割后嵌入表之间词频的最大差距尽量小)将嵌入表的行按词频总数均匀切割到并行的设备上,使每个设备上的词频数基本一致,本发明涉及深度学习技术领域。该混合词频嵌入的双重张量并行方法,通过嵌入表的词频分布信息,在张量并行时做到了按访问量均匀横向切割,保证训练量的均摊;同时支持嵌入袋的操作,相比于单纯的嵌入有效缩减了设备间通信的开销;在并行的每个设备上,按照词频将嵌入表进行二次切割,并进行算法压缩,有效地进一步减小了每个设备上的内存消耗。

    元信息计算图生成系统
    7.
    发明公开

    公开(公告)号:CN115374909A

    公开(公告)日:2022-11-22

    申请号:CN202211020000.9

    申请日:2022-08-24

    IPC分类号: G06N3/04 G06N3/08

    摘要: 本发明公开了元信息计算图生成系统,涉及深度学习技术领域,具体为元信息计算图生成系统,其特征在于:包括元信息代理、具备计算元信息能力的追踪器、补丁操作、元信息的计算图;该元信息计算图生成系统,通过元信息代理、具备计算元信息能力的追踪器、补丁操作、元信息的计算图的组合使用,本发明的代理具有更多元信息,比如形状、类型、维度等。同时,通过劫持PyTorch中的算子计算函数,拥有像正常张量一样在模型的前向传播中流动的能力,具有高通用性,支持立即模式框架,支持对控制流追踪,计算图生成速度快,代价低,获取的计算图带有足够多的元信息(形状、类型、维度等)。

    一种细粒度多维度的大规模机器学习性能分析方法

    公开(公告)号:CN115061804A

    公开(公告)日:2022-09-16

    申请号:CN202210801965.5

    申请日:2022-07-07

    IPC分类号: G06F9/48 G06F9/50 G06N20/00

    摘要: 本发明公开了计算机技术领域的一种细粒度多维度的大规模机器学习性能分析方法,基于Colossal‑AIProfiler和Colossal‑AIGemini内存策略管理工具一起实现,其使用的流程和PyTorchProfiler类似,Colossal‑AIProfiler被设计为一个上下文管理器,能够通过with语句很快完成开启和关闭,可以精确记录处于不同状态的Tensor信息,从而得到目前内存使用的具体情况,帮助开发者更好地优化在机器学习过程中内存的使用量和调度策略,帮助开发者将程序的带宽性能与数据移动带宽的理论上限进行比较,进行客观精准的性能分析,获得当前程序对资源的利用率,找到程序的主要优化方向,具有创造性。

    基于多种通信模式的深度学习大模型推理部署方法

    公开(公告)号:CN114816801A

    公开(公告)日:2022-07-29

    申请号:CN202210502345.1

    申请日:2022-05-09

    IPC分类号: G06F9/54 G06N5/04

    摘要: 本发明公开了基于多种通信模式的深度学习大模型推理部署方法,具体涉及程序模型领域,包括以下步骤:S1、对大模型进行模型并行与流水线并行分割;S2、进程运行,其中一个为主进程,除了主进程外的其他进程中,仅有通信初始化逻辑;S3、初始化所有通信;S4、主进程通过远程过程调用在所有进程上对相应模型分块进行实例化;S5、当一个推断请求到来时,主进程通过远程过程调用通知所有进程相应的信息,被调用的进程将执行信息压入自己的消息队列,后启动推理过程,本发明能够统一程序入口,实现非阻塞的流水线推理,在行为上,可将分布式推理封装成单设备推理具有相同行为,易于对分布式推理进行管理。