-
公开(公告)号:CN119886324A
公开(公告)日:2025-04-25
申请号:CN202411752047.3
申请日:2024-12-02
Applicant: 北京大学
IPC: G06N5/04 , G06N3/0455 , G06N3/084
Abstract: 本发明公开一种面向异构序列负载的灵活大模型训练方法及系统,属于大模型技术领域。所述方法包括:将一个训练数据批次划分为若干微批次;其中,一个训练数据批次由若干个序列组成;对于每一微批次,通过最小化该微批次的最大执行时间,将该微批次中的序列分配到不同SP组,以生成最优序列并行策略;基于该最优序列并行策略,在大模型上执行该微批次的训练,并将反向传播得到的梯度进行累加,以更新大模型参数。本发明可以根据实际训练时实时的工作负载的序列长度情况,求解最优的序列并行方案,减少高的序列并行度带来的低效的跨节点通信,提高大模型在长序列场景下训练的效率。
-
公开(公告)号:CN116128019A
公开(公告)日:2023-05-16
申请号:CN202211441633.7
申请日:2022-11-17
Applicant: 北京大学
IPC: G06N3/0455 , G06N3/08
Abstract: 本发明提供一种Transformer模型的并行训练方法及装置,涉及计算机技术领域;其中所述Transformer模型的并行训练方法包括:基于M种预设并行训练策略,确定初始Transformer模型的并行训练策略搜索空间;基于各预设并行训练策略,构建至少一棵决策树;决策树用于从并行训练策略搜索空间中确定初始Transformer模型的并行训练策略集合;基于训练策略集合,确定目标并行训练策略组合;利用目标并行训练策略组合对初始Transformer模型进行训练,得到目标Transformer模型。利用吞吐率最高的目标并行训练策略组合对初始Transformer模型进行训练,提高了对模型的训练效率。
-