-
公开(公告)号:CN119886324A
公开(公告)日:2025-04-25
申请号:CN202411752047.3
申请日:2024-12-02
Applicant: 北京大学
IPC: G06N5/04 , G06N3/0455 , G06N3/084
Abstract: 本发明公开一种面向异构序列负载的灵活大模型训练方法及系统,属于大模型技术领域。所述方法包括:将一个训练数据批次划分为若干微批次;其中,一个训练数据批次由若干个序列组成;对于每一微批次,通过最小化该微批次的最大执行时间,将该微批次中的序列分配到不同SP组,以生成最优序列并行策略;基于该最优序列并行策略,在大模型上执行该微批次的训练,并将反向传播得到的梯度进行累加,以更新大模型参数。本发明可以根据实际训练时实时的工作负载的序列长度情况,求解最优的序列并行方案,减少高的序列并行度带来的低效的跨节点通信,提高大模型在长序列场景下训练的效率。