Patent search ap:("北京大学") AND inv:"王士举" Page 1

1.

发明公开
面向异构序列负载的灵活大模型训练方法及系统审中-公开

公开(公告)号：CN119886324A

公开(公告)日：2025-04-25

申请号：CN202411752047.3

申请日：2024-12-02

Applicant: 北京大学

Inventor： 崔斌 , 王驭捷 , 王士举 , 竺沈涵 , 符芳诚 , 刘新一 , 赵通

IPC: G06N5/04 , G06N3/0455 , G06N3/084

Abstract: 本发明公开一种面向异构序列负载的灵活大模型训练方法及系统，属于大模型技术领域。所述方法包括：将一个训练数据批次划分为若干微批次；其中，一个训练数据批次由若干个序列组成；对于每一微批次，通过最小化该微批次的最大执行时间，将该微批次中的序列分配到不同SP组，以生成最优序列并行策略；基于该最优序列并行策略，在大模型上执行该微批次的训练，并将反向传播得到的梯度进行累加，以更新大模型参数。本发明可以根据实际训练时实时的工作负载的序列长度情况，求解最优的序列并行方案，减少高的序列并行度带来的低效的跨节点通信，提高大模型在长序列场景下训练的效率。

Patent Agency Ranking