Invention Grant
- Patent Title: 针对语言模型的并行调度方法、装置、设备及存储介质
-
Application No.: CN202311237684.2Application Date: 2023-09-25
-
Publication No.: CN116991560BPublication Date: 2024-04-16
- Inventor: 杨海钦 , 刘力铭 , 叶俊鹏 , 梁健豪 , 杨杰 , 幺宝刚
- Applicant: 粤港澳大湾区数字经济研究院(福田)
- Applicant Address: 广东省深圳市福田区福保街道市花路长富金茂大厦1号楼39楼3901单元
- Assignee: 粤港澳大湾区数字经济研究院(福田)
- Current Assignee: 粤港澳大湾区数字经济研究院(福田)
- Current Assignee Address: 广东省深圳市福田区福保街道市花路长富金茂大厦1号楼39楼3901单元
- Agency: 深圳市君胜知识产权代理事务所
- Agent 温宏梅
- Main IPC: G06F9/48
- IPC: G06F9/48 ; G06F40/58
Abstract:
本申请公开了一种针对语言模型的并行调度方法、装置、设备及存储介质,方法包括根据将待处理数据批划分为若干子数据批并分配至不同工作端;根据工作端的各计算节点实时用于执行所述待处理数据批时的显存使用率将语言模型的张量划分为若干张量块,将各张量块配置于不同计算节点;控制各计算节点并行运行语言模型的推理过程以得到输出数据。本申请通过在执行语言模型的推理过程中根据工作端的各计算节点在用于执行每个待处理数据批时的显存使用率对张量进行动态划分,使得各计算节点分配到的张量块的大小可以根据显存使用率来动态调节,有效提高了计算节点的显存利用率,减少显存冗余,提高了语言模型的推理速度,从而缩短了语言模型的训练时间。
Public/Granted literature
- CN116991560A 针对语言模型的并行调度方法、装置、设备及存储介质 Public/Granted day:2023-11-03
Information query