-
公开(公告)号:CN118313456A
公开(公告)日:2024-07-09
申请号:CN202410263277.7
申请日:2024-03-07
申请人: 北京潞晨科技有限公司
摘要: 本发明公开了一种基于大模型高速缓存的投机推理加速方法,具体包括以下步骤:S1、模型架构设计:首先设计小语言模型的基本架构;S2、数据准备:收集和预处理用于训练模型的数据;S3、训练过程:利用深度学习框架进行模型的训练;S4、集成大语言模型:将训练好的小语言模型与预先训练好的大语言模型集成,使其能够利用大语言模型的KV缓存进行推测性解码;本发明涉及投机推理技术领域。该基于大模型高速缓存的投机推理加速方法,不仅提高了小型模型的实用性,也为各种语言处理任务提供了更高效、更精准的解决方案,提供了对大模型推理1.5‑2.0倍内的加速,极大缩短运行时间,小模型显存占用不增加,不会带来额外的显存占用。
-
公开(公告)号:CN118133968A
公开(公告)日:2024-06-04
申请号:CN202410408574.6
申请日:2024-04-07
申请人: 北京潞晨科技有限公司
摘要: 本发明实施例公开了一种任务处理方法、装置、电子设备及存储介质,其中,方法包括:获取待处理任务的待处理任务数据,并对所述待处理任务数据进行编解码处理,得到当前预测令牌;根据候选令牌动态扩展策略对所述当前预测令牌进行动态扩展,得到动态扩展令牌集合;其中,所述动态扩展令牌集合中包括的候选令牌的数量根据所述当前预测令牌的动态调整因素动态调整;根据所述动态扩展令牌集合确定所述当前预测令牌匹配的目标预测令牌;根据所述目标预测令牌生成所述待处理任务数据匹配的任务结果数据。本发明实施例的技术方案能够提高基于模型进行任务处理时的解码速度和解码准确率,进而提高基于模型进行任务处理的质量和效率。
-