- 专利标题: 一种结合机器学习和投机采样的大模型推理加速方法及系统
-
申请号: CN202411110911.X申请日: 2024-08-14
-
公开(公告)号: CN118657220A公开(公告)日: 2024-09-17
- 发明人: 解书贵 , 王子斌
- 申请人: 南京中新赛克科技有限责任公司
- 申请人地址: 江苏省南京市雨花台区宁双路19号2幢1501室
- 专利权人: 南京中新赛克科技有限责任公司
- 当前专利权人: 南京中新赛克科技有限责任公司
- 当前专利权人地址: 江苏省南京市雨花台区宁双路19号2幢1501室
- 代理机构: 南京众联专利代理有限公司
- 代理商 叶涓涓
- 主分类号: G06N5/04
- IPC分类号: G06N5/04 ; G06N3/063 ; G06N5/022 ; G06F16/332 ; G06N3/0455
摘要:
本发明公开了一种结合机器学习和投机采样的大模型推理加速方法及系统,其中方法包括:根据检索出的本地知识构建n‑gram语言模型;n‑gram语言模型推理阶段根据给定文字token,预测下一个token在词表中的概率分布,并采样预测下一个token;基于构建的n‑gram模型和大模型,实现投机采样算法,加速大模型推理。与当前的主流方法相比,本发明生成的内容相比较于现有投机采样算法所使用的近似小模型,更加可靠,其计算量少且减少了内存访问的需求,速度更快。本发明还进一步分别将改进的投机采样算法应用于transformers库和推理框架vLLM,推理速度获得进一步提升。
公开/授权文献
- CN118657220B 一种结合机器学习和投机采样的大模型推理加速方法及系统 公开/授权日:2024-10-29