Transformer大模型的推理方法、装置、计算机设备和存储介质
摘要:
本申请涉及Transformer大模型的推理方法、装置、计算机设备和存储介质,在使用Transformer大模型进行实际推理之前,利用权重校正系数向量将权重矩阵进行校正,将权重矩阵中各数值的差异进行压制,并将权重校正矩阵进行低比特整型量化;在使用Transformer大模型进行实际推理时,将实际输入激活矩阵与激活量化校正系数向量的乘积、量化后的综合校正系数向量及校正量化后的权重矩阵进行矩阵相乘,得到初始推理结果矩阵;基于第一量化参数标量、第二量化参数标量以及第三量化参数标量,对初始推理结果矩阵进行反量化,得到实际推理结果矩阵,有效节省在GPU中部署所占用的显存资源及有效提高计算机处理速度。(56)对比文件杨云;王全.层聚合的对抗机器翻译模型的方法研究.陕西科技大学学报.2020,(第01期),全文.苏畅;付忠良;谭雨辰.一种在GPU上高精度大型矩阵快速运算的实现.计算机应用.2009,(第04期),全文.姚志湘;孙增强;粟晖;袁洪福.通过向量角转换校正拉曼光谱中乘性干扰.光谱学与光谱分析.2016,(第02期),全文.
0/0