一种基于KAN网络的大模型压缩方法及系统

发明授权

请登陆查看更多内容

专利标题： 一种基于KAN网络的大模型压缩方法及系统
申请号： CN202411146611.7

申请日： 2024-08-21
公开(公告)号： CN118673969B

公开(公告)日： 2024-10-29
发明人: 邵嘉豪 , 段强 , 姜凯 , 吴信东
申请人： 山东浪潮科学研究院有限公司
申请人地址： 山东省济南市高新区浪潮路1036号s02楼
专利权人： 山东浪潮科学研究院有限公司
当前专利权人： 山东浪潮科学研究院有限公司
当前专利权人地址： 山东省济南市高新区浪潮路1036号s02楼
代理机构： 济南尚本知识产权代理事务所
代理商 董洁
主分类号： G06N3/0499
IPC分类号： G06N3/0499 ; G06N3/082

摘要：

本发明提出一种基于KAN网络的大模型压缩方法及系统，属于人工智能技术领域，将语言模型中的多层感知机结构替换为三层的KAN网络，其中第一层由输入到隐藏单元的边组成，第二层由隐藏单元之间的边组成，第三层由隐藏单元到输出的边组成，每条边都与一个可学习的一元函数相关联，这些函数使用B样条参数化，在模型训练时，通过在损失函数中引入L1正则化项来诱导KAN网络的稀疏性，使得许多边的权重趋于零，训练后，去除权重小于阈值的边，并将B样条激活函数近似为分段函数，得到一个紧凑、高效的压缩模型，能在保持模型性能的同时，显著减少参数量和推理计算量，可广泛应用于各类大型语言模型的压缩。

公开/授权文献

CN118673969A 一种基于KAN网络的大模型压缩方法及系统公开/授权日：2024-09-20

信息查询

中国专利公布公告 Global Dossier Espacenet