发明授权
- 专利标题: 一种大语言模型超参数优化方法及系统
-
申请号: CN202311486828.8申请日: 2023-11-09
-
公开(公告)号: CN117216232B公开(公告)日: 2024-01-09
- 发明人: 王亚 , 赵策 , 屠静 , 苏岳 , 李伟伟 , 孙岩 , 颉彬 , 周勤民 , 潘亮亮 , 刘岩 , 刘莎
- 申请人: 卓世科技(海南)有限公司
- 申请人地址: 海南省三亚市崖州区崖州湾科技城用友产业园(三亚)2号楼102室
- 专利权人: 卓世科技(海南)有限公司
- 当前专利权人: 卓世科技(海南)有限公司
- 当前专利权人地址: 海南省三亚市崖州区崖州湾科技城用友产业园(三亚)2号楼102室
- 代理机构: 北京市广友专利事务所有限责任公司
- 代理商 张仲波; 邓琳
- 主分类号: G06F16/332
- IPC分类号: G06F16/332 ; G06N3/0499 ; G06F17/15 ; G06F18/214 ; G06F18/21 ; G06F30/27
摘要:
本发明提供了一种大语言模型超参数优化方法及系统。其中,该方法首先初始化大语言模型及其相关的超参数,包括但不限于学习速率和批次大小。然后,在每一批训练数据处理后,使用一个联合评估函数来对模型的性能和结构复杂度进行全面评估。该联合评估函数综合考虑了模型对数据的拟合能力和模型自身的结构复杂度。根据联合评估函数的结果,该方法动态地通过预定算法调整模型的超参数。进一步地,该方法引入了一个名为结构性动量的动态变量指标,用于追踪和优化模型结构。该方法将持续循环执行上述步骤,直到模型达到预定的性能指标或满足其他终止条件。通过该优化方法,可以有效地调整大语言模型的超参数和结构,从而提高模型性能。
公开/授权文献
- CN117216232A 一种大语言模型超参数优化方法及系统 公开/授权日:2023-12-12