一种大语言模型超参数优化方法及系统
摘要:
本发明提供了一种大语言模型超参数优化方法及系统。其中,该方法首先初始化大语言模型及其相关的超参数,包括但不限于学习速率和批次大小。然后,在每一批训练数据处理后,使用一个联合评估函数来对模型的性能和结构复杂度进行全面评估。该联合评估函数综合考虑了模型对数据的拟合能力和模型自身的结构复杂度。根据联合评估函数的结果,该方法动态地通过预定算法调整模型的超参数。进一步地,该方法引入了一个名为结构性动量的动态变量指标,用于追踪和优化模型结构。该方法将持续循环执行上述步骤,直到模型达到预定的性能指标或满足其他终止条件。通过该优化方法,可以有效地调整大语言模型的超参数和结构,从而提高模型性能。
公开/授权文献
0/0