-
公开(公告)号:CN117972438A
公开(公告)日:2024-05-03
申请号:CN202410380905.X
申请日:2024-03-31
申请人: 浪潮电子信息产业股份有限公司
IPC分类号: G06F18/214 , G06F18/24 , G06V10/764 , G06V10/774 , G06V10/82 , G06N3/045 , G06N3/08
摘要: 本发明公开了一种数据处理方法、系统、设备及存储介质,应用于计算机技术领域,以解决传统方案中无法同时保障训练效率和准确性的问题,包括:建立第一模型并进行训练得到待扩展模型,保存待扩展模型的检查点文件;基于待扩展模型的检查点文件,对待扩展模型进行结构扩展得到第二模型,且第二模型的模型参数的数量大于第一模型的模型参数的数量;对第二模型进行训练得到第一目标模型;将待处理的文本数据或者图像数据输入至第一目标模型,得到第一目标模型所输出的针对文本数据的文本预测结果或者针对图像数据的图像处理结果。应用本发明的方案,可以有效地通过模型实现数据处理,既能够保障准确性,又有利于提高训练效率,降低计算成本。
-
公开(公告)号:CN118586448B
公开(公告)日:2024-10-11
申请号:CN202411074251.4
申请日:2024-08-07
申请人: 浪潮电子信息产业股份有限公司
IPC分类号: G06N3/0455 , G06N3/084 , G06N3/082 , G06N3/0985 , G06N5/04 , G06F40/205 , G06F16/35
摘要: 本发明公开了一种文本任务处理方法及其模型训练方法、设备、介质、产品,应用于人工智能技术领域。其中,方法包括获取微调文本数据集和预训练好的初始语言模型。按照多个频率基准值对各微调文本样本的位置编码信息维度进行划分,并对不同组的位置编码信息采用相匹配的插值方法进行插值处理,以得到具有处理目标长度文本数据的过渡语言模型。基于目标长度设置窗口标记长度参数值和最大允许距离参数值,并基于推理文本长度设置目标文本长度参数值,利用窗口掩码方法对过渡语言模型进行外推处理,得到文本任务处理模型。本发明可以解决相关技术由于失去对长文本全局理解的能力导致性能下降的问题,能够有效提高长文本任务的执行精度。
-
公开(公告)号:CN117972438B
公开(公告)日:2024-06-28
申请号:CN202410380905.X
申请日:2024-03-31
申请人: 浪潮电子信息产业股份有限公司
IPC分类号: G06F18/214 , G06F18/24 , G06V10/764 , G06V10/774 , G06V10/82 , G06N3/045 , G06N3/08
摘要: 本发明公开了一种数据处理方法、系统、设备及存储介质,应用于计算机技术领域,以解决传统方案中无法同时保障训练效率和准确性的问题,包括:建立第一模型并进行训练得到待扩展模型,保存待扩展模型的检查点文件;基于待扩展模型的检查点文件,对待扩展模型进行结构扩展得到第二模型,且第二模型的模型参数的数量大于第一模型的模型参数的数量;对第二模型进行训练得到第一目标模型;将待处理的文本数据或者图像数据输入至第一目标模型,得到第一目标模型所输出的针对文本数据的文本预测结果或者针对图像数据的图像处理结果。应用本发明的方案,可以有效地通过模型实现数据处理,既能够保障准确性,又有利于提高训练效率,降低计算成本。
-
公开(公告)号:CN118586448A
公开(公告)日:2024-09-03
申请号:CN202411074251.4
申请日:2024-08-07
申请人: 浪潮电子信息产业股份有限公司
IPC分类号: G06N3/0455 , G06N3/084 , G06N3/082 , G06N3/0985 , G06N5/04 , G06F40/205 , G06F16/35
摘要: 本发明公开了一种文本任务处理方法及其模型训练方法、设备、介质、产品,应用于人工智能技术领域。其中,方法包括获取微调文本数据集和预训练好的初始语言模型。按照多个频率基准值对各微调文本样本的位置编码信息维度进行划分,并对不同组的位置编码信息采用相匹配的插值方法进行插值处理,以得到具有处理目标长度文本数据的过渡语言模型。基于目标长度设置窗口标记长度参数值和最大允许距离参数值,并基于推理文本长度设置目标文本长度参数值,利用窗口掩码方法对过渡语言模型进行外推处理,得到文本任务处理模型。本发明可以解决相关技术由于失去对长文本全局理解的能力导致性能下降的问题,能够有效提高长文本任务的执行精度。
-
-
-