一种数据集扩充方法及装置

    公开(公告)号:CN118607668B

    公开(公告)日:2025-04-18

    申请号:CN202410830079.4

    申请日:2024-06-25

    Abstract: 本公开提供了一种数据集扩充方法及装置,属于数据处理技术领域,该方法包括:基于第一语言模型生成第一样本数据;将第一样本数据添加至包含有第二样本数据的数据集中,从数据集中筛选出第三样本数据;第二样本数据为真实数据,第三样本数据为第一样本数据中与真实数据的关联度小于第一阈值的数据;基于第四样本数据训练第一语言模型;第四样本数据为数据集中除第三样本数据之外的数据;返回执行基于第一语言模型生成第一样本数据的步骤,直至满足设定条件,得到扩充后的数据集。本公开提供的一种数据集扩充方法及装置能够淘汰低质量样本,优化生成过程,有效保留更加丰富和高质量的样本。

    一种数据集扩充方法及装置

    公开(公告)号:CN118607668A

    公开(公告)日:2024-09-06

    申请号:CN202410830079.4

    申请日:2024-06-25

    Abstract: 本公开提供了一种数据集扩充方法及装置,属于数据处理技术领域,该方法包括:基于第一语言模型生成第一样本数据;将第一样本数据添加至包含有第二样本数据的数据集中,从数据集中筛选出第三样本数据;第二样本数据为真实数据,第三样本数据为第一样本数据中与真实数据的关联度小于第一阈值的数据;基于第四样本数据训练第一语言模型;第四样本数据为数据集中除第三样本数据之外的数据;返回执行基于第一语言模型生成第一样本数据的步骤,直至满足设定条件,得到扩充后的数据集。本公开提供的一种数据集扩充方法及装置能够淘汰低质量样本,优化生成过程,有效保留更加丰富和高质量的样本。

    模型评测方法、装置、计算机设备及可读存储介质

    公开(公告)号:CN119250173A

    公开(公告)日:2025-01-03

    申请号:CN202410791180.3

    申请日:2024-06-19

    Abstract: 本申请实施例提供了一种模型评测方法、装置、计算机设备及可读存储介质,属于数据处理技术领域。获取多个评测问题;针对每个评测问题,将评测问题输入至待评测模型得到第一评测答案,以及将评测问题分别输入多个参照模型中,得到多个第二评测答案;将第一评测答案分别与多个第二评测答案组合得到多个评测组合,并将多个评测组合输入至每个预设评估模型中,得到评测问题在每个预设评估模型下的第一评测得分;基于多个预设评估模型对应的多个第一评测得分,确定待评测模型在评测对应的评测问题时的目标得分;基于待评测模型在评测多个评测问题时的多个目标得分,确定待评测模型的评测得分。以此,能够提高对模型进行评测的准确性。

    指令数据集构建方法、装置、电子设备及存储介质

    公开(公告)号:CN118916692A

    公开(公告)日:2024-11-08

    申请号:CN202410697065.X

    申请日:2024-05-30

    Abstract: 本申请实施例提供了一种指令数据集构建方法、装置、电子设备及存储介质,属于自然语言处理技术领域。方法包括:获取样本语料文本,以及样本语料文本所处的多个嵌套的背景层级的层级名称;获取预设的提示模板,将多个层级名称作为关键词,并按照对应的背景层级的顺序依次填充到提示模板中的多个空位中,生成第一提示文本;根据第一提示文本和样本语料文本生成目标提示文本,并将目标提示文本输入预设的大语言模型中,得到与样本语料文本相关的目标问答对;基于目标问答对构建指令数据集。本申请实施例提供的指令数据集构建方法、装置、电子设备及存储介质,可以提高构建的指令数据集的质量。

Patent Agency Ranking