发明公开
- 专利标题: 一种数据集扩充方法及装置
-
申请号: CN202410830079.4申请日: 2024-06-25
-
公开(公告)号: CN118607668A公开(公告)日: 2024-09-06
- 发明人: 何召锋 , 高骏 , 吴惠甲 , 项刘宇 , 程祥 , 王雯 , 刘方明
- 申请人: 北京邮电大学 , 鹏城实验室
- 申请人地址: 北京市海淀区西土城路10号;
- 专利权人: 北京邮电大学,鹏城实验室
- 当前专利权人: 北京邮电大学,鹏城实验室
- 当前专利权人地址: 北京市海淀区西土城路10号;
- 代理机构: 石家庄领皓专利代理有限公司
- 代理商 张玉婵
- 主分类号: G06N20/00
- IPC分类号: G06N20/00 ; G06F18/214 ; G06N3/08 ; G06N3/0455 ; G06F16/35 ; G06F40/30
摘要:
本公开提供了一种数据集扩充方法及装置,属于数据处理技术领域,该方法包括:基于第一语言模型生成第一样本数据;将第一样本数据添加至包含有第二样本数据的数据集中,从数据集中筛选出第三样本数据;第二样本数据为真实数据,第三样本数据为第一样本数据中与真实数据的关联度小于第一阈值的数据;基于第四样本数据训练第一语言模型;第四样本数据为数据集中除第三样本数据之外的数据;返回执行基于第一语言模型生成第一样本数据的步骤,直至满足设定条件,得到扩充后的数据集。本公开提供的一种数据集扩充方法及装置能够淘汰低质量样本,优化生成过程,有效保留更加丰富和高质量的样本。