一种基于复用的竞赛数据集自动化处理系统及方法
摘要:
本发明提出了一种基于复用的竞赛数据集自动化处理系统及方法,通过本发明的技术方案,可以对原始数据集进行自动整理和划分,并上传到竞赛网站服务器上。其中,包括对原始数据集进行自动整理和分割和上传,生成竞赛网站数据集,以解决现有技术中人工整理和分割数据集造成的代码不能复用,整理效率低下,以及分割后的子数据集样本不符合整个数据集样本的概率密度分布问题。本发明设计的分割数据集的方法可以对标注属性为类别、标注属性为数值以及多属性标注的数据进行分层抽样,提高了抽样的准确性,使得分割出的子数据集合中的数据分布更符合原数据集的数据分布。
0/0