- 专利标题: 一种基于复用的竞赛数据集自动化处理系统及方法
-
申请号: CN201910645848.2申请日: 2019-07-17
-
公开(公告)号: CN110389978B公开(公告)日: 2020-10-23
- 发明人: 刘笑臣 , 任永亮 , 杨菲 , 李嘉懿 , 贺同路 , 郭学栋
- 申请人: 北京智能工场科技有限公司
- 申请人地址: 北京市海淀区东北旺西路8号院4号楼四层421-48
- 专利权人: 北京智能工场科技有限公司
- 当前专利权人: 北京智能工场科技有限公司
- 当前专利权人地址: 北京市海淀区东北旺西路8号院4号楼四层421-48
- 代理机构: 北京君莫知识产权代理事务所
- 代理商 崔云鹤
- 主分类号: G06F16/25
- IPC分类号: G06F16/25 ; G06F21/62 ; G06N20/00
摘要:
本发明提出了一种基于复用的竞赛数据集自动化处理系统及方法,通过本发明的技术方案,可以对原始数据集进行自动整理和划分,并上传到竞赛网站服务器上。其中,包括对原始数据集进行自动整理和分割和上传,生成竞赛网站数据集,以解决现有技术中人工整理和分割数据集造成的代码不能复用,整理效率低下,以及分割后的子数据集样本不符合整个数据集样本的概率密度分布问题。本发明设计的分割数据集的方法可以对标注属性为类别、标注属性为数值以及多属性标注的数据进行分层抽样,提高了抽样的准确性,使得分割出的子数据集合中的数据分布更符合原数据集的数据分布。
公开/授权文献
- CN110389978A 一种基于复用的竞赛数据集自动化处理系统及方法 公开/授权日:2019-10-29