发明公开
CN117555885A 数据预处理方法和装置
审中-实审
- 专利标题: 数据预处理方法和装置
-
申请号: CN202210915038.6申请日: 2022-08-01
-
公开(公告)号: CN117555885A公开(公告)日: 2024-02-13
- 发明人: 李怡 , 王熙
- 申请人: 北京沃东天骏信息技术有限公司 , 北京京东世纪贸易有限公司
- 申请人地址: 北京市北京经济技术开发区科创十一街18号院2号楼4层A402室
- 专利权人: 北京沃东天骏信息技术有限公司,北京京东世纪贸易有限公司
- 当前专利权人: 北京沃东天骏信息技术有限公司,北京京东世纪贸易有限公司
- 当前专利权人地址: 北京市北京经济技术开发区科创十一街18号院2号楼4层A402室
- 代理机构: 中原信达知识产权代理有限责任公司
- 代理商 王志远; 张一军
- 主分类号: G06F16/215
- IPC分类号: G06F16/215 ; G06F16/22 ; G06F18/10 ; G06F18/214
摘要:
本发明公开了一种数据预处理方法和装置,涉及人工智能技术领域。该方法的一具体实施方式包括:从预设的配置文件中确定待处理的目标数据表以及所述目标数据表中待处理的目标列,将确定的目标列组合为预设的表格型数据结构的第一数据对象;依据所述配置文件生成包括多个键值对数据的第二数据对象;其中,每一键值对数据中的键为一种预处理方式,值为所述配置文件所指示的、各目标数据表中使用该预处理方式的目标列的当前标识的集合;根据每一键值对数据中的预处理方式对应的数据预处理工具对第一数据对象中、该键值对数据指示的目标列执行并行处理,得到数据预处理结果。该实施方式能够减轻预处理过程中的人工工作量耗费,提高模型训练效率。