数据预处理方法和装置
    1.
    发明公开

    公开(公告)号:CN117555885A

    公开(公告)日:2024-02-13

    申请号:CN202210915038.6

    申请日:2022-08-01

    发明人: 李怡 王熙

    摘要: 本发明公开了一种数据预处理方法和装置,涉及人工智能技术领域。该方法的一具体实施方式包括:从预设的配置文件中确定待处理的目标数据表以及所述目标数据表中待处理的目标列,将确定的目标列组合为预设的表格型数据结构的第一数据对象;依据所述配置文件生成包括多个键值对数据的第二数据对象;其中,每一键值对数据中的键为一种预处理方式,值为所述配置文件所指示的、各目标数据表中使用该预处理方式的目标列的当前标识的集合;根据每一键值对数据中的预处理方式对应的数据预处理工具对第一数据对象中、该键值对数据指示的目标列执行并行处理,得到数据预处理结果。该实施方式能够减轻预处理过程中的人工工作量耗费,提高模型训练效率。

    一种数据处理方法和装置
    2.
    发明公开

    公开(公告)号:CN114579309A

    公开(公告)日:2022-06-03

    申请号:CN202210208905.2

    申请日:2022-03-03

    发明人: 李怡 王熙

    IPC分类号: G06F9/50

    摘要: 本发明公开了一种数据处理方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:接入实时数据流,检测逻辑处理算子所依赖的每个机器的资源使用率,得到资源总使用率;比对资源总使用率和预设使用率范围,使用与比对结果对应的处理策略,调整逻辑处理算子所依赖的每个机器的并行度;利用调整并行度后的逻辑处理算子处理所述实时数据流,将处理结果传输给下一个逻辑处理算子进行再处理,重复上述并行度调整和处理数据过程,直至无逻辑处理算子为止,得到总处理结果。该实施方式随着数据量级的大小和处理速度,自动化调整算子使用资源的并行度,无需数据开发人员调整。

    一种数据处理方法和装置
    3.
    发明公开

    公开(公告)号:CN113779018A

    公开(公告)日:2021-12-10

    申请号:CN202010771119.4

    申请日:2020-08-03

    发明人: 王云涛 王熙 周默

    IPC分类号: G06F16/22 G06F16/25

    摘要: 本发明公开了数据处理方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括获取消息,识别消息格式;根据消息格式,调用预定义的配置文件得到所述消息对应的字段信息,以生成相应的数据流;基于所述配置文件中预设的返回数据结构,将所述数据流进行转换并返回。从而,本发明的实施方式能够解决现有数据处理方式兼容性差,效率低的问题。