-
公开(公告)号:CN116361277A
公开(公告)日:2023-06-30
申请号:CN202310234256.8
申请日:2023-03-08
申请人: 国网浙江省电力有限公司信息通信分公司 , 浙江华云信息科技有限公司
IPC分类号: G06F16/215 , G06F16/242
摘要: 本申请提供一种数据质量检测方法、装置、计算机设备及介质,获取数据中台的目标系统的第一数据,第一数据包括目标字段;对目标字段进行特征标记,得到目标字段对应的目标特征;根据目标特征和预设对应关系,得到目标特征对应的目标质量检测算法;通过PyODPS内置的聚合函数,利用目标质量检测算法对目标字段进行质量检测,得到包括异常数据的检测结果。对多个目标字段进行质量检测时,在数据中台中可以采用多字段并行检测方式,同时,在对多个目标字段中的每一个目标字段进行检测时,PyODPS内置的聚合函数可以调用数据中台内线程级别的多路并发能力,充分利用数据中台的集群资源进行质量检测,提高对数据质量的检测效率。
-
公开(公告)号:CN115016904A
公开(公告)日:2022-09-06
申请号:CN202210276240.9
申请日:2022-03-21
申请人: 国网浙江省电力有限公司信息通信分公司 , 浙江华云信息科技有限公司
IPC分类号: G06F9/48 , G06F16/215 , G06N3/02 , G06N5/00
摘要: 本发明提供了一种数据质量检测任务的调度方法,所述调度方法具体为:首先采集每个检测对象的元数据以及日志数据并进行数据清洗,然后计算特征值并进行预处理,将预处理后的特征值输入算法匹配模型,获取对应的数据检测方法,获取每个检测对象的数据规模、数据维度以及对应的数据检测方法类型,确定每个检测对象的检测任务以及预设的计算资源信息,并通过检测时长预测模型获取对应的检测任务执行时长的预测结果,根据每个检测对象的预测结果生成任务执行队列,进行检测任务分配并开展数据质量检测,直至完成所有的检测任务。本发明能够根据检测任务的检测时长来分配执行顺序,能够控制和压减整体检测任务的时长,保障检测结果的时效性。
-