一种面向数据湖中空间矢量数据的质量检查方法

    公开(公告)号:CN116756258B

    公开(公告)日:2024-03-15

    申请号:CN202310666494.6

    申请日:2023-06-06

    摘要: 本申请的实施例提供了一种面向数据湖中空间矢量数据的质量检查方法。所述方法包括基于配置完成的质检任务构建有向无环图,并将有向无环图提交至DAG调度器;DAG调度器对有向无环图进行解析,将有向无环图划分为步骤组,并将步骤组提交至Spark集群的任务调度程序;Spark任务调度程序将步骤组发送至Spark的Executor;Executor逐项执行步骤组;当步骤组执行结束后,Executor将执行结果写入SpatialRDD;通过df.write.format("delta").mode(SaveMode.Overwrite).option("overwriteSchema","true").save读取SpatialRDD中的执行结果,将其数据格式转换为业务系统可读的空间数据并存储至业务系统库。以此方式,可以对数据湖中的空间矢量数据实现质量检查,并提高大规模数据量下的空间矢量数据质检效率。