-
公开(公告)号:CN118227994A
公开(公告)日:2024-06-21
申请号:CN202410394835.3
申请日:2024-04-02
申请人: 号百信息服务有限公司
IPC分类号: G06F18/20 , G06F18/213
摘要: 本发明涉及一种主数据识别方法、设备和介质,采集多个业务平台的数据并存储到Hdfs中,将Hdfs文件定期挂载到以日期为分区字段的Hive外部分区表的对应分区,并定时做增量转全量处理,对获得的全量数据进行元数据采集,提取技术元数据,根据数据认责关系,补充业务元数据,然后计算主数据各主要识别项的得分,所述主要识别项包括数据质量分数、数据活跃指数、数据更新频率、数据绝对规模、数据价值共享和数据采集来源,再基于生成的指标特征项,采用多指标综合评价算法计算各政企业务平台得分,选择得分最高的政企业务平台的作为政企客户主数据。与现有技术相比,本发明可以提高主数据识别结果的可靠性,同时可以节省算力资源。