-
公开(公告)号:CN118861014A
公开(公告)日:2024-10-29
申请号:CN202410835566.X
申请日:2024-06-26
申请人: 鞍钢集团自动化有限公司
摘要: 本发明涉及一种基于数据验证工具的多源异构数据探查架构,包括质量稽核系统、异构数据系统、业务系统和容器化部署系统,所述异构数据系统包括关系型异构数据系统和非关系型异构数据系统,所述业务系统的数据进入异构数据系统中,当业务系统的数据为关系型数据时业务数据通过关系型异构数据系统进入到质量稽核系统,当业务系统的数据为其他数据类型,则业务数据通过非关系型异构数据系统进入质量稽核系统,进行数据质量规则的探查,所述容器化部署系统将质量稽核系统、异构数据系统和业务系统均做容器化部署,适配不同操作系统;本发明降低了人员的使用难度,节省了采样对方数据库中的数据内容到系统中进行数据储存的过程。
-
公开(公告)号:CN118861840A
公开(公告)日:2024-10-29
申请号:CN202410836118.1
申请日:2024-06-26
申请人: 鞍钢集团自动化有限公司 , 鞍钢股份有限公司
发明人: 薛芷蘅 , 刘凯 , 王弢 , 熊鑫 , 赵伟 , 王里程 , 王赛 , 王兴 , 曲泰安 , 刘婷 , 李雪晴 , 荣树强 , 王静 , 英红艳 , 魏铭濡 , 邵光达 , 鲁璐 , 王亚腾 , 马宁
IPC分类号: G06F18/2413 , G06F18/10 , G06F18/21 , G06F16/28 , G06F16/215 , G06F16/22
摘要: 本发明涉及一种基于K‑近邻算法的数据资产智能分类的方法,包括如下步骤:1)抽取来自于源系统元数据信息,包括表元数据信息以及列元数据信息;2)元数据注释补充与完善精细化处理;3)样本数据资产分类标签识别;4)特征数据元构建与标准化;5)模型数据划分;6)模型训练;7)基于最优K近邻算法模型进行数据资产类型的自动划分;本发明基于表、列元数据进行深度处理后,基于K近邻算法的数据资产分类模型,对数据资产进行智能分类,大大提高了数据资产分类的效率,为后续的数据资产分类分级管理提供强有力的支撑。
-
公开(公告)号:CN114528336A
公开(公告)日:2022-05-24
申请号:CN202111633433.7
申请日:2021-12-28
申请人: 鞍钢集团自动化有限公司
摘要: 一种基于列式存储数据仓库的轻量级分布式ETL架构方法,通过Kettle工具集对数据库服务器的数据源进行抽取、转换,同时Airflow分布式调度平台结合Celery分布式消息队列调度作业,并采用Redis集群服务器作为代理在客户端和多个工作节点之间通信,保证了轻量级分布式ETL架构数据的一致性、并通过对象存储KS3服务器进行数据的保存与备份,保证数据的安全性,同时提高了调度作业的水平伸缩性及查询能力。
-
-