-
公开(公告)号:CN111159178B
公开(公告)日:2023-06-13
申请号:CN201911271405.8
申请日:2019-12-12
申请人: 浙江华云信息科技有限公司
发明人: 王仲锋 , 杨春晨 , 丁雪花 , 李冰 , 纪德良 , 石佳 , 解林超 , 阳东 , 王永平 , 于亚丰 , 汪娟玉 , 胡如一 , 姜震 , 蒋斌 , 徐宏伟 , 王澍 , 姜小建 , 吕旭芬 , 谭程文 , 吴美娟 , 方豪强
IPC分类号: G06F16/22 , G06F16/248 , G06F16/242
摘要: 本发明涉及大数据处理领域,尤其涉及一种基于大数据SQL解析的数据地图路径导航方法,包括:对来自各数据应用系统的数据查询脚本、数据库执行日志通过SQL解析,获取数据表、数据字段之间的关联关系;建立数据表关系库,将解析出的数据表、数据字段之间的关联关系存储至数据表关系库;将数据表与数据字段通过数据表、数据字段之间的关联关系连接形成数据网络,以编制数据拓扑关系图,依托拓扑关系图构建数据业务地图;在数据业务地图中设置起始点数据表和终点数据表,根据数据表关系库进行计算,求得所需要的数据路径并在数据业务地图上显示。本发明的有益效果:实现数据的导航以及查询。
-
公开(公告)号:CN113157903A
公开(公告)日:2021-07-23
申请号:CN202011585288.5
申请日:2020-12-28
申请人: 国网浙江省电力有限公司信息通信分公司 , 浙江华云信息科技有限公司
IPC分类号: G06F16/335 , G06F16/31 , G06F40/216 , G06F40/284 , G06F40/295
摘要: 本发明公开了一种面向多领域的电力词库构建方法,解决了现有技术的不足,包括以下步骤:步骤1,收集电力相关文档,对电力相关文档的文字信息进行提取,在文字信息中枚举出所有文本片段,文本片段的长度小于设定阈值;步骤2,根据词法相关统计指标对文本片段进行过滤,过滤后的文本片段为候选新词,所有候选新词构成候选词库;步骤3,候选词库中的候选新词与常用词汇进行比较,若候选新词是常用词汇,则将该候选新词舍弃,若候选新词不是常用词汇,则将该候选新词定义为正式新词;步骤4,所有的正式新词构成专业词库。
-
公开(公告)号:CN113591485A
公开(公告)日:2021-11-02
申请号:CN202110671379.9
申请日:2021-06-17
申请人: 国网浙江省电力有限公司 , 国网浙江省电力有限公司信息通信分公司 , 浙江华云信息科技有限公司
IPC分类号: G06F40/30 , G06F40/289 , G06F40/242 , G06K9/46 , G06K9/62 , G06N3/04 , G06N3/08
摘要: 本发明公开了一种基于数据科学的智能化数据质量稽核系统及方法,方法包括:数据采集:进行检测对象元数据采集以及日志数据采集解析;数据特征提取:识别并剔除无效表和无效字段,同时通过修订算法根据数据内容对字段类型进行自动修订,根据字段类型提取特征;异常检测:预设数据异常检测方法库,与数据特征进行匹配以选取对应的异常检测方法并检测;任务调度编排:设置编排服务器和节点服务器,编排服务器根据任务请求将上述任务拆分为若干子步后分发给不同节点服务器处理。本发明提降低了数据资产管理和数据质量治理的门槛,实现数据质量稽核的通用性、规模化、自动化以及智能化,整体提升数据质量稽核的效率与工作质量。
-
公开(公告)号:CN111159754A
公开(公告)日:2020-05-15
申请号:CN201911271280.9
申请日:2019-12-12
申请人: 浙江华云信息科技有限公司
发明人: 石佳 , 阳东 , 胡如一 , 吴美娟 , 纪德良 , 王澍 , 解林超 , 王仲锋 , 杨春晨 , 王永平 , 于亚丰 , 汪娟玉 , 丁雪花 , 姜震 , 蒋斌 , 徐宏伟 , 姜小建 , 吕旭芬 , 谭程文 , 李冰 , 方豪强
IPC分类号: G06F21/62 , G06F16/2452
摘要: 本发明公开了一种逆向解析的数据脱敏方法及装置,方法包括如下步骤:接收用户发送的查询数据的SQL语句;判断SQL语句是否含有涉及敏感数据的字段的目标列表达式,若不是则终止对SQL语句的处理;判断SQL语句是否有嵌套查询;由内到外逐层递归,直至含有涉及敏感数据的字段的目标列表达式位于SQL语句中最外层的嵌套查询;根据预先设置的脱敏转换规则对所述SQL语句的目标列表达式进行转换,使转换后的SQL语句访问到的敏感数据为脱敏数据;输出SQL语句所要查询的数据;并公开了相应的装置。本发明基于SQL语义逆向自动解析出字段演变足迹的方法,智能分析出最终数据结果是否脱敏处理。
-
公开(公告)号:CN111143468A
公开(公告)日:2020-05-12
申请号:CN201911267516.1
申请日:2019-12-11
申请人: 浙江华云信息科技有限公司
发明人: 解林超 , 纪德良 , 王永平 , 方豪强 , 石佳 , 王仲锋 , 阳东 , 杨春晨 , 于亚丰 , 汪娟玉 , 丁雪花 , 胡如一 , 姜震 , 蒋斌 , 王澍 , 徐宏伟 , 姜小建 , 吕旭芬 , 谭程文 , 李冰 , 吴美娟
摘要: 本申请实施例提出的基于MPP分布式技术的多数据库数据管理方法,包括获取源数据库的结构信息,将结构信息发送至消息队列集群;周期性的从消息队列集群中获取结构信息,解析结构信息得到对应每个源数据库的模式以及表结构信息,基于解析得到的模式以及表结构信息构建CSV文件;基于对应每个源数据库的CSV文件的文件内容在MPP数据库中创建与源数据库相同结构的数据库。通过将原来属于不同数据库的数据快速镜像到MPP分布式数据库,完全保留原有数据库的表层级结构,表字段结构,表索引和表数据。上层业务和开发人员只需接入MPP分布式数据库对相关数据进行统一的访问和管理,从而解决原来不能对跨数据库进行关联访问的问题。
-
公开(公告)号:CN113591485B
公开(公告)日:2024-07-12
申请号:CN202110671379.9
申请日:2021-06-17
申请人: 国网浙江省电力有限公司 , 国网浙江省电力有限公司信息通信分公司 , 浙江华云信息科技有限公司
IPC分类号: G06F40/30 , G06F40/289 , G06F40/242 , G06V10/42 , G06V10/75 , G06V10/762 , G06N3/04 , G06N3/08
摘要: 本发明公开了一种基于数据科学的智能化数据质量稽核系统及方法,方法包括:数据采集:进行检测对象元数据采集以及日志数据采集解析;数据特征提取:识别并剔除无效表和无效字段,同时通过修订算法根据数据内容对字段类型进行自动修订,根据字段类型提取特征;异常检测:预设数据异常检测方法库,与数据特征进行匹配以选取对应的异常检测方法并检测;任务调度编排:设置编排服务器和节点服务器,编排服务器根据任务请求将上述任务拆分为若干子步后分发给不同节点服务器处理。本发明提降低了数据资产管理和数据质量治理的门槛,实现数据质量稽核的通用性、规模化、自动化以及智能化,整体提升数据质量稽核的效率与工作质量。
-
公开(公告)号:CN111159178A
公开(公告)日:2020-05-15
申请号:CN201911271405.8
申请日:2019-12-12
申请人: 浙江华云信息科技有限公司
发明人: 王仲锋 , 杨春晨 , 丁雪花 , 李冰 , 纪德良 , 石佳 , 解林超 , 阳东 , 王永平 , 于亚丰 , 汪娟玉 , 胡如一 , 姜震 , 蒋斌 , 徐宏伟 , 王澍 , 姜小建 , 吕旭芬 , 谭程文 , 吴美娟 , 方豪强
IPC分类号: G06F16/22 , G06F16/248 , G06F16/242
摘要: 本发明涉及大数据处理领域,尤其涉及一种基于大数据SQL解析的数据地图路径导航方法,包括:对来自各数据应用系统的数据查询脚本、数据库执行日志通过SQL解析,获取数据表、数据字段之间的关联关系;建立数据表关系库,将解析出的数据表、数据字段之间的关联关系存储至数据表关系库;将数据表与数据字段通过数据表、数据字段之间的关联关系连接形成数据网络,以编制数据拓扑关系图,依托拓扑关系图构建数据业务地图;在数据业务地图中设置起始点数据表和终点数据表,根据数据表关系库进行计算,求得所需要的数据路径并在数据业务地图上显示。本发明的有益效果:实现数据的导航以及查询。
-
公开(公告)号:CN111143468B
公开(公告)日:2022-12-06
申请号:CN201911267516.1
申请日:2019-12-11
申请人: 浙江华云信息科技有限公司
发明人: 解林超 , 纪德良 , 王永平 , 方豪强 , 石佳 , 王仲锋 , 阳东 , 杨春晨 , 于亚丰 , 汪娟玉 , 丁雪花 , 胡如一 , 姜震 , 蒋斌 , 王澍 , 徐宏伟 , 姜小建 , 吕旭芬 , 谭程文 , 李冰 , 吴美娟
摘要: 本申请实施例提出的基于MPP分布式技术的多数据库数据管理方法,包括获取源数据库的结构信息,将结构信息发送至消息队列集群;周期性的从消息队列集群中获取结构信息,解析结构信息得到对应每个源数据库的模式以及表结构信息,基于解析得到的模式以及表结构信息构建CSV文件;基于对应每个源数据库的CSV文件的文件内容在MPP数据库中创建与源数据库相同结构的数据库。通过将原来属于不同数据库的数据快速镜像到MPP分布式数据库,完全保留原有数据库的表层级结构,表字段结构,表索引和表数据。上层业务和开发人员只需接入MPP分布式数据库对相关数据进行统一的访问和管理,从而解决原来不能对跨数据库进行关联访问的问题。
-
-
-
-
-
-
-