-
公开(公告)号:CN118964342A
公开(公告)日:2024-11-15
申请号:CN202411056189.6
申请日:2024-08-02
申请人: 浪潮云信息技术股份公司
IPC分类号: G06F16/215 , G06F16/23 , G06F18/22
摘要: 本发明提供了数据的比对方法及装置。获取排序后的来源数据及排序后的目标数据;每当源数据集为空时,按照数据步进长度从排序后的来源数据中采集数据来更新源数据集;每当目标数据集为空时,按照数据步进长度从排序后的目标数据中采集数据来更新目标数据集;对源数据集,如果其中一个数据与目标数据集中的数据相同,则该数据属于源数据集及目标数据集的交集,从源数据集及目标数据集中删除该数据;对源数据集中当前剩余的各数据,判断该数据是否满足预先设置的差集删除条件,如果满足,则从源数据集中删该数据,如果不满足,则保留;之后,如果源数据集及目标数据集均不为空,则目标数据集中当前剩余的各数据属于目标数据集针对源数据集的差集。本发明能够更为高效、准确地完成数据对比。
-
公开(公告)号:CN114996246A
公开(公告)日:2022-09-02
申请号:CN202210421071.3
申请日:2022-04-21
申请人: 浪潮云信息技术股份公司
IPC分类号: G06F16/215 , G06F16/28 , G06F11/10
摘要: 本发明公开了一种基于NiFi组件的表多个字段校验的数据清洗方法,属于大数据技术领域。本发明的基于NiFi组件的表多个字段校验的数据清洗方法依托开源的数据处理与分发平台ApacheNiFi,开发新的NiFi标准验证处理器,标准验证处理器是属性配置包括校验字段来源表、错误信息记录字段、记录是否有错误的标志字段。该发明的基于NiFi组件的表多个字段校验的数据清洗方法能够降低不同数据源和不同业务需求带来的复杂性,提升开发人员和运维人员的效率,提高数据质量,从而快速达到数据清洗目的,具有很好的推广应用价值。
-
公开(公告)号:CN114691783A
公开(公告)日:2022-07-01
申请号:CN202210420706.8
申请日:2022-04-21
申请人: 浪潮云信息技术股份公司
摘要: 本发明公开了一种多级数据同步的方法及系统,属于计算机技术领域。本发明的多级数据同步的方法在需要数据同步的数据库的前置机上部署NiFi单实例,在源库对应的前置机中创建采集数据的流程,由控制流程的任务调度组件、采集数据的组件和远程进程组构成。该发明的多级数据同步的方法能够解决网络隔离的数据交换情景部署组件繁多、数据传输流程复杂、配置困难的问题,具有很好的推广应用价值。
-
公开(公告)号:CN114064620A
公开(公告)日:2022-02-18
申请号:CN202111047555.8
申请日:2021-09-08
申请人: 浪潮云信息技术股份公司
IPC分类号: G06F16/215 , G06F16/22 , G06F16/242 , G06F16/26 , G06F16/28
摘要: 本发明公开了一种基于字典转换的NIFI组件多源数据治理方法及系统,属于计算机数据库领域;所述的方法具体步骤如下:S1确认来源表和目标表信息;S2对字典转换组件进行可视化配置;S3获取字典转换组件参数、判断FlowFile中是否存在目标字段;S4针对新增字段,FlowFile输出时需要得到所有属性的Schema进行字段赋值,写出输出流;S5输出流FlowFile设置Mime.Type为application/avro‑binaty,对扩展属性ADDRESS需要进行输入组件字段保存;本发明方法能够针对数据集成数据治理过程中,针对数据多源化,数据量大、字段类型多样、字段替换或新增利用数据库工具操作难度大特点。
-
公开(公告)号:CN118964462A
公开(公告)日:2024-11-15
申请号:CN202411082102.2
申请日:2024-08-08
申请人: 浪潮云信息技术股份公司
摘要: 本发明实施例提供了一种NIFI的数据源信息变更方法以及装置,包括:获取NIFI的待变更文件的备份文件,对备份文件进行解压处理,以得到解压文件,通过SAX解析器对解压文件进行解析,以得到预设格式的文件流,确定预设格式的文件流对应的数据源的父节点,根据预设格式的文件流对应的数据源的父节点,确定预设格式的文件流对应的数据源的信息主键,获取待变更文件对应的待变更数据源并确定待变更数据源的信息主键,确定数据源的信息主键与待变更数据源的信息主键相匹配的目标数据源信息,将待变更数据源的数据源信息更换为目标数据源信息。通过将待变更数据源的数据源信息更换为目标数据源信息,实现一次性处理大量变更数据源并降低人工操作的复杂性。
-
公开(公告)号:CN118779300A
公开(公告)日:2024-10-15
申请号:CN202410764694.X
申请日:2024-06-14
申请人: 浪潮云信息技术股份公司
摘要: 本发明公开了基于NiFi实现关系型数据库的整库迁移系统及方法,属于数据库技术领域,要解决的技术问题为:怎样配置简单易用且能实现数据整库迁移的流程。包括算子Start、算子SplitTableNames、算子QueryEntireDbTablesData、算子iPutJDBC、算子End以及算子DealExceptionData,算子Start作为迁移流程的起始节点,算子SplitTableNames作为迁移流程中对数据表进行拆分的节点,算子QueryEntireDbTablesData作为迁移流程中抽取数据的节点;算子iPutJDBC作为迁移流程中加载数据的节点,算子End为流程的终止节点。
-
公开(公告)号:CN118535557A
公开(公告)日:2024-08-23
申请号:CN202410479774.0
申请日:2024-04-22
申请人: 浪潮云信息技术股份公司
IPC分类号: G06F16/215 , G06F16/28 , G06F16/2458
摘要: 本发明公开一种数据集成过程中数据核对及补全方法,涉及数据分析技术领域;包括:步骤1:在数据集成过程中,为抽取的数据生成批次号,所述批次号由时间和序列号组成,所述序列号根据预计的数据量情况依次递增产生,添加批次号字段表示批次号,形成数据的目标表,同时将批次号与数据量保存至对账表中;步骤2:基于批次号进行数据核对:通过日志表记录数据的主键和批次号,根据批次号逐个核对是否有中断的批次号,若有中断的批次号,则中断的批次号对应的数据丢失,核对批次号完成后,核对数据量,对数据量不一致的批次号进行标记;步骤3:根据标记进行异常批次数据分析,查找目标表中对应批次的数据,并与日志表中的对应批次的数据进行比对,获得异常的数据,并对异常的数据进行补偿操作。
-
公开(公告)号:CN114048713A
公开(公告)日:2022-02-15
申请号:CN202111297797.2
申请日:2021-11-04
申请人: 浪潮云信息技术股份公司
IPC分类号: G06F40/151 , G06F40/18
摘要: 本发明公开了Web页面中的表格数据和格式转换Excel文件的方法及系统,属于计算机领域,本发明要解决的技术问题为如何避免每次导出的Excel文件格式不满足个性化要求或者避免为了满足个性化要求而为每个需要导出的Web页面的数据表格单独开发程序,减少冗余的开发工作,采用的技术方案为:该方法是在Web端通过前端开发语言将Web表格数据和格式组织成的json传至服务器后端的处理接口中,服务器后端根据前端传来的json结构数据生成Excel文件流并返回前端;具体如下:生成json数据;将json数据传送到服务器后端的处理接口中;根据json数据生成二维矩阵;根据二维矩阵和json数据填充Excel;将服务器后端生成的Excel流返回前端,前端即可获得相应的Excel文件。
-
公开(公告)号:CN113254461A
公开(公告)日:2021-08-13
申请号:CN202110174585.9
申请日:2021-02-07
申请人: 浪潮云信息技术股份公司
IPC分类号: G06F16/23 , G06F16/242
摘要: 本发明公开了一种基于NIFI的实现数据库同步的优化方法及系统,属于计算机数据同步优化领域;所述的S1使用NiFi的iGetRedoLog处理器按时间解析Oracle数据库的Redo日志;S2将解析得到的数据库执行的DML语句路由到下一处理器;S3使用NIFI依次执行DML语句对目标数据库插入数据;S4按照DML语句类型将insert和update操作分批处理;S5将处理后的操作命令递交数据库执行;本发明将insert和update操作分批处理,批量sql语句比逐条执行sql语句速度更快,性能更好;而编程语言比如java它不支持批量提交不同种类的sql语句,故为了达到批量提交带来的有益效果,分别为insert、update语句进行分批执行。
-
公开(公告)号:CN118250700A
公开(公告)日:2024-06-25
申请号:CN202410290722.9
申请日:2024-03-14
申请人: 浪潮云信息技术股份公司
IPC分类号: H04W16/18
摘要: 本发明公开了基于NiFi的跨网数据采集与传输方法及系统,属于计算机技术领域,要解决的技术问题为:如何实现各级数据采集汇聚到数据中心。包括:在每个三级平台中均部署NiFi,每个三级平台的流程由多个数据采集processror和一个状态采集processor组成;在每个二级平台中均部署NiFi,每个二级平台的流程由多个数据采集processor、一个状态采集prcoessor以及多个Input Port组成;在每个一级数据中心中均部署NiFi,每个一级数据中心的流程由多个数据采集processor、一个状态采集prcoessor、多个Input Port以及多个数据存储prcoessor组成。
-
-
-
-
-
-
-
-
-