-
公开(公告)号:CN112685401A
公开(公告)日:2021-04-20
申请号:CN202110090616.2
申请日:2021-01-22
申请人: 浪潮云信息技术股份公司
IPC分类号: G06F16/215 , G06F16/242
摘要: 本发明公开了一种数据质量检测系统及方法,本发明包括规则定义模块、检测执行模块和结果分析模块,其中:所述规则定义模块用于创建针对各种数据检测任务的检测规则库;所述检测执行模块用于从所述检测规则库中抽取相应的检测规则执行相应的检测任务;所述结果分析模块用于将检测执行模块的执行结果以直观可读的方式进行展示。本发明的质量检测系统通过预定义检测规则,并能够根据需要选择生成相应的数据检测任务,并输出相应检测结果。本发明系统的与检测数据库的耦合度更低、灵活性更高、易于使用和扩展。
-
公开(公告)号:CN112241396B
公开(公告)日:2023-05-23
申请号:CN202011159512.4
申请日:2020-10-27
申请人: 浪潮云信息技术股份公司
IPC分类号: G06F16/17 , G06F16/13 , G06F16/182
摘要: 本发明公开了一种基于Spark的对Delta进行小文件合并的方法及系统,属于大数据存储与计算应用领域,本发明要解决的技术问题为如何将Spark与Delta相结合,实现对小文件的快速定位并合并,采用的技术方案为:该方法具体如下:S1、使用Spark读取DeltaLog文件,分析DeltaLog获取每一个数据文件的元数据信息;S2、Spark根据合并策略对所有文件按照大小统计小文件的个数以及总文件个数;S3、对文件做统计操作,根据统计信息生成描述合并的元数据信息CompactionMetadata;S4、Spark根据合并元数据信息以及文件合并策略,判断文件是否需要合并:①、若是,则确定其合并规则,并执行步骤S5;②、若否,则退出;S5、Spark根据合并策略以及元数据信息确定需要合并的小文件以及目标文件大小以及数量。
-
公开(公告)号:CN112711593A
公开(公告)日:2021-04-27
申请号:CN202110001766.1
申请日:2021-01-04
申请人: 浪潮云信息技术股份公司
IPC分类号: G06F16/22 , G06F16/2458 , G06F16/16 , G06F16/182
摘要: 本发明特别涉及一种实现混合事务分析的大数据处理方法。该实现混合事务分析的大数据处理方法,将Delta Lake数据文件映射到Apache Hive数据库中,使用Apache Hive管理Delta Lake的元数据,利用Delta Lake事务处理的特性实现对大规模数据的事务处理,同时结合Apache Hive实现对大规模数据的批处理离线统计分析。该实现混合事务分析的大数据处理方法,将Delta Lake与Apache Hive相结合,发挥Delta Lake的事务能力和Apache Hive强大的数据分析功能的优势,通过利用Delta Lake、Apache Hive与计算引擎相互配合工作,既能够保障对混合事务统计分析的高性能,又能保证事务一致性的。
-
公开(公告)号:CN114443254A
公开(公告)日:2022-05-06
申请号:CN202210117200.X
申请日:2022-02-08
申请人: 浪潮云信息技术股份公司
摘要: 本发明公开了集群的调度模型构建方法、调度模型、调度方法及系统,属于大数据处理技术领域,要解决的技术问题为集群缺乏调度决策、且调度依据单一。包括如下步骤:通过实际集资源调度收集最优调整点数的样本数据;对样本数据进行归一化处理,得到预处理后样本数据;基于反向传播的深度神经网络构建预测模型,预测模型以大数据集群规格、集群负载以及期望集群调整负载输入、以最优调节节点数为输出;基于预处理后样本数据对预测模型进行训练,并根据预测模型输出的预测值与样本数据的实际值之间的误差,基于反向传播法对预测模型每层神经元权值进行调整,得到训练后预测模型。
-
公开(公告)号:CN112506862A
公开(公告)日:2021-03-16
申请号:CN202011576775.5
申请日:2020-12-28
申请人: 浪潮云信息技术股份公司
IPC分类号: G06F16/13 , G06F16/182 , G06F8/41
摘要: 本发明特别涉及一种自定义保存Kafka Offset的方法。该自定义保存Kafka Offset的方法,使用Spark程序计算每个批次数据中最大offset消息,并将获得的最大offset消息解析为json字符串,然后用源码HDFSMetadataLog将json字符串保存到HDFS目录中。该自定义保存Kafka Offset的方法,能够保证之前消费并输出过的数据在程序重启后不再重复消费,而是从上次断开(停止或者报错导致)的位置开始消费,不但能够避免程序重启时报错,并且方便可靠,不用单独维护其他的外部数据源,降低了维护成本。
-
公开(公告)号:CN115065461A
公开(公告)日:2022-09-16
申请号:CN202210519995.7
申请日:2022-05-13
申请人: 浪潮云信息技术股份公司
IPC分类号: H04L9/08
摘要: 本发明公开了安全多方计算方法、系统及计算机可读介质,属于网络安全通信技术领域,要解决的技术问题为如何通过该安全多方计算使持有隐私数据的各方,在无可信第三方的情况下,安全地进行多方协同计算。包括如下步骤:通过协议授权为参与方划分角色并授权;任务发起方配置并核实安全多方计算任务的计算资源,向调度方发起创建任务请求;调度方对创建任务请求进行信息合法性验证,将基于所述计算逻辑和计算参数生成的任务配置信息发送至数据提供方、计算方和结果使用方;数据提供方对数据进行加密处理得到输入因子,并将输入因子发送至指定的计算方;计算方基于安全多方计算协议进行协同计算生成输出因子;结果使用方对所述输出因子进行解析。
-
公开(公告)号:CN118643536A
公开(公告)日:2024-09-13
申请号:CN202411069055.8
申请日:2024-08-06
申请人: 浪潮云信息技术股份公司
IPC分类号: G06F21/62 , G06F16/242 , G06F40/20 , G06N20/00
摘要: 本申请公开了一种查询权限校验方法、装置、设备及存储介质,涉及自然语言处理技术领域,应用于商业智能系统,包括:获取当前用户输入的自然语言的查询信息,并基于预设大语言模型将查询信息转换为数据库查询语句;根据当前用户对应的权限等级对数据库查询语句进行权限校验,得到相应的权限校验结果;若权限校验结果表征数据库查询语句超出当前用户对应的权限等级,则反馈表征无权限的错误信息;若权限校验结果表征数据库查询语句符合当前用户对应的权限等级,则执行数据库查询语句,以得到相应的查询结果。这样一来,本申请通过当前用户对应的权限等级对当前生成的数据库查询语句进行权限校验,可以严格把控用户的查询权限,提高数据的安全性。
-
公开(公告)号:CN118295770A
公开(公告)日:2024-07-05
申请号:CN202410479751.X
申请日:2024-04-22
申请人: 浪潮云信息技术股份公司
摘要: 本发明公开了一种多集群监控方法及系统,属于监控告警技术领域,采用prometheus作为监控工具,包括:多集群监控,包括容器集群监控,虚机集群、大数据集群监控;监控数据的采集,包括容器集群数据采集和虚机集群、大数据集群数据采集;监控中心通过告警规则的动态编辑,满足用户对告警的实时管控,并将告警内容列表实时呈现给用户;监控中心通过任务配置的方式,实现对任务接口的健康检查和监控;并配置服务拨测告警规则,将每个拨测任务的拨测结果,通过告警方式展示出来。本发明能够帮助用户及时发现故障,全面掌握应用、资源及业务的实时运行状况,对资源、业务应用进行集中、统一监控,及时预警,提升了管理能力。
-
公开(公告)号:CN112241396A
公开(公告)日:2021-01-19
申请号:CN202011159512.4
申请日:2020-10-27
申请人: 浪潮云信息技术股份公司
IPC分类号: G06F16/17 , G06F16/13 , G06F16/182
摘要: 本发明公开了一种基于Spark的对Delta进行小文件合并的方法及系统,属于大数据存储与计算应用领域,本发明要解决的技术问题为如何将Spark与Delta相结合,实现对小文件的快速定位并合并,采用的技术方案为:该方法具体如下:S1、使用Spark读取DeltaLog文件,分析DeltaLog获取每一个数据文件的元数据信息;S2、Spark根据合并策略对所有文件按照大小统计小文件的个数以及总文件个数;S3、对文件做统计操作,根据统计信息生成描述合并的元数据信息CompactionMetadata;S4、Spark根据合并元数据信息以及文件合并策略,判断文件是否需要合并:①、若是,则确定其合并规则,并执行步骤S5;②、若否,则退出;S5、Spark根据合并策略以及元数据信息确定需要合并的小文件以及目标文件大小以及数量。
-
-
-
-
-
-
-
-