基于Spark-SQL语句特性的自动资源分配优化方法

    公开(公告)号:CN118227340A

    公开(公告)日:2024-06-21

    申请号:CN202410641944.0

    申请日:2024-05-23

    摘要: 本发明涉及数据处理技术领域,尤其涉及一种基于Spark‑SQL语句特性的自动资源分配优化方法,包括以下步骤:对历史Spark‑SQL任务的资源数据进行采样,对采样后得到的若干资源数据依次进行预处理和特征提取;使用所述资源分配模型对Spark‑SQL语句进行资源分配,收集资源分配模型的运行特征数据以对资源分配模型进行优化;将所述资源分配模型配置到Hadoop集群中,对Spark‑SQL任务进行资源分配优化;基于实际输出与标准输出的资源分配方案数据量的差异量对资源分配优化的准确性进行判定;在二次判定特征提取的准确性不符合要求时确定特征提取的自学习周期;基于资源数据的平均处理时长对特征提取的自学习周期进行二次调节。本发明实现了对于资源分配优化的准确性的提高。

    一种在数据预览中识别敏感数据并对其脱敏的方法

    公开(公告)号:CN118171311A

    公开(公告)日:2024-06-11

    申请号:CN202410123109.8

    申请日:2024-01-30

    IPC分类号: G06F21/62 G06F21/60

    摘要: 本发明涉及数据安全技术领域,尤其涉及一种在数据预览中识别敏感数据并对其脱敏的方法,包括步骤S1,对录入的所有数据进行扫描,并将扫描确定的敏感数据进行标记;步骤S2,对标记为敏感数据的数据进行分类;步骤S3,通过多线程处理对标记为敏感数据的数据进行脱敏;步骤S4,对数据进行备份,并建立恢复机制。本发明通过预先识别和脱敏敏感数据,能够有效降低敏感数据泄露的风险,提高数据的安全性。该方法可以有效保护个人敏感信息(如身份证号码、银行账号等)的隐私权,避免被他人利用。

    一种针对无规律增长的数字进行均匀分组的策略

    公开(公告)号:CN118113701A

    公开(公告)日:2024-05-31

    申请号:CN202410055997.4

    申请日:2024-01-15

    IPC分类号: G06F16/22 G06F16/27 G06F16/28

    摘要: 本发明涉及数据分组领域,尤其涉及一种针对无规律增长的数字进行均匀分组的策略,本发明通过步骤S1,获取无规律增长的整型数组,并随机提取所述整型数组中的子数组,步骤S2,根据所述子数组的最大值以及最小值确定缩放系数,步骤S3,重复执行步骤S1至步骤S2得到若干缩放系数并计算缩放系数均值,步骤S4,根据所述缩放系数均值对所述整型数组进行分组,本发明通过上述步骤,使得分布式计算引擎读取关系数据库表中数据时,为了避免数据倾斜的情况,对表中的主键进行合理均匀的分组。

    一种数据权限同步在物理存储控制方法

    公开(公告)号:CN118070321A

    公开(公告)日:2024-05-24

    申请号:CN202410056048.8

    申请日:2024-01-15

    IPC分类号: G06F21/62

    摘要: 本发明涉及数据存储领域,尤其涉及一种数据权限同步在物理存储控制方法,本发明包括,步骤S1,在业务层给予用户设置权限目标的只读、读写权限,步骤S2,将用户和权限目标的权限关系同时在物理存储系统中创建,步骤S3,权限关系被创建后设置针对所述权限关系的访问权限,步骤S4,所述业务层读写物理存储系统中数据时物理存储系统根据用户的权限关系进行权限认证,以判断所述用户是否有权限,解决现有业务层逻辑层设置的数据权限,无法在物理层同步控制,无法防止通过脚本读写物理存储的越权问题,且,数据平台用户和存储层用户同步映射,在数据平台设置数据权限时同步在存储层的映射用户设置对应权限,不影响客户体验,提高了数据访问安全。

    一种带有Kerberos认证的Iceberg表的访问方法

    公开(公告)号:CN118036034A

    公开(公告)日:2024-05-14

    申请号:CN202410101585.X

    申请日:2024-01-24

    IPC分类号: G06F21/60 G06F21/31

    摘要: 本发明涉及数据处理技术领域,尤其涉及一种访问带有Kerberos认证的Iceberg表方法,包括:步骤S1,自定义catalog;步骤S2,在自定义的所述catalog中完成对kerberos认证;步骤S3,利用带有kerberos认证的自定义Catalog对具有kerberos验证的Iceberg表进行表的管理和数据的更新。本发明通过通过自定义实现catalog,实现了kerberos认证后,获取HiveMeataClient连接,从而能正常访问具有Kerberos认证的Hive的Iceberg表,为高效、智能、稳定访问带有Kerberos认证的Hive‑Iceberg表提供了一种可实现方法。

    一种基于注解逆向生成模型建表的方法

    公开(公告)号:CN117951134A

    公开(公告)日:2024-04-30

    申请号:CN202311811036.3

    申请日:2023-12-27

    摘要: 本发明涉及程序自动开发技术领域,尤其涉及一种基于注解逆向生成模型建表的方法;该方法包括首先在实体类上注解,其次在程序运行时通过ORM框架对实体类的变化进行自动检测,然后所述ORM框架对所述注解进行解析以使代码生成器生成相应的源代码文件及其对应的SQL语句,最后通过数据库连接库执行SQL语句并进行反射操作以自动创建数据库表;本发明通过实体注解避免了手动编写SQL语句的繁琐过程,同时也减少了错误的可能性。

    一种基于跨环境的资源映射及任务发布方法

    公开(公告)号:CN117950854A

    公开(公告)日:2024-04-30

    申请号:CN202311764402.4

    申请日:2023-12-21

    摘要: 本发明涉及资源映射技术领域,尤其涉及一种基于跨环境的资源映射及任务发布方法,包括,步骤S1,根据开发环境、测试环境以及生产环境对现有资源进行规划分配,进行物理集群搭建:步骤S2,在数据任务执行前,在各环境的系统中创建虚拟资源,并对各环境中的虚拟资源进行资源唯一标识的标记;步骤S3,对各环境的虚拟资源通过环境类型与资源唯一标识进行关联,并保存到系统中,完成资源映射。本发明通过资源映射对各环境合理规划后的集群资源进行逻辑关联,使新建好的大数据开发任务能够精确找到所属执行集群、引擎、数据源,通过对各环境资源进行唯一标识,可有效解决资源选择不对应、开发代码缺失的问题,保证任务顺利执行。

    一种高性能大数据调度系统
    48.
    发明公开

    公开(公告)号:CN117785411A

    公开(公告)日:2024-03-29

    申请号:CN202311791026.8

    申请日:2023-12-25

    IPC分类号: G06F9/48 G06F9/50 G06F11/30

    摘要: 本发明属于大数据技术领域,更具体地,涉及一种高性能大数据调度系统,包括:调度可视化模块、策略配置中心、调度控制中心模块、任务分布式队列模块、调度协调中心模块,其中,调度控制中心模块能够对提交的工作流进行任务拆解并触发任务执行;任务分布式队列模块能够在若干任务并发启动时,通过高吞吐量、高性能的分布式队列对任务进行削峰,使得下游能够高效的执行任务。本发明基于资源监控中心提供的资源情况和策略信息,让调度控制中心、调度协调中心、任务执行中心三者高度的协同,提高任务并发执行效率、降低高耗时任务对整个平台任务执行的影响,进而满足任务高效、高稳定的运行。

    自动调参优化方法、装置、电子设备

    公开(公告)号:CN114861781B

    公开(公告)日:2023-03-24

    申请号:CN202210438163.2

    申请日:2022-04-25

    IPC分类号: G06F18/214 H04L41/0823

    摘要: 本申请提供一种自动调参优化方法、装置、电子设备。其中,自动调参优化方法包括:根据调参指令,将历史系统参数和所述历史系统参数对应的资源消耗量,确定为训练样本;对所述训练样本进行特征提取;利用提取的特征,对参数预测模型进行训练;利用训练好的参数预测模型,对下一时段的系统参数进行预测,得到预测系统参数;根据所述预测系统参数,更新系统参数。本申请的方案预测了下一时段的资源消耗,因此可以提前自动修改参数,或者提前释放分区资源,解决参数需要频繁手动修改或者开辟空间不及时造成数据丢失的问题。