一种基于异构技术的数据存储及处理方法

    公开(公告)号:CN117251414A

    公开(公告)日:2023-12-19

    申请号:CN202311534482.4

    申请日:2023-11-17

    摘要: 本发明提供了一种基于异构技术的数据存储及处理方法,涉及数据存储技术领域,包括:将以同步工具、分布采集工具以及Kafka消息队列构成数据采集模块采集到的目标数据写入数据湖Hudi后再利用Flink、Spark组件进行离线计算处理;将离线处理结果传输至数据仓库生成离线数据报表;利用计算引擎Flink读取并对Kafka消息队列中的数据以及Mysql同步数据实时计算;使用Apache Druid作为数据查询引擎,以供用户查询离线数据、实时数据处理结果。通过采用多数据模式的存储、Flink流批一体数仓计算架构以及Hudi异构技术栈完成所有离线和实时业务统计,有效解决开发成本够高的问题以及提高了数据处理效率;通过使用Apache Druid作为数据查询引擎实现更高效的数据查询以及分析,而改善数据查询效率。

    基于用户分级分类的数据安全管理方法

    公开(公告)号:CN118171139A

    公开(公告)日:2024-06-11

    申请号:CN202311864772.5

    申请日:2023-12-29

    摘要: 本发明提供了基于用户分级分类的数据安全管理方法,属于数据安全技术领域,其方法包括获取当下社交媒体平台主营类型与副营类型,基于所述主营类型与副营类型对当下社交媒体用户进行基础数据采集;对所述基础数据进行聚类分析,根据聚类分析结果得出第一数据,对所述第一数据进行数据安全识别,得出第二数据;将第二数据输入机器学习模型,对机器学习模型设定分级规则,对用户进行分级,根据分级结果制定数据保护策略;设定数据更新时间对基础数据进行监视、评估与优化,实现对社交媒体用户数据的有效管理和利用,有助于提高用户满意度,保护用户数据安全,并有效提升平台的服务质量和运营效率。

    一种基于异构技术的数据存储及处理方法

    公开(公告)号:CN117251414B

    公开(公告)日:2024-03-26

    申请号:CN202311534482.4

    申请日:2023-11-17

    摘要: 本发明提供了一种基于异构技术的数据存储及处理方法,涉及数据存储技术领域,包括:将以同步工具、分布采集工具以及Kafka消息队列构成数据采集模块采集到的目标数据写入数据湖Hudi后再利用Flink、Spark组件进行离线计算处理;将离线处理结果传输至数据仓库生成离线数据报表;利用计算引擎Flink读取并对Kafka消息队列中的数据以及Mysql同步数据实时计算;使用Apache Druid作为数据查询引擎,以供用户查询离线数据、实时数据处理结果。通过采用多数据模式的存储、Flink流批一体数仓计算架构以及Hudi异构技术栈完成所有离线和实时业务统计,有效解决开发成本够高的问题以及提高了数据处理效率;通过使用Apache Druid作为数据查询引擎实现更高效的数据查询以及分析,而改善数据查询效率。

    一种基于大数据平台的数据质量灵活验证方法

    公开(公告)号:CN117056576A

    公开(公告)日:2023-11-14

    申请号:CN202311324713.9

    申请日:2023-10-13

    摘要: 本发明提供了一种基于大数据平台的数据质量灵活验证方法,属于数据处理技术领域,其方法包括:根据输入的初始数据在函数数据库中匹配相应的数据解析函数进行初步解析,提取数据特征,在策略数据库中筛选匹配度大于第一匹配度的第一质量评估策略,根据同一初始数据下的数据特征,在策略数据库中筛选匹配度大于第二匹配度,且小于第一匹配度的第二质量评估策略,对同一解析内容下的第一解析评价结果与第二解析评价结果进行对比分析,得到初始数据的数据质量验证结果,保证数据验证的可靠性。

    一种积木式大数据平台的数据处理及分析方法

    公开(公告)号:CN118035537A

    公开(公告)日:2024-05-14

    申请号:CN202311870817.X

    申请日:2023-12-29

    摘要: 本发明提供了一种积木式大数据平台的数据处理及分析方法,属于大数据处理技术领域,包括:在客户端埋点实时采集多个预设时间段内的用户需求以及用户信息数据;对每个预设时间段内的用户需求进行分析得到对应预设时间段内的多个用户的第一指令以及指令截止时间,并对第一指令以及指令截止时间进行分析,生成至少一个第二指令及每个第二指令的子级别系数;基于预设指令‑模块‑类型库确定每个第二指令所在的业务模块以及指令类型,并根据所述指令类型确定所述第二指令在业务模块中的调用顺序,进而生成调用流程;基于对应第二指令所在预设时间段的下一时间段的指令数据对生成的调用流程进行动态更新。实现了大数据平台的个性化分析。

    一种基于大数据平台的数据质量灵活验证方法

    公开(公告)号:CN117056576B

    公开(公告)日:2024-04-05

    申请号:CN202311324713.9

    申请日:2023-10-13

    摘要: 本发明提供了一种基于大数据平台的数据质量灵活验证方法,属于数据处理技术领域,其方法包括:根据输入的初始数据在函数数据库中匹配相应的数据解析函数进行初步解析,提取数据特征,在策略数据库中筛选匹配度大于第一匹配度的第一质量评估策略,根据同一初始数据下的数据特征,在策略数据库中筛选匹配度大于第二匹配度,且小于第一匹配度的第二质量评估策略,对同一解析内容下的第一解析评价结果与第二解析评价结果进行对比分析,得到初始数据的数据质量验证结果,保证数据验证的可靠性。