一种基于配置文件和日志文件的跨组件数据流向审计方法和系统

    公开(公告)号:CN113271220A

    公开(公告)日:2021-08-17

    申请号:CN202110340162.X

    申请日:2021-03-30

    Abstract: 本发明涉及一种基于配置文件和日志文件的跨组件数据流向审计方法和系统。该方法的步骤包括:采集大数据平台中各个组件的配置文件和日志文件;根据采集的配置文件和日志文件,识别分布式环境下部署在不同物理服务器上的大数据组件;根据识别出的大数据组件并结合日志文件中的信息,构建跨组件的数据流向图;根据数据流向图进行数据流向的异常判定及告警。本发明通过采集各个组件的配置文件、运行日志文件、审计日志文件实现交叉验证,实现高精度的组件识别,结合凝练的安全审计模型,实现大数据平台整体数据流转情况的采集,进而支持业务流程中不同环节的数据使用情况审计,并能够对异常任务、异常数据使用场景进行识别和告警。

    面向全文检索的分级存储方法及装置

    公开(公告)号:CN109885642A

    公开(公告)日:2019-06-14

    申请号:CN201910119254.8

    申请日:2019-02-18

    Abstract: 本发明公开了一种面向全文检索的分级存储方法及装置,所述方法包括:获取SQL语句,创建全文检索表,并将所述全文检索表持久化到Zookeeper中;配置ElasticSearch集群中一部分节点使用SSD盘,另一部分节点使用SATA盘,并在每个节点上安装自定义的ElasticSearch插件;数据加载工具通过ElasticSearch集群的调用接口API将文档数据加载到ElasticSearch集群中,通过所述ElasticSearch插件对请求进行过滤,并使用预先存储的全文检索表中的元数据进行索引创建;通过所述ElasticSearch插件运行监听策略,监听Zookeeper中表的元数据信息的变化,并应用分级存储策略,执行定时回滚策略,将回滚任务下发给ElasticSearch集群。

    一种任务动态管理方法和装置

    公开(公告)号:CN108519908A

    公开(公告)日:2018-09-11

    申请号:CN201810158916.8

    申请日:2018-02-24

    Abstract: 本发明公开了一种任务动态管理方法和装置。该方法在客户端侧执行,包括:接收用户提交的元数据操作信息;根据所述元数据操作信息,在实时监听器中操作元数据,并将操作后的所述元数据缓存在实时监听器中;其中,所述实时监听器以分布式协调服务zookeeper搭建,所述元数据为树形结构,所述树形结构的一级节点为流数据节点,二级节点为任务节点。该方法在任务控制器执行,包括:以Storm常驻任务的方式,预先占用中央处理器CPU资源;监听实时监听器中缓存的元数据;所述实时监听器以zookeeper搭建;如果所述实时监听器中缓存的元数据发生变化,则根据发送变化的所述元数据,更新已缓存的任务逻辑。通过本发明可以缩短任务生效时间,降低资源消耗。

    一种界标窗口下域名数据重复检测快速索引方法

    公开(公告)号:CN104794158A

    公开(公告)日:2015-07-22

    申请号:CN201510117236.8

    申请日:2015-03-17

    Abstract: 本发明涉及一种界标窗口下域名数据重复检测快速索引方法。该方法将界标窗口根据子界标分成多个子窗口,通过稳定性布隆过滤器和字典树维护各子窗口的数据项;针对网络数据流自适应地调整索引策略,在数据较为密集时采用稳定性布隆过滤器,在数据相对稀疏时采用字典树索引策略。在域名数据重复检测的适配方面,本发明提出将域名数据翻转,形成重叠前缀字符串比率较高的数据集,有利于后续字典树的快速匹配和存储容量缩减。本发明能够降低索引维护的空间,提升元素重复检测的效率,并能够扩展到分布式场景下,有效解决网络监控应用中域名数据重复检测的问题,同时,本发明可以扩展到分布式计算场景下,便于计算性能线性提升。

Patent Agency Ranking