-
公开(公告)号:CN108614862A
公开(公告)日:2018-10-02
申请号:CN201810265932.7
申请日:2018-03-28
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明涉及一种基于流计算引擎的实时标签处理方法和装置,所述方法包括:步骤1、根据标签处理任务的需求设定标签处理任务类型;步骤2、根据所设定的标签处理任务类型,配置数据源信息、标签处理信息和数据输出信息;步骤3、根据所配置的数据源信息、标签处理信息和数据输出信息,生成标签处理任务配置元数据;步骤4、根据所述标签处理任务配置元数据,创建并执行所述标签处理任务。本发明通过简单配置自动化构建数据标签处理的任务流程。在标签处理任务中,根据元数据定义及标签处理规则定义进行标签处理,实现对多源数据进行标签处理,使数据标签处理过程规范化,提高了大数据实时标签处理方法的通用性和效率。
-
公开(公告)号:CN107168984A
公开(公告)日:2017-09-15
申请号:CN201710165255.7
申请日:2017-03-20
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
CPC classification number: G06F17/30194 , G06F17/30424
Abstract: 本发明涉及一种基于多文件格式自动识别的跨地域关联统计方法,属于大数据检索分析领域。该方法通过统一SQL查询入口接收SQL查询请求;然后对SQL查询请求进行解析,以识别查询的不同文件格式;然后全局节点将解析成功后的查询请求发送到对应的分节点;然后各分节点进行相应的查询操作,并将查询结果回传给全局节点;最后全局节点对各分节点回传的数据进行关联统计并输出统计结果。本发明可以应用在离线或在线数据统计场景中,能够实现多种文件格式的自动识别,突破了地域限制,能够将不同数据中心的数据进行关联统计。
-
公开(公告)号:CN107066546A
公开(公告)日:2017-08-18
申请号:CN201710165501.9
申请日:2017-03-20
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明涉及一种基于MPP引擎的跨数据中心快速查询方法和系统,属于大数据检索分析领域,可应用于实时系统或离线备份系统。该方法将不同MPP引擎中的数据进行统一标记并存储到元数据中;全局中心节点接收查询请求并对其进行语法解析,然后分发送到对应的数据分中心节点;各数据分中心节点通过元数据的相应MPP引擎进行查询,并将数据传输给全局中心节点;全局中心节点利用MPP引擎对数据分中心节点返回的数据进行快速查询,并输出查询结果。本发明能够实现不同数据中心数据的联合查询,兼容多种MPP引擎,充分利用不同存储模式的特点优化查询,支持多种方式导出查询结果,便于实现上层不同应用对结果数据再分析的不同要求。
-
公开(公告)号:CN104731864A
公开(公告)日:2015-06-24
申请号:CN201510088785.7
申请日:2015-02-26
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F17/30
CPC classification number: G06F17/30628 , G06F17/30132
Abstract: 本发明公开了一种海量非结构化数据的数据存储方法。本方法为:1)设定一时间间隔T,将数据存储集群划分为多个分区,用于将同一时间间隔T内的记录存储到同一分区内;同时将每一分区划分为n个散列区;2)对于每条非结构化记录,提取其产生的时间t以及一个或多个唯一表示该记录的关键信息key;3)根据每条记录的时间t,确定其要存储到的分区,然后根据该记录的关键信息key计算其在该分区中对应的散列区值;4)根据步骤3)的计算结果,将属于同一时间间隔且散列区值相同的记录写入同一文件F中并统计该文件F的记录数,如果记录数大于设定阈值K,则在当前散列区中创建另一文件进行存储。本发明存储方法能够大大提升了数据检索效率。
-
公开(公告)号:CN118377586A
公开(公告)日:2024-07-23
申请号:CN202410394444.1
申请日:2024-04-02
Applicant: 国家计算机网络与信息安全管理中心 , 长安通信科技有限责任公司 , 中国科学院软件研究所
IPC: G06F9/46 , G06F9/50 , G06F16/2453
Abstract: 本发明涉及大数据技术领域,公开了一种面向SQL任务进行流量合并和计算合并的优化方法,首先在Client端一次提交多个任务,Server端执行Client提交的多个任务;在Server端对相同类型的多个实时SQL任务,对其进行解析出Source、Rule、Sink的标注结构,具体通过Json语法解析或SQL语法解析Rule参数,解析出SQL语句,输入输出信息和优化选项;解析出的多个实时SQL语句的信息均为SELECT WHERE格式,多个实时SQL任务语句中的WHERE条件部分包含的表达式均为可以进行优化的表达式然后对Source部分进行判断;判断多个实时SQL的Source的Topic是否相同;是则对多个SQL任务进行合并。本发明对于配置了相同计算资源的Server,仅考虑计算资源的情况下,可以实现支撑实时SQL任务数的多倍提升。
-
公开(公告)号:CN106649462A
公开(公告)日:2017-05-10
申请号:CN201610849788.2
申请日:2016-09-26
Applicant: 北京赛思信安技术股份有限公司 , 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明提供了一种针对海量数据全文检索场景的实现方法,属于海量数据全文检索领域。本发明将Lucene引入检索引擎,对集群中已经存在的数据文件建立Lucene索引文件。在每个存储Lucene索引文件的节点上,设置有一个守护进程对该节点的Lucene索引文件进行维护。本发明优化协调器对fragment的调度机制,对每个执行节点进行计数判断,调整每个fragment的执行位置,以均衡节点资源。本发明还优化全文读取引擎机制,优先采用Lucene进行检索,当出现问题时调用RCFile检索,以保证检索的持续性和正确性。本发明提高了检索性能,可更加合理地利用集群的资源。
-
公开(公告)号:CN106446168A
公开(公告)日:2017-02-22
申请号:CN201610849787.8
申请日:2016-09-26
Applicant: 北京赛思信安技术股份有限公司 , 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明公开了一种面向分布式数据仓库的高效加载客户端实现方法,属于信息处理领域;具体为:首先,初始化系统启动参数;加载器管理模块为每个线程各申请一个加载器;每个线程各创建一个数据解析模块,对客户端数据进行解析并传输给加载器;每个加载器分别调用数据校验模块进行检验;然后,将检验后的字段数据缓存到数据缓存模块,进行管理并传输给数据传输模块;通过分布式节点监听模块获取每个分布式数据仓库的监听状态,并发送给数据传输模块;最后,数据传输模块将收到的缓存数据发送给健康的分布式数据仓库。本发明提升了整个分布式数据仓库的使用效率和数据加载效率,符合目前的应用需求,具有广阔的应用前景。
-
公开(公告)号:CN119544333A
公开(公告)日:2025-02-28
申请号:CN202411725602.3
申请日:2024-11-28
Applicant: 国家计算机网络与信息安全管理中心
IPC: H04L9/40
Abstract: 本发明涉及数据检测技术领域,公开了一种基于下载链接的僵尸网络恶意软件检测方法,首先进行原始流量解析,捕获环境中的pcap包并提取出pcap包中每个帧的IP、端口和url信息;对环境中的pcap包的数据进行数据集整理;进行训练检测,首先进行构建邻接矩阵,然后进行参数初始化;对初始化的数据再进行矩阵运算,然后再进行多通道训练,并进行图卷积层输入,训练出识别模型;对训练出的识别模型进行模型训练调优;将训练好的模型应用在基于下载链接的数据进行僵尸网络恶意软件的检测。本发明检测方法设计灵活,能够适应不断变化的恶意软件攻击手段和模式。通过动态调整检测策略和参数,本方法能够迅速响应和适应新出现的威胁,保持高效的检测能力。
-
公开(公告)号:CN118377586B
公开(公告)日:2024-11-29
申请号:CN202410394444.1
申请日:2024-04-02
Applicant: 国家计算机网络与信息安全管理中心 , 长安通信科技有限责任公司 , 中国科学院软件研究所
IPC: G06F9/46 , G06F9/50 , G06F16/2453
Abstract: 本发明涉及大数据技术领域,公开了一种面向SQL任务进行流量合并和计算合并的优化方法,首先在Client端一次提交多个任务,Server端执行Client提交的多个任务;在Server端对相同类型的多个实时SQL任务,对其进行解析出Source、Rule、Sink的标注结构,具体通过Json语法解析或SQL语法解析Rule参数,解析出SQL语句,输入输出信息和优化选项;解析出的多个实时SQL语句的信息均为SELECT WHERE格式,多个实时SQL任务语句中的WHERE条件部分包含的表达式均为可以进行优化的表达式然后对Source部分进行判断;判断多个实时SQL的Source的Topic是否相同;是则对多个SQL任务进行合并。本发明对于配置了相同计算资源的Server,仅考虑计算资源的情况下,可以实现支撑实时SQL任务数的多倍提升。
-
公开(公告)号:CN118585509A
公开(公告)日:2024-09-03
申请号:CN202410753997.1
申请日:2024-06-12
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/21 , G06F16/2455 , G06F16/28 , G06N5/022 , G06N5/04 , G06Q50/18 , G06F18/241
Abstract: 本发明涉及出境数据数字化处理技术领域,公开了基于结构化规则的出境法律法规知识库构建方法及系统,首先根据数据出境合规的法律法规原文条款判定表述逻辑,对条文进行拆解;对拆分后的条文,进行标准化规则梳理,在条文中提取四要素,包括数据处理者、数据出境行为、违规标志、判定结果;再对条款自然语言描述的标准化规则进行整理归纳,对标准化规则的四要素进一步进行细分,转变成计算机理解并自动判断的数字化规则描述;基于数字化规则描述,构建数据出境合规逻辑推理模型;获取数据处理者实际数据,基于逻辑判断模型输出结果,并对判定结果进行汇总整理并输出。本发明通过对数据出境相关的法律法规条目进行标准化、数字化,构建统一的数字化描述准则,形成数据出境合规规则知识库,辅助计算机完成自动审核工作,降低人工参与程度,提高合规效率和准确度。
-
-
-
-
-
-
-
-
-