基于故障样本贡献解释的标签数据清洗方法及系统

    公开(公告)号:CN116738142A

    公开(公告)日:2023-09-12

    申请号:CN202310323297.4

    申请日:2023-03-28

    摘要: 本发明提供了一种基于故障样本贡献解释的标签数据清洗方法及系统,所述方法包括如下步骤:步骤S1:对故障样本数据进行划分,形成多个故障样本聚类簇;步骤S2:使用简单模型进行故障样本聚类簇的初筛,形成精筛故障样本簇集合;步骤S3:穷举所有精筛故障样本簇集合中簇的所有组合方法,训练故障检测模型,得到每个模型在各种组合下的效果得分;步骤S4:基于每个模型的评估效果,计算每个精筛样本簇对故障检测模型的所有组合下的平均边际贡献值,基于平均边际贡献值清洗数据。本发明提高了清洗包含异常“标签数据”的效率,能有效清洗与“特征”无关的“标签”样本,并具有良好的可解释性。

    数据包弹性裁切方法、系统、介质及设备

    公开(公告)号:CN116033046A

    公开(公告)日:2023-04-28

    申请号:CN202211695606.2

    申请日:2022-12-28

    发明人: 蔡晓华 杨光辉

    IPC分类号: H04L69/22 H04L69/06

    摘要: 本发明提供了一种数据包弹性裁切方法、系统、介质及设备,包括:步骤1:设置弹性裁切策略,包括全局裁切策略和局部裁切策略组;步骤2:从网卡、文件、系统中获取数据包;步骤3:将数据包按网络协议规范进行解码,提取网络协议栈,按需提取各协议的相关字段,组成协议信息;步骤4:根据协议信息选取裁切策略;步骤5:根据裁切策略对数据包执行裁切动作,仅保留策略中定义范围内的字节;步骤6:输出裁切后数据包。本发明通过基于协议的裁切设置和不同设置的执行优先级,解决固定裁切中的数据准确性和储存效率的矛盾,使得数据包裁切既能获得高数据准确性,又能获得高存储效率。

    网络会话数据TopK上卷方法及系统

    公开(公告)号:CN115914146A

    公开(公告)日:2023-04-04

    申请号:CN202211633304.2

    申请日:2022-12-19

    IPC分类号: H04L49/9057 H04L67/14

    摘要: 本发明提供了一种网络会话数据TopK上卷方法及系统,包括:分片拆分步骤:对上卷计算过程按时间进行分片拆分,得到多个时间分片;预处理步骤:对每个时间分片进行分片预处理,筛选提取网络会话的五元组;后处理步骤:在所有时间分片分片预处理完成后,对每个时间分片进行上卷后处理,提取存在于筛选出来的高流量网络会话的五元组中的会话数据;聚合步骤:将提取的会话数据按五元组进行聚合,存档于上卷数据表中。本发明只针对用户定义匹配规则并打上标签的网络会话进行上卷,避免全量上卷大量无用会话数据。

    一种半结构化流量数据中的目标信息定位方法及系统

    公开(公告)号:CN113220943B

    公开(公告)日:2022-09-30

    申请号:CN202110626549.1

    申请日:2021-06-04

    摘要: 本发明提供了一种半结构化流量数据中的目标信息定位方法及系统,包括以下步骤:基于半结构数据路径的流量哈希和聚类;基于结构向量化的信息预对准;基于流量哈希与对准信息的快速目标信息定位。本发明使用“相似性哈希的方法”对流量数据的结构信息进行编码,实现流量结构信息相似性的快速比较;使用“翻译嵌入模型”对流量信息的数据域进行编码,实现不同流量中相似数据域对应关系的建立;根据流量结构的“哈希”辨别特定流量,获取该特定流量与其他流量之间的数据域的对应关系,实现快速定位目标信息。

    网络应用层全流量向量化记录生成方法和系统

    公开(公告)号:CN113037775B

    公开(公告)日:2022-07-29

    申请号:CN202110352133.5

    申请日:2021-03-31

    发明人: 支凤麟 蔡晓华

    摘要: 本发明提供了一种网络应用层全流量向量化记录生成方法和系统,包括:已知协议解析模块、信息流综合解析模块、时间窗口流量描述模块、全流量向量化模型生成模块、全流量向量化模块。本发明既全面覆盖了一个时间片内的全流量信息,又压缩了表示空间;使用深度神经网络自动提取每个时间片的全流量信息中的重要特征,而后组成全量记录。既保留了全流量的重要信息,又压缩了记录存储空间。可以广阔应用于长期记录和保存、呈现、应用层告警运算、相似性运算、安全入侵预算、价值挖掘等场景。

    高离散度SQL动态基线告警方法及系统

    公开(公告)号:CN112347163B

    公开(公告)日:2022-07-15

    申请号:CN202011352882.X

    申请日:2020-11-26

    摘要: 本发明提供了一种高离散度SQL动态基线告警方法及系统,包括:从网络数据中获取SQL统计数据;根据SQL统计数据,分指标和维度以时间为基础自变量,通过对历史数据和当前数据进行融合自动分析生成动态基线;在所述动态基线的基础上,通过加入当前计算的动态因子,在允许范围内给定指标与动态基线的偏离值界限,得到动态阈值;根据SQL统计数据、动态基线以及动态阈值,在指定的时间范围中,将该指定的时间范围进行多等分,在每个等分时间内分别计算基线,利用当前时间在基线所对应时间的区间进行告警控制。针对不同维度生成的告警基线更为合理,拟合更加准确。

    基于强化学习的协议逆向工程系统及其工作方法

    公开(公告)号:CN110855608B

    公开(公告)日:2022-03-18

    申请号:CN201910931832.8

    申请日:2019-09-29

    摘要: 本发明提供的一种基于强化学习的协议逆向工程系统及其工作方法,包括解码环境模块和解码智能体模块;其中解码环境模块接收解码智能体模块输出的前一个时刻的状态和当前的动作、并向解码智能体模块输入新的状态。与现有技术相比,本发明具有如下的有益效果:1)使用协议结构树来表示协议结构,该方法表达能力强,有丰富的语义,支持复杂的结构。2)创新性的提出了一种基于深度强化学习的协议逆向工程方法,通过大量数据训练后,应用范围广,能够对各种不同类型的协议的数据进行逆向工程。3)训练好的解码模型执行协议逆向时,无需任何先验知识,也无需人工参与,能够全自动的执行协议逆向。

    基于网络数据的故障恢复系统和方法及存储介质

    公开(公告)号:CN109347655B

    公开(公告)日:2022-03-01

    申请号:CN201811056651.7

    申请日:2018-09-11

    IPC分类号: H04L41/0668 G06F11/14

    摘要: 本发明提供基于网络数据处理的故障恢复方法和系统及存储介质,令网络数据全量镜像复制,将全量网络数据输出到至少一台数据处理主机;令全量网络数据分区,创建分区副本,制定数据分区副本策略,下发给输入过滤、输出拦截;接收全量网络数据,依据数据分区副本策略令全量网络数据过滤,得到所属分区的分区副本的网络数据,令所属分区的分区副本的网络数据发送至数据处理。令主分区副本的网络数据输出,令备分区副本的网络数据拦截暂存,丢弃已输出的主分区副本对应的备分区副本的网络数据;令输出的主分区副本的网络数据去除重复数据。通过TAP分光器、分区副本控制器、输出拦截器、输出去重器,满足数据零丢失、零重复要求的网络数据处理故障恢复。