-
公开(公告)号:CN116127372A
公开(公告)日:2023-05-16
申请号:CN202211595528.9
申请日:2022-12-13
Applicant: 杭州安恒信息技术股份有限公司
IPC: G06F18/241 , G06F18/28 , G06F16/35
Abstract: 本申请公开了一种基于知识积累的数据分类分级方法、装置、设备及存储介质,涉及数据安全治理领域,包括:获取待分类分级数据,分别利用基于历史数据字典的字典匹配法以及人工方法对待分类分级数据进行分类分级处理得到第一分类分级结果与第二分类分级结果,并合并得到第三分类分级结果;基于预设分类分级规则生成规范对第二分类分级结果以及待分类分级数据进行处理得到第一分类分级规则;基于预设数据字典维护规则和第一分类分级规则对历史数据字典更新以得到本次输出的数据字典,并构造冲突数据字典;基于冲突数据字典对第三分类分级结果进行更新得到最终分类分级结果。这样一来,本申请可以复用并通过人工方法更新数据字典,避免人力的浪费。
-
公开(公告)号:CN110995714B
公开(公告)日:2022-07-26
申请号:CN201911240585.3
申请日:2019-12-06
Applicant: 杭州安恒信息技术股份有限公司
Abstract: 本申请公开了一种检测对Web站点团伙攻击的方法、装置及介质,方法包括:获取Web站点的Web审计日志,根据Web审计日志以及预设时间窗口获取时序特征;利用时序特征中的历史时序特征训练出攻击检测模型,并利用当前时序特征更新攻击检测模型;若当前时序特征在攻击检测模型中的得分超过预设阈值,将当前时序特征判定为异常时序特征,确定出团伙攻击时间。因此,本方法能够同时关注多种具有团伙攻击特性的攻击类型,通过对多维时间序列进行实时检测,能够根据当前时序特征及时准确地确定出异常时序特征,及时确定出对Web站点的团伙攻击的团伙攻击时间。
-
公开(公告)号:CN111092891B
公开(公告)日:2022-04-01
申请号:CN201911328416.5
申请日:2019-12-20
Applicant: 杭州安恒信息技术股份有限公司
IPC: H04L9/40 , H04L43/067
Abstract: 本申请提供一种网络中异常点的检测方法,包括:获取网络安全历史数据的时序统计量;利用预设周期性度量从时序统计量中筛选得到具有周期性的时间序列;判断时间序列是否存在缺省值;若是,则对时间序列进行插值填充,并在插值填充后提取周期性基准值;根据周期性基准值得到待检测点的预测值;根据预测值确定异常点。本申请实现了对于时序统计量的周期性筛选,并利用插值填充进行数据预处理,考虑了时序随机扰动对于异常点判定过程中的干扰,对于异常点的定位准确,提高了检测效率,时间复杂度低,适合大规模增量学习。本申请还提供一种网络中异常点的检测系统、计算机可读存储介质和一种终端,具有上述有益效果。
-
公开(公告)号:CN119046738A
公开(公告)日:2024-11-29
申请号:CN202411237491.1
申请日:2024-09-04
Applicant: 杭州安恒信息技术股份有限公司
IPC: G06F18/24 , G06F16/35 , G06F40/284
Abstract: 本发明公开了一种文本数据的分类方法及装置,涉及文字处理领域,包括获取当前文本数据,当前文本数据包括多个词语;对当前文本数据中的多个词语分别进行分词提取;将提取后的当前文本数据输入至分类模型中,得到分类模型基于当前文本数据中的词语及预先确定的正则表达式输出的当前文本数据对应的类别。无需人工对文本数据进行手动划分,而是采用分类模型进行划分,分类模型是基于正则表达式对当前文本数据进行分类,正则表达式包括类别对应的词语的组合,采用正则表达式判断更加准确。
-
公开(公告)号:CN118839204A
公开(公告)日:2024-10-25
申请号:CN202411067845.2
申请日:2024-08-06
Applicant: 杭州安恒信息技术股份有限公司
Abstract: 本申请公开了一种基于大语言模型的数据分类方法、装置、设备及介质,涉及数据处理技术领域,包括:确定待处理任务;从预设场景条件确定待处理任务对应的目标场景条件,并判断预设的初始大语言模型是否未处理过目标场景条件相关的任务;若是,则获取符合目标场景条件的待训练数据集,并利用待训练数据集对初始大语言模型进行调整,得到调整后模型;待训练数据集包括数据集以及相关的第一分类字段;利用调整后模型对待处理任务进行数据分类处理,得到数据分类结果。这样一来,本申请通过符合目标场景条件的分类字段以及相关数据集对初始大语言模型进行调整,使得大语言模型与目标场景条件相匹配,能够提高数据分类结果的准确性。
-
公开(公告)号:CN118503812A
公开(公告)日:2024-08-16
申请号:CN202410760717.X
申请日:2024-06-13
Applicant: 杭州安恒信息技术股份有限公司
Inventor: 秦坤
IPC: G06F18/2413 , G06F18/23213 , G06F18/214 , G06F16/28 , G06N3/0455 , G06N3/0499
Abstract: 本申请公开了一种结构化数据的训练数据筛选方法、装置、设备及介质,涉及数据筛选领域,包括:获取待分类分级的结构化样本各维度的元数据信息,并分别对各维度的所述元数据信息进行向量化表示,以得到各向量化表示样本;对各所述向量化表示样本分别进行加权求和,以基于相应的加权结果确定各最终向量化表示样本,对各所述最终向量化表示样本进行聚类,获取相应的聚类结果;利用所述聚类结果对所述待分类分级的结构化样本进行筛选,以得到筛选结果,并基于所述筛选结果确定所述待分类分级的结构化样本的初始训练数据。由此,本申请能够实现对初始训练数据的高质量、有效筛选。
-
公开(公告)号:CN115712851A
公开(公告)日:2023-02-24
申请号:CN202211434565.1
申请日:2022-11-16
Applicant: 杭州安恒信息技术股份有限公司
Abstract: 本申请公开了一种伪行数据的生成方法、装置、设备和介质,基于机器学习的分类任务,确定分类标签;原始数据中每行数据有其对应的一个分类标签。根据设定的伪行数据配置比例、原始数据中包含的所有分类标签的类型分布,设置各伪行数据对应的伪行分类标签。一个伪行数据由多个元素构成,一个元素即为一列数据中的一个数据。不同类型的列数据有其各自对应的数据生成规则。每种类型的分类标签下所依赖的各列数据会有所不同。依据伪行分类标签、原始数据中各列数据的分布情况以及各列数据对应的数据生成规则,构造伪行数据,使得伪行数据基本不会对原始数据的分布情况造成影响,从而降低了伪行数据对机器学习分类的影响。
-
公开(公告)号:CN111881686A
公开(公告)日:2020-11-03
申请号:CN202010697611.1
申请日:2020-07-20
Applicant: 杭州安恒信息技术股份有限公司
IPC: G06F40/295
Abstract: 本申请涉及一种新出现实体的检测方法、装置、电子装置和存储介质,其中,该新出现实体的检测方法包括:获取从审计日志中提取到的目标字段信息;以第一时间段为统计周期,周期性的根据目标字段信息获取第一时间段内的多个实体并统计每一实体对应的统计特征;以第二时间段为检测周期,周期性的根据目标字段信息检测每一实体出现的时刻;第二时间段大于第一时间段;根据每一实体出现的时刻以及对应实体的统计特征,计算每一实体的新颖程度并排序。通过本申请,解决了无法确定多个实体的出现顺序的问题。
-
公开(公告)号:CN119128961A
公开(公告)日:2024-12-13
申请号:CN202411078320.9
申请日:2024-08-06
Applicant: 杭州安恒信息技术股份有限公司 , 浙江大学
IPC: G06F21/62
Abstract: 本申请公开了一种数据脱敏处理方法及装置,获取待脱敏数据,通过预先构建的逻辑连贯性脱敏模型,对待脱敏数据进行逻辑连贯性脱敏,得到脱敏语料,其中,逻辑连贯性脱敏为保留各个数据项之间逻辑关系的脱敏,逻辑关系至少包括计算关系、地域关系、时间关系和对比关系。通过上述方案,由于多个数据项之间存在上下文逻辑关系,为了在脱敏的时候保持脱敏的逻辑关系,通过预先构建的逻辑连贯性脱敏模型,对待脱敏数据进行逻辑连贯性脱敏,逻辑连贯性脱敏为保留各个数据项之间计算关系、地域关系、时间关系、对比关系等逻辑关系的脱敏,实现在对数据进行脱敏的过程中得到保留逻辑关系的脱敏语料的目的。
-
公开(公告)号:CN117349487A
公开(公告)日:2024-01-05
申请号:CN202311528792.5
申请日:2023-11-16
Applicant: 杭州安恒信息技术股份有限公司
IPC: G06F16/903 , G06F16/906 , G06F40/194 , G06F40/279
Abstract: 本申请公开了一种短文本匹配方法、装置、设备及存储介质,涉及文本分类技术领域,包括:对为目标业务数据编写的各正则表达式进行预处理,并对预处理后表达式进行分类得到多个分类后表达式组,并对各分类后表达式组中的正则表达式进行相似度计算得到第一相似度值;判断第一相似度值是否超过第一阈值,若是则从超过第一阈值的第一相似度值对应的分类后表达式组中确定出任意一个正则表达式得到目标表达式,并删除各分类后表达式组中除目标表达式外的所有表达式得到第一删除后表达式组;利用优化后的DBSCAN算法对所有第一删除后表达式组中的表达式进行聚类得到聚类后表达式簇以对短文本进行匹配。本申请能够提高短文本匹配的准确率和效率,降低误报率。
-
-
-
-
-
-
-
-
-