数据集偏移检测方法、装置、系统及计算机存储介质

    公开(公告)号:CN114239702A

    公开(公告)日:2022-03-25

    申请号:CN202111441246.9

    申请日:2021-11-30

    IPC分类号: G06K9/62

    摘要: 本发明公开一种数据集偏移检测方法、装置、系统及计算机存储介质。其中,该方法包括:通过数据集仓库获取第一数据集和第二数据集;计算第一数据集和第二数据集中全部相同特征一一对应的JS散度值;将每个所述JS散度值分别与预设阈值作比较,根据比较结果判断每个所述JS散度值对应的特征是否存在分布偏移。本发明中,通过该方法,可以判断两个数据集的哪些特征存在分布偏移,当不存在分布偏移时,再直接使用两个数据集,解决了现有技术中不判断训练集和测试集的分布是否一致,而是直接使用训练集训练模型和测试集通过训练的模型进行预测,所造成的测试集预测时,准确率下降以及给人工智能模型效果带来安全隐患的问题,提高了预测的准确率。

    基于无监督算法的用户异常检测方法及装置

    公开(公告)号:CN113837325B

    公开(公告)日:2022-03-01

    申请号:CN202111410811.5

    申请日:2021-11-25

    IPC分类号: G06K9/62 G06N3/08

    摘要: 本申请公开了基于无监督算法的用户异常检测方法及装置,涉及网络安全检测技术领域,可以提升用户异常检测的准确率。其中方法包括:获取web系统的用户行为日志数据;根据所述用户行为日志数据对应的多个业务场景类别,分别计算出目标用户在多个不同时间周期内的贝叶斯平均值,所述贝叶斯平均值是根据目标用户的单维行为特征数据确定的;根据目标用户在多个业务场景类别,以及多个不同时间周期内的贝叶斯平均值,利用不同的无监督模型分别得到目标用户在每个业务场景类别中的初始评估结果;根据所述初始评估结果中的评估标签类型,通过对所述初始评估结果中的评估分值进行调整,得到目标用户的异常检测结果。

    识别伪造MAC地址群体的方法及装置

    公开(公告)号:CN110933079B

    公开(公告)日:2021-10-19

    申请号:CN201911200312.6

    申请日:2019-11-29

    IPC分类号: H04L29/06

    摘要: 本发明提供了识别伪造MAC地址群体的方法及装置,所述方法包括:1)、获取待识别的MAC地址集,其中,所述地址集中包括至少两个待识别MAC地址;2)、将所述地址集作为当前集,获取所述当前集的子集,并根据所述子集中的待识别MAC地址间的字符的组合的信息熵获取所述子集的特征值,并将最小特征值对应的MAC地址作为伪造MAC地址,其中,所述子集中所包含的待识别MAC地址的数量比所述当前集中所包含的待识别MAC地址的数量少一个,且所述子集中包括的待识别MAC地址的数量大于2。应用本发明实施例,可以解决现有技术无法识别伪造MAC地址的技术问题。

    一种基于血缘关系的数据库审计方法

    公开(公告)号:CN110457405B

    公开(公告)日:2021-09-21

    申请号:CN201910767801.3

    申请日:2019-08-20

    摘要: 本发明公开了一种基于血缘关系的数据库审计方法,要解决的是现有数据库审计中存在的问题。本发明具体步骤如下:步骤一,找出数据库的字段之间的血缘关系R;步骤二,基于血缘关系R,分别对数据库进行敏感数据字段、越权操作和重要表操作审计,得到异常结果。本发明通过抽取相关的数据,其中用数据库操作记录进行抽取血缘关系的工作,生成血缘关系表,用其他数据关联血缘关系表,用关联后的数据进行数据处理,提取特征,再用相关的模型进行识别,找出异常结果记录,工作效率和正确率高,满足了人们的使用需求。

    一种时序行为异常波动检测方法及系统

    公开(公告)号:CN113344133A

    公开(公告)日:2021-09-03

    申请号:CN202110740773.3

    申请日:2021-06-30

    IPC分类号: G06K9/62 G06K9/00

    摘要: 一种时序行为异常波动检测方法及系统,属于数据处理技术领域,解决在面对各种各样的工业级场景时,如何实现基于业务数据的时间序列行为的异常检测的问题;通过获取时间序列数组、计算变异系数、变异系数差值计算及处理、计算正常行为数值波动区间以及异常对象判断;将不同数量级别对象,统一到同一水平进行考虑,确定时序行为中某些异常程度极高的对象,有效降低安全检测场景误报;随着时间变化按既定周期提取的数据集也会随着时间进行改变,因此行为数据检测结果与近期时间周期内行为相关,不依赖于较早历史数据,剔除了历史规律的影响;将所有对象统一到同一维度进行比较,可以识别出大多数高频检测方法无法识别的低频异常操作对象。