-
公开(公告)号:CN110866030A
公开(公告)日:2020-03-06
申请号:CN201911010410.3
申请日:2019-10-23
申请人: 中国科学院信息工程研究所 , 国网浙江省电力有限公司信息通信分公司 , 国网电子商务有限公司
IPC分类号: G06F16/242 , G06K9/62 , G06N3/04 , G06N3/08
摘要: 本发明公开了一种基于无监督学习的数据库异常访问检测方法,其步骤包括:1)对于历史审计日志中的各查询记录,分别提取每一查询记录中的特征并根据所提取的特征生成对应用户的行为轮廓;2)对各用户的行为轮廓进行聚类,并将聚类的结果标记为对应用户的用户组别;3)利用标记了用户组别的行为轮廓进行训练,得到异常检测模块;4)对于用户提交到数据库的一查询语句,提取该查询语句中的特征;根据所提取的特征生成该用户的行为轮廓并将其输入到训练后的异常检测模块中进行检测,确定是否为异常访问。本发明极大地提高了异常访问的检测速度。
-
公开(公告)号:CN111859966A
公开(公告)日:2020-10-30
申请号:CN202010535333.X
申请日:2020-06-12
申请人: 中国科学院信息工程研究所
IPC分类号: G06F40/295 , G06F40/211 , G06F16/955
摘要: 本发明提供一种面向网络威胁情报的标注语料生成方法及电子装置,包括:提取结构化威胁情报数据训练集中的安全实体,将各结构化威胁情报数据映射为 三元组,得到头实体集合与尾实体集合;提取待标注文本中的安全实体,获取包含至少一个属于头实体集合的安全实体与至少一个属于尾实体集合的安全实体的句子;判断句子中包含的关系类型;对所有句子的各 三元组进行标注,得到初始标注数据集,进而得到去噪标注数据集。本发明根据远程监督理论,利用已有结构化网络威胁情报数据对未标注语料进行标注,生成大规模训练语料,并提出自动去噪和交叉校验方法解决标注语料存在噪音数据的问题。
-
公开(公告)号:CN112926327B
公开(公告)日:2022-05-20
申请号:CN202110230354.5
申请日:2021-03-02
申请人: 首都师范大学 , 中国科学院信息工程研究所
IPC分类号: G06F40/295 , G06F40/30 , G06N3/04 , G06N3/08
摘要: 本申请提供了一种实体识别方法、装置、设备及存储介质,该方法包括:获取原始威胁情报文本;针对每一原始威胁情报文本,按照分词所属实体的实体类型,对该原始威胁情报文本中的每一个分词进行标记,得到训练样本;将训练样本输入实体识别模型,利用该训练样本中的每一个分词以及该分词对应的所述实体标记,对该实体识别模型进行训练,得到训练好的实体识别模型,其中,实体识别模型在训练过程中使用的损失函数用于减小所属实体标记相同的分词之间的空间距离以及增大所属实体标记不同的分词之间的空间距离;将待识别的威胁情报文本输入训练好的实体识别模型中,得到实体识别结果。可以提高对威胁情报领域内特定类型实体的识别准确度。
-
公开(公告)号:CN111859966B
公开(公告)日:2022-04-15
申请号:CN202010535333.X
申请日:2020-06-12
申请人: 中国科学院信息工程研究所
IPC分类号: G06F40/295 , G06F40/211 , G06F16/955
摘要: 本发明提供一种面向网络威胁情报的标注语料生成方法及电子装置,包括:提取结构化威胁情报数据训练集中的安全实体,将各结构化威胁情报数据映射为 三元组,得到头实体集合与尾实体集合;提取待标注文本中的安全实体,获取包含至少一个属于头实体集合的安全实体与至少一个属于尾实体集合的安全实体的句子;判断句子中包含的关系类型;对所有句子的各 三元组进行标注,得到初始标注数据集,进而得到去噪标注数据集。本发明根据远程监督理论,利用已有结构化网络威胁情报数据对未标注语料进行标注,生成大规模训练语料,并提出自动去噪和交叉校验方法解决标注语料存在噪音数据的问题。
-
公开(公告)号:CN112307170A
公开(公告)日:2021-02-02
申请号:CN202011199788.5
申请日:2020-10-29
申请人: 首都师范大学 , 中国科学院信息工程研究所
IPC分类号: G06F16/33 , G06F16/35 , G06F21/55 , G06F40/211 , G06F40/295 , G06K9/62
摘要: 本发明提供一种关系抽取模型的训练方法、关系抽取方法、设备及介质,涉及威胁情报关系处理技术领域。该方法包括:对数据集中每个文本语料中的多个句子实例进行特征处理,得到每个句子实例的初始特征;通过特征转换器对初始特征进行转换,得到每个句子实例的句子特征;通过句子实例选择器,根据每个句子实例的句子特征,从多个句子实例中选择目标句子实例;通过关系分类器对目标句子实例进行关系分类,得到目标句子实例的实体关系分类结果;根据实体关系分类结果和预先标注实体关系,对句子实例选择器和关系分类器的参数进行训练优化,得到目标关系抽取模型。本发明通过优化关系抽取模型,提高模型的关系分类精度。
-
公开(公告)号:CN110532485B
公开(公告)日:2022-06-03
申请号:CN201910624299.0
申请日:2019-07-11
申请人: 中国科学院信息工程研究所 , 首都师范大学
IPC分类号: G06F16/955 , G06K9/62
摘要: 本发明实施例提供一种基于多源数据融合的用户行为检测方法及装置,所述方法包括:基于校园无线网络用户日志获取目标用户的当前行为特征向量和目标用户班级内其他用户的当前行为平均特征向量;获取目标用户的第一历史行为平均特征向量,以及目标用户班级内其他用户的第二历史行为平均特征向量;计算当前行为特征向量与第一历史行为平均特征向量的第一差异程度;计算当前行为特征向量与当前行为平均特征向量之间的第一差值,计算第一与第二历史行为平均特征向量之间的第二差值,基于第一差值和第二差值计算第二差异程度;根据第一差异程度与第二差异程度获得目标用户的行为检测结果。本发明实施例可有效获取用户行为并检测出异常用户行为。
-
公开(公告)号:CN112926327A
公开(公告)日:2021-06-08
申请号:CN202110230354.5
申请日:2021-03-02
申请人: 首都师范大学 , 中国科学院信息工程研究所
IPC分类号: G06F40/295 , G06F40/30 , G06N3/04 , G06N3/08
摘要: 本申请提供了一种实体识别方法、装置、设备及存储介质,该方法包括:获取原始威胁情报文本;针对每一原始威胁情报文本,按照分词所属实体的实体类型,对该原始威胁情报文本中的每一个分词进行标记,得到训练样本;将训练样本输入实体识别模型,利用该训练样本中的每一个分词以及该分词对应的所述实体标记,对该实体识别模型进行训练,得到训练好的实体识别模型,其中,实体识别模型在训练过程中使用的损失函数用于减小所属实体标记相同的分词之间的空间距离以及增大所属实体标记不同的分词之间的空间距离;将待识别的威胁情报文本输入训练好的实体识别模型中,得到实体识别结果。可以提高对威胁情报领域内特定类型实体的识别准确度。
-
公开(公告)号:CN112149420A
公开(公告)日:2020-12-29
申请号:CN202010905315.6
申请日:2020-09-01
申请人: 中国科学院信息工程研究所 , 首都师范大学
IPC分类号: G06F40/295 , G06F40/117 , G06F40/169 , G06F40/205 , G06F40/284 , G06F16/35
摘要: 本发明公开了一种实体识别模型训练方法、威胁情报实体提取方法及装置。本提取方法步骤包括:1)获取待识别文本数据,对所述待识别文本数据中的每一词汇生成一对应的词汇向量,根据所述待识别文本数据中词汇的字符得到对应词汇的字符向量;然后根据词汇的所述字符向量和所述词汇向量得到对应词汇的特征向量;2)将所述待识别文本数据中各词汇的特征向量输入到所述实体识别模型中,得到各词汇的识别结果;3)根据词汇的所述识别结果,判断对应词汇是否属于威胁情报实体。所述实体识别模型采用基于具有注意力机制的双向长短期记忆网络以及Focal Loss算法的网络结构。本发明对于威胁情报实体的识别更加准确。
-
公开(公告)号:CN110532485A
公开(公告)日:2019-12-03
申请号:CN201910624299.0
申请日:2019-07-11
申请人: 中国科学院信息工程研究所 , 首都师范大学
IPC分类号: G06F16/955 , G06K9/62
摘要: 本发明实施例提供一种基于多源数据融合的用户行为检测方法及装置,所述方法包括:基于校园无线网络用户日志获取目标用户的当前行为特征向量和目标用户班级内其他用户的当前行为平均特征向量;获取目标用户的第一历史行为平均特征向量,以及目标用户班级内其他用户的第二历史行为平均特征向量;计算当前行为特征向量与第一历史行为平均特征向量的第一差异程度;计算当前行为特征向量与当前行为平均特征向量之间的第一差值,计算第一与第二历史行为平均特征向量之间的第二差值,基于第一差值和第二差值计算第二差异程度;根据第一差异程度与第二差异程度获得目标用户的行为检测结果。本发明实施例可有效获取用户行为并检测出异常用户行为。
-
-
-
-
-
-
-
-