一种面向网络威胁情报的标注语料生成方法及电子装置

    公开(公告)号:CN111859966A

    公开(公告)日:2020-10-30

    申请号:CN202010535333.X

    申请日:2020-06-12

    摘要: 本发明提供一种面向网络威胁情报的标注语料生成方法及电子装置,包括:提取结构化威胁情报数据训练集中的安全实体,将各结构化威胁情报数据映射为 三元组,得到头实体集合与尾实体集合;提取待标注文本中的安全实体,获取包含至少一个属于头实体集合的安全实体与至少一个属于尾实体集合的安全实体的句子;判断句子中包含的关系类型;对所有句子的各 三元组进行标注,得到初始标注数据集,进而得到去噪标注数据集。本发明根据远程监督理论,利用已有结构化网络威胁情报数据对未标注语料进行标注,生成大规模训练语料,并提出自动去噪和交叉校验方法解决标注语料存在噪音数据的问题。

    一种实体识别方法、装置、设备及存储介质

    公开(公告)号:CN112926327B

    公开(公告)日:2022-05-20

    申请号:CN202110230354.5

    申请日:2021-03-02

    摘要: 本申请提供了一种实体识别方法、装置、设备及存储介质,该方法包括:获取原始威胁情报文本;针对每一原始威胁情报文本,按照分词所属实体的实体类型,对该原始威胁情报文本中的每一个分词进行标记,得到训练样本;将训练样本输入实体识别模型,利用该训练样本中的每一个分词以及该分词对应的所述实体标记,对该实体识别模型进行训练,得到训练好的实体识别模型,其中,实体识别模型在训练过程中使用的损失函数用于减小所属实体标记相同的分词之间的空间距离以及增大所属实体标记不同的分词之间的空间距离;将待识别的威胁情报文本输入训练好的实体识别模型中,得到实体识别结果。可以提高对威胁情报领域内特定类型实体的识别准确度。

    一种面向网络威胁情报的标注语料生成方法及电子装置

    公开(公告)号:CN111859966B

    公开(公告)日:2022-04-15

    申请号:CN202010535333.X

    申请日:2020-06-12

    摘要: 本发明提供一种面向网络威胁情报的标注语料生成方法及电子装置,包括:提取结构化威胁情报数据训练集中的安全实体,将各结构化威胁情报数据映射为 三元组,得到头实体集合与尾实体集合;提取待标注文本中的安全实体,获取包含至少一个属于头实体集合的安全实体与至少一个属于尾实体集合的安全实体的句子;判断句子中包含的关系类型;对所有句子的各 三元组进行标注,得到初始标注数据集,进而得到去噪标注数据集。本发明根据远程监督理论,利用已有结构化网络威胁情报数据对未标注语料进行标注,生成大规模训练语料,并提出自动去噪和交叉校验方法解决标注语料存在噪音数据的问题。

    关系抽取模型的训练方法、关系抽取方法、设备及介质

    公开(公告)号:CN112307170A

    公开(公告)日:2021-02-02

    申请号:CN202011199788.5

    申请日:2020-10-29

    摘要: 本发明提供一种关系抽取模型的训练方法、关系抽取方法、设备及介质,涉及威胁情报关系处理技术领域。该方法包括:对数据集中每个文本语料中的多个句子实例进行特征处理,得到每个句子实例的初始特征;通过特征转换器对初始特征进行转换,得到每个句子实例的句子特征;通过句子实例选择器,根据每个句子实例的句子特征,从多个句子实例中选择目标句子实例;通过关系分类器对目标句子实例进行关系分类,得到目标句子实例的实体关系分类结果;根据实体关系分类结果和预先标注实体关系,对句子实例选择器和关系分类器的参数进行训练优化,得到目标关系抽取模型。本发明通过优化关系抽取模型,提高模型的关系分类精度。

    基于多源数据融合的用户行为检测方法及装置

    公开(公告)号:CN110532485B

    公开(公告)日:2022-06-03

    申请号:CN201910624299.0

    申请日:2019-07-11

    IPC分类号: G06F16/955 G06K9/62

    摘要: 本发明实施例提供一种基于多源数据融合的用户行为检测方法及装置,所述方法包括:基于校园无线网络用户日志获取目标用户的当前行为特征向量和目标用户班级内其他用户的当前行为平均特征向量;获取目标用户的第一历史行为平均特征向量,以及目标用户班级内其他用户的第二历史行为平均特征向量;计算当前行为特征向量与第一历史行为平均特征向量的第一差异程度;计算当前行为特征向量与当前行为平均特征向量之间的第一差值,计算第一与第二历史行为平均特征向量之间的第二差值,基于第一差值和第二差值计算第二差异程度;根据第一差异程度与第二差异程度获得目标用户的行为检测结果。本发明实施例可有效获取用户行为并检测出异常用户行为。

    基于多源数据融合的用户行为检测方法及装置

    公开(公告)号:CN110532485A

    公开(公告)日:2019-12-03

    申请号:CN201910624299.0

    申请日:2019-07-11

    IPC分类号: G06F16/955 G06K9/62

    摘要: 本发明实施例提供一种基于多源数据融合的用户行为检测方法及装置,所述方法包括:基于校园无线网络用户日志获取目标用户的当前行为特征向量和目标用户班级内其他用户的当前行为平均特征向量;获取目标用户的第一历史行为平均特征向量,以及目标用户班级内其他用户的第二历史行为平均特征向量;计算当前行为特征向量与第一历史行为平均特征向量的第一差异程度;计算当前行为特征向量与当前行为平均特征向量之间的第一差值,计算第一与第二历史行为平均特征向量之间的第二差值,基于第一差值和第二差值计算第二差异程度;根据第一差异程度与第二差异程度获得目标用户的行为检测结果。本发明实施例可有效获取用户行为并检测出异常用户行为。