-
公开(公告)号:CN112926327A
公开(公告)日:2021-06-08
申请号:CN202110230354.5
申请日:2021-03-02
申请人: 首都师范大学 , 中国科学院信息工程研究所
IPC分类号: G06F40/295 , G06F40/30 , G06N3/04 , G06N3/08
摘要: 本申请提供了一种实体识别方法、装置、设备及存储介质,该方法包括:获取原始威胁情报文本;针对每一原始威胁情报文本,按照分词所属实体的实体类型,对该原始威胁情报文本中的每一个分词进行标记,得到训练样本;将训练样本输入实体识别模型,利用该训练样本中的每一个分词以及该分词对应的所述实体标记,对该实体识别模型进行训练,得到训练好的实体识别模型,其中,实体识别模型在训练过程中使用的损失函数用于减小所属实体标记相同的分词之间的空间距离以及增大所属实体标记不同的分词之间的空间距离;将待识别的威胁情报文本输入训练好的实体识别模型中,得到实体识别结果。可以提高对威胁情报领域内特定类型实体的识别准确度。
-
公开(公告)号:CN112926327B
公开(公告)日:2022-05-20
申请号:CN202110230354.5
申请日:2021-03-02
申请人: 首都师范大学 , 中国科学院信息工程研究所
IPC分类号: G06F40/295 , G06F40/30 , G06N3/04 , G06N3/08
摘要: 本申请提供了一种实体识别方法、装置、设备及存储介质,该方法包括:获取原始威胁情报文本;针对每一原始威胁情报文本,按照分词所属实体的实体类型,对该原始威胁情报文本中的每一个分词进行标记,得到训练样本;将训练样本输入实体识别模型,利用该训练样本中的每一个分词以及该分词对应的所述实体标记,对该实体识别模型进行训练,得到训练好的实体识别模型,其中,实体识别模型在训练过程中使用的损失函数用于减小所属实体标记相同的分词之间的空间距离以及增大所属实体标记不同的分词之间的空间距离;将待识别的威胁情报文本输入训练好的实体识别模型中,得到实体识别结果。可以提高对威胁情报领域内特定类型实体的识别准确度。
-
公开(公告)号:CN113609846A
公开(公告)日:2021-11-05
申请号:CN202110902057.0
申请日:2021-08-06
IPC分类号: G06F40/279 , G06F40/30 , G06K9/62
摘要: 本申请提供了一种语句中实体关系的抽取方法及装置,所述抽取方法包括:获取包含有多种词嵌入特征的目标语句的第一特征向量序列;基于所述目标语句的第一特征向量序列,生成表征所述目标语句的语义信息的语义特征向量以及表征所述目标语句中的实体之间依赖关系的句法依赖特征向量;将所述语义特征向量和所述句法依赖特征向量进行拼接,以得到表征实体之间关系的关系特征向量;基于预先设置的各实体之间的关系类别和所述关系特征向量,确定所述实体之间的关系的概率分布情况。通过所述方法和装置,能够充分提取出目标语句的特征,以缓解关系抽取过程对于词表的依赖性,同时提高关系抽取结果的准确性。
-
公开(公告)号:CN113609846B
公开(公告)日:2022-10-04
申请号:CN202110902057.0
申请日:2021-08-06
IPC分类号: G06F40/279 , G06F40/30 , G06K9/62
摘要: 本申请提供了一种语句中实体关系的抽取方法及装置,所述抽取方法包括:获取包含有多种词嵌入特征的目标语句的第一特征向量序列;基于所述目标语句的第一特征向量序列,生成表征所述目标语句的语义信息的语义特征向量以及表征所述目标语句中的实体之间依赖关系的句法依赖特征向量;将所述语义特征向量和所述句法依赖特征向量进行拼接,以得到表征实体之间关系的关系特征向量;基于预先设置的各实体之间的关系类别和所述关系特征向量,确定所述实体之间的关系的概率分布情况。通过所述方法和装置,能够充分提取出目标语句的特征,以缓解关系抽取过程对于词表的依赖性,同时提高关系抽取结果的准确性。
-
-
-