-
公开(公告)号:CN112149420A
公开(公告)日:2020-12-29
申请号:CN202010905315.6
申请日:2020-09-01
申请人: 中国科学院信息工程研究所 , 首都师范大学
IPC分类号: G06F40/295 , G06F40/117 , G06F40/169 , G06F40/205 , G06F40/284 , G06F16/35
摘要: 本发明公开了一种实体识别模型训练方法、威胁情报实体提取方法及装置。本提取方法步骤包括:1)获取待识别文本数据,对所述待识别文本数据中的每一词汇生成一对应的词汇向量,根据所述待识别文本数据中词汇的字符得到对应词汇的字符向量;然后根据词汇的所述字符向量和所述词汇向量得到对应词汇的特征向量;2)将所述待识别文本数据中各词汇的特征向量输入到所述实体识别模型中,得到各词汇的识别结果;3)根据词汇的所述识别结果,判断对应词汇是否属于威胁情报实体。所述实体识别模型采用基于具有注意力机制的双向长短期记忆网络以及Focal Loss算法的网络结构。本发明对于威胁情报实体的识别更加准确。