一种面向威胁情报的实体识别方法及系统

    公开(公告)号:CN109858018A

    公开(公告)日:2019-06-07

    申请号:CN201811589770.9

    申请日:2018-12-25

    IPC分类号: G06F17/27

    摘要: 本发明涉及一种面向威胁情报的实体识别方法及系统。该方法包括:1)对作为训练语料的威胁情报文本进行粗分词;2)构建威胁情报实体常用词词典库与规则库,对粗分词的结果进行词典匹配与规则匹配;3)基于匹配结果,为每个词标注实体标签,形成训练集;4)构建特征模板,同时建立指示词库来完善特征模板的筛选形式,使用特征模板为训练集生成其上下文特征并筛选,将筛选后得到的特征输入机器学习模型进行参数迭代训练;5)对待识别的威胁情报文本进行粗分词、词典匹配和规则匹配,利用训练完成的机器学习模型进行实体识别。本发明采用了规则、词典、模型相结合的手段完成威胁情报实体抽取,显著提高了威胁情报的实体识别精度。