-
公开(公告)号:CN111460820A
公开(公告)日:2020-07-28
申请号:CN202010151014.9
申请日:2020-03-06
Applicant: 中国科学院信息工程研究所
IPC: G06F40/295 , G06F40/30 , G06N3/04
Abstract: 本发明涉及一种基于预训练模型BERT的网络空间安全领域命名实体识别方法和装置。该方法对输入的网络空间安全领域的句子文本使用BERT模型的分词器WordPiece进行分词预处理;将分词预处理得到的所有token加载至BERT模型中进行训练,获得输出的向量表示,并将其送至Highway网络和分类器,将token的向量表示的维度映射至与标签数量一致的维度,得到token的最终向量表示;然后只使用每一个单词的第一个token来使用交叉熵损失函数计算损失,将其反向传播以更新模型参数,得到训练完成的安全领域命名实体识别模型,用于安全领域命名实体识别。本发明能够有效地解决安全文本做命名实体识别任务。