融合位置标签并基于ERNIE3.0和多网络的命名实体识别方法

    公开(公告)号:CN117540742A

    公开(公告)日:2024-02-09

    申请号:CN202311495632.5

    申请日:2023-11-10

    摘要: 本发明提出了一种融合位置标签并基于ERNIE3.0和多网络的命名实体识别方法,该方法主要包括:按照8:1:1的比例划分番茄病虫害领域文本数据,以用于对模型进行训练、验证、测试;该方法提出具体模型为:融合位置标签的ERNIE3.0‑BIGRU‑GCN‑MHATT‑CRF模型,对输入的文本中的实体进行位置标签处理进而标记实体的开始位置和结束位置,帮助模型更好地理解文本中的实体信息,然后再以滑动窗口形式将每三句话的文本、标签、位置信息组合为一组输入到ERNIE3.0‑BIGRU‑GCN‑MHATT‑CRF多网络模型中进行训练、验证、测试,最后输出番茄病虫害领域在验证集、测试集上的命名实体识评估结果。本发明的提出能够显著改善和提升番茄病虫害领域对文本数据的处理效率,为后续番茄病虫害领域知识图谱构建、问答系统生成奠定坚实基础。

    基于BERT融合注意力机制的烟叶分级文本命名实体识别方法

    公开(公告)号:CN117592476A

    公开(公告)日:2024-02-23

    申请号:CN202311496157.3

    申请日:2023-11-10

    摘要: 本发明提出了一种基于BERT融合注意力机制的烟叶分级文本命名实体识别方法,该方法主要包括了以下内容:对烟叶分级数据进行预处理,得到烟叶分级训练数据,将烟叶分级数据进行标注并按照一定比例划分为训练集、测试集和验证集;基于烟叶分级的数据集提出具体模型:BERT‑BiGRU‑IDCNN‑Attention‑CRF模型,通过将分级数据输入BERT生成嵌入词向量,再将嵌入词向量传入BiGRU层和IDCNN层进行训练学习,同时引入注意力机制,强化实体识别对分级文本起作用的关键特征,弱化其他无关特征,强化该模型在烟叶分级命名实体识别的效果,最后将前面层输出的结果传入CRF层进行维特比解码输出。本发明通过BERT预训练模型在自然语言处理方面的强大效果,同时利用BiGRU与IDCNN融合特征向量,并且引入注意力机制,有效的弥补了BiGRU忽略局部特征的缺陷,使得在对烟叶分级文本进行命名实体识别时效果更好。