发明公开
- 专利标题: 基于BERT融合注意力机制的烟叶分级文本命名实体识别方法
-
申请号: CN202311496157.3申请日: 2023-11-10
-
公开(公告)号: CN117592476A公开(公告)日: 2024-02-23
- 发明人: 陈婷 , 朱昌群 , 施斌 , 杨敏 , 罗琛 , 斯小瑞 , 王逸晨 , 白帆 , 夏俊峰 , 杨航
- 申请人: 昆明理工大学
- 申请人地址: 云南省昆明市呈贡区昆明理工大学
- 专利权人: 昆明理工大学
- 当前专利权人: 昆明理工大学
- 当前专利权人地址: 云南省昆明市呈贡区昆明理工大学
- 代理机构: 天津三元专利商标代理有限责任公司
- 代理商 胡畹华
- 主分类号: G06F40/295
- IPC分类号: G06F40/295 ; G06N3/045 ; G06N3/0442 ; G06N3/09 ; G06V30/14 ; G06V30/19
摘要:
本发明提出了一种基于BERT融合注意力机制的烟叶分级文本命名实体识别方法,该方法主要包括了以下内容:对烟叶分级数据进行预处理,得到烟叶分级训练数据,将烟叶分级数据进行标注并按照一定比例划分为训练集、测试集和验证集;基于烟叶分级的数据集提出具体模型:BERT‑BiGRU‑IDCNN‑Attention‑CRF模型,通过将分级数据输入BERT生成嵌入词向量,再将嵌入词向量传入BiGRU层和IDCNN层进行训练学习,同时引入注意力机制,强化实体识别对分级文本起作用的关键特征,弱化其他无关特征,强化该模型在烟叶分级命名实体识别的效果,最后将前面层输出的结果传入CRF层进行维特比解码输出。本发明通过BERT预训练模型在自然语言处理方面的强大效果,同时利用BiGRU与IDCNN融合特征向量,并且引入注意力机制,有效的弥补了BiGRU忽略局部特征的缺陷,使得在对烟叶分级文本进行命名实体识别时效果更好。