一种基于多信息增强的中文命名实体识别算法

    公开(公告)号:CN114154504B

    公开(公告)日:2024-08-13

    申请号:CN202111472663.X

    申请日:2021-12-06

    发明人: 黄胜 廖星

    摘要: 目前,基于字符信息与词信息相结合的中文命名实体识别方法取得了不错的效果,在此基础上,也有采用字形信息进行信息增强的方法,在性能上取得了一定的提高。然而,输入语义信息的欠缺以及嵌套实体导致的实体识别错误的问题还未解决。针对存在的这些问题,本文提出了MIEM(Multi‑Information Enhancement Method)模型。MIEM首先通过在嵌入层加入词性信息来增强输入特征,在位置信息编码加入基于二叉树结构编码的嵌套实体位置信息矩阵,然后利用自注意力机制对嵌入信息进行编码,此外,还设计了MD层(more details layer)替代传统的残差结构扩大模型的视野以此来获取更多的信息。这样的设计既增强了输入信息的表达,又增强了实体边界信息,解决了实体边界不清晰问题以及嵌套实体影响实体识别准确率的问题。最后构建了基于嵌入信息及位置编码信息增强的神经网络模型来解决中文命名实体识别中因为嵌套实体导致的的命名实体识别错误的问题。