一种融合多种外部语义特征的中文司法领域命名实体识别方法

    公开(公告)号:CN117236331A

    公开(公告)日:2023-12-15

    申请号:CN202311198934.6

    申请日:2023-09-18

    Abstract: 本发明公开了一种融合多种外部语义特征的中文司法领域命名实体识别方法,包括如下步骤:1)构建司法语料库;2)在数据集的全局层面构建无向字形图,利用字形图对模型嵌入层的输入数据进行字形增强;3)对模型嵌入层的输入数据进行多词汇增强;4)将步骤2)和步骤3)得到的两种外部语义特征增强后的输入通过门控机制进行特征融合,然后输入到BiLSTM‑CRF网络对司法领域的命名实体进行识别。该方法能对司法文本中的案发地点、地名、人名、组织机构名、罪名、法条以及刑期七类实体进行有效的识别,通过多种外部语义特征增强,减少了对司法标注语料的依赖,针对有限的司法标注语料,提高了对司法领域命名实体的识别准确率和F1指标。

Patent Agency Ranking