远程监督命名实体识别数据的降噪方法及装置

    公开(公告)号:CN114757190A

    公开(公告)日:2022-07-15

    申请号:CN202011564259.0

    申请日:2020-12-25

    IPC分类号: G06F40/295 G06K9/62 G06N3/08

    摘要: 本申请实施例提供一种远程监督命名实体识别数据的降噪方法及装置,涉及自然语言处理领域,能够提升降噪性能。该方法包括:获取多个标注语料集以及该多个标注语料集各自的总体噪声率,一个标注语料集包含多个标注语料,该多个标注语料是对多个语料进行命名实体标注得到的结果;然后将该多个标注语料集作为训练集,基于该多个标注语料集各自的总体噪声率,训练得到目标神经网络模型;并基于目标神经网络模型,确定第一标注语料集包含的多个标注语料的置信度;以及根据第一标注语料集包含的多个标注语料的置信度以及第一标注语料集的总体噪声率,确定第一标注语料集中的噪声语料,并且删除第一标注语料集中的噪声语料。