-
公开(公告)号:CN114970554A
公开(公告)日:2022-08-30
申请号:CN202210918737.6
申请日:2022-08-02
Applicant: 国网浙江省电力有限公司宁波供电公司
IPC: G06F40/30 , G06F40/205 , G06F40/169 , G06N3/04 , G06V10/764 , G06V10/82 , G06V30/10 , G06V30/19
Abstract: 本发明公开了一种基于自然语言处理的文档校验方法,涉及数据处理技术领域,主要包括步骤:通过查找预设字向量表的方式对各文字段信息进行拆分以获得位置信息、初步预测下的字向量信息以及当前文字段信息整体的文本信息;组合前后文本信息,并通过比较前后文本信息中字向量信息以及相应位置信息的拟合度获取前后文本信息的相似度信息;获取修正后目标文档的语句信息并语义标注;通过识别语义标注进行目标文档内容获取;通过自然语言处理对文档内容进行分析,并根据分析结果提取出其中含有预设违规语料的文档内容并标注。本发明通过上下文对目标文本信息进行双向预测,从而可以获得更为准确语句信息,提高了自然语言处理的校验准确率。
-
公开(公告)号:CN114970554B
公开(公告)日:2022-10-21
申请号:CN202210918737.6
申请日:2022-08-02
Applicant: 国网浙江省电力有限公司宁波供电公司
IPC: G06F40/30 , G06F40/205 , G06F40/169 , G06N3/04 , G06V10/764 , G06V10/82 , G06V30/10 , G06V30/19
Abstract: 本发明公开了一种基于自然语言处理的文档校验方法,涉及数据处理技术领域,主要包括步骤:通过查找预设字向量表的方式对各文字段信息进行拆分以获得位置信息、初步预测下的字向量信息以及当前文字段信息整体的文本信息;组合前后文本信息,并通过比较前后文本信息中字向量信息以及相应位置信息的拟合度获取前后文本信息的相似度信息;获取修正后目标文档的语句信息并语义标注;通过识别语义标注进行目标文档内容获取;通过自然语言处理对文档内容进行分析,并根据分析结果提取出其中含有预设违规语料的文档内容并标注。本发明通过上下文对目标文本信息进行双向预测,从而可以获得更为准确语句信息,提高了自然语言处理的校验准确率。
-