一种基于自然语言处理的文档校验方法

发明授权

请登陆查看更多内容

专利标题： 一种基于自然语言处理的文档校验方法
申请号： CN202210918737.6

申请日： 2022-08-02
公开(公告)号： CN114970554B

公开(公告)日： 2022-10-21
发明人: 黄晓明 , 赵欣 , 董元龙 , 林明晖 , 李杨 , 丁靖 , 高晓辉 , 方昕 , 余乘龙 , 陈凌 , 岳衡
申请人： 国网浙江省电力有限公司宁波供电公司
申请人地址： 浙江省宁波市海曙区丽园北路1408号
专利权人： 国网浙江省电力有限公司宁波供电公司
当前专利权人： 国网浙江省电力有限公司宁波供电公司
当前专利权人地址： 浙江省宁波市海曙区丽园北路1408号
代理机构： 宁波市鄞州盛飞专利代理事务所
代理商 龙洋
主分类号： G06F40/30
IPC分类号： G06F40/30 ; G06F40/205 ; G06F40/169 ; G06N3/04 ; G06V10/764 ; G06V10/82 ; G06V30/10 ; G06V30/19

摘要：

本发明公开了一种基于自然语言处理的文档校验方法，涉及数据处理技术领域，主要包括步骤：通过查找预设字向量表的方式对各文字段信息进行拆分以获得位置信息、初步预测下的字向量信息以及当前文字段信息整体的文本信息；组合前后文本信息，并通过比较前后文本信息中字向量信息以及相应位置信息的拟合度获取前后文本信息的相似度信息；获取修正后目标文档的语句信息并语义标注；通过识别语义标注进行目标文档内容获取；通过自然语言处理对文档内容进行分析，并根据分析结果提取出其中含有预设违规语料的文档内容并标注。本发明通过上下文对目标文本信息进行双向预测，从而可以获得更为准确语句信息，提高了自然语言处理的校验准确率。

公开/授权文献

CN114970554A 一种基于自然语言处理的文档校验方法公开/授权日：2022-08-30

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06F	电数字数据处理（基于特定计算模型的计算机系统入G06N）
G06F40/00	处理自然语言数据（语音分析或综合，语音识别G10L）
G06F40/30	.语义分析