-
公开(公告)号:CN117573868A
公开(公告)日:2024-02-20
申请号:CN202311499481.0
申请日:2023-11-09
Applicant: 国网四川省电力公司信息通信公司
IPC: G06F16/35 , G06F40/216 , G06F40/279 , G06F40/289 , G06F18/22
Abstract: 本发明属于自然语言处理文本技术领域,公开了一种基于神经网络的多维度查重方法,首先构建查重文本库;对查重文本库中的各文本进行主题识别,并基于主题对各文本进行拆分,得到各主题相关的文本内容;再对输入文本进行主题识别,并基于主题对文本进行拆分,得到各主题相关的文本内容;然后基于语义分析获得输入文本的文档级语义相似度分数;基于字符串分析获得输入文本的文档级统计相似度分数;以输入文本与查重文本库的文档级语义相似度分数和文档级统计相似度分数的加权平均值作为输入文本的查重结果。本发明综合考虑了基于语义和基于字符串匹配的统计方法两个维度对查重进行综合评分,提升查重效果。