基于语义处理的智能化文本查重方法及系统

    公开(公告)号:CN118261146A

    公开(公告)日:2024-06-28

    申请号:CN202410464152.0

    申请日:2024-04-17

    发明人: 孙巍 孙清民

    摘要: 本申请涉及文本查重技术领域,提出了基于语义处理的智能化文本查重方法及系统,包括:获取查重文本的词语集合;基于每个词语所在句子中词语的向量以及词频统计结果得到每个词语的包含句子的句子向量;基于所述句子向量之间语义变化程度以及词频统计结果得到平滑可解释性;基于每个包含句子在所述每个词语的平滑可解释性所得文本特征图中的重要程度得到每个词语在文本特征图上的中心得分;基于所述中心得分优化节点权重的计算公式;基于所述计算公式得到关键词提取结果,基于关键词提取结果完成文本查重。在本申请中,通过对提取关键词时的节点权重进行优化,解决了过于依赖词频导致的关键词提取效果差的问题,进而提高了文本查重的准确性。