语义级多模态多粒度文档重复度评估方法和系统
Abstract:
本发明实施例公开了一种语义级多模态多粒度文档重复度评估方法和系统,方法包括:对待检测文档中的每个组成部分进行向量的转化,得到每个组成部分的分布式向量表示,组成部分是指第一组成单元或者第二组成单元,将每个分布式向量表示与所对应的多个参考向量进行相似度比较,得到每个组成部分的多个初始重复率;确定每个第一组成单元的第一重复率;基于多个第二初始重复率和与每个第二初始重复率对应的至少一个第一初始重复率,得到每个第二组成单元的多个待筛选第二重复率;从每个第二组成单元的多个待筛选第二重复率中,得到每个第二组成单元的第二重复率;将第一总重复率和第二总重复率进行加权求和,得到待检测文档的重复度评估结果。
Public/Granted literature
Patent Agency Ranking
0/0