一种基于上下文关联的中文相似性比较方法
摘要:
本发明提出一种基于上下文关联的中文相似性比较方法,应用于中文相似性比较技术领域,该方法首先将要进行比较的两篇文本的文本流进行分词和索引,为每一个文本建立倒排表,然后对倒排表进行相似性检测,得到可疑相似片段,最后对可疑相似片段进行聚合,得到相似文本块,在相似文本块的生成过程中考虑到上下文的关联。本发明方法先发现较小可疑相似片段,再对可疑相似片段进行聚合,减少了空间向量模型中粒度大小与误判、漏判率之间的矛盾,实现对两篇文本的相似性比较。
公开/授权文献
0/0