一种基于傅里叶变换的文档相似判别方法
摘要:
本发明提供一种基于傅里叶变换的文档相似判别方法,包括以下步骤:获得文档集合S的关键词序列Ks和对应的关键词次数集合Ns,以及检测文档s′相对于文档集合S的关键词序列Ks'和对应的关键词次数集合Ns';计算关键词序列Ks和Ks'中每个关键词的权值系数,以及关键词序列Ks的权值序列FKs和关键词序列Ks'的权值序列FKs';对权值序列FKs和FKs'进行傅里叶变换,并计算检测文档s′和文档集合S中任意文档是否相似的相似度距离的阀值ωS;计算检测文档s′和文档集合S中文档si之间的相似度距离D(s′,si),并将其与阀值ωS进行比较,判定检测文档s′与文档集合S是否相似。本发明不仅可以在计算相似度时降低对文档表示方法的要求,而且会降低计算的复杂度,提高计算效率。
公开/授权文献
0/0