发明授权
- 专利标题: 一种基于傅里叶变换的文档相似判别方法
-
申请号: CN201310153223.7申请日: 2013-04-27
-
公开(公告)号: CN103324664B公开(公告)日: 2016-08-10
- 发明人: 张涛 , 林为民 , 马媛媛 , 邓松 , 时坚 , 李伟伟 , 汪晨 , 陈亚东 , 周诚
- 申请人: 国家电网公司 , 中国电力科学研究院 , 全球能源互联网研究院 , 江苏省电力公司信息通信分公司 , 江苏省电力公司
- 申请人地址: 北京市西城区西长安街86号
- 专利权人: 国家电网公司,中国电力科学研究院,全球能源互联网研究院,江苏省电力公司信息通信分公司,江苏省电力公司
- 当前专利权人: 国家电网公司,中国电力科学研究院,全球能源互联网研究院,江苏省电力公司信息通信分公司,江苏省电力公司
- 当前专利权人地址: 北京市西城区西长安街86号
- 代理机构: 北京安博达知识产权代理有限公司
- 代理商 徐国文
- 主分类号: G06F17/30
- IPC分类号: G06F17/30 ; G06F17/27
摘要:
本发明提供一种基于傅里叶变换的文档相似判别方法,包括以下步骤:获得文档集合S的关键词序列Ks和对应的关键词次数集合Ns,以及检测文档s′相对于文档集合S的关键词序列Ks'和对应的关键词次数集合Ns';计算关键词序列Ks和Ks'中每个关键词的权值系数,以及关键词序列Ks的权值序列FKs和关键词序列Ks'的权值序列FKs';对权值序列FKs和FKs'进行傅里叶变换,并计算检测文档s′和文档集合S中任意文档是否相似的相似度距离的阀值ωS;计算检测文档s′和文档集合S中文档si之间的相似度距离D(s′,si),并将其与阀值ωS进行比较,判定检测文档s′与文档集合S是否相似。本发明不仅可以在计算相似度时降低对文档表示方法的要求,而且会降低计算的复杂度,提高计算效率。
公开/授权文献
- CN103324664A 一种基于傅里叶变换的文档相似判别方法 公开/授权日:2013-09-25