发明公开
- 专利标题: 一种基于种子词的文档相似性检测方法
- 专利标题(英): Document similarity detecting method based on seed words
-
申请号: CN201310359673.1申请日: 2013-08-16
-
公开(公告)号: CN104376024A公开(公告)日: 2015-02-25
- 发明人: 张琳波 , 王枫 , 胡明 , 石磊 , 梁龙 , 郭瑜
- 申请人: 交通运输部科学研究院
- 申请人地址: 北京市朝阳区惠新里240号
- 专利权人: 交通运输部科学研究院
- 当前专利权人: 交通运输部科学研究院
- 当前专利权人地址: 北京市朝阳区惠新里240号
- 代理机构: 北京中原华和知识产权代理有限责任公司
- 代理商 寿宁; 张华辉
- 主分类号: G06F17/30
- IPC分类号: G06F17/30
摘要:
本发明是关于一种基于种子词的文档相似性检测方法,包括中文切词和标注、词典计算、将文档用限量句子集表示、文档对比四个步骤。本发明的文档对比过程需要处理的句子比较少,可提高处理速度;在选择具备代表性的限量句子集时,选择了词频-反文档频率值比较高的词所在的句子;这样处理的结果是,所选择的限量句子集对文档具备代表性,可以排除不相关或者常识性句子对文档相似性判断的影响;本发明两个句子之间的对比方法,采用逐词对比方式减少内容相似但句子叙述方式不同的影响,同时对相同词利用反文档词频进行加权,可以对判别性较强的词赋予更高的权重,增加对比性能。
公开/授权文献
- CN104376024B 一种基于种子词的文档相似性检测方法 公开/授权日:2017-12-15