一种基于种子词的文档相似性检测方法
摘要:
本发明是关于一种基于种子词的文档相似性检测方法,包括中文切词和标注、词典计算、将文档用限量句子集表示、文档对比四个步骤。本发明的文档对比过程需要处理的句子比较少,可提高处理速度;在选择具备代表性的限量句子集时,选择了词频-反文档频率值比较高的词所在的句子;这样处理的结果是,所选择的限量句子集对文档具备代表性,可以排除不相关或者常识性句子对文档相似性判断的影响;本发明两个句子之间的对比方法,采用逐词对比方式减少内容相似但句子叙述方式不同的影响,同时对相同词利用反文档词频进行加权,可以对判别性较强的词赋予更高的权重,增加对比性能。
公开/授权文献
0/0