一种基于信息指纹的相似信息识别方法
摘要:
本发明公开了一种基于信息指纹的相似信息识别方法,该方法首先对文档的文本进行中文分词,然后统计词频,取出词频靠前的词,作为特征值;再根据提取出来的特征值计算出文档的信息指纹,最后比对两篇文档的信息指纹,若比对结果大于阀值,则判断为相似文章。该方法可避免现有技术中需要根据两篇文档中的所有信息对应进行计算比较,大大减低计算复杂度。由于文档的信息指纹具有唯一性,在多篇文档判断相似性时,只需相互间比对信息指纹即可,可有效提高工作效率。
0/0