发明公开
CN103425639A 一种基于信息指纹的相似信息识别方法
无效 - 驳回
- 专利标题: 一种基于信息指纹的相似信息识别方法
- 专利标题(英): Similar information identifying method based on information fingerprints
-
申请号: CN201310402465.5申请日: 2013-09-06
-
公开(公告)号: CN103425639A公开(公告)日: 2013-12-04
- 发明人: 戴森
- 申请人: 广州一呼百应网络技术有限公司
- 申请人地址: 广东省广州市科学城科学大道162号创意大厦b3区四楼
- 专利权人: 广州一呼百应网络技术有限公司
- 当前专利权人: 广州一呼百应网络技术有限公司
- 当前专利权人地址: 广东省广州市科学城科学大道162号创意大厦b3区四楼
- 代理机构: 广州致信伟盛知识产权代理有限公司
- 代理商 李东来
- 主分类号: G06F17/27
- IPC分类号: G06F17/27
摘要:
本发明公开了一种基于信息指纹的相似信息识别方法,该方法首先对文档的文本进行中文分词,然后统计词频,取出词频靠前的词,作为特征值;再根据提取出来的特征值计算出文档的信息指纹,最后比对两篇文档的信息指纹,若比对结果大于阀值,则判断为相似文章。该方法可避免现有技术中需要根据两篇文档中的所有信息对应进行计算比较,大大减低计算复杂度。由于文档的信息指纹具有唯一性,在多篇文档判断相似性时,只需相互间比对信息指纹即可,可有效提高工作效率。