一种基于聚类的文本查重方法
Abstract:
本发明公开了一种基于聚类的文本查重方法,方法步骤包括:1、数据采集处理将文本数据存储在数据库和文件服务器中,2、预处理对文本数据进行分词和特征向量提取;3、对数据库中已完成预处理的文本数据进行聚类,并计算出各类簇的中心特征向量;4、一次查重处理提取文本数据的特征向量,并与数据库中各类簇的中心向量进行比对,对于距离小于设定阈值的中心特征向量,对其类簇进行记录;5、二次查重处理对文本数据的特征向量与对应类簇中各文本数据的特征向量进行比对,对于距离小于一定阈值的特征向量,将其对应的文本数据记为重复文本数据,从而实现文本数据的查重处理。本发明可以减少不必要的重复性比对工作,提升文本查重效率。
Public/Granted literature
Patent Agency Ranking
0/0