一种整合重复记录的方法及系统
摘要:
本发明提供了一种整合重复记录的方法及系统,所述方法包括以下步骤:S1:抓取目标网络的网页内容,并将从所述网页内容中提取的标题和正文存储于数据库中,同时将当前提取的标题和正文作为当前的目标标题和目标正文;S2:基于所述数据库中的数据对所述目标标题进行重复度查询,根据该查询结果选择执行步骤S3;S3:基于所述数据库对所述目标正文进行重复度查询,并基于该查询结果选择整合所述网页内容在所述数据库中的存储。本发明能够快速实现对抓取信息进行查重,并可以消除重复记录。
0/0