一种基于AdaBoost算法的专利数据清洗方法及系统

    公开(公告)号:CN107908720A

    公开(公告)日:2018-04-13

    申请号:CN201711118679.4

    申请日:2017-11-14

    发明人: 郎利影 王田雨

    摘要: 本发明属于数据处理技术领域,更具体地,涉及一种基于AdaBoost算法的专利数据清洗方法及系统。它包括以下步骤:S1,从专利数据库中采集专利数据,将采集到的专利数据源放入待清洗数据库中;S2,对待清洗数据库中的专利数据源进行数据分析,确定专利数据的属性信息;S3,定义清洗规则,根据专利数据源不同的错误类型制定不同的清洗规则;S4,根据清洗规则对专利数据源进行初次清洗;S5,采用AdaBoost算法对初次清洗后的专利数据进行深度清洗;S6,验证清洗结果,判断是否满足清洗要求,如果是,则转到步骤S7,否则,跳转回步骤S2;S7,干净数据回流,用清洗后的专利数据替换原专利数据。