一种多源异构数据采集方法

    公开(公告)号:CN111737529B

    公开(公告)日:2020-12-18

    申请号:CN202010713819.8

    申请日:2020-07-23

    IPC分类号: G06F16/90 G06F40/253

    摘要: 本发明提供了一种多源异构数据采集方法。包括:建立关键词表;获取各数据源采集内容,并创建对应的采集语法;根据所述采集语法,建立数据采集规则;将所述数据采集规则关联到所述关键词表对应关键词上。本发明有益效果为:通过构建数据源的关键词表,提高了数据采集的全面性。通过构建采集语法,本发明基于抽象语法树,并通过自定义反射规则进行确定采集语法,因此,采集语法灵活多变,因为是自定义的反射规则,因此符合数据采集的要求。本发明根据采集语法构建数据的采集规则,使得数据采集能够动态采集。本发明通过将数据采集规则关联到关键词表的关键词上,使得数据采集更加全面、动态更新的方式使得规则漏洞更好,采集的数据更加准确。

    用于数据质量管控的实现方法

    公开(公告)号:CN111737247B

    公开(公告)日:2020-12-18

    申请号:CN202010700618.4

    申请日:2020-07-21

    IPC分类号: G06F16/215 G06F11/32

    摘要: 本发明提供了一种用于数据质量管控的实现方法,包括获取目标数据的目标属性,根据所述目标属性对所述目标数据进行序列提取,获取序列数据;确定所述序列数据之间的关联关系,并基于质量管控算法和所述关联关系对所述序列数据进行质量监督测量,确定低质量序列;根据预设的优化序列库对所述低质量序列进行优化,获取优化序列;验证所述优化序列是否符合管控标准,并对不符合管控标准的优化序列进行报警警示。本发明的有益效果在于:本发明实现了目标数据的有效分析和属性划分。通过目标数据的质量管控,确定数据质量高低,从而实现对数据的优化处理,获得更好的优化序列。而通过对序列数据的管控控制和报警警示,使得获得的目标数据都为高质量数据。