数据处理方法、装置及计算机设备

    公开(公告)号:CN109240984A

    公开(公告)日:2019-01-18

    申请号:CN201811142518.3

    申请日:2018-09-28

    IPC分类号: G06F16/11 G06F9/46

    摘要: 本申请涉及一种数据处理方法、装置、计算机设备及存储介质,该方法包括:从数据库中筛选出包括敏感项集的敏感事务;在所述敏感事务中取不同的组合,得到敏感事务组合;获取多目标函数;所述多目标函数中的各子目标函数,分别用于表示在删除数据库中的事务后所产生的各负面影响的负面影响程度;从所述敏感事务组合中,筛选出分别属于多目标函数的最优解集中各最优解的一个或多个敏感事务组合;属于最优解的敏感事务组合,用于在数据库中被删除后使所述多目标函数所表示的全局负面影响程度最小;当从所述最优解集中确定出最终最优解时,在数据库中删除属于所述最终最优解的敏感事务组合中的各敏感事务。本申请的方案,降低了清洗数据库带来的负面影响。

    一种高效用序列模式挖掘方法及装置

    公开(公告)号:CN108733705A

    公开(公告)日:2018-11-02

    申请号:CN201710261885.4

    申请日:2017-04-20

    IPC分类号: G06F17/30

    摘要: 本申请公开了一种高效用序列模式挖掘方法及装置,根据序列数据库中包含的各事务,获取满足设定条件的候选序列模式集合;针对每一所述候选序列模式,确定所述候选序列模式在所述序列数据库中的效用值;将所述效用值不低于自身所对应的效用阀值的候选序列模式,确定为挖掘结果,其中,候选序列模式对应的效用阀值为该候选序列模式所包含各项目中,效用阀值最低的项目的效用阀值,序列数据库中每一项目的效用阀值由用户预先设定。本申请可以由用户根据需要对不同项目设置不同的效用阀值,基于此从序列数据库中挖掘效用值不低于自身对应的效用阀值的序列模式,在挖掘高效用模式的基础上,能够实现个性化挖掘,满足不同应用场景的需求。

    一种高效用项集挖掘方法、装置及数据处理设备

    公开(公告)号:CN107870956A

    公开(公告)日:2018-04-03

    申请号:CN201610866557.2

    申请日:2016-09-28

    IPC分类号: G06F17/30 G06Q30/06

    CPC分类号: G06F17/30539 G06Q30/0631

    摘要: 本发明实施例提供一种高效用项集挖掘方法、装置及数据处理设备,该方法包括:确定事务数据库中各项集对应的项集效用值;根据预定义的最低效用阈值表,确定各项集对应的项集最低效用阈值;预定义的最低效用阈值表记录有各数据项对应的最低效用阈值,一个项集对应的项集最低效用阈值表示的是,该项集包含的数据项所对应的最低效用阈值中的最小最低效用阈值。将各项集的项集效用值与对应的项集最低效用阈值进行比对,根据比对结果确定高效用项集,其中,高效用项集的项集效用值不小于对应的项集最低效用阈值。本发明实施例提高了高效用项集挖掘的准确性。

    自然语言处理中的序列标注方法、装置、设备及存储介质

    公开(公告)号:CN109885702B

    公开(公告)日:2024-08-23

    申请号:CN201910146893.3

    申请日:2019-02-27

    IPC分类号: G06F16/43 G06F18/214

    摘要: 本申请是关于一种自然语言处理中的序列标注方法,该方法包括:获取文本序列,将文本序列输入序列标注模型,获得目标路径,目标路径中的每一个节点是预设标签集中的一个标签,预设标签集中包含m种编码模式对应的各个标签;将目标路径中的各个节点按照在目标路径中从先到后的顺序排列,获得文本序列对应的标注序列。本申请根据多种编码模式对文本序列样本编码的结果进行训练获得序列标注模型,并通过该序列模型标签对输入的文本序列进行处理,输出该文本序列对应的标注序列,使得文本序列的标注不局限于单个编码模式,从而提高了序列标注模型对不同输入的普适性,提高序列标注的效果。

    一种数据处理的方法和装置

    公开(公告)号:CN106933886B

    公开(公告)日:2020-12-18

    申请号:CN201511030144.2

    申请日:2015-12-31

    IPC分类号: G06F16/2458

    摘要: 本发明公开了一种数据处理的方法和装置,属于计算机技术领域。所述方法包括:获取样本数据记录,根据每条样本数据记录中的参数项和对应的参数值,以及预设的隶属度函数,确定每个参数值对应的参数值等级和参数值等级的权值,并根据每条样本数据记录中各参数值等级的权值,选取样本总权值大于预设阈值的参数值等级;根据在每条样本数据记录中所述选取的参数值等级对应的权值,确定满足预设组合条件的参数值等级,分别基于每个满足预设组合条件的参数值等级,确定参数值等级组合;确定每个所述参数值等级组合对应的样本总权值,输出样本总权值大于预设阈值的参数值等级组合。采用本发明,可以节约处理资源。

    多维高效用序列模式处理方法、装置和计算机设备

    公开(公告)号:CN109446235B

    公开(公告)日:2020-10-02

    申请号:CN201811216190.5

    申请日:2018-10-18

    IPC分类号: G06F16/2458

    摘要: 本申请涉及一种多维高效用序列模式处理方法、装置和计算机设备,该方法包括:将所述多维序列数据库转换成一维序列数据库;提取所述一维序列数据库中的高效用序列模式;根据所述高效用序列模式对维度值进行处理,得到对应的维度数据;根据所述高效用序列模式以及对应的维度数据,构建多维高效用序列模式。通过对数据库进行转换,得到高效用序列模式,并对维度值进行处理得到用于构建多维高效序列模式的维度数据,从而构建得到多维高效序列模式,实现了对多维高效用序列模式的有效挖掘,挖掘结果充分体现了多个维度特征之间的联系,提高了数据挖掘质量。

    一种数据处理的方法和装置

    公开(公告)号:CN106933886A

    公开(公告)日:2017-07-07

    申请号:CN201511030144.2

    申请日:2015-12-31

    IPC分类号: G06F17/30

    CPC分类号: G06F16/2458

    摘要: 本发明公开了一种数据处理的方法和装置,属于计算机技术领域。所述方法包括:获取样本数据记录,根据每条样本数据记录中的参数项和对应的参数值,以及预设的隶属度函数,确定每个参数值对应的参数值等级和参数值等级的权值,并根据每条样本数据记录中各参数值等级的权值,选取样本总权值大于预设阈值的参数值等级;根据在每条样本数据记录中所述选取的参数值等级对应的权值,确定满足预设组合条件的参数值等级,分别基于每个满足预设组合条件的参数值等级,确定参数值等级组合;确定每个所述参数值等级组合对应的样本总权值,输出样本总权值大于预设阈值的参数值等级组合。采用本发明,可以节约处理资源。