一种对大数据进行处理的方法和装置

    公开(公告)号:CN105786938A

    公开(公告)日:2016-07-20

    申请号:CN201410836226.5

    申请日:2014-12-26

    发明人: 王晓丽

    IPC分类号: G06F17/30 G06F9/50

    摘要: 本发明公开了一种对大数据进行处理的方法和装置,属于数据处理领域。所述方法包括:获取多个键值对集合,键值对集合包括至少一个键值对,键值对中的键和值分别为待处理的大数据中的两个子数据,且两个子数据之间存在预设数据关系,键值对集合中的各键值对中的取模余数都相同;分别计算每个键值对集合中包括的各值之和,得到每个键值对集合包括的值的总值;获取Reduce处理模块集合中的每个Reduce处理模块的负载情况;根据每个键值对集合中包括的值的总值和每个Reduce处理模块的负载情况,分别为每个Reduce处理模块分配对应的键值对集合;通过每个Reduce处理模块分别对分配到的所述键值对集合进行处理。

    数据库操作方法及装置
    2.
    发明授权

    公开(公告)号:CN106503007B

    公开(公告)日:2019-07-23

    申请号:CN201510563745.3

    申请日:2015-09-08

    发明人: 王晶昱

    IPC分类号: G06F16/23

    摘要: 本申请提供一种数据库操作方法及装置。方法包括:在应用服务器执行目标事务的过程中,依次获取应用服务器执行到的目标事务中的数据库操作指令;对数据库操作指令进行预测执行,将预测执行结果返回给应用服务器以供应用服务器确定下一个需要执行的数据库操作指令,并在本地记录数据库操作指令以及预测执行产生的预测执行数据;当获取到目标事务中的事务提交指令时,根据内存库中存储的数据库操作指令以及预测执行数据,控制应用服务器对应的数据库实际执行目标事务。本申请可以提高事务执行效率并增大事务吞吐量。

    聚合式大数据查询方法及装置

    公开(公告)号:CN106446039A

    公开(公告)日:2017-02-22

    申请号:CN201610786249.9

    申请日:2016-08-30

    IPC分类号: G06F17/30

    CPC分类号: G06F16/24556 G06F16/24545

    摘要: 本发明提供一种聚合式大数据查询方法及装置,所述方法包括:获取聚合式大数据查询请求;根据所述聚合式大数据查询请求,从n个数据处理节点中获取n个查询任务;将每个所述查询任务分解为m个数据组;获取每个数据组的大小,并确定所述n个查询任务中具有相同键值的数据组中数据量最大的数据组;确定所述数据量最大的数据组所对应的查询任务的数据处理节点为查询任务执行节点;通过所述查询任务执行节点执行聚合式大数据查询任务。本发明提供的聚合式大数据查询方法及装置,通过确定所述数据量最大的数据组所对应的查询任务的数据处理节点为查询任务执行节点,可以减小聚合式大数据查询过程中数据传输的网络开销。

    创建数据库表的样本的方法、系统和计算机可读存储介质

    公开(公告)号:CN105493085B

    公开(公告)日:2019-06-18

    申请号:CN201480046615.6

    申请日:2014-06-26

    IPC分类号: G06F16/2453 G06F16/22

    摘要: 用于查询大小估计的显著性采样包括识别出一数据库表中的两个或更多列,其在一个或多个其他表中具有相应的列。对所识别出的列中的每一列的域应用一个或多个散列函数。对第一列的域应用第一散列函数,并且对第二列的域应用第二散列函数。选择数据库表中的行的子集。所述选择包括选择数据库表中的其中第一散列函数的结果满足第一数值阈值的各行,以及选择数据库表中的其中第二散列函数的结果满足第二数值阈值的各行。创建对应于数据库表的样本数据库表。所述样本数据库表包括数据库表中的行的所选子集。

    一种面向流式大数据的基数估计方法

    公开(公告)号:CN106709001A

    公开(公告)日:2017-05-24

    申请号:CN201611201376.4

    申请日:2016-12-22

    IPC分类号: G06F17/30

    CPC分类号: G06F16/2462 G06F16/24545

    摘要: 本发明公开了一种面向流式大数据的基数估计方法,所述面向流式大数据的基数估计方法针对流式大数据,通过降低计算精度提高基数估计效率;对HyperLogLog Counting算法所需的中间统计信息进行分区计算,选择高效的哈希算法和最优的分桶个数,通过改进的分桶方法将哈希过的数据较为均匀的映射到m个不同的桶号中,并进行增量维护,再进行合并得到最终的中间统计信息,从而计算基数估计值。本发明有效的利用了历史数据,避免了重复计算,极大的提高了基数估计的效率;实现了高精度基数估计,相比传统算法给出了高效的分桶方法,提高了基数估计的精度;算法空间复杂度很低,降低了计算资源消耗。

    数据库操作方法及装置
    7.
    发明公开

    公开(公告)号:CN106503007A

    公开(公告)日:2017-03-15

    申请号:CN201510563745.3

    申请日:2015-09-08

    发明人: 王晶昱

    IPC分类号: G06F17/30

    摘要: 本申请提供一种数据库操作方法及装置。方法包括:在应用服务器执行目标事务的过程中,依次获取应用服务器执行到的目标事务中的数据库操作指令;对数据库操作指令进行预测执行,将预测执行结果返回给应用服务器以供应用服务器确定下一个需要执行的数据库操作指令,并在本地记录数据库操作指令以及预测执行产生的预测执行数据;当获取到目标事务中的事务提交指令时,根据内存库中存储的数据库操作指令以及预测执行数据,控制应用服务器对应的数据库实际执行目标事务。本申请可以提高事务执行效率并增大事务吞吐量。

    用于查询大小估计的显著性采样

    公开(公告)号:CN105493085A

    公开(公告)日:2016-04-13

    申请号:CN201480046615.6

    申请日:2014-06-26

    IPC分类号: G06F17/30

    摘要: 用于查询大小估计的显著性采样包括识别出一数据库表中的两个或更多列,其在一个或多个其他表中具有相应的列。对所识别出的列中的每一列的域应用一个或多个散列函数。对第一列的域应用第一散列函数,并且对第二列的域应用第二散列函数。选择数据库表中的行的子集。所述选择包括选择数据库表中的其中第一散列函数的结果满足第一数值阈值的各行,以及选择数据库表中的其中第二散列函数的结果满足第二数值阈值的各行。创建对应于数据库表的样本数据库表。所述样本数据库表包括数据库表中的行的所选子集。