一种大数据多区间查询条件下的基数估计方法及装置

    公开(公告)号:CN103544258A

    公开(公告)日:2014-01-29

    申请号:CN201310484503.6

    申请日:2013-10-16

    IPC分类号: G06F17/30

    CPC分类号: G06F17/30864

    摘要: 本发明涉及一种大数据多区间查询条件下的基数估计方法及装置,包括以下步骤:按照数值属性对大数据预先划分成多个分区;建立树形索引结构,每个分区作为树形索引结构的一个节点;获取待写入树形索引结构的数据源,对支持区间查询条件的数据源进行倒排索引处理;将经过倒排索引处理的数据源写入树形索引结构中的节点内,将数据源的相应部分分别写入数据文件及基数估算器内;根据区间查询条件在树形索引结构中查询满足区间查询条件的节点,得到节点中的基数估算器,对基数估算器进行逻辑处理,得到基数估算值。本发明通过降低数据的计算精度提高基数统计效率,在任意多区间查询条件下,具备较高的查询效率,使用了大数据增量更新技术提高索引数据在线更新效率。

    一种大数据多区间查询条件下的基数估计方法及装置

    公开(公告)号:CN103544258B

    公开(公告)日:2016-11-30

    申请号:CN201310484503.6

    申请日:2013-10-16

    IPC分类号: G06F17/30

    摘要: 本发明涉及一种大数据多区间查询条件下的基数估计方法及装置,包括以下步骤:按照数值属性对大数据预先划分成多个分区;建立树形索引结构,每个分区作为树形索引结构的一个节点;获取待写入树形索引结构的数据源,对支持区间查询条件的数据源进行倒排索引处理;将经过倒排索引处理的数据源写入树形索引结构中的节点内,将数据源的相应部分分别写入数据文件及基数估算器内;根据区间查询条件在树形索引结构中查询满足区间查询条件的节点,得到节点中的基数估算器,对基数估算器进行逻辑处理,得到基数估算值。本发明通过降低数据的计算精度提高基数统计效率,在任意多区间查询条件下,具备较高的查询效率,使用了大数据增量更新技术提高索引数据在线更新效率。

    一种基于多GPU的强连通图检测方法

    公开(公告)号:CN110264392A

    公开(公告)日:2019-09-20

    申请号:CN201910371236.9

    申请日:2019-05-06

    IPC分类号: G06T1/20 G06T1/60

    摘要: 本发明提出一种基于多GPU的强连通图检测方法,包括以下步骤:加载图数据并统一存储格式;对图数据进行预处理,包括按照分区个数进行图分割并进行分区保存,对相互链接的处于不同分区的顶点进行复制顶点处理;将预处理好的数据存入多个GPU中,以复制顶点为中心进行广度优先遍历并记录复制边信息;将复制边传回CPU,检测强连通图并标记属于同一个强连通图的顶点;将标记的顶点传回上述多个GPU中,进行强连通图检测。

    一种基于非确定主动学习的多分类器训练方法及分类方法

    公开(公告)号:CN104657744A

    公开(公告)日:2015-05-27

    申请号:CN201510046879.8

    申请日:2015-01-29

    IPC分类号: G06K9/62

    CPC分类号: G06K9/6256 G06K9/627

    摘要: 本发明公开了一种基于非确定主动学习的多分类器训练方法及分类方法。本方法为:1)选取或初始化一多分类器;对未标注样本集中的每一样本,利用该多分类器计算该样本的总体信息量Info;所述总体信息量为:模型变更信息量与模型调优信息量之和;2)对该未标注样本集进行聚类,得到J个子类;3)从每个子类中选取总体信息量Info值最小的若干未标注样本;再从所选样本中选取K个样本进行标注后加入到已标注样本集L;4)将更新后的已标注集L作为训练数据重新训练该多分类器;5)迭代执行步骤1)~4)设定次数;然后利用最终得到的多分类器对未标注集进行分类。本发明实现样本信息量的综合评价,从而获得高效化、智能化的多分类器。

    数据处理方法及装置
    9.
    发明公开

    公开(公告)号:CN103218176A

    公开(公告)日:2013-07-24

    申请号:CN201310113197.5

    申请日:2013-04-02

    IPC分类号: G06F3/06 G06F12/02

    摘要: 本发明涉及一种数据处理方法及装置。其中,数据处理方法包括:创建共享内存环,所述共享内存环为存储待操作数据的环形结构空间;在对共享内存环中下一个操作目的单元进行操作前,将所述下一个操作目的单元的操作标志位设置为对应下一个操作的操作类型;判断所述下一个操作目的单元是否能够进行所述下一个操作;根据判断结果对所述下一个操作目的单元中的数据进行处理。本发明的数据处理方法及装置,设计了一种共享内存中的环形数据结构,结合生产者和消费者的数据协调规则和共享内存环覆写机制,基于原子位操作对环的控制标识位进行更新,提高了数据并行处理场景下共享资源的数据读写效率,减小数据同步的开销,从而解决了共享资源读写效率低、同步开销大的问题。

    GPU上的基于边着色与信息更新率优化的置信传播方法

    公开(公告)号:CN112257866B

    公开(公告)日:2024-09-27

    申请号:CN202010940904.8

    申请日:2020-09-09

    IPC分类号: G06N5/04 G06T1/20

    摘要: 本发明公开了一种GPU上的基于边着色与信息更新率优化的置信传播方法。本方法针对在全局都有较高收敛速度的计算需求,直接使用信息残差大的边对信息残差小的边进行一次着色操作,则信息残差大的边会对与其相连的所有边进行着色,只更新这些信息残差大的边上的信息,降低了每次迭代置信传播的计算量,提升了置信传播算法在整个计算过程中的收敛速度。以及针对在算法稳定后有较高收敛度的计算需求,提出通过逐步降低未收敛信息的更新率,使得算法在整个计算过程中都保持较高的收敛速度,并且算法稳定时有较高的收敛度。本发明提升了置信传播方法整体的运行效率。