对于半结构化数据的列状数据布置

    公开(公告)号:CN108369598A

    公开(公告)日:2018-08-03

    申请号:CN201680073840.8

    申请日:2016-10-19

    IPC分类号: G06F17/30

    摘要: 提供了用于将半结构化层级数据去规范化为虚拟表的技术。在实施例中,半结构化数据文档集合的至少一部分被去规范化,用于改进涉及遍历半结构化数据文档集合的半结构化数据层级的查询的执行。基于提取出的半结构化数据的模式,生成去规范化布置,其中半结构化数据的层级关系被转换为列集合。通过将去规范化布置应用到半结构化数据上,去规范化布置在虚拟表中进行物化。在实施例中,接收到的涉及遍历半结构化数据层级的查询被转换为可以在虚拟表上执行的关系查询。在虚拟表上执行关系查询改进了生成结果数据集的性能。

    跳过树形连接
    22.
    发明授权

    公开(公告)号:CN104769576B

    公开(公告)日:2018-03-09

    申请号:CN201380050050.4

    申请日:2013-09-24

    IPC分类号: G06F17/00 G06F17/30

    摘要: 提出了一种用于连接来自数据库表的记录的方法。将连接属性排序为序列S0,并且将作用域C初始化为空。识别包括连接属性A的表,该连接属性是S0中的第一个。新序列S从S0中删掉A。遍历每个所识别的表的迭代按照连接属性A的顺序进行。该迭代使用针对每个所识别的表的树形索引结构,在该树形索引结构中索引关键字包括按照S0顺序的所识别的表中的所有连接属性。针对在迭代期间定位的连接属性的每个匹配值v,通过将“A=v”附加至作用域C来创建新作用域Cv。如果S为空,则输出对应于作用域Cv的元组。否则,将S0设定为S并且针对每个作用域Cv,将C设定为Cv并且递归调用从识别步骤开始的步骤。

    数据表的查询方法和装置
    24.
    发明公开

    公开(公告)号:CN106933918A

    公开(公告)日:2017-07-07

    申请号:CN201511032612.X

    申请日:2015-12-31

    发明人: 洪超 黄健 何恺铎

    IPC分类号: G06F17/30

    CPC分类号: G06F17/30442 G06F17/30466

    摘要: 本申请公开了一种数据表的查询方法和装置。其中,该查询方法包括:获取查询请求中携带的过滤条件,其中,过滤条件用于指示获取不存在其他实体的目标实体信息;基于过滤条件,获取其他实体和目标实体对应的多个数据表;获取多个数据表的表关系,其中,表关系中记录有各个数据表的连接字段;利用连接字段,按照预定连接方式对多个数据表进行反连接,得到查询请求的结果。通过本申请,解决了现有技术查询数据表的效率低的技术问题。

    采用位置信息剖析数据
    25.
    发明公开

    公开(公告)号:CN104769586A

    公开(公告)日:2015-07-08

    申请号:CN201380055344.6

    申请日:2013-10-22

    发明人: 阿伦·安德森

    IPC分类号: G06F17/30

    摘要: 剖析数据包括处理被访问的记录集合(203),包括:对在第一组一个或多个字段上出现的第一组特异值,产生相应的位置信息;对第一组字段,产生相应的条目列表(209),其从第一组特异值中识别一个特异值以及该特异值的位置信息;对第二组一个或多个字段,产生相应的条目列表(209),每个条目从出现在第二组字段的第二组特异值中识别一个特异值;和至少部分基于下述产生结果信息(240):采用出现在第一组字段的至少一个值的位置信息对集合中的至少一个记录进行定位,确定在该被定位记录的第二组字段中所出现的至少一个值。

    一种针对混合型大数据处理系统的数据交互分析方法

    公开(公告)号:CN104391957A

    公开(公告)日:2015-03-04

    申请号:CN201410710850.0

    申请日:2014-12-01

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种针对混合型大数据处理系统的数据交互分析方法,属于大数据分析技术领域,混合型大数据处理系统是基于HBase数据库及基于内存计算引擎的Hive系统构建,交互查询sql语句由客户端发出,包括针对Hive表和HBase表的join操作,其特征在于采用bucketjoin方法进行数据交互,bucketjoin方法包括数据准备过程和运行时执行过程。本发明通过分桶、coprocessr和mapjoin的方式,大大提高了跨Hive和HBase系统的关联分析性能,能够满足行业大数据针对混合处理系统的交互分析业务应用需求。

    模糊数据操作
    27.
    发明授权

    公开(公告)号:CN102197406B

    公开(公告)日:2014-10-15

    申请号:CN200980142344.3

    申请日:2009-10-23

    发明人: 阿伦.安德森

    IPC分类号: G06N7/02

    摘要: 一种用于对存储在数据存储系统中的数据元素进行聚类的方法包括从数据存储系统读取数据元素。形成数据元素的聚类,其中,每一个数据元素是至少一个聚类的成员。将至少一个数据元素与两个或多个聚类相关联。该数据元素的属于所述两个或多个聚类的各自一个的成员资格由不明确性度量表示。将表示所形成的聚类的信息存储在数据存储系统中。