基于SIMD指令的图数据库中集合求交方法和装置

    公开(公告)号:CN108897787A

    公开(公告)日:2018-11-27

    申请号:CN201810588419.1

    申请日:2018-06-08

    申请人: 北京大学

    发明人: 韩硕 邹磊

    IPC分类号: G06F17/30

    摘要: 本申请属于数据库技术领域,具体涉及一种基于SIMD指令的图数据库中集合求交方法和装置。该方法通过将目标图中的每个图顶点的邻居顶点集合表示为一个对应的位图,然后将各位图划分为长度相等的数据域,为每个数据域设置一个对应的基址域,再利用SIMD指令对位图进行求交来获取目标图中图顶点的邻居顶点集合的求交结果,可以提高使用SIMD指令进行集合求交时的数据层级并行度,从而节省集合求交所用的时间;另外,通过字节检查方法过滤两个位图的基址域中不可能相等的基址域,再对两个位图的基址域中可能相等的基址域进行对齐比较,然后再获取相等的基址域对应的数据域的逻辑与操作结果,可以减少对两个集合的基址域进行比较的次数,节省了时间。

    路径查询的方法和装置
    22.
    发明公开

    公开(公告)号:CN107463671A

    公开(公告)日:2017-12-12

    申请号:CN201710657819.9

    申请日:2017-08-03

    申请人: 北京大学

    发明人: 张雨 曾立 邹磊

    IPC分类号: G06F17/30

    摘要: 本发明提供了一种路径查询的方法和装置,属于计算机技术领域。该方法包括:确定查询条件所对应的正则路径查询;基于预设的正则路径转换表,将正则表达式中包含第一正则符号的谓词表达式转换为包含第二正则符号的谓词表达式,在进行转换后的正则表达式中,确定不包含第二正则符号的谓词表达式序列T[i],对每个T[i]进行查询,得到包含T[i]的至少一条路径和T[i]对应的中间节点集,根据每个T[i]对应的中间节点集,对转换后的正则表达式中被T[i]分割的包含第二正则符号的谓词表达式序列L[j]进行查询,得到包含L[j]的至少一条路径,将包含T[i]的至少一条路径与包含L[j]的至少一条路径进行拼接,得到满足查询条件的至少一条路径。采用本发明,可以提高查询效率。

    自然语言问答方法及装置
    23.
    发明公开

    公开(公告)号:CN104915340A

    公开(公告)日:2015-09-16

    申请号:CN201410085902.X

    申请日:2014-03-10

    IPC分类号: G06F17/30 G06F17/27

    摘要: 本发明实施例公开了一种自然语言问答方法及装置,属于信息检索和处理领域。所述方法包括:获取自然语言问句N;将所述自然语言问句N转换为查询语义图Qs,所述查询语义图Qs中的每条边代表所述自然语言问句N中的一个语义关系;在RDF图G中查找与所述查询语义图Qs匹配的子图;根据所述子图得到所述自然语言问句N的答案。本发明实施例解决了在问题理解阶段需要耗费很大的计算量来消歧的问题;达到了提供了一种全新的自然语言问答机制,将自然语言问句N转换为查询语义图Qs时不需要消歧,消歧过程在查找与查询语义图Qs匹配的子图的过程中自然完成的效果。

    一种大规模数据集上的关系查询方法

    公开(公告)号:CN102332009B

    公开(公告)日:2013-09-04

    申请号:CN201110259125.2

    申请日:2011-09-02

    申请人: 北京大学

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种大规模数据集上的关系查询方法,属于语义网领域。本方法为:1)计算语义数据有向图G中只包含同一种标签的连通子图;2)合并连通子图,将有向图G划分为若干子图;3)计算合并后的每一子图中最强连通子图C,并计算其二部图;4)将所有子图C的最短路径存储到一路径集合RS中;5)记录划分的每一子图中具有标签非冗余路径的两个点的标签,得到每一子图的标签集合;6)利用标签集合判断有向图G中是否存在符合查询条件的路径;如果有,则返回查询路径结果;否则,在子图之间进行遍历,根据集合RS确定可到达目标节点的子图,然后利用该子图的标签集合返回查询路径结果。本发明支持海量数据的关系查询,并且扩展性强。

    事务处理方法、装置及电子设备
    25.
    发明公开

    公开(公告)号:CN115292335A

    公开(公告)日:2022-11-04

    申请号:CN202210495253.5

    申请日:2022-05-07

    申请人: 北京大学

    发明人: 邹磊 章喆

    IPC分类号: G06F16/23 G06F16/21

    摘要: 本申请实施例提供了一种事务处理方法、装置及电子设备。该方法包括:检测第一事务针对的目标数据是否被第二事务所占用,该第一事务包括处理目标数据的操作,第二事务是与第一事务并行的其他事务;响应于目标数据被第二事务所占用,根据该第二事务对目标数据的占用类型和该第一事务包括的处理目标数据的操作的类型,执行第一事务包括的操作以处理目标数据。本申请实施例无需系统调用对并行的第一事务和第二事务针对同一目标数据进行处理的场景进行控制,避免了频繁陷入操作系统内核态,提高了事务处理效率,提高了系统的吞吐量。

    数据查询的方法和装置
    26.
    发明授权

    公开(公告)号:CN107145512B

    公开(公告)日:2019-10-18

    申请号:CN201710208998.8

    申请日:2017-03-31

    申请人: 北京大学

    发明人: 韩硕 邹磊

    IPC分类号: G06F16/2453

    摘要: 本发明公开了一种数据查询的方法和装置,属于数据库技术领域。方法包括:获取用户输入的查询信息,对查询信息进行分词得到第一关键词;根据每个第一关键词,从数据图中选择每个第一关键词对应的第二关键词和角色,得到每个第二关键词和每个第二关键词的角色;根据每个第二关键词和每个第二关键词的角色,确定至少一个跨接边,每个跨接边连接角色为顶点的任意两个第二关键词和角色为关系边的任意一个第二关键词;确定每个跨接边的边权,并根据每个跨接边的边权,选择边权最小的预设数目个目标跨接边;根据预设数目个目标跨接边,确定查询图;从数据图中查询查询图对应的查询数据,输出查询数据。提高了数据查询的准确率。

    一种数据查询的方法和装置

    公开(公告)号:CN104765790B

    公开(公告)日:2019-09-20

    申请号:CN201510131306.5

    申请日:2015-03-24

    IPC分类号: G06F16/245

    摘要: 本发明公开了一种数据查询的方法和装置,属于计算机技术领域。所述方法包括:基于预设编码算法,确定数据库中的数值型数据对应的编码;根据数据库中各数值型数据对应的编码,建立位向量查询树;当接收到携带有数值范围条件的查询请求时,基于所述预设编码算法,分别确定所述数值范围条件中上限的数值型数据对应的第一编码以及下限的数值型数据对应的第二编码;根据所述位向量查询树,以及所述第一编码和所述第二编码进行按位与处理得到的第三编码,查询所述数据库中符合所述查询请求的数值型数据。采用本发明,可以提高数据查询的效率。

    自然语言问答方法及装置
    28.
    发明授权

    公开(公告)号:CN104915340B

    公开(公告)日:2019-09-10

    申请号:CN201410085902.X

    申请日:2014-03-10

    IPC分类号: G06F16/332 G06F17/27

    摘要: 本发明实施例公开了一种自然语言问答方法及装置,属于信息检索和处理领域。所述方法包括:获取自然语言问句N;将所述自然语言问句N转换为查询语义图Qs,所述查询语义图Qs中的每条边代表所述自然语言问句N中的一个语义关系;在RDF图G中查找与所述查询语义图Qs匹配的子图;根据所述子图得到所述自然语言问句N的答案。本发明实施例解决了在问题理解阶段需要耗费很大的计算量来消歧的问题;达到了提供了一种全新的自然语言问答机制,将自然语言问句N转换为查询语义图Qs时不需要消歧,消歧过程在查找与查询语义图Qs匹配的子图的过程中自然完成的效果。

    数据的修复方法及装置
    29.
    发明授权

    公开(公告)号:CN105094209B

    公开(公告)日:2018-12-28

    申请号:CN201410201689.4

    申请日:2014-05-13

    IPC分类号: G06F1/14 G06F17/30

    摘要: 本发明公开了一种数据的修复方法及装置,属于信息技术领域。方法包括:根据资源描述框架RDF知识库中的数据获取RDF图数据及邻居步数;根据RDF图数据及邻居步数确定至少一个频繁图结构;挖掘每个频繁图结构中包含语义的依赖关系;根据包含语义的依赖关系检测RDF图数据中的异常数据,并对异常数据进行修复。本发明通过根据RDF图数据及邻居步数确定至少一个频繁图结构,并根据挖掘到的每个频繁图结构中包含语义的依赖关系检测RDF图数据中的异常数据,使得检测到的异常数据的错误类型较多,进而通过对检测到的异常数据进行修复,扩大了数据的修复范围。

    子图查询方法
    30.
    发明公开

    公开(公告)号:CN108121788A

    公开(公告)日:2018-06-05

    申请号:CN201711375508.X

    申请日:2017-12-19

    申请人: 北京大学

    发明人: 李友焕 邹磊

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种子图查询方法,属于计算机技术领域。所述方法包括:获取查询图,所述查询图的边集存在时序关系;基于时间窗口,获取图数据流当前的快照;基于所述查询图和所述快照,获取所述查询图当前的扩展链表,所述扩展链表包括多个链表节点,所述多个链表节点中L^i用于存储Ω(Preq(e_i));根据所述扩展链表,获取所述查询图的匹配解,所述查询图的匹配解满足时序匹配条件。本发明考虑到查询图的时序特征,保证得到的匹配解与查询图之间时序匹配,提高了子图查询过程的准确性。