一种基于geohash与Patricia Trie的空间关键词查询方法及装置

    公开(公告)号:CN108846013B

    公开(公告)日:2021-11-23

    申请号:CN201810419803.9

    申请日:2018-05-04

    摘要: 本发明涉及一种基于geohash与Patricia Trie的空间关键词查询方法,方法包括:通过geohash空间编码方法将数据集D中所有位置点编码成长度为n的字符串geoStr,以geoStr为排序对象按字典序对数据集D中的每行数据排序并生成编号id;对geoStr构建Patricia Trie,Patricia Trie的叶节点指向根据该域内关键词构建的倒排索引,倒排索引的列表元素为关键词及与其相对应的id列表,得到空间关键词索引结构;检索空间关键词索引结构,获取满足查询条件的id,经过滤得到id候选集,并对候选集验证返回满足空间查询条件的位置点。本发明可高效支持任意空间范围的关键词查询。

    一种基于word2vec的语义查询扩展方法及装置

    公开(公告)号:CN108491462B

    公开(公告)日:2021-09-14

    申请号:CN201810179478.3

    申请日:2018-03-05

    摘要: 本发明公开了一种基于word2vec的查询扩展方法及装置,属于信息检索技术领域。本发明方法包括:用户给定查询的预处理步骤:对查询进行分词处理,去除停用词并进行词干还原;扩展词候选集选取步骤:使用word2vec工具选取初始扩展词;建立扩展词表步骤:对扩展词候选集进行过滤,建立实际扩展词表;扩展检索步骤:将用户查询及其扩展词与索引集进行匹配,返回相关文档并排序。本发明提出一种面向扩展词的查询向量生成方法来过滤候选扩展词并构建扩展词表,从而更好的体现扩展词与整个查询的相关性,进而提高查询扩展的效果。

    一种基于状态视图的Hilbert曲线编码和解码方法

    公开(公告)号:CN110457317A

    公开(公告)日:2019-11-15

    申请号:CN201910666140.5

    申请日:2019-07-23

    IPC分类号: G06F16/22 G06F16/29

    摘要: 本发明涉及一种基于状态视图的Hilbert曲线编码和解码方法,属于地理信息系统技术领域。本发明包括Hilbert曲线状态视图构建阶段,对给定状态,分别构建2个用于编码的物理坐标和编码值的映射表、物理坐标和下一阶状态的映射表以及2个用于解码的编码值和物理坐标的反向映射表、编码值和下一阶状态的反向映射表;Hilbert曲线编码阶段,从输入坐标x和y的二进制表示中最大不全为0的位开始查询状态图,计算Hilbert编码;Hilbert解码阶段,从输入的Hilbert编码的二进制表示中最大不为0的位置开始查询状态视图,计算物理坐标值。本发明可降低Hilbert编码的复杂度,且能更好地适应数据的偏斜分布。

    一种基于word2vec的语义查询扩展方法及装置

    公开(公告)号:CN108491462A

    公开(公告)日:2018-09-04

    申请号:CN201810179478.3

    申请日:2018-03-05

    IPC分类号: G06F17/30 G06F17/27

    摘要: 本发明公开了一种基于word2vec的语义查询扩展方法及装置,属于信息检索技术领域。本发明方法包括:用户给定查询的预处理步骤:对查询进行分词处理,去除停用词并进行词干还原;扩展词候选集选取步骤:使用word2vec工具选取初始扩展词;建立扩展词表步骤:对扩展词候选集进行过滤,建立实际扩展词表;扩展检索步骤:将用户查询及其扩展词与索引集进行匹配,返回相关文档并排序。本发明提出一种面向扩展词的查询向量生成方法来过滤候选扩展词并构建扩展词表,从而更好的体现扩展词与整个查询的相关性,进而提高查询扩展的效果。

    一种基于OpenMP的并行字符串查询方法

    公开(公告)号:CN110457531B

    公开(公告)日:2022-11-01

    申请号:CN201910666139.2

    申请日:2019-07-23

    IPC分类号: G06F16/901 G06F16/903

    摘要: 本发明涉及一种基于OpenMP的并行字符串查询方法,属于数据库技术领域。包括字符串数据集预处理步骤,对字符串数据集和查询集按照字典序升序排序并统计各首字母下所有字符串的字符串数量;索引创建步骤,基于贪婪分区方法将数据集划分成K个分区并创建分区表,然后基于OpenMP并行为每个分区创建独立的双数组Trie索引结构;检索步骤,对一批待查询的字典序有序的查询集,根据分区表确定各查询对应的分区号并在相应分区内进行并行检索。本发明通过贪婪分区算法和OpenMP等技术创建分区双数组,使分区负载更为均衡,进而可提高双数组创建以及检索的效率。

    一种基于状态视图的Hilbert曲线编码和解码方法

    公开(公告)号:CN110457317B

    公开(公告)日:2023-06-20

    申请号:CN201910666140.5

    申请日:2019-07-23

    IPC分类号: G06F16/22 G06F16/29

    摘要: 本发明涉及一种基于状态视图的Hilbert曲线编码和解码方法,属于地理信息系统技术领域。本发明包括Hilbert曲线状态视图构建阶段,对给定状态,分别构建2个用于编码的物理坐标和编码值的映射表、物理坐标和下一阶状态的映射表以及2个用于解码的编码值和物理坐标的反向映射表、编码值和下一阶状态的反向映射表;Hilbert曲线编码阶段,从输入坐标x和y的二进制表示中最大不全为0的位开始查询状态图,计算Hilbert编码;Hilbert解码阶段,从输入的Hilbert编码的二进制表示中最大不为0的位置开始查询状态视图,计算物理坐标值。本发明可降低Hilbert编码的复杂度,且能更好地适应数据的偏斜分布。

    一种基于关键词倒排与Trie的空间关键词查询方法及装置

    公开(公告)号:CN108776666B

    公开(公告)日:2022-05-20

    申请号:CN201810420941.9

    申请日:2018-05-04

    IPC分类号: G06F16/31 G06F16/9537

    摘要: 本发明涉及一种基于关键词倒排与Trie的空间关键词查询方法及装置,本发明方法包括:数据预处理步骤,将数据集D中所有位置点编码成长度为n的字符串,以该字符串为排序对象按字典序对数据集D中每行数据排序并生成编号id,每一行数据称为一条记录r,则由一至多行记录r组成的数据集称为记录集R;空间关键词索引建立步骤,对记录集R中关键词集建立倒排索引,之后,对任一关键词所属id对应的字符串构建Trie,得到关键词倒排与Trie组合的索引结构;空间关键词查询步骤,检索关键词倒排与Trie组合的索引结构,获取满足查询条件的id,经过滤得到id候选集,并对候选集验证返回满足空间查询条件的位置点。本发明可高效支持任意空间范围的关键词查询。

    一种基于分区双数组Trie的字符串检索方法及装置

    公开(公告)号:CN108509505B

    公开(公告)日:2022-04-12

    申请号:CN201810179880.1

    申请日:2018-03-05

    IPC分类号: G06F16/9032 G06F16/901

    摘要: 本发明涉及一种基于分区双数组Trie的字符串检索方法及装置,属于数据库技术领域。本发明包括数据预处理步骤,对字符串排序并统计不同首字符的字符串数量;索引创建步骤,根据输入的分区数量N进行分区划分,生成分区映射表并为每个分区创建独立的双数组Trie索引结构;检索步骤,输入检索的字符串,在分区双数组Trie索引结构上进行检索。本发明通过创建分区双数组,可有效降低传统双数组创建过程的冲突和处理冲突的代价,能够大幅提高索引创建的效率以及检索的效率。

    一种基于geohash与Patricia Trie的空间关键词查询方法及装置

    公开(公告)号:CN108846013A

    公开(公告)日:2018-11-20

    申请号:CN201810419803.9

    申请日:2018-05-04

    IPC分类号: G06F17/30

    摘要: 本发明涉及一种基于geohash与Patricia Trie的空间关键词查询方法及装置,本发明方法包括:数据预处理步骤,通过geohash空间编码方法将数据集D中所有位置点编码成长度为n的字符串geoStr,以geoStr为排序对象按字典序对数据集D中的每行数据排序并生成编号id;空间关键词索引建立步骤,对geoStr构建Patricia Trie,Patricia Trie的叶节点指向根据该域内关键词构建的倒排索引,倒排索引的列表元素为关键词及与其相对应的id列表,得到空间关键词索引结构;其中,该域指从根节点到叶节点所构成的字符串;空间关键词查询步骤,检索空间关键词索引结构,获取满足查询条件的id,经过滤得到id候选集,并对候选集验证返回满足空间查询条件的位置点。本发明可高效支持任意空间范围的关键词查询。

    一种基于分区双数组Trie的字符串检索方法及装置

    公开(公告)号:CN108509505A

    公开(公告)日:2018-09-07

    申请号:CN201810179880.1

    申请日:2018-03-05

    IPC分类号: G06F17/30

    摘要: 本发明涉及一种基于分区双数组Trie的字符串检索方法及装置,属于数据库技术领域。本发明包括数据预处理步骤,对字符串排序并统计不同首字符的字符串数量;索引创建步骤,根据输入的分区数量N进行分区划分,生成分区映射表并为每个分区创建独立的双数组Trie索引结构;检索步骤,输入检索的字符串,在分区双数组Trie索引结构上进行检索。本发明通过创建分区双数组,可有效降低传统双数组创建过程的冲突和处理冲突的代价,能够大幅提高索引创建的效率以及检索的效率。