一种基于状态视图的Hilbert曲线编码和解码方法

    公开(公告)号:CN110457317A

    公开(公告)日:2019-11-15

    申请号:CN201910666140.5

    申请日:2019-07-23

    IPC分类号: G06F16/22 G06F16/29

    摘要: 本发明涉及一种基于状态视图的Hilbert曲线编码和解码方法,属于地理信息系统技术领域。本发明包括Hilbert曲线状态视图构建阶段,对给定状态,分别构建2个用于编码的物理坐标和编码值的映射表、物理坐标和下一阶状态的映射表以及2个用于解码的编码值和物理坐标的反向映射表、编码值和下一阶状态的反向映射表;Hilbert曲线编码阶段,从输入坐标x和y的二进制表示中最大不全为0的位开始查询状态图,计算Hilbert编码;Hilbert解码阶段,从输入的Hilbert编码的二进制表示中最大不为0的位置开始查询状态视图,计算物理坐标值。本发明可降低Hilbert编码的复杂度,且能更好地适应数据的偏斜分布。

    一种基于Trie的空间关键词查询方法及装置

    公开(公告)号:CN108874880A

    公开(公告)日:2018-11-23

    申请号:CN201810419804.3

    申请日:2018-05-04

    IPC分类号: G06F17/30

    摘要: 本发明涉及一种基于Trie的空间关键词查询方法及装置,本发明方法包括:数据预处理步骤,将数据集D中所有位置点编码成长度为n的字符串geoStr,根据字符串geoStr后缀ssuf按字典序对数据集D中的每行数据排序并生成编号id,每一行数据称为一条记录r,则由一至多行记录r组成的数据集称为记录集R;空间关键词索引建立步骤,对字符串前缀spre构建Trie,Trie的叶节点指向根据该域内关键词构建的倒排索引,倒排索引的列表元素为关键词及与其相对应的id列表,得到空间关键词索引结构;空间关键词查询步骤,检索空间关键词索引结构,获取满足查询条件的id,经过滤得到id候选集,并对候选集验证返回满足空间查询条件的位置点。本发明可高效支持任意空间范围的关键词查询。

    一种基于状态视图的Hilbert曲线编码和解码方法

    公开(公告)号:CN110457317B

    公开(公告)日:2023-06-20

    申请号:CN201910666140.5

    申请日:2019-07-23

    IPC分类号: G06F16/22 G06F16/29

    摘要: 本发明涉及一种基于状态视图的Hilbert曲线编码和解码方法,属于地理信息系统技术领域。本发明包括Hilbert曲线状态视图构建阶段,对给定状态,分别构建2个用于编码的物理坐标和编码值的映射表、物理坐标和下一阶状态的映射表以及2个用于解码的编码值和物理坐标的反向映射表、编码值和下一阶状态的反向映射表;Hilbert曲线编码阶段,从输入坐标x和y的二进制表示中最大不全为0的位开始查询状态图,计算Hilbert编码;Hilbert解码阶段,从输入的Hilbert编码的二进制表示中最大不为0的位置开始查询状态视图,计算物理坐标值。本发明可降低Hilbert编码的复杂度,且能更好地适应数据的偏斜分布。

    一种基于geohash与B-Tree的空间关键词查询方法及装置

    公开(公告)号:CN108776667B

    公开(公告)日:2022-10-21

    申请号:CN201810420942.3

    申请日:2018-05-04

    IPC分类号: G06F16/9537 G06F16/31

    摘要: 本发明涉及一种基于geohash与B‑Tree的空间关键词查询方法及装置,本发明方法包括:数据预处理步骤,将数据集D中所有位置点编码成长度为n的字符串string,以string为排序对象按字典序对数据集D中的每行数据排序并生成编号id、标识flag,每一行数据称为一条记录r,则由一至多行记录r组成的数据集称为记录集R;空间关键词索引建立步骤,对string构建B‑Tree;对记录集R中的flag建立倒排索引,其列表元素为关键词及与其相对应的id列表,得到域‑关键词倒排索引结构;空间关键词查询步骤,检索B‑Tree与域‑关键词倒排索引结构,获取满足查询条件的id,经过滤得到id候选集,并对候选集验证返回满足空间查询条件的位置点。本发明可高效支持任意空间范围的关键词查询。

    一种基于Trie的空间关键词查询方法及装置

    公开(公告)号:CN108874880B

    公开(公告)日:2021-11-23

    申请号:CN201810419804.3

    申请日:2018-05-04

    摘要: 本发明涉及一种基于Trie的空间关键词查询方法及装置,本发明方法包括:数据预处理步骤,将数据集D中所有位置点编码成长度为n的字符串geoStr,根据字符串geoStr后缀ssuf按字典序对数据集D中的每行数据排序并生成编号id,每一行数据称为一条记录r,则由一至多行记录r组成的数据集称为记录集R;空间关键词索引建立步骤,对字符串前缀spre构建Trie,Trie的叶节点指向根据该域内关键词构建的倒排索引,倒排索引的列表元素为关键词及与其相对应的id列表,得到空间关键词索引结构;空间关键词查询步骤,检索空间关键词索引结构,获取满足查询条件的id,经过滤得到id候选集,并对候选集验证返回满足空间查询条件的位置点。本发明可高效支持任意空间范围的关键词查询。

    一种基于LDA的主题词嵌入消歧方法及系统

    公开(公告)号:CN111368532A

    公开(公告)日:2020-07-03

    申请号:CN202010189104.7

    申请日:2020-03-18

    摘要: 本发明涉及一种基于LDA的主题词嵌入消歧方法及系统,属于语义分析技术领域。本发明方法包括:主题模型训练步骤:基于Wiki语料库结合LDA算法训练主题模型;主题词向量生成步骤:根据Wiki语料库和主题模型,利用Word2Vec训练出主题词向量;上下文向量生成步骤:利用主题模型和主题词向量,计算出歧义词所在上下文的向量表示;有监督词义消歧步骤:将上下文向量与其他传统语义特征结合,利用SVM进行词义消歧。

    一种基于OpenMP的并行字符串查询方法

    公开(公告)号:CN110457531B

    公开(公告)日:2022-11-01

    申请号:CN201910666139.2

    申请日:2019-07-23

    IPC分类号: G06F16/901 G06F16/903

    摘要: 本发明涉及一种基于OpenMP的并行字符串查询方法,属于数据库技术领域。包括字符串数据集预处理步骤,对字符串数据集和查询集按照字典序升序排序并统计各首字母下所有字符串的字符串数量;索引创建步骤,基于贪婪分区方法将数据集划分成K个分区并创建分区表,然后基于OpenMP并行为每个分区创建独立的双数组Trie索引结构;检索步骤,对一批待查询的字典序有序的查询集,根据分区表确定各查询对应的分区号并在相应分区内进行并行检索。本发明通过贪婪分区算法和OpenMP等技术创建分区双数组,使分区负载更为均衡,进而可提高双数组创建以及检索的效率。

    一种基于LDA的主题词嵌入消歧方法及系统

    公开(公告)号:CN111368532B

    公开(公告)日:2022-12-09

    申请号:CN202010189104.7

    申请日:2020-03-18

    摘要: 本发明涉及一种基于LDA的主题词嵌入消歧方法及系统,属于语义分析技术领域。本发明方法包括:主题模型训练步骤:基于Wiki语料库结合LDA算法训练主题模型;主题词向量生成步骤:根据Wiki语料库和主题模型,利用Word2Vec训练出主题词向量;上下文向量生成步骤:利用主题模型和主题词向量,计算出歧义词所在上下文的向量表示;有监督词义消歧步骤:将上下文向量与其他传统语义特征结合,利用SVM进行词义消歧。

    一种字典序分区双数组的字符串批量查询方法及装置

    公开(公告)号:CN111339381A

    公开(公告)日:2020-06-26

    申请号:CN202010151192.1

    申请日:2020-03-06

    摘要: 本发明涉及一种字典序分区双数组字符串批量查询方法及装置,属于信息检索领域。包括:字符串数据集预处理步骤,对字符串数据集和查询集按照字典序升序排序并统计数据集中字符串的总长度;索引创建步骤,对字符串按照全部字符串长度划分成K个分区并创建分区映射表,然后为每个分区创建独立的双数组索引结构;检索步骤,对一批待查询的字典序有序的查询集,根据查询集构建分区查询表确定各查询的分区号并在相应分区内进行检索。本发明通过长度分区创建和检索双数组,使分区负载更为均衡,进而提高双数组的创建效率。

    一种基于OpenMP的并行字符串查询方法

    公开(公告)号:CN110457531A

    公开(公告)日:2019-11-15

    申请号:CN201910666139.2

    申请日:2019-07-23

    IPC分类号: G06F16/901 G06F16/903

    摘要: 本发明涉及一种基于OpenMP的并行字符串查询方法,属于数据库技术领域。包括字符串数据集预处理步骤,对字符串数据集和查询集按照字典序升序排序并统计各首字母下所有字符串的字符串数量;索引创建步骤,基于贪婪分区方法将数据集划分成K个分区并创建分区表,然后基于OpenMP并行为每个分区创建独立的双数组Trie索引结构;检索步骤,对一批待查询的字典序有序的查询集,根据分区表确定各查询对应的分区号并在相应分区内进行并行检索。本发明通过贪婪分区算法和OpenMP等技术创建分区双数组,使分区负载更为均衡,进而可提高双数组创建以及检索的效率。