一种基于关键词倒排与Trie的空间关键词查询方法及装置

    公开(公告)号:CN108776666B

    公开(公告)日:2022-05-20

    申请号:CN201810420941.9

    申请日:2018-05-04

    Abstract: 本发明涉及一种基于关键词倒排与Trie的空间关键词查询方法及装置,本发明方法包括:数据预处理步骤,将数据集D中所有位置点编码成长度为n的字符串,以该字符串为排序对象按字典序对数据集D中每行数据排序并生成编号id,每一行数据称为一条记录r,则由一至多行记录r组成的数据集称为记录集R;空间关键词索引建立步骤,对记录集R中关键词集建立倒排索引,之后,对任一关键词所属id对应的字符串构建Trie,得到关键词倒排与Trie组合的索引结构;空间关键词查询步骤,检索关键词倒排与Trie组合的索引结构,获取满足查询条件的id,经过滤得到id候选集,并对候选集验证返回满足空间查询条件的位置点。本发明可高效支持任意空间范围的关键词查询。

    一种基于分区双数组Trie的字符串检索方法及装置

    公开(公告)号:CN108509505B

    公开(公告)日:2022-04-12

    申请号:CN201810179880.1

    申请日:2018-03-05

    Abstract: 本发明涉及一种基于分区双数组Trie的字符串检索方法及装置,属于数据库技术领域。本发明包括数据预处理步骤,对字符串排序并统计不同首字符的字符串数量;索引创建步骤,根据输入的分区数量N进行分区划分,生成分区映射表并为每个分区创建独立的双数组Trie索引结构;检索步骤,输入检索的字符串,在分区双数组Trie索引结构上进行检索。本发明通过创建分区双数组,可有效降低传统双数组创建过程的冲突和处理冲突的代价,能够大幅提高索引创建的效率以及检索的效率。

    一种基于Trie的空间关键词查询方法及装置

    公开(公告)号:CN108874880B

    公开(公告)日:2021-11-23

    申请号:CN201810419804.3

    申请日:2018-05-04

    Abstract: 本发明涉及一种基于Trie的空间关键词查询方法及装置,本发明方法包括:数据预处理步骤,将数据集D中所有位置点编码成长度为n的字符串geoStr,根据字符串geoStr后缀ssuf按字典序对数据集D中的每行数据排序并生成编号id,每一行数据称为一条记录r,则由一至多行记录r组成的数据集称为记录集R;空间关键词索引建立步骤,对字符串前缀spre构建Trie,Trie的叶节点指向根据该域内关键词构建的倒排索引,倒排索引的列表元素为关键词及与其相对应的id列表,得到空间关键词索引结构;空间关键词查询步骤,检索空间关键词索引结构,获取满足查询条件的id,经过滤得到id候选集,并对候选集验证返回满足空间查询条件的位置点。本发明可高效支持任意空间范围的关键词查询。

    一种自适应的Hilbert编码和解码方法

    公开(公告)号:CN112905851A

    公开(公告)日:2021-06-04

    申请号:CN202110225578.7

    申请日:2021-03-01

    Abstract: 本发明涉及一种自适应的Hilbert编码和解码方法,属于空间数据库索引技术领域。本发明包括Hilbert曲线状态视图构建阶段,构建编码状态视图,用于实现编码值和坐标之间的映射、及其到下一阶状态的映射;Hilbert编码阶段:根据输入数据的不同,自适应的选择不同的编码策略。对于输入坐标前部连续0超过特定阈值r的情形,采用跳过输入数据前部特定阶的策略,否则采用逐阶迭代编码的策略。对于输入坐标前部为较少的连续0开头的情况时,采用逐阶迭代编码的方式,计算Hilbert编码。本发明通过引入高效掩码操作、首1检测等技术,可避免对特定序列的迭代查表操作,可同时很好的适应均匀分布和偏斜分布的情形,具有较高的效率。

    一种基于Geo-BTree的范围查询方法及装置

    公开(公告)号:CN107766433B

    公开(公告)日:2021-05-14

    申请号:CN201710843972.0

    申请日:2017-09-19

    Abstract: 本发明涉及一种基于Geo‑BTree的范围查询方法及装置,本发明方法包括:数据预处理步骤,将数据集中所有位置点编码成长度为n的字符串string,根据字符串按字典序对数据集中的位置点排序并编号ID;空间索引建立步骤,根据排序后的字符串构建B‑Tree索引结构;范围查询步骤,以检索B‑Tree索引结构返回的ID为起始点双向搜索获取查询域内的ID,经过滤得到ID候选集,并对候选集中ID所对应的位置点验证返回查询范围内的位置点。本发明采用基于geohash编码构建B‑Tree索引结构,具有较高的查询效率,可直接用于数据管理系统中;采用geohash空间索引方法,有效支持任意范围查询。

    一种用于预测蛋白质功能的数据多标签分类方法

    公开(公告)号:CN112365931A

    公开(公告)日:2021-02-12

    申请号:CN202010984625.1

    申请日:2020-09-18

    Inventor: 丁家满 李红磊

    Abstract: 本发明涉及一种用于预测蛋白质功能的数据多标签分类方法,属于生物信息学及数据挖掘技术领域。本发明包括步骤:把蛋白质序列生物数据由字符转换成向量的形式,对高维的向量形式进行降维处理;构建用于进行蛋白质序列生物数据标签分类模型,具体的,采用二元分类器蛋白质序列生物数据进行标签分类;利用构建好的标签分类模型进行预测标签分类。本发明能够高效解决蛋白质标签缺失情况下的功能的预测问题,同时本方法可操作性强,实用性强,不仅在基本蛋白质功能预测问题上表现出了良好性能,也在其他蛋白质功能预测上表现出了良好的性能。

    一种基于概率盒模型修正的机械故障诊断方法

    公开(公告)号:CN107609216B

    公开(公告)日:2020-07-31

    申请号:CN201710673714.2

    申请日:2017-08-09

    Abstract: 本发明公开了一种基于概率盒模型修正的机械故障诊断方法,即采集工业过程的故障数据,获取原始概率盒;选择适合的概率盒模型;获取原始DSS;定义工业测试数据的综合附加信息量;提取优化的DSS;获得新的概率盒。本发明针对如何解决工业机械故障诊断过程中概率盒之间的重叠现象,提高概率盒的紧致性,提出的基于概率盒模型修正的机械故障诊断方法,通过概率盒建模方法获得工业测试数据的概率盒模型,以焦元区间的均值和相邻焦元之间数据波动量为附加信息量,利用基于最大熵的贝叶斯方法修正概率盒模型,修正后的模型紧致性得以提高,模型间的重叠现象得以改善,为进一步利用概率盒模型提高机械故障诊断正确识别率提供了更准确的信息。

    一种云计算故障数据检测方法及系统

    公开(公告)号:CN107579846B

    公开(公告)日:2020-07-10

    申请号:CN201710729189.1

    申请日:2017-08-23

    Abstract: 本发明涉及一种云计算故障数据检测方法及系统,属于云故障检测领域。本发明包括:云计算故障训练数据处理步骤,对云计算故障训练数据集中的数据进行处理,得到每条故障训练数据的隶属度、每个故障类别的故障特征权重;待检测云计算数据所属故障类别判断步骤,根据故障训练数据的处理结果并结合云计算故障训练数据集扩充规则判断待检测云计算数据所属类别;云计算故障训练数据集扩充步骤,将满足云计算故障训练数据集扩充规则的待检测云计算数据及其类别信息加入故障训练数据扩充集。本发明有助于完善故障训练数据模型,识别新的故障。

    一种APP软件用户评论有关性判断方法

    公开(公告)号:CN105975487B

    公开(公告)日:2019-07-16

    申请号:CN201610264134.3

    申请日:2016-04-26

    Abstract: 本发明涉及一种APP软件用户评论有关性判断方法,属于APP软件用户评价领域。本发明首先提取APP软件每条评论的关键词集;然后计算提取的APP软件每条评论的关键词集对特征库中的有关性概率得分;最后通过判断有关性概率得分是否大于预设阈值的情况来确定APP软件用户评论是否与该APP软件有关。本发明定义并提取APP软件用户评论关键词集,有利于提高判断用户评论有关性的效率;将朴素贝叶斯文本分类方法进行了修改,结合词频统计的方法判断APP软件用户评论有关性概率得分,有助于给用户筛选出有关评论,减少对评论筛选的时间;通过判断APP软件用户评论的有关性,有助于用户评价APP软件的质量。

    一种基于geohash与Patricia Trie的空间关键词查询方法及装置

    公开(公告)号:CN108846013A

    公开(公告)日:2018-11-20

    申请号:CN201810419803.9

    申请日:2018-05-04

    Abstract: 本发明涉及一种基于geohash与Patricia Trie的空间关键词查询方法及装置,本发明方法包括:数据预处理步骤,通过geohash空间编码方法将数据集D中所有位置点编码成长度为n的字符串geoStr,以geoStr为排序对象按字典序对数据集D中的每行数据排序并生成编号id;空间关键词索引建立步骤,对geoStr构建Patricia Trie,Patricia Trie的叶节点指向根据该域内关键词构建的倒排索引,倒排索引的列表元素为关键词及与其相对应的id列表,得到空间关键词索引结构;其中,该域指从根节点到叶节点所构成的字符串;空间关键词查询步骤,检索空间关键词索引结构,获取满足查询条件的id,经过滤得到id候选集,并对候选集验证返回满足空间查询条件的位置点。本发明可高效支持任意空间范围的关键词查询。

Patent Agency Ranking