搜索的方法和系统
    1.
    发明授权

    公开(公告)号:CN104239395B

    公开(公告)日:2018-02-06

    申请号:CN201410280881.7

    申请日:2014-06-20

    IPC分类号: G06F17/30

    摘要: 接收包括针对文档集合的多维反向索引的两个或更多面元的查询。每个文档与至少一个面元相关联。生成多维反向索引包括创建一个或多个条目。每个条目包括两个或更多面元的组合以及针对与每个条目的相应面元相关联的文档的指示的发布列表。每个指示标识一个文档。生成索引还包括确定与每个条目的组合中的相应面元相关联的文档。针对具有该查询中所包括的两个或更多面元的组合的条目而搜索多维反向索引,并且返回搜索结果。如果确定了一个文档与该条目的面元的组合中的每个面元相关联,则针对该文档的指示可以被包括在发布列表中。

    邮件索引建立方法及系统、邮件搜索方法及系统

    公开(公告)号:CN103678405B

    公开(公告)日:2016-12-21

    申请号:CN201210357269.6

    申请日:2012-09-21

    发明人: 佘智勇

    IPC分类号: G06F17/30 G06Q10/10 H04L12/58

    摘要: 本申请实施例公开了邮件索引建立方法及系统、邮件搜索方法及系统,该邮件索引建立方法包括:对待建立索引的当前邮件进行分词得到当前邮件的关键词;依据当前邮件的关键词更新一级缓存中保存的一级倒排索引记录;判断一级缓存中的一级倒排索引记录的大小是否到达第一预设阈值,如果是,则将所述一级缓存中的所有一级倒排索引记录读取至二级缓存文件中;判断当前二级缓存文件的大小是否到达第二预设阈值,如果是,则依据路径文件将二级缓存文件中的二级倒排索引记录读取至三级倒排索引文件。采用本申请实施例的方法或系统,可以有效地提高建立索引的效率,提升硬盘IO性能。进一步的,基于上述建立索引的方法建立的索引进行邮件查询时,也能够提高搜索结果的效率。

    生成索引的方法和装置以及检索方法和装置

    公开(公告)号:CN101739400B

    公开(公告)日:2014-08-13

    申请号:CN200810172722.X

    申请日:2008-11-11

    IPC分类号: G06F17/30

    CPC分类号: G06F17/30622 G06F17/30091

    摘要: 本发明提供了一种生成索引的方法和装置以及检索方法和装置。索引条目至少包括对应于检索项的检索项标识、根据与检索项相关的一条或多条检索信息而生成的一个或多个索引项、以及关于检索信息的聚合器。通过聚合检索信息,或者聚合包含检索信息的信息的密文,或者聚合从包含检索信息的信息映射而来的数据,来得到聚合器。检索时,索引项和聚合器被提供给检索者,检索者从索引项提取检索信息,并利用聚合器验证所提取的检索信息是否完整。在一个实施例中,聚合器被加在加密倒排索引中。

    一种信息检索方法及其系统

    公开(公告)号:CN102023989B

    公开(公告)日:2012-10-10

    申请号:CN200910174208.4

    申请日:2009-09-23

    发明人: 罗翼

    IPC分类号: G06F17/30

    摘要: 本申请公开了一种信息检索方法及其系统,应用于每个文档对应有正排索引数据的信息检索系统,以解决现有信息检索技术中检索效率低的问题。该方法包括:接收查询词,通过分词处理得到该查询词中所包含的关键词;通过所述信息检索系统的倒排索引数据查找与所述关键词匹配的文档,以及与所述文档对应的正排索引数据;根据所述文档对应的正排索引数据确定出所述文档的摘要,将所述文档的摘要以及文档的信息作为检索结果进行输出。采用本申请,可提高信息检索的效率,同时在一定程度上保证检索的准确性。

    倒排索引存储方法、倒排索引机制以及在线更新的方法

    公开(公告)号:CN1292371C

    公开(公告)日:2006-12-27

    申请号:CN03109847.9

    申请日:2003-04-11

    发明人: 苏中 杨力平 潘越

    IPC分类号: G06F17/30

    CPC分类号: G06F17/30622

    摘要: 本发明提供了一种基于倒排文件的倒排索引存储方法,包括:创建一个倒排文件,该文件包括多个固定大小的索引块,每一索引块包括多个固定大小的索引单元,其中每一索引单元用于存储一条索引信息;以及,顺序将有关各个索引项的索引信息存储到已创建的文件中,其中,将有关同一索引项的索引信息存储在连续的索引块中,并且每一索引块中的多个索引单元只用于存储有关同一索引项的索引信息。由于每一索引块只用于存储有关同一索引项的索引信息,所以在对一个索引块中进行操作时,不会影响其他索引项,于是可以对任何索引块中的索引信息进行在线更新。

    使用词汇关联增强搜索引擎查询性能的方法和系统

    公开(公告)号:CN1873643A

    公开(公告)日:2006-12-06

    申请号:CN200610074050.X

    申请日:2006-04-04

    IPC分类号: G06F17/30

    CPC分类号: G06F17/30622 G06F17/30864

    摘要: 本发明涉及基于计算机的电子信息检索(IR)。本发明尤其涉及电子信息检索(IR)方法,其中爬行预定搜索文档库(因特网等),并且其文档通过例如所谓“反向索引”的数据结构来建立索引,该数据结构包括由潜在搜索项和相关登记表组成的索引,该登记表含有给出在哪一文档中找到所述搜索项的文档标识信息以及与有关所述搜索项在相应文档内的出现位置的进一步信息。为了加速查询性能,提出在建立索引时执行如下步骤:a)生成扩展反向索引(32)结构,该扩展反向索引结构包括:aa)词汇关联(42)对(LA),其中每对(42)涉及相应两个搜索项(22)之间的特定词汇关联,以及bb)针对每个所述LA对的相应登记表(24),以及b)通过使用所述扩展索引(32)对搜索的文档分级。

    一种大规模高维数据的分布式索引方法及系统

    公开(公告)号:CN108090182A

    公开(公告)日:2018-05-29

    申请号:CN201711349831.X

    申请日:2017-12-15

    申请人: 清华大学

    IPC分类号: G06F17/30

    CPC分类号: G06F17/30705 G06F17/30622

    摘要: 本发明提供一种大规模高维数据的分布式索引方法及系统,将所有的高维数据分布式存储于集群上,将每一个高维数据划分为多个低维数据,每一个子空间中存储有所有高维数据的一个低维数据,采用分布式聚类算法得到每一个子空间的所有低维数据的多个聚类中心,对每个子空间的多个聚类中心进行组合,得到所有高维数据的多个多维关键字,并计算每一个多维关键字包含的高维数据,以此对所有数据进行分布式索引。在查询时,先查询与查询数据匹配的多维关键字,再查询每一个关键字包含的高维数据。本发明将分布式聚类、分布式查询以及多个子空间的倒排索引结合起来,保证了检索查询准确度的前提下,提高检索查询的效率,可以应用于大规模分布式数据的检索。