-
公开(公告)号:CN104239395B
公开(公告)日:2018-02-06
申请号:CN201410280881.7
申请日:2014-06-20
申请人: 国际商业机器公司
IPC分类号: G06F17/30
CPC分类号: G06F17/30622 , G06F17/30011 , G06F17/30864
摘要: 接收包括针对文档集合的多维反向索引的两个或更多面元的查询。每个文档与至少一个面元相关联。生成多维反向索引包括创建一个或多个条目。每个条目包括两个或更多面元的组合以及针对与每个条目的相应面元相关联的文档的指示的发布列表。每个指示标识一个文档。生成索引还包括确定与每个条目的组合中的相应面元相关联的文档。针对具有该查询中所包括的两个或更多面元的组合的条目而搜索多维反向索引,并且返回搜索结果。如果确定了一个文档与该条目的面元的组合中的每个面元相关联,则针对该文档的指示可以被包括在发布列表中。
-
公开(公告)号:CN106465055B
公开(公告)日:2018-01-30
申请号:CN201480079088.9
申请日:2014-04-25
申请人: 脸谱公司
发明人: 斯丹尼斯雷夫·巴索富尼克 , 阿比纳弗·A·沃拉
CPC分类号: G06F17/30622 , G06F17/30241 , G06F17/30675
摘要: 在一个实施方式中,方法包括接收位置的标识。方法进一步包括访问包括多个记录的反向索引,其中每个记录对应于地图图块并识别对应于地图图块的一个或多个地点。在对应于多个地图图块的多个记录中识别在反向索引中识别的地点中的至少一个,其中,地图图块共同限定包围地点的区域。方法还包括基于反向索引识别与位置相关联的一个或多个地点。
-
公开(公告)号:CN103678405B
公开(公告)日:2016-12-21
申请号:CN201210357269.6
申请日:2012-09-21
申请人: 阿里巴巴集团控股有限公司
发明人: 佘智勇
CPC分类号: G06F17/30424 , G06F17/30622 , G06F17/30631
摘要: 本申请实施例公开了邮件索引建立方法及系统、邮件搜索方法及系统,该邮件索引建立方法包括:对待建立索引的当前邮件进行分词得到当前邮件的关键词;依据当前邮件的关键词更新一级缓存中保存的一级倒排索引记录;判断一级缓存中的一级倒排索引记录的大小是否到达第一预设阈值,如果是,则将所述一级缓存中的所有一级倒排索引记录读取至二级缓存文件中;判断当前二级缓存文件的大小是否到达第二预设阈值,如果是,则依据路径文件将二级缓存文件中的二级倒排索引记录读取至三级倒排索引文件。采用本申请实施例的方法或系统,可以有效地提高建立索引的效率,提升硬盘IO性能。进一步的,基于上述建立索引的方法建立的索引进行邮件查询时,也能够提高搜索结果的效率。
-
公开(公告)号:CN104854582A
公开(公告)日:2015-08-19
申请号:CN201380050962.1
申请日:2013-09-20
申请人: EMC公司
IPC分类号: G06F17/30
CPC分类号: G06F17/30622 , G06F17/30324 , G06F17/30631
摘要: 方法和系统针对更新优化和存储高效的事务型全文索引视图维护的方法。实施例包括在任意特定时间发生大量更新的情况下降低维护事务型索引视图的开销需求的方法和系统。该方法涉及在更新的事务型查询间维护单个黑名单位图、当需求新的视图时向位图应用最新的一组更新,以及当创建了事务型视图时对位图进行后调整以保证应当可见的条目未被移除。
-
公开(公告)号:CN101739400B
公开(公告)日:2014-08-13
申请号:CN200810172722.X
申请日:2008-11-11
申请人: 日电(中国)有限公司
IPC分类号: G06F17/30
CPC分类号: G06F17/30622 , G06F17/30091
摘要: 本发明提供了一种生成索引的方法和装置以及检索方法和装置。索引条目至少包括对应于检索项的检索项标识、根据与检索项相关的一条或多条检索信息而生成的一个或多个索引项、以及关于检索信息的聚合器。通过聚合检索信息,或者聚合包含检索信息的信息的密文,或者聚合从包含检索信息的信息映射而来的数据,来得到聚合器。检索时,索引项和聚合器被提供给检索者,检索者从索引项提取检索信息,并利用聚合器验证所提取的检索信息是否完整。在一个实施例中,聚合器被加在加密倒排索引中。
-
公开(公告)号:CN102023989B
公开(公告)日:2012-10-10
申请号:CN200910174208.4
申请日:2009-09-23
申请人: 阿里巴巴集团控股有限公司
发明人: 罗翼
IPC分类号: G06F17/30
CPC分类号: G06F17/30675 , G06F17/30622 , G06F17/30657 , G06F17/30696 , G06F17/30719
摘要: 本申请公开了一种信息检索方法及其系统,应用于每个文档对应有正排索引数据的信息检索系统,以解决现有信息检索技术中检索效率低的问题。该方法包括:接收查询词,通过分词处理得到该查询词中所包含的关键词;通过所述信息检索系统的倒排索引数据查找与所述关键词匹配的文档,以及与所述文档对应的正排索引数据;根据所述文档对应的正排索引数据确定出所述文档的摘要,将所述文档的摘要以及文档的信息作为检索结果进行输出。采用本申请,可提高信息检索的效率,同时在一定程度上保证检索的准确性。
-
公开(公告)号:CN1292371C
公开(公告)日:2006-12-27
申请号:CN03109847.9
申请日:2003-04-11
申请人: 国际商业机器公司
IPC分类号: G06F17/30
CPC分类号: G06F17/30622
摘要: 本发明提供了一种基于倒排文件的倒排索引存储方法,包括:创建一个倒排文件,该文件包括多个固定大小的索引块,每一索引块包括多个固定大小的索引单元,其中每一索引单元用于存储一条索引信息;以及,顺序将有关各个索引项的索引信息存储到已创建的文件中,其中,将有关同一索引项的索引信息存储在连续的索引块中,并且每一索引块中的多个索引单元只用于存储有关同一索引项的索引信息。由于每一索引块只用于存储有关同一索引项的索引信息,所以在对一个索引块中进行操作时,不会影响其他索引项,于是可以对任何索引块中的索引信息进行在线更新。
-
公开(公告)号:CN1873643A
公开(公告)日:2006-12-06
申请号:CN200610074050.X
申请日:2006-04-04
申请人: 国际商业机器公司
IPC分类号: G06F17/30
CPC分类号: G06F17/30622 , G06F17/30864
摘要: 本发明涉及基于计算机的电子信息检索(IR)。本发明尤其涉及电子信息检索(IR)方法,其中爬行预定搜索文档库(因特网等),并且其文档通过例如所谓“反向索引”的数据结构来建立索引,该数据结构包括由潜在搜索项和相关登记表组成的索引,该登记表含有给出在哪一文档中找到所述搜索项的文档标识信息以及与有关所述搜索项在相应文档内的出现位置的进一步信息。为了加速查询性能,提出在建立索引时执行如下步骤:a)生成扩展反向索引(32)结构,该扩展反向索引结构包括:aa)词汇关联(42)对(LA),其中每对(42)涉及相应两个搜索项(22)之间的特定词汇关联,以及bb)针对每个所述LA对的相应登记表(24),以及b)通过使用所述扩展索引(32)对搜索的文档分级。
-
公开(公告)号:CN1620661A
公开(公告)日:2005-05-25
申请号:CN03802417.9
申请日:2003-01-24
申请人: 国际商业机器公司
IPC分类号: G06F17/30
CPC分类号: G06F17/289 , G06F17/30622 , G06F17/30669 , Y10S707/99933 , Y10S707/99934 , Y10S707/99942 , Y10S707/99943 , Y10S707/99944 , Y10S707/99945
摘要: 使用包括双向倒排索引工具的搜索引擎减少了搜索时间,可以使用多种语言中的一种语言的关键词访问该工具,并提供包含所有这些语言的文档列表。所有支持语言的关键词最好储存在倒排索引查找表中,该表交叉引用了包含该关键词的这些语言的文档。当查询一种语言的关键词时,可以一起访问具有相同含义的不同语言的该关键词。包含该表的搜索引擎可以识别选定语言、第二语言或者所有支持语言的相关文档,这可以由用户决定。关于每个文档的信息还包括用于对该文档进行排序的信息,诸如关键词频率和诸关键词相似性。
-
公开(公告)号:CN108090182A
公开(公告)日:2018-05-29
申请号:CN201711349831.X
申请日:2017-12-15
申请人: 清华大学
IPC分类号: G06F17/30
CPC分类号: G06F17/30705 , G06F17/30622
摘要: 本发明提供一种大规模高维数据的分布式索引方法及系统,将所有的高维数据分布式存储于集群上,将每一个高维数据划分为多个低维数据,每一个子空间中存储有所有高维数据的一个低维数据,采用分布式聚类算法得到每一个子空间的所有低维数据的多个聚类中心,对每个子空间的多个聚类中心进行组合,得到所有高维数据的多个多维关键字,并计算每一个多维关键字包含的高维数据,以此对所有数据进行分布式索引。在查询时,先查询与查询数据匹配的多维关键字,再查询每一个关键字包含的高维数据。本发明将分布式聚类、分布式查询以及多个子空间的倒排索引结合起来,保证了检索查询准确度的前提下,提高检索查询的效率,可以应用于大规模分布式数据的检索。
-
-
-
-
-
-
-
-
-