分布式搜索方法、体系结构、系统及软件

    公开(公告)号:CN101388031A

    公开(公告)日:2009-03-18

    申请号:CN200810149850.2

    申请日:2004-04-26

    发明人: M·布卢姆

    IPC分类号: G06F17/30

    CPC分类号: G06F16/951

    摘要: 描述了用于为律师事务所及其它企业中使用的联机传送平台提供分布式搜索功能的系统、方法及软件。例如,系统、方法及软件的一个方面提供多个数据集。数据集可包含对其它数据集的索引。至少一个搜索引擎与各数据集关联。接收搜索请求的系统根据搜索请求中涉及的数据集来确定哪些搜索引擎被用来处理搜索请求。然后,搜索请求被转发给所识别的搜索引擎。

    用于分布加载数据库的系统、方法和软件

    公开(公告)号:CN101137984A

    公开(公告)日:2008-03-05

    申请号:CN200680007438.6

    申请日:2006-01-09

    IPC分类号: G06F17/30

    CPC分类号: G06F16/27 Y10S707/99932

    摘要: 本发明人已经提出了用于分布加载信息检索系统的一个或多个系统、方法和软件。一个示例性系统包括两个或多个(至少两个)加载监控服务器,其不仅由一组两个或多个加载服务器中的各个加载服务器监控和确保加载任务的完成,而且还提供一个加载监控器以监控另一个加载监控器的性能。此外,示例性系统还为每一个加载服务器提供服务级协议(service-level-agreement,SLA)数据结构。SLA数据结构调整在预定时间周期将执行什么类型和优先等级的加载任务。

    用于多语言信息检索的系统、方法、软件和界面

    公开(公告)号:CN101099153A

    公开(公告)日:2008-01-02

    申请号:CN200680001792.8

    申请日:2006-01-04

    IPC分类号: G06F17/30

    摘要: 本发明人已经设计出了一种或多种新颖的方法、系统和界面用于帮助实现多语言搜索。一种示范方法需要为文档总集创建多个语言专有索引,每个索引包括来自文档的项的词干化和未词干化的版本。用户提交与一组一个或多个目标语言相关联的查询。查询处理需要使用产生一组可能的等价查询项的一种或多种技术将查询中的每个项的初始版本和词干化版本翻译成各个目标语言。然后使用传统的单语言搜索技术,例如布尔或自然语言查询,针对相应的语言专有索引处理每组可能的等价查询项以从该总集中识别出文档。得到的文档被按语言分组或按计算出的相关性呈现给用户。

    重复文档检测及表示功能

    公开(公告)号:CN101076800A

    公开(公告)日:2007-11-21

    申请号:CN200580035487.6

    申请日:2005-08-23

    IPC分类号: G06F17/30

    CPC分类号: G06F16/30 G06F16/951

    摘要: 很多公司提供了使用户进行计算机化的文档检索的在线检索设备。不幸的是,这些检索通常提供包括重复的文档,即彼此完全或实质上相同的文档的结果。这个问题在例如检索新闻报道时尤其令人烦恼。此外,重复文档混杂在搜索结果中,让用户去人工应付对它们进行复杂的标识和/或筛选。本发明提供了有助于在搜索结果中重复文档的标识和/或分组的系统、方法和软件。一示范性系统包括基于长度、时间和/或内容分量产生文档签名的签名生成模块;使用文档签名来标识“精确的”或“模糊的”重复文档的实时复本检测模块;以及控制搜索结果中的重复文档如何被表示或抑制的用户界面或表示模块。