-
公开(公告)号:CN108228648A
公开(公告)日:2018-06-29
申请号:CN201611194037.8
申请日:2016-12-21
申请人: 伊姆西IP控股有限责任公司
IPC分类号: G06F17/30
CPC分类号: G06F17/30622 , G06F17/30011 , G06F17/30616 , G06F17/30864
摘要: 本公开的实施例总体上涉及创建索引的方法和设备。例如,本公开的实施例提出了一种创建索引的方法,包括:将文档划分成多个区域;确定词元在该多个区域中出现的次数,该词元包括该文档中的至少一个字符;向该多个区域指派相应的权重;以及基于该词元出现在该多个区域中的次数以及该多个区域的相应权重,创建针对该词元的文档倒排链表。另外,本公开的实施例还提出了相应的创建索引的设备和计算机程序产品。
-
公开(公告)号:CN108140055A
公开(公告)日:2018-06-08
申请号:CN201780000624.5
申请日:2017-05-17
申请人: 谷歌有限责任公司
发明人: 本杰明·博埃尔申格尔 , 道格拉斯·A·阿贝迪恩 , 安德烈亚斯·克里斯蒂安·韦斯尔 , 吉里·伊萨
IPC分类号: G06F17/30
CPC分类号: G06F17/30616
摘要: 方法、系统和装置包括在计算机可读存储介质上编码的计算机程序,包括用于提供内容的系统。访问已存储查询以及所述已存储查询的特征集。所述已存储查询的所述特征集指定主查询主题以及至少一个查询子主题。访问特定应用的分层应用分类,其中所述分层应用分类指定所述特定应用的至少主应用类别以及应用子类别。确定所述已存储查询的所述特征集与所述分层应用分类之间的相似度水平。基于所述相似度水平满足指定的阈值,确定所述特定应用与所述已存储查询相关。将所述已存储查询索引为当接收到所述已存储查询时触发与所述特定应用相关的信息的呈现的查询。
-
公开(公告)号:CN103218385B
公开(公告)日:2018-04-03
申请号:CN201210484788.9
申请日:2012-11-23
申请人: 索尼公司
IPC分类号: G06F17/30
CPC分类号: G06F17/30634 , G06F17/30616 , G06F17/3064 , H04N21/251 , H04N21/2665 , H04N21/435 , H04N21/4782 , H04N21/4788 , H04N21/4828 , H04N21/8133 , H04N21/84
摘要: 提供了一种服务器装置、信息终端和计算机可读记录介质。该服务器装置包括:关键字存储部,能够彼此相关地存储事件标识信息和一个或更多个关键字,事件标识信息标识事件,一个或更多个关键字与事件相关;以及第一关键字登记部,被配置为从事件信息登记服务器获得事件标识信息和详细信息,事件标识信息标识事件,详细信息是关于事件的,被配置为从所获得的详细信息中提取一个或更多个第一关键字,并且被配置为将所提取的一个或更多个第一关键字和事件标识信息彼此相关地登记在关键字存储部中。
-
公开(公告)号:CN107644049A
公开(公告)日:2018-01-30
申请号:CN201611108711.6
申请日:2016-12-06
申请人: 虹光精密工业股份有限公司
发明人: 李信诚
IPC分类号: G06F17/30
CPC分类号: G06F17/278 , G06F17/30091 , G06F17/30616 , G06K9/00469
摘要: 一种检索索引产生方法,适用于具有第一数据库与第二数据库的数据库系统,所述方法包括:接收关于一份第一文件的存取指令;解析所述第一文件以取得关于第一文件的多个关键词串;根据存取指令将第一文件写入第一数据库或第二数据库,并产生关于所述第一文件的位置信息;以所述位置信息与关键词串,产生关于所述第一文件的检索索引。
-
公开(公告)号:CN107491417A
公开(公告)日:2017-12-19
申请号:CN201710548431.5
申请日:2017-07-06
申请人: 复旦大学
CPC分类号: G06F17/30616 , G06F17/16 , G06F17/30657 , G06F17/30705
摘要: 本发明属于数据挖掘技术领域,具体为一种基于特定划分的主题模型下的文档生成方法。本发明根据某种给定的文本数据库划分方式,加入子集的概念,例如对于一些文本数据库,像新闻数据库,某个时间片段中的文本的主题分布具有一定的相似性,特别是那些报告相同事件的不同新闻频道的文本,利用时间片段的属性就可以对数据库进行划分,分成一个个的子集。由此,本发明提出新的文本数据库上的主题模型(DbLDA);在DbLDA中,每个文档的生成的具体步骤为:生成主题矩阵;对一个子集生成主题分布:对子集中的文章,生成主题分布;对每个词,选择一个主题,选择一个单词。可应用于带有结构化属性的文本数据库。
-
公开(公告)号:CN107229638A
公开(公告)日:2017-10-03
申请号:CN201610173702.9
申请日:2016-03-24
申请人: 北京搜狗科技发展有限公司
发明人: 韩秦
IPC分类号: G06F17/30
CPC分类号: G06F17/30616 , G06F17/30666 , G06F17/30684
摘要: 本发明实施例提供一种文本信息处理方法和装置,所述方法包括:获取文本信息;对所述文本信息进行规则提取,生成文本信息识别模板;所述文本信息识别模板用于进行文本信息匹配。本发明实施例可以标识文本信息的可信度,特别可以应用于准确识别垃圾短信、诈骗短信等文本信息,有效拦截此类信息,有效保护用户信息、财产安全。
-
公开(公告)号:CN107066487A
公开(公告)日:2017-08-18
申请号:CN201611227381.2
申请日:2016-12-27
申请人: 甘肃万维信息技术有限责任公司
发明人: 蒋永录
IPC分类号: G06F17/30
CPC分类号: G06F17/30616 , G06F17/3069
摘要: 一种基于条件加权评分排序的搜索方法,其具体步骤为:步骤一:利用搜索引擎工具的排序算法,对搜索内容进行评分,影响搜索结果的排序;步骤二:系统在生成索引文件时,对每一条索引数据进行自定义级别设定;最后,用自定义评分结果boost替换步骤一算法中的后,最终该索引结果得分结果如下:步骤三:利用步骤二自定义算法,在建立全文索引库时,对每一条索引进行评分设定。本发明便于用户对结果排序的自由选择,自主性较强,主要体现在用户对级别的设定和对每一级别排序。同时该方法兼顾词频和分词重要程度的排序,使得结果信息利用率显著提高,又满足用户的自定义排序。
-
公开(公告)号:CN106294593A
公开(公告)日:2017-01-04
申请号:CN201610615087.2
申请日:2016-07-28
申请人: 浙江大学
IPC分类号: G06F17/30
CPC分类号: G06F17/30604 , G06F17/30616 , G06F17/3071
摘要: 本发明公开了一种结合从句级远程监督和半监督集成学习的关系抽取方法,具体实施如下:步骤1,通过远程监督将知识库中的关系三元组对齐到语料库,构建关系实例集;步骤2,使用基于句法分析的从句识别去除关系实例集中的噪声数据;步骤3,抽取关系实例的词法特征,并转化为分布式表征向量,构建特征数据集;步骤4,选择特征数据集中全部的正例数据和少部分负例数据组成标注数据集,其余负例数据在去除标签后组成未标注数据集,使用半监督集成学习算法训练关系分类器。本发明结合从句识别、远程监督和半监督集成学习进行关系抽取,在自动问答系统构建、海量信息处理、知识库自动构建、搜索引擎和特定文本挖掘等领域具有广阔的应用前景。
-
公开(公告)号:CN103577532B
公开(公告)日:2016-12-28
申请号:CN201310347285.1
申请日:2013-08-09
申请人: 国际商业机器公司
IPC分类号: G06F17/30
CPC分类号: G06F17/30619 , G06F17/21 , G06F17/2775 , G06F17/30616 , G06F17/30643
摘要: 本发明涉及用于文本处理的方法和系统,其中方法是一种由计算机处理包括多个单词的多个句子的集合的方法,所述方法包括步骤:层级地标识句子集合中的至少一些单词的出现;基于针对每个单词标识的出现的高层级来创建至少一些单词的每个单词的第一索引;接收查询的单词的输入;层级地标识查询的单词在句子的集合中的出现;基于针对查询的单词标识的出现的高层级来创建第二索引;比较第一索引和第二索引以计算针对单词在查询的单词附近出现的次数的估计值;以及在估计的值等于或大于预定的次数的条件下,基于出现的高层级和低层级来计算单词在查询的单词附近出现的次数的实际值。
-
公开(公告)号:CN105740355A
公开(公告)日:2016-07-06
申请号:CN201610050995.1
申请日:2016-01-26
申请人: 中国人民解放军国防科学技术大学
IPC分类号: G06F17/30
CPC分类号: G06F17/30896 , G06F17/30616
摘要: 本发明提供一种基于聚集文本密度的网页正文提取方法及装置,该方法根据标签分隔网页HTML的方法,对网页文本内容进行分割,从而有效将其中的各类文本分开。无需定制特殊的网站提取规则,通用性强;无需使用复杂的文本挖掘手段,该方法简单高效,对各类网页正文提取准确高效。
-
-
-
-
-
-
-
-
-