创建索引的方法和设备
    1.
    发明公开

    公开(公告)号:CN108228648A

    公开(公告)日:2018-06-29

    申请号:CN201611194037.8

    申请日:2016-12-21

    IPC分类号: G06F17/30

    摘要: 本公开的实施例总体上涉及创建索引的方法和设备。例如,本公开的实施例提出了一种创建索引的方法,包括:将文档划分成多个区域;确定词元在该多个区域中出现的次数,该词元包括该文档中的至少一个字符;向该多个区域指派相应的权重;以及基于该词元出现在该多个区域中的次数以及该多个区域的相应权重,创建针对该词元的文档倒排链表。另外,本公开的实施例还提出了相应的创建索引的设备和计算机程序产品。

    触发应用信息
    2.
    发明公开
    触发应用信息 审中-实审

    公开(公告)号:CN108140055A

    公开(公告)日:2018-06-08

    申请号:CN201780000624.5

    申请日:2017-05-17

    IPC分类号: G06F17/30

    CPC分类号: G06F17/30616

    摘要: 方法、系统和装置包括在计算机可读存储介质上编码的计算机程序,包括用于提供内容的系统。访问已存储查询以及所述已存储查询的特征集。所述已存储查询的所述特征集指定主查询主题以及至少一个查询子主题。访问特定应用的分层应用分类,其中所述分层应用分类指定所述特定应用的至少主应用类别以及应用子类别。确定所述已存储查询的所述特征集与所述分层应用分类之间的相似度水平。基于所述相似度水平满足指定的阈值,确定所述特定应用与所述已存储查询相关。将所述已存储查询索引为当接收到所述已存储查询时触发与所述特定应用相关的信息的呈现的查询。

    检索索引产生方法及应用此方法的服务器

    公开(公告)号:CN107644049A

    公开(公告)日:2018-01-30

    申请号:CN201611108711.6

    申请日:2016-12-06

    发明人: 李信诚

    IPC分类号: G06F17/30

    摘要: 一种检索索引产生方法,适用于具有第一数据库与第二数据库的数据库系统,所述方法包括:接收关于一份第一文件的存取指令;解析所述第一文件以取得关于第一文件的多个关键词串;根据存取指令将第一文件写入第一数据库或第二数据库,并产生关于所述第一文件的位置信息;以所述位置信息与关键词串,产生关于所述第一文件的检索索引。

    一种基于特定划分的主题模型下的文档生成方法

    公开(公告)号:CN107491417A

    公开(公告)日:2017-12-19

    申请号:CN201710548431.5

    申请日:2017-07-06

    申请人: 复旦大学

    IPC分类号: G06F17/16 G06F17/30

    摘要: 本发明属于数据挖掘技术领域,具体为一种基于特定划分的主题模型下的文档生成方法。本发明根据某种给定的文本数据库划分方式,加入子集的概念,例如对于一些文本数据库,像新闻数据库,某个时间片段中的文本的主题分布具有一定的相似性,特别是那些报告相同事件的不同新闻频道的文本,利用时间片段的属性就可以对数据库进行划分,分成一个个的子集。由此,本发明提出新的文本数据库上的主题模型(DbLDA);在DbLDA中,每个文档的生成的具体步骤为:生成主题矩阵;对一个子集生成主题分布:对子集中的文章,生成主题分布;对每个词,选择一个主题,选择一个单词。可应用于带有结构化属性的文本数据库。

    一种文本信息处理方法及装置

    公开(公告)号:CN107229638A

    公开(公告)日:2017-10-03

    申请号:CN201610173702.9

    申请日:2016-03-24

    发明人: 韩秦

    IPC分类号: G06F17/30

    摘要: 本发明实施例提供一种文本信息处理方法和装置,所述方法包括:获取文本信息;对所述文本信息进行规则提取,生成文本信息识别模板;所述文本信息识别模板用于进行文本信息匹配。本发明实施例可以标识文本信息的可信度,特别可以应用于准确识别垃圾短信、诈骗短信等文本信息,有效拦截此类信息,有效保护用户信息、财产安全。

    一种基于条件加权评分排序的搜索方法

    公开(公告)号:CN107066487A

    公开(公告)日:2017-08-18

    申请号:CN201611227381.2

    申请日:2016-12-27

    发明人: 蒋永录

    IPC分类号: G06F17/30

    CPC分类号: G06F17/30616 G06F17/3069

    摘要: 一种基于条件加权评分排序的搜索方法,其具体步骤为:步骤一:利用搜索引擎工具的排序算法,对搜索内容进行评分,影响搜索结果的排序;步骤二:系统在生成索引文件时,对每一条索引数据进行自定义级别设定;最后,用自定义评分结果boost替换步骤一算法中的后,最终该索引结果得分结果如下:步骤三:利用步骤二自定义算法,在建立全文索引库时,对每一条索引进行评分设定。本发明便于用户对结果排序的自由选择,自主性较强,主要体现在用户对级别的设定和对每一级别排序。同时该方法兼顾词频和分词重要程度的排序,使得结果信息利用率显著提高,又满足用户的自定义排序。

    结合从句级远程监督和半监督集成学习的关系抽取方法

    公开(公告)号:CN106294593A

    公开(公告)日:2017-01-04

    申请号:CN201610615087.2

    申请日:2016-07-28

    申请人: 浙江大学

    发明人: 陈岭 余小康

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种结合从句级远程监督和半监督集成学习的关系抽取方法,具体实施如下:步骤1,通过远程监督将知识库中的关系三元组对齐到语料库,构建关系实例集;步骤2,使用基于句法分析的从句识别去除关系实例集中的噪声数据;步骤3,抽取关系实例的词法特征,并转化为分布式表征向量,构建特征数据集;步骤4,选择特征数据集中全部的正例数据和少部分负例数据组成标注数据集,其余负例数据在去除标签后组成未标注数据集,使用半监督集成学习算法训练关系分类器。本发明结合从句识别、远程监督和半监督集成学习进行关系抽取,在自动问答系统构建、海量信息处理、知识库自动构建、搜索引擎和特定文本挖掘等领域具有广阔的应用前景。

    用于文本处理的方法和系统

    公开(公告)号:CN103577532B

    公开(公告)日:2016-12-28

    申请号:CN201310347285.1

    申请日:2013-08-09

    IPC分类号: G06F17/30

    摘要: 本发明涉及用于文本处理的方法和系统,其中方法是一种由计算机处理包括多个单词的多个句子的集合的方法,所述方法包括步骤:层级地标识句子集合中的至少一些单词的出现;基于针对每个单词标识的出现的高层级来创建至少一些单词的每个单词的第一索引;接收查询的单词的输入;层级地标识查询的单词在句子的集合中的出现;基于针对查询的单词标识的出现的高层级来创建第二索引;比较第一索引和第二索引以计算针对单词在查询的单词附近出现的次数的估计值;以及在估计的值等于或大于预定的次数的条件下,基于出现的高层级和低层级来计算单词在查询的单词附近出现的次数的实际值。