一种基于数据挖掘的中医医学文献分类及存储方法

    公开(公告)号:CN106682136A

    公开(公告)日:2017-05-17

    申请号:CN201611174644.8

    申请日:2016-12-19

    申请人: 谭红春

    IPC分类号: G06F17/30

    摘要: 本发明提供了一种基于数据挖掘的中医医学文献分类及存储方法,其包括步骤:获取中医医学文献基础数据库;分别按照下载的先后顺序,以特定的编码格式保存;对下载的非结构化的文本数据进行关键信息提取,建立中医医学文献的关键信息的编码表;将核心数据对应的所有关键词划分到若干核心数据群中;同时将非核心数据对应的所有关键词划分到若干非核心数据群中;获取到中医文献关键词组合,并根据中医文献关键词组合作为检索关键词获取到相应的中医文献作为中医医学文献,将所述中医医学文献进行存储,并将所述中医文献关键词组合作为所述中医医学文献存储标识。本发明实现了高效与准确的获取中医学文献数据,完成了中医医学文献的精确分类存储。

    一种基于链表结构的倒排索引模型及其构建方法

    公开(公告)号:CN105824956A

    公开(公告)日:2016-08-03

    申请号:CN201610192878.9

    申请日:2016-03-30

    发明人: 张登银 于建坤

    IPC分类号: G06F17/30 G06F17/27 G06F17/21

    摘要: 本发明公开了一种基于链表结构的倒排索引模型及其构建方法。在倒排索引模型的基础上,通过在关键词节点中增加指向邻接关键词节点的指针,从而形成一个支持高效的短语查询、快速的索引构建以及较小的索引空间的消耗的索引模型。在基于链表结构的倒排索引模型的基础上,进一步给出了索引构建的方法。本发明提出的基于链表的倒排索引模型可以实现文本索引的快速构建,并且支持短语关键词的快速查询。

    一种基于移动终端的中文词条索引压缩方法及移动终端

    公开(公告)号:CN105677809A

    公开(公告)日:2016-06-15

    申请号:CN201511032929.3

    申请日:2015-12-31

    发明人: 郭金林 覃炜

    IPC分类号: G06F17/30

    摘要: 本发明实施例公开了一种基于移动终端的中文词条索引压缩方法及移动终端,实现了移动终端的ROM或SD中存储的数据量大大地减少,从而使得后续索引检索的处理速度提高,解决了传统的数据库索引方案,由于没有针对中文词条进行优化,造成的在面对检索包含部分字或词的词条的信息时效率低下的技术问题。本发明实施例基于移动终端的中文词条索引压缩方法包括:对分类后的所有词组按照关键字进行关联,并建立相对应的关联词组列表;将关联词组列表进行基于关键字在词组中的位置关系的编码处理,并成为相对应的压缩字符串;将压缩字符串进行存储。

    基于内容与位置特征的近似web文档检测方法

    公开(公告)号:CN105975547A

    公开(公告)日:2016-09-28

    申请号:CN201610283628.6

    申请日:2016-04-29

    申请人: 武汉大学

    IPC分类号: G06F17/30 G06K9/62

    摘要: 本发明提供一种基于内容与位置特征的近似web文档检测方法,本发明在计算网页特征前对页面内噪音信息进行了剔除处理,所以能够有效降低页面内噪音内容对近似web文档检测过程的影响;在对页面文本进行重点分析的基础上,结合关键概念在网页正文中的分布特点与位置特征进行对比,提高了近似页面检测的精度;本发明充分利用了海量数据中索引机制与检索系统的优点,使用倒排索引作为页面中关键词项向量和位置特征向量的存储和访问媒介,提高了方法执行的效率与可行性;本发明将页面内容与位置特征向量作为近似页面判断的依据,较大地降低了对相关语料库与概念语义网的依赖,增强了方法的适用性,并以此拓宽web文档近似检测的范围。

    一种智能查询方法及系统
    17.
    发明公开

    公开(公告)号:CN105183774A

    公开(公告)日:2015-12-23

    申请号:CN201510485017.5

    申请日:2015-08-07

    发明人: 吴俊柏

    IPC分类号: G06F17/30

    CPC分类号: G06F16/316

    摘要: 本发明涉及一种智能查询方法及系统,包括以下步骤:从数据源中提取数据信息,并根据提取的数据信息创建索引库;获取用户的查询请求;根据查询请求搜索所述索引库,并返回查询结果。本发明具有高性能、高精度的特点,基于多数据源、多维度的数据查询,易于集成,快速接入已有系统,资源要求少,支持负载均衡,可伸缩性高,支持大数据,自定义数据来源。标准的xml数据接口,快速导入结构化与非结构化数据。灵活的插件体系,方便定制搜索策略;根据数据与需求特点,搜索算法可进行热插拔式配置,达到良好精度。

    基于Lucene的倒排索引系统构建、数据处理方法及装置

    公开(公告)号:CN103714096B

    公开(公告)日:2018-02-13

    申请号:CN201210380761.5

    申请日:2012-10-09

    发明人: 秦剑

    IPC分类号: G06F17/30

    CPC分类号: G06F16/319 G06F16/316

    摘要: 本申请实施例公开了一种基于Lucene的倒排索引系统构建方法。该方法包括:将海量数据记录的倒排索引写入至少一个倒排索引文件;在各倒排索引文件写入完毕后,将写入完毕的倒排文件的描述信息写入与该倒排文件关联的至少一个描述文件;基于倒排索引文件及倒排索引文件的描述文件构建倒排索引系统。本申请实施例还提供了一种基于Lucene的倒排索引系统构建装置,以及基于倒排索引系统的数据处理方法和相应的装置。本申请实施例能够提高倒排索引系统构建效率和数据处理效率。