一种基于聚类的文本查重方法

    公开(公告)号:CN106446148B

    公开(公告)日:2019-08-09

    申请号:CN201610839650.4

    申请日:2016-09-21

    IPC分类号: G06F16/33 G06F16/35 G06F16/34

    摘要: 本发明公开了一种基于聚类的文本查重方法,方法步骤包括:1、数据采集处理将文本数据存储在数据库和文件服务器中,2、预处理对文本数据进行分词和特征向量提取;3、对数据库中已完成预处理的文本数据进行聚类,并计算出各类簇的中心特征向量;4、一次查重处理提取文本数据的特征向量,并与数据库中各类簇的中心向量进行比对,对于距离小于设定阈值的中心特征向量,对其类簇进行记录;5、二次查重处理对文本数据的特征向量与对应类簇中各文本数据的特征向量进行比对,对于距离小于一定阈值的特征向量,将其对应的文本数据记为重复文本数据,从而实现文本数据的查重处理。本发明可以减少不必要的重复性比对工作,提升文本查重效率。

    一种可回溯的设计参数管理系统

    公开(公告)号:CN103593730B

    公开(公告)日:2016-08-17

    申请号:CN201310525281.8

    申请日:2013-10-30

    IPC分类号: G06Q10/06

    摘要: 本发明公开了一种可回溯的设计参数管理系统,包括设计参数建模模块、数据存储模块、回溯分析模块、图形化处理及展示模块;设计参数建模模块用于新建或者更新设计参数模型;所述设计参数模型包括参数信息、意图信息、方法信息、标注信息和参数关系信息;数据存储模块包括设计参数数据库和数据文件;数据文件用于存储每个版本的设计参数模型;设计参数数据库包括一个参数信息数据表、一个参数关系数据表和多个参数版本数据表;回溯分析模块用于查询与所输入的设计参数名称对应的参数信息、意图信息、方法信息、标注信息和参数关系信息;图形化处理及展示模块用于进行图形化处理和显示。本发明可以快速获取特定设计参数相关信息。

    一种基于叙词表的本体自动生成系统及其方法

    公开(公告)号:CN102982095B

    公开(公告)日:2015-08-19

    申请号:CN201210433833.8

    申请日:2012-10-31

    IPC分类号: G06F17/30 G06F17/27

    摘要: 一种基于叙词表的本体自动生成系统及其方法,自动完成由叙词表到本体文件的转换。该系统由8个模块组成:解析模块、术语及关系映射模块、术语及关系重构模块、规范性自检模块、本体文件更新模块、本体解析模块、本体推演模块和术语图谱构建构成。该系统提供一种本体库自动生成系统及其方法,用户不需要逐条术语进行手动编辑,减少了用户输入错误,提高效率;同时,首次采用具有双向结构的邻接表作为术语显示的映射表,在术语展示层实现了传统的正向展示图谱、查看术语间的关系,又可以反向展示图谱、查看术语间的关系,方便用户查看术语的关系;避免了单一的展示方式,同时支持搜索功能,便于查找术语。

    一种基于叙词表的本体自动生成系统及其方法

    公开(公告)号:CN102982095A

    公开(公告)日:2013-03-20

    申请号:CN201210433833.8

    申请日:2012-10-31

    IPC分类号: G06F17/30 G06F17/27

    摘要: 一种基于叙词表的本体自动生成系统及其方法,自动完成由叙词表到本体文件的转换。该系统由8个模块组成:解析模块、术语及关系映射模块、术语及关系重构模块、规范性自检模块、本体文件更新模块、本体解析模块、本体推演模块和术语图谱构建构成。该系统提供一种本体库自动生成系统及其方法,用户不需要逐条术语进行手动编辑,减少了用户输入错误,提高效率;同时,首次采用具有双向结构的邻接表作为术语显示的映射表,在术语展示层实现了传统的正向展示图谱、查看术语间的关系,又可以反向展示图谱、查看术语间的关系,方便用户查看术语的关系;避免了单一的展示方式,同时支持搜索功能,便于查找术语。

    面向用户的信息搜索引擎系统及方法

    公开(公告)号:CN102930022A

    公开(公告)日:2013-02-13

    申请号:CN201210433731.6

    申请日:2012-10-31

    IPC分类号: G06F17/30

    摘要: 面向用户的信息搜索引擎系统及方法,由8个模块组成:搜索词推送模块、用户发起搜索模块、用户关注点更新模块、初次搜索模块、用户兴趣推断模块、用户关注结果分词模块、搜索词重构模块以及二次搜索模块。该方法通过对用户可选搜索词解析并推送、用户发起搜索、更新用户关注点、执行初次搜索、推断用户兴趣、对用户关注结果分词、对搜索词重构以及执行二次搜索8个过程实现,使该系统具有查询范围全、查询精度高的优点。此外,用户通过该系统可实现搜索词的选择输入、自主排序,并可通过交互操作提高后续查询结果的精准性,为用户执行信息搜索提供了一种灵活、便利、智能的交互接口。

    一种支持多客户端的分布式文件共享系统及方法

    公开(公告)号:CN104301420B

    公开(公告)日:2018-12-21

    申请号:CN201410572988.9

    申请日:2014-10-23

    IPC分类号: H04L29/08

    摘要: 本发明涉及一种支持多客户端的分布式文件共享系统及共享方法,其中,该共享系统包括任务管理模块、用户权限控制模块、文档管理模块、智能标签控制引擎模块和数据交换模块,该共享系统和共享方法根据任务内容在模板文档库中提取符合任务需求的模板文档,并根据任务安排结果对任务参与人员的用户权限进行限定,实现了文档的协同编辑、讨论,并能对文档格式进行自动编排;并且采用word智能标签和权限控制方法,实现多客户端用户之间进行协同编辑和讨论,并能根据管理员发出合并命令进行文档遍历,并根据智能标签进行搜集,完成文档合并和版本控制。

    一种可回溯的设计参数管理系统

    公开(公告)号:CN103593730A

    公开(公告)日:2014-02-19

    申请号:CN201310525281.8

    申请日:2013-10-30

    IPC分类号: G06Q10/06

    摘要: 本发明公开了一种可回溯的设计参数管理系统,包括设计参数建模模块、数据存储模块、回溯分析模块、图形化处理及展示模块;设计参数建模模块用于新建或者更新设计参数模型;所述设计参数模型包括参数信息、意图信息、方法信息、标注信息和参数关系信息;数据存储模块包括设计参数数据库和数据文件;数据文件用于存储每个版本的设计参数模型;设计参数数据库包括一个参数信息数据表、一个参数关系数据表和多个参数版本数据表;回溯分析模块用于查询与所输入的设计参数名称对应的参数信息、意图信息、方法信息、标注信息和参数关系信息;图形化处理及展示模块用于进行图形化处理和显示。本发明可以快速获取特定设计参数相关信息。

    一种基于聚类的文本查重方法

    公开(公告)号:CN106446148A

    公开(公告)日:2017-02-22

    申请号:CN201610839650.4

    申请日:2016-09-21

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种基于聚类的文本查重方法,方法步骤包括:1、数据采集处理将文本数据存储在数据库和文件服务器中,2、预处理对文本数据进行分词和特征向量提取;3、对数据库中已完成预处理的文本数据进行聚类,并计算出各类簇的中心特征向量;4、一次查重处理提取文本数据的特征向量,并与数据库中各类簇的中心向量进行比对,对于距离小于设定阈值的中心特征向量,对其类簇进行记录;5、二次查重处理对文本数据的特征向量与对应类簇中各文本数据的特征向量进行比对,对于距离小于一定阈值的特征向量,将其对应的文本数据记为重复文本数据,从而实现文本数据的查重处理。本发明可以减少不必要的重复性比对工作,提升文本查重效率。