大规模文本分类的方法
    1.
    发明授权

    公开(公告)号:CN104598586B

    公开(公告)日:2018-04-17

    申请号:CN201510024552.0

    申请日:2015-01-18

    IPC分类号: G06F17/30 G06K9/62

    摘要: 大规模文本分类的方法涉及计算机领域,为实现兼顾精度的大规模学习,需要通过构建具有最大差异性的多个分类器及实现多个分类器的高效集成决策来实现。该大规模文本分类的方法包括:将文本数据转换为向量数据,分割大规模文本数据集为子集;以分布式计算的方法使用子集训练子分类器;选择分类器;对待测样本进行分类,实现多分类器共同决策。本发明将集成学习框架应用于大规模文本分类上,可以使现有的分类方法适用于大规模文本分类,提高分类效率。

    一种基于二次筛选的高效率异常时序数据提取方法

    公开(公告)号:CN106228002A

    公开(公告)日:2016-12-14

    申请号:CN201610567961.X

    申请日:2016-07-19

    IPC分类号: G06F19/00

    CPC分类号: G06F19/3418

    摘要: 本发明公开一种高效率时序数据异常提取方法,用于从心电图数据(ECG)中查找异常,检测心脏病。该方法包括:系统中距离函数采用DTW距离代替传统的Euclidean距离,减小相移误差;将原始时序数据(ECG)通过SAX技术映射成一系列字符串序列存储在数据结构Array数组和Trie三叉树中;通过Array数组和Trie三叉树找出最有可能的异常序列作为候选异常;通过二次筛选在ECG数据中找出第一个候选异常的最近邻距离,作为第一阈值距离;通过嵌套的内外循环验证该候选异常即为最终要找的异常,否则更新候选异常;内外循环执行完后最终得到ECG数据中的异常时序。本发明的技术方案,解决了因DTW距离冗余度过高导致难以在大量ECG数据中实现快速精确查找异常的难题。

    一种基于文档类型的实体识别合作学习算法

    公开(公告)号:CN104978587B

    公开(公告)日:2018-06-01

    申请号:CN201510409514.7

    申请日:2015-07-13

    IPC分类号: G06K9/62 G06N5/02

    摘要: 一种基于文档类型的实体识别合作学习算法,算法包括:模型构建模块和模型应用。其中,模型构建模块包括基于文档类型的实体识别分类器构建和文本分类器构建。模型应用包括文档类型识别和基于文档类型的实体识别。在本算法中结合了集成学习和协同训练算法,同时在数据集预处理过程中进行了基于文档类型的数据集切分,考虑了数据集的多样性。在模型构建过程中,利用稀疏标记数据作为训练数据,并且应用了多个基础算法,以集成学习模式对其进行集成,考虑了算法的多样性。结合了多种技术,考虑了算法和数据集的多样性,确保本发明在实体识别任务上能取得令人满意的效果。

    大规模文本分类的方法
    4.
    发明公开

    公开(公告)号:CN104598586A

    公开(公告)日:2015-05-06

    申请号:CN201510024552.0

    申请日:2015-01-18

    IPC分类号: G06F17/30 G06K9/62

    CPC分类号: G06F17/3071 G06K9/6227

    摘要: 大规模文本分类的方法涉及计算机领域,为实现兼顾精度的大规模学习,需要通过构建具有最大差异性的多个分类器及实现多个分类器的高效集成决策来实现。该大规模文本分类的方法包括:将文本数据转换为向量数据,分割大规模文本数据集为子集;以分布式计算的方法使用子集训练子分类器;选择分类器;对待测样本进行分类,实现多分类器共同决策。本发明将集成学习框架应用于大规模文本分类上,可以使现有的分类方法适用于大规模文本分类,提高分类效率。

    一种基于二次筛选的高效率异常时序数据提取方法

    公开(公告)号:CN106228002B

    公开(公告)日:2021-11-26

    申请号:CN201610567961.X

    申请日:2016-07-19

    IPC分类号: G16H80/00

    摘要: 本发明公开一种高效率时序数据异常提取方法,用于从心电图数据(ECG)中查找异常,检测心脏病。该方法包括:系统中距离函数采用DTW距离代替传统的Euclidean距离,减小相移误差;将原始时序数据(ECG)通过SAX技术映射成一系列字符串序列存储在数据结构Array数组和Trie三叉树中;通过Array数组和Trie三叉树找出最有可能的异常序列作为候选异常;通过二次筛选在ECG数据中找出第一个候选异常的最近邻距离,作为第一阈值距离;通过嵌套的内外循环验证该候选异常即为最终要找的异常,否则更新候选异常;内外循环执行完后最终得到ECG数据中的异常时序。本发明的技术方案,解决了因DTW距离冗余度过高导致难以在大量ECG数据中实现快速精确查找异常的难题。

    一种基于多源语义分析的信息检索方法

    公开(公告)号:CN106156272A

    公开(公告)日:2016-11-23

    申请号:CN201610451523.7

    申请日:2016-06-21

    IPC分类号: G06F17/30

    CPC分类号: G06F16/903

    摘要: 本发明公开一种多源语义分析的信息检索方法,包括:文档的采集及其预处理;利用LDA模型对文档建模,并建立倒排索引;用户初始查询的获取及其预处理;根据查询词项是否为专业医学词汇进行多维度分析并基于WordNet和UMLS Metathesaurus对其加权进行查询扩展;计算查询扩展词集与LDA降维后的文档之间的相似度并按相似度的大小递减排序,提取不低于预设阈值的文档返回给用户。本发明综合WordNet和UMLS Metathesaurus的特点,对初始查询进行多维度分析加权扩展,能够更为精准的理解用户的查询意图,并利用LDA模型对文档集进行建模,分析出词项在隐主题层面对文档的表征能力,提高了用户对文档检索的性能。

    一种基于文档类型的实体识别合作学习算法

    公开(公告)号:CN104978587A

    公开(公告)日:2015-10-14

    申请号:CN201510409514.7

    申请日:2015-07-13

    IPC分类号: G06K9/62 G06N5/02

    CPC分类号: G06K9/6277 G06N5/025

    摘要: 一种基于文档类型的实体识别合作学习算法,算法包括:模型构建模块和模型应用。其中,模型构建模块包括基于文档类型的实体识别分类器构建和文本分类器构建。模型应用包括文档类型识别和基于文档类型的实体识别。在本算法中结合了集成学习和协同训练算法,同时在数据集预处理过程中进行了基于文档类型的数据集切分,考虑了数据集的多样性。在模型构建过程中,利用稀疏标记数据作为训练数据,并且应用了多个基础算法,以集成学习模式对其进行集成,考虑了算法的多样性。结合了多种技术,考虑了算法和数据集的多样性,确保本发明在实体识别任务上能取得令人满意的效果。