-
公开(公告)号:CN103678695B
公开(公告)日:2018-05-11
申请号:CN201310740110.7
申请日:2013-12-27
申请人: 中国科学院深圳先进技术研究院
IPC分类号: G06F17/30
CPC分类号: Y02D10/45
摘要: 本发明适用于信息处理技术领域,提供了一种并行处理方法及装置,应用于包含多个终端设备的系统,所述方法包括:在各终端设备并行构建广义后缀树;基于构建的广义后缀树,通过MapReduce在各终端设备查找候选频繁模式;通过MapReduce在所述候选频繁模式中查找频繁模式。本发明通过在各终端设备并行化构建广义后缀树,加快了广义后缀树构建速度,而且计算过程可以处理更大的数据量,提供更大的内存空间,解决了因为单机内存限制不能对大数据采用广义后缀树的问题。另外,通过两次MapReduce查找频繁模式减少了对于带宽的消耗,且排除了较多冗余的遍历,遍历效率更高,从而有效加快了频繁模式查找速度。
-
-
公开(公告)号:CN103593462B
公开(公告)日:2017-02-15
申请号:CN201310608266.X
申请日:2013-11-25
申请人: 中国科学院深圳先进技术研究院
IPC分类号: G06F17/30
摘要: 本发明涉及一种面向微博数据的流感疫情监测分析方法,包括:获取部分微博作为训练微博集;标记训练微博集中每条微博;得到训练微博集的微博文本词项集合;得到训练微博集的微博文本原始特征词项集合;得到特征词项字典;特征向量化;训练该特征向量得到SVM分类器;获取剩余微博作为测试微博集;得到测试微博集的微博文本词项集合;得到测试微博集的微博文本原始特征词项集合;特征向量化;SVM分类器对测试微博集中每条微博进行自动分类;将分类结果可视化以进行流感疫情进行监测和分析。本发明还涉及一种面向微博数据的流感疫情监测分析系统。本发明能帮助人们发现流感的传播趋势,及时有效地阻止流感的大范围传播,防止流感大流行的发生。
-
公开(公告)号:CN103678695A
公开(公告)日:2014-03-26
申请号:CN201310740110.7
申请日:2013-12-27
申请人: 中国科学院深圳先进技术研究院
IPC分类号: G06F17/30
CPC分类号: Y02D10/45 , G06F17/3061
摘要: 本发明适用于信息处理技术领域,提供了一种并行处理方法及装置,应用于包含多个终端设备的系统,所述方法包括:在各终端设备并行构建广义后缀树;基于构建的广义后缀树,通过MapReduce在各终端设备查找候选频繁模式;通过MapReduce在所述候选频繁模式中查找频繁模式。本发明通过在各终端设备并行化构建广义后缀树,加快了广义后缀树构建速度,而且计算过程可以处理更大的数据量,提供更大的内存空间,解决了因为单机内存限制不能对大数据采用广义后缀树的问题。另外,通过两次MapReduce查找频繁模式减少了对于带宽的消耗,且排除了较多冗余的遍历,遍历效率更高,从而有效加快了频繁模式查找速度。
-
公开(公告)号:CN104750707A
公开(公告)日:2015-07-01
申请号:CN201310740391.6
申请日:2013-12-27
申请人: 中国科学院深圳先进技术研究院
IPC分类号: G06F17/30
摘要: 本发明涉及遥感数据识别技术领域,提供决策支持单元的构建方法。该方法包括如下步骤:S2、获取已识别土地类型的遥感数据,所述遥感数据包括若干属性数据;S4、选取至少两个所述属性数据作为特征属性数据进行聚类,将所述遥感数据分成若干类簇;S6、对每个类簇中的遥感数据基于所述土地类型与特征属性数据进行重构;S8、对重构后遥感数据进行关联规则发现,获取关联结果;S10、存储关联概率大于概率阈值T的关联结果形成决策支持单元。经过上述方法获得的决策支持单元,具有很多相关度较高的关联规则,可以给出相关度较高的未知土地类型作为参考,支持决策。
-
公开(公告)号:CN103699593A
公开(公告)日:2014-04-02
申请号:CN201310674975.8
申请日:2013-12-11
申请人: 中国科学院深圳先进技术研究院
IPC分类号: G06F17/30
CPC分类号: G06F17/30327
摘要: 本发明适用于计算机科学领域,提供了一种广义后缀树快速遍历的方法,包括:为广义后缀树的数据结构添加第一属性,以更改所述广义后缀树的数据结构;为广义后缀树节点的数据结构添加第二属性,以更改所述广义后缀树节点的数据结构;利用更改后的所述广义后缀树的数据结构以及更改后的所述广义后缀树节点的数据结构,通过自下而上的方式对广义后缀树的节点信息进行遍历统计。本发明还提供了一种广义后缀树快速遍历的系统。本发明所提供的广义后缀树快速遍历的方法及系统能极大降低遍历统计过程的时间复杂度,且不需要递归,进而大大提高了运行效率。
-
公开(公告)号:CN103593462A
公开(公告)日:2014-02-19
申请号:CN201310608266.X
申请日:2013-11-25
申请人: 中国科学院深圳先进技术研究院
IPC分类号: G06F17/30
CPC分类号: G06F17/30705
摘要: 本发明涉及一种面向微博数据的流感疫情监测分析方法,包括:获取部分微博作为训练微博集;标记训练微博集中每条微博;得到训练微博集的微博文本词项集合;得到训练微博集的微博文本原始特征词项集合;得到特征词项字典;特征向量化;训练该特征向量得到SVM分类器;获取剩余微博作为测试微博集;得到测试微博集的微博文本词项集合;得到测试微博集的微博文本原始特征词项集合;特征向量化;SVM分类器对测试微博集中每条微博进行自动分类;将分类结果可视化以进行流感疫情进行监测和分析。本发明还涉及一种面向微博数据的流感疫情监测分析系统。本发明能帮助人们发现流感的传播趋势,及时有效地阻止流感的大范围传播,防止流感大流行的发生。
-
公开(公告)号:CN103593454A
公开(公告)日:2014-02-19
申请号:CN201310591482.8
申请日:2013-11-21
申请人: 中国科学院深圳先进技术研究院
IPC分类号: G06F17/30
CPC分类号: G06F17/30705
摘要: 本发明涉及一种面向微博文本分类的挖掘方法,包括如下步骤:获取现有的微博数据;对获取的微博文本进行分析和预处理;对所述微博文本的词项集合进行搜索遍历,去除停用词词项;对原始特征词项集合中的每个词项做开发检验CHI值计算,所得出的最高值的N个词项作为特征词项集,所述原始特征词项集合为所有微博文本的词项集合;对所述N个词项进行关联规则挖掘,将微博文本中的特征词项的强关联词项加入到该微博的特征词项集中,以提高微博文本分类精度。本发明还涉及一种面向微博文本分类的挖掘系统。本发明能够有效地简化原始微博文本的关联规则挖掘复杂度,且所需要分析的数据量大大减少,提高了微博文本分类精度。
-
-
-
-
-
-
-