-
公开(公告)号:CN103593462B
公开(公告)日:2017-02-15
申请号:CN201310608266.X
申请日:2013-11-25
申请人: 中国科学院深圳先进技术研究院
IPC分类号: G06F17/30
摘要: 本发明涉及一种面向微博数据的流感疫情监测分析方法,包括:获取部分微博作为训练微博集;标记训练微博集中每条微博;得到训练微博集的微博文本词项集合;得到训练微博集的微博文本原始特征词项集合;得到特征词项字典;特征向量化;训练该特征向量得到SVM分类器;获取剩余微博作为测试微博集;得到测试微博集的微博文本词项集合;得到测试微博集的微博文本原始特征词项集合;特征向量化;SVM分类器对测试微博集中每条微博进行自动分类;将分类结果可视化以进行流感疫情进行监测和分析。本发明还涉及一种面向微博数据的流感疫情监测分析系统。本发明能帮助人们发现流感的传播趋势,及时有效地阻止流感的大范围传播,防止流感大流行的发生。
-
公开(公告)号:CN103617230B
公开(公告)日:2017-02-15
申请号:CN201310608335.7
申请日:2013-11-26
申请人: 中国科学院深圳先进技术研究院
摘要: 本发明适用于数据挖掘领域,提供了一种基于微博的广告推荐方法及系统。所述方法包括:读取微博数据;初始化微博数据,获得微博文本词项集合;删除微博文本词项集合的停用词,获得微博文本原始特征词项集合;将微博文本原始特征词项集合与特征词项字典进行映射,判断微博文本原始特征词项集合中的词项是否出现在特征词项字典中,并计算出现的词项的tf-idf值,作为词项的特征值;判断特征词项字典的词项是否出现在微博文本原始特征词项集合中,并将没有出现的词项的特征值标记为0;将计算得到的所有特征值组成的特征向量自动分类到预先划分的类别;以自动分类的结果为依据,向用户推荐广告。本发明实施例推荐的广告也更准确,效果也更好。
-
公开(公告)号:CN103617230A
公开(公告)日:2014-03-05
申请号:CN201310608335.7
申请日:2013-11-26
申请人: 中国科学院深圳先进技术研究院
CPC分类号: G06F17/30707
摘要: 本发明适用于数据挖掘领域,提供了一种基于微博的广告推荐方法及系统。所述方法包括:读取微博数据;初始化微博数据,获得微博文本词项集合;删除微博文本词项集合的停用词,获得微博文本原始特征词项集合;将微博文本原始特征词项集合与特征词项字典进行映射,判断微博文本原始特征词项集合中的词项是否出现在特征词项字典中,并计算出现的词项的tf-idf值,作为词项的特征值;判断特征词项字典的词项是否出现在微博文本原始特征词项集合中,并将没有出现的词项的特征值标记为0;将计算得到的所有特征值组成的特征向量自动分类到预先划分的类别;以自动分类的结果为依据,向用户推荐广告。本发明实施例推荐的广告也更准确,效果也更好。
-
公开(公告)号:CN103593462A
公开(公告)日:2014-02-19
申请号:CN201310608266.X
申请日:2013-11-25
申请人: 中国科学院深圳先进技术研究院
IPC分类号: G06F17/30
CPC分类号: G06F17/30705
摘要: 本发明涉及一种面向微博数据的流感疫情监测分析方法,包括:获取部分微博作为训练微博集;标记训练微博集中每条微博;得到训练微博集的微博文本词项集合;得到训练微博集的微博文本原始特征词项集合;得到特征词项字典;特征向量化;训练该特征向量得到SVM分类器;获取剩余微博作为测试微博集;得到测试微博集的微博文本词项集合;得到测试微博集的微博文本原始特征词项集合;特征向量化;SVM分类器对测试微博集中每条微博进行自动分类;将分类结果可视化以进行流感疫情进行监测和分析。本发明还涉及一种面向微博数据的流感疫情监测分析系统。本发明能帮助人们发现流感的传播趋势,及时有效地阻止流感的大范围传播,防止流感大流行的发生。
-
公开(公告)号:CN103593454A
公开(公告)日:2014-02-19
申请号:CN201310591482.8
申请日:2013-11-21
申请人: 中国科学院深圳先进技术研究院
IPC分类号: G06F17/30
CPC分类号: G06F17/30705
摘要: 本发明涉及一种面向微博文本分类的挖掘方法,包括如下步骤:获取现有的微博数据;对获取的微博文本进行分析和预处理;对所述微博文本的词项集合进行搜索遍历,去除停用词词项;对原始特征词项集合中的每个词项做开发检验CHI值计算,所得出的最高值的N个词项作为特征词项集,所述原始特征词项集合为所有微博文本的词项集合;对所述N个词项进行关联规则挖掘,将微博文本中的特征词项的强关联词项加入到该微博的特征词项集中,以提高微博文本分类精度。本发明还涉及一种面向微博文本分类的挖掘系统。本发明能够有效地简化原始微博文本的关联规则挖掘复杂度,且所需要分析的数据量大大减少,提高了微博文本分类精度。
-
-
-
-