-
公开(公告)号:CN104504024A
公开(公告)日:2015-04-08
申请号:CN201410768704.3
申请日:2014-12-11
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
CPC classification number: G06F17/30616
Abstract: 本发明提供一种基于微博内容的关键词挖掘方法,对于所有微博文本经分词得到的所有词的集合中的每个词,基于该词在每个微博文本中出现的次数及该微博文本被转发的次数来计算该词的权重;并选取其权重大于预定阈值的词作为从该微博数据集中挖掘的关键词。该方法即考虑了词语在各个微博文本中出现的频率,又考虑了同一微博文本在微博数据集中转发情况对挖掘关键词的准确性的影响,因此提高了获取微博文本关键词的精确度。
-
公开(公告)号:CN104504024B
公开(公告)日:2018-09-07
申请号:CN201410768704.3
申请日:2014-12-11
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种基于微博内容的关键词挖掘方法,对于所有微博文本经分词得到的所有词的集合中的每个词,基于该词在每个微博文本中出现的次数及该微博文本被转发的次数来计算该词的权重;并选取其权重大于预定阈值的词作为从该微博数据集中挖掘的关键词。该方法即考虑了词语在各个微博文本中出现的频率,又考虑了同一微博文本在微博数据集中转发情况对挖掘关键词的准确性的影响,因此提高了获取微博文本关键词的精确度。
-