基于微博内容的关键词挖掘方法及系统

    公开(公告)号:CN104504024A

    公开(公告)日:2015-04-08

    申请号:CN201410768704.3

    申请日:2014-12-11

    CPC classification number: G06F17/30616

    Abstract: 本发明提供一种基于微博内容的关键词挖掘方法,对于所有微博文本经分词得到的所有词的集合中的每个词,基于该词在每个微博文本中出现的次数及该微博文本被转发的次数来计算该词的权重;并选取其权重大于预定阈值的词作为从该微博数据集中挖掘的关键词。该方法即考虑了词语在各个微博文本中出现的频率,又考虑了同一微博文本在微博数据集中转发情况对挖掘关键词的准确性的影响,因此提高了获取微博文本关键词的精确度。

    基于微博内容的关键词挖掘方法及系统

    公开(公告)号:CN104504024B

    公开(公告)日:2018-09-07

    申请号:CN201410768704.3

    申请日:2014-12-11

    Abstract: 本发明提供一种基于微博内容的关键词挖掘方法,对于所有微博文本经分词得到的所有词的集合中的每个词,基于该词在每个微博文本中出现的次数及该微博文本被转发的次数来计算该词的权重;并选取其权重大于预定阈值的词作为从该微博数据集中挖掘的关键词。该方法即考虑了词语在各个微博文本中出现的频率,又考虑了同一微博文本在微博数据集中转发情况对挖掘关键词的准确性的影响,因此提高了获取微博文本关键词的精确度。

Patent Agency Ranking