一种基于文本挖掘的热点新闻发现方法
摘要:
本发明公开一种基于文本挖掘的热点新闻发现方法,包括步骤:将预处理后的新闻的标题的权重扩大,在分词及去停用词处理后,获取新闻的TF‑IDF的特征向量;基于所述TF‑IDF的特征向量,利用聚类算法预测新闻的所属类别;将新闻的标题及摘要合并成一句子,然后对句子进行分词、去停用词处理;利用TextRank算法,对新闻标题排序后输出热点新闻。本发明在聚类时增加了新闻标题权重,以提升其正确率;将新闻的标题、摘要、关键词一并用于排序,一方面增加新闻标题的权重,一方面能减少新闻标题的重复。
0/0