一种基于网络媒体的热门事件提取方法
摘要:
本发明适用于信息挖掘技术领域,提供一种基于网络媒体的热门事件提取方法,首先将新闻、评论文本发布的时间区间划分为若干个等间隔的时间片。其次,在每个时间片内提取新闻文本的关键词及权重,用优化增量聚类方法对这些新闻文本进行聚合分类,得到该时间片内的每个话题及其空间向量模型,并根据模型计算话题热度,按照热度保留有效话题。第三,对所有的时间片的话题再用优化增量聚类方法进行聚合分类,得到不同的事件,计算事件热度。最后,判断事件是否热门,并通过热度对热门的事件排序。本发明改进了普通的增量聚类算法,并建立多级的优化增量聚类模型,提高了计算速度;并且根据媒体的关注情况和网民的舆论情况计算事件的热度,并判断事件是否热门,对热门的事件排名,此方法更客观,减少了事件排名的误差。
公开/授权文献
0/0