发明公开
CN112528018A 一种基于文本挖掘的热点新闻发现方法
无效 - 驳回
- 专利标题: 一种基于文本挖掘的热点新闻发现方法
-
申请号: CN202011381648.X申请日: 2020-12-01
-
公开(公告)号: CN112528018A公开(公告)日: 2021-03-19
- 发明人: 张大朋 , 赵晓玲 , 孙哲南 , 张堃博 , 薛文芳
- 申请人: 天津中科智能识别产业技术研究院有限公司
- 申请人地址: 天津市滨海新区天津经济技术开发区第二大街57号泰达MSD-G1-1001单元
- 专利权人: 天津中科智能识别产业技术研究院有限公司
- 当前专利权人: 天津中科智能识别产业技术研究院有限公司
- 当前专利权人地址: 天津市滨海新区天津经济技术开发区第二大街57号泰达MSD-G1-1001单元
- 代理机构: 天津市三利专利商标代理有限公司
- 代理商 韩新城
- 主分类号: G06F16/35
- IPC分类号: G06F16/35 ; G06F16/33
摘要:
本发明公开一种基于文本挖掘的热点新闻发现方法,包括步骤:将预处理后的新闻的标题的权重扩大,在分词及去停用词处理后,获取新闻的TF‑IDF的特征向量;基于所述TF‑IDF的特征向量,利用聚类算法预测新闻的所属类别;将新闻的标题及摘要合并成一句子,然后对句子进行分词、去停用词处理;利用TextRank算法,对新闻标题排序后输出热点新闻。本发明在聚类时增加了新闻标题权重,以提升其正确率;将新闻的标题、摘要、关键词一并用于排序,一方面增加新闻标题的权重,一方面能减少新闻标题的重复。