- 专利标题: 一种概率主题计算与匹配的舆情监测方法及系统
-
申请号: CN201710248537.3申请日: 2017-04-17
-
公开(公告)号: CN107066585B公开(公告)日: 2019-10-01
- 发明人: 马坤 , 周劲 , 于自强 , 纪科
- 申请人: 济南大学
- 申请人地址: 山东省济南市市中区南辛庄西路336号
- 专利权人: 济南大学
- 当前专利权人: 济南大学
- 当前专利权人地址: 山东省济南市市中区南辛庄西路336号
- 代理机构: 济南圣达知识产权代理有限公司
- 代理商 黄海丽
- 主分类号: G06F16/906
- IPC分类号: G06F16/906
摘要:
本发明公开了一种概率主题计算与匹配的舆情监测方法及系统;包括:数据采集解析:利用爬虫集群从数据源中采集页面HTML,然后爬虫集群依据规则库对采集到的页面HTML进行解析得到若干条媒体数据;爬虫集群采用异步方式将解析得到的文档存储在全文检索系统,采用同步方法将解析得到的文档进行主题匹配;中文分词:从全文检索系统中读取文档,将每个文档的标题与内容合并,对合并后的内容进行分词,分词后去掉停用词;主题估计:对分词后的内容估计出主题库与历史文档主题集;主题匹配:将数据采集实时推送的文档推断出实际文档主题集,并将实际文档主题集与用户输入的舆情监测关键词进行匹配,得到有序文档集,从而实现舆情监测。
公开/授权文献
- CN107066585A 一种概率主题计算与匹配的舆情监测方法及系统 公开/授权日:2017-08-18