一种概率主题计算与匹配的舆情监测方法及系统
摘要:
本发明公开了一种概率主题计算与匹配的舆情监测方法及系统;包括:数据采集解析:利用爬虫集群从数据源中采集页面HTML,然后爬虫集群依据规则库对采集到的页面HTML进行解析得到若干条媒体数据;爬虫集群采用异步方式将解析得到的文档存储在全文检索系统,采用同步方法将解析得到的文档进行主题匹配;中文分词:从全文检索系统中读取文档,将每个文档的标题与内容合并,对合并后的内容进行分词,分词后去掉停用词;主题估计:对分词后的内容估计出主题库与历史文档主题集;主题匹配:将数据采集实时推送的文档推断出实际文档主题集,并将实际文档主题集与用户输入的舆情监测关键词进行匹配,得到有序文档集,从而实现舆情监测。
0/0