-
公开(公告)号:CN107239512A
公开(公告)日:2017-10-10
申请号:CN201710351745.6
申请日:2017-05-18
Applicant: 华中科技大学
Abstract: 本发明公开了一种结合评论关系网络图的微博垃圾评论识别方法,解决现有微博垃圾评论识别研究中整体识别率低、正常/垃圾评论误判率高的问题。其基本思路如下:首先将与评论相关的主体以及主体之间的关系抽取出来,建立评论关系网络图模型;其次使用Lucence全文搜索引擎为爬取到的博文语料库集创建索引并提供全文搜索功能;然后采用文本相关度模型代替传统的文本相似度计算模型得到评论与原博文的相关度,能够在传统朴素贝叶斯的基础上不仅从评论文本与原博文相关角度,对单纯基于文本概率统计模型的垃圾评论识别方法进行改进优化,同时引进了由垃圾评论特征包括是否包含垃圾连续数字、是否字重复率高于一定阙值等构成的评论布尔向量。
-
公开(公告)号:CN107239512B
公开(公告)日:2019-10-08
申请号:CN201710351745.6
申请日:2017-05-18
Applicant: 华中科技大学
IPC: G06F16/951 , G06F16/953 , G06F16/2458 , G06F17/27
Abstract: 本发明公开了一种结合评论关系网络图的微博垃圾评论识别方法,解决现有微博垃圾评论识别研究中整体识别率低、正常/垃圾评论误判率高的问题。其基本思路如下:首先将与评论相关的主体以及主体之间的关系抽取出来,建立评论关系网络图模型;其次使用Lucence全文搜索引擎为爬取到的博文语料库集创建索引并提供全文搜索功能;然后采用文本相关度模型代替传统的文本相似度计算模型得到评论与原博文的相关度,能够在传统朴素贝叶斯的基础上不仅从评论文本与原博文相关角度,对单纯基于文本概率统计模型的垃圾评论识别方法进行改进优化,同时引进了由垃圾评论特征包括是否包含垃圾连续数字、是否字重复率高于一定阙值等构成的评论布尔向量。
-