-
公开(公告)号:CN109509110B
公开(公告)日:2021-08-31
申请号:CN201810841711.X
申请日:2018-07-27
Applicant: 福州大学
IPC: G06Q50/00 , G06F40/289 , G06F40/216 , G06F16/35 , G06F16/9536
Abstract: 本发明涉及一种基于改进BBTM模型的微博热点话题发现方法,包括:微博文本预处理,对微博数据集进行微博去噪、分词、去停用词等预处理操作;特征选择与词对热值概率化,采用词的突发概率进行特征选择,将微博短文本形成词对,并计算词对的热值突发概率,作为BBTM模型的先验概率;话题数目的自动确定;调用BBTM模型进行热点话题发现,获得话题热点词分布;微博聚类,判定每个微博文本的话题。本发明提出的基于改进BBTM模型的微博热点话题发现方法,可以在不需要预先设定话题题数目的情况下,自适应学习话题数目,并且挖掘出微博中潜在的热点话题。
-
公开(公告)号:CN109509110A
公开(公告)日:2019-03-22
申请号:CN201810841711.X
申请日:2018-07-27
Applicant: 福州大学
Abstract: 本发明涉及一种基于改进BBTM模型的微博热点话题发现方法,包括:微博文本预处理,对微博数据集进行微博去噪、分词、去停用词等预处理操作;特征选择与词对热值概率化,采用词的突发概率进行特征选择,将微博短文本形成词对,并计算词对的热值突发概率,作为BBTM模型的先验概率;话题数目的自动确定;调用BBTM模型进行热点话题发现,获得话题热点词分布;微博聚类,判定每个微博文本的话题。本发明提出的基于改进BBTM模型的微博热点话题发现方法,可以在不需要预先设定话题题数目的情况下,自适应学习话题数目,并且挖掘出微博中潜在的热点话题。
-
公开(公告)号:CN109284379B
公开(公告)日:2022-01-04
申请号:CN201811106923.X
申请日:2018-09-21
Applicant: 福州大学
IPC: G06F16/35 , G06F40/289 , G06F40/30 , G06Q50/00
Abstract: 本发明涉及一种基于双向量模型的自适应微博话题追踪方法,包括S1:微博分片,将微博按天分片;S2:构建话题双向量模型;S3:微博双向量模型,将话题和微博表示成向量;S4:计算话题与微博的余弦相似度,余弦相似值越大表示话题与微博越相似;S5:相似度阈值的自适应学习和阈值比较,克服相似度阈值不变性带来的话题漂移问题;S6:话题模型更新,克服话题模型不变性带来的话题漂移问题;S7:判断时隙是否都已处理,否,则进入下一个时隙,重复步骤4‑7;否则,结束算法。本发明可以实时地跟踪话题并降低了话题相关微博的漏检率和误检率。
-
公开(公告)号:CN109284379A
公开(公告)日:2019-01-29
申请号:CN201811106923.X
申请日:2018-09-21
Applicant: 福州大学
Abstract: 本发明涉及一种基于双向量模型的自适应微博话题追踪方法,包括S1:微博分片,将微博按天分片;S2:构建话题双向量模型;S3:微博双向量模型,将话题和微博表示成向量;S4:计算话题与微博的余弦相似度,余弦相似值越大表示话题与微博越相似;S5:相似度阈值的自适应学习和阈值比较,克服相似度阈值不变性带来的话题漂移问题;S6:话题模型更新,克服话题模型不变性带来的话题漂移问题;S7:判断时隙是否都已处理,否,则进入下一个时隙,重复步骤4-7;否则,结束算法。本发明可以实时地跟踪话题并降低了话题相关微博的漏检率和误检率。
-
-
-