-
公开(公告)号:CN109522409A
公开(公告)日:2019-03-26
申请号:CN201811313932.6
申请日:2018-11-06
Applicant: 广州大学
IPC: G06F16/35
Abstract: 本发明一种词汇分布敏感的话题表示模型生成方法及装置,所述方法包括如下步骤:步骤S1,对给定的文档集合,通过LDA模型得到每个话题的话题-词汇分布ρ(θ)LDA;步骤S2,对所述文档集合中的每个词汇,计算词汇的外部权重;步骤S3,对每个话题中的每个词汇,计算词汇的内部权重;步骤S4,根据每个词汇的内部权重和外部权重,计算每个词汇的最终分布权重;步骤S5,根据词汇的最终分布权重对每个话题计算词汇分布敏感的话题表示模型,本发明可提高不同话题词项的区分度更高,提高后续使用话题模型进行话题发现、演化分析等算法的准确度。