发明授权
- 专利标题: 一种子话题挖掘方法
-
申请号: CN201611024146.5申请日: 2016-11-17
-
公开(公告)号: CN106844416B公开(公告)日: 2019-11-29
- 发明人: 李静远 , 丘志杰 , 刘悦 , 程学旗 , 王凤
- 申请人: 中国科学院计算技术研究所
- 申请人地址: 北京市海淀区中关村科学院南路6号
- 专利权人: 中国科学院计算技术研究所
- 当前专利权人: 中国科学院计算技术研究所
- 当前专利权人地址: 北京市海淀区中关村科学院南路6号
- 代理机构: 北京泛华伟业知识产权代理有限公司
- 代理商 王勇; 叶北琨
- 主分类号: G06F16/332
- IPC分类号: G06F16/332 ; G06F17/27
摘要:
本发明提供一种子话题挖掘方法,包括:1)对语料库中每篇文档的每个词语的主题值进行初始化;2)基于当前的各篇文档的各个词语的主题值,对于每篇文章中的每个词语,分别计算该词语来自各个子话题的概率以及计算该词语来自背景模块的概率,然后基于所计算出的概率,利用吉布斯采样算法重新为每篇文章中的每个词语分配主题值;其中,词语来自背景模块的概率根据预先统计的背景模块中的词语分布向量计算,所述背景模块中的词语分布向量在迭代过程中始终恒定;3)如果满足停止迭代的条件则根据当前的的主题值信息得出LDA子话题,如果否,则回到步骤2)。本发明能够显著地提升针对专题文章集合的话题挖掘效果。
公开/授权文献
- CN106844416A 一种子话题挖掘方法 公开/授权日:2017-06-13