• 专利标题: 一种基于UCL的用户兴趣主题挖掘方法及装置
  • 申请号: CN202010516041.1
    申请日: 2020-06-09
  • 公开(公告)号: CN111651675A
    公开(公告)日: 2020-09-11
  • 发明人: 杨鹏李超季冬
  • 申请人: 杨鹏
  • 申请人地址: 江苏省南京市江宁区文心街28号
  • 专利权人: 杨鹏
  • 当前专利权人: 杨鹏
  • 当前专利权人地址: 江苏省南京市江宁区文心街28号
  • 代理机构: 南京苏高专利商标事务所
  • 代理商 孟红梅
  • 主分类号: G06F16/9535
  • IPC分类号: G06F16/9535
一种基于UCL的用户兴趣主题挖掘方法及装置
摘要:
本发明公开了一种基于UCL的用户兴趣主题挖掘方法及装置。本发明首先获取用户历史、浏览器浏览历史和浏览器书签对应的网页数据,并对网页数据进行预处理和UCL标引;然后将UCL文档中的相关文本内容转换为向量,利用DLDA_SE模型构建用户潜在兴趣主题模型,并利用爬虫爬取用户实时访问互联网中内容产生的数据对用户潜在兴趣主题模型进行即时更新;最后利用DLDA_SE模型对用户搜索进行主题挖掘,计算拓展后的搜索意图主题与各个用户潜在兴趣主题的相似度,确定用户兴趣主题。与现有技术相比,本发明可以避免低区分度高频词的权重过高降低主题模型的性能,并且能够适应于搜索环境,通过对用户搜索短句进行主题拓展,能准确地确定用户兴趣主题。
公开/授权文献
0/0