发明公开
- 专利标题: 一种基于社交平台元数据的文本主题建模方法及系统
-
申请号: CN202210921496.0申请日: 2022-08-02
-
公开(公告)号: CN115391522A公开(公告)日: 2022-11-25
- 发明人: 高金华 , 赵鑫 , 沈华伟 , 王永庆 , 庞亮 , 孟剑 , 程学旗
- 申请人: 中国科学院计算技术研究所
- 申请人地址: 北京市海淀区中关村科学院南路6号
- 专利权人: 中国科学院计算技术研究所
- 当前专利权人: 中国科学院计算技术研究所
- 当前专利权人地址: 北京市海淀区中关村科学院南路6号
- 代理机构: 北京律诚同业知识产权代理有限公司
- 代理商 祁建国; 陈思远
- 主分类号: G06F16/35
- IPC分类号: G06F16/35 ; G06F40/30 ; G06F40/258 ; G06F40/295 ; G06Q50/00 ; G06N3/08
摘要:
本发明提出一种基于社交平台元数据的文本主题建模方法和系统,包括基于文本数据的关键词,构建文本数据的词袋表示;基于文本数据的元数据类别,训练对应类别的属性值预测任务,以微调预训练语义提取模型,得到目标语义提取模型,使用目标语义提取模型提取文本数据的文本语义表示;基于文本语义表示构造语义约束目标,以语义约束目标为指导,以词袋表示作为输入和重构目标,训练基于变分自编码器的神经主题模型,得到主题提取模型,并从模型中导出主题‑关键词分布和主题嵌入表示。方法及系统可以对移动应用内广泛存在的短文本消息进行主题建模,提取出主题的关键词并学习得到主题的嵌入表示。