-
公开(公告)号:CN115048496A
公开(公告)日:2022-09-13
申请号:CN202210479506.X
申请日:2022-05-05
Applicant: 北京邮电大学
IPC: G06F16/332 , G06F16/33
Abstract: 本发明公开了一种面向虚拟数字人交互的基于文本片段的主题挖掘方法,包括:对文本数据进行处理,得到词串序列;基于词串序列构建文本片段序列;统计文本片段序列中的文本片段的词共现模式,构建词‑词共现矩阵;对词‑词共现矩阵进行归一化处理,得到词‑词相关度矩阵S;将词‑词相关度矩阵S分解成词语‑主题矩阵和它的转置之间的乘积。本申请的主题挖掘方法将重点从文档转换到局部上下文环境的文本片段能够带来更多语义相关的主题信息,同时也减少了错误的语义信息;另外,利用文本片段而不是文档能够用一种统一的方式来处理各式各样的文本,无论是长文本数据集、短文本数据集,还是单个的文档(比如说一部小说)。