一种基于元信息的语料库主题分布计算方法

    公开(公告)号:CN112287666B

    公开(公告)日:2023-07-25

    申请号:CN202011124613.8

    申请日:2020-10-20

    Abstract: 本发明属于主题建模技术领域,具体涉及一种基于元信息的语料库主题分布计算方法。本发明设计了文档和词汇元信息的TWLLDA主题模型,克服了现有技术中模型结构复杂、非共轭、信息获取渠道单一等缺点。本发明将元信息转化为文档和单词的标签信息,标签信息独立于模型本身使得具有相似标签的文档具有相似的狄利克雷先验向量,相似标签的单词在主题上也有相似的分布权重;本发明提出有效的闭合的吉布斯采样方法,完成TWLLDA的推理;以困惑度和主题一致性为评价指标进行多组实验。实验表明相比于LDA等模型,基于元信息的TWLLDA模型在相同条件下表现得更为优秀。

    一种基于元信息的语料库主题分布计算方法

    公开(公告)号:CN112287666A

    公开(公告)日:2021-01-29

    申请号:CN202011124613.8

    申请日:2020-10-20

    Abstract: 本发明属于主题建模技术领域,具体涉及一种基于元信息的语料库主题分布计算方法。本发明设计了文档和词汇元信息的TWLLDA主题模型,克服了现有技术中模型结构复杂、非共轭、信息获取渠道单一等缺点。本发明将元信息转化为文档和单词的标签信息,标签信息独立于模型本身使得具有相似标签的文档具有相似的狄利克雷先验向量,相似标签的单词在主题上也有相似的分布权重;本发明提出有效的闭合的吉布斯采样方法,完成TWLLDA的推理;以困惑度和主题一致性为评价指标进行多组实验。实验表明相比于LDA等模型,基于元信息的TWLLDA模型在相同条件下表现得更为优秀。

Patent Agency Ranking