一种基于DMA模型和特征划分多源文本主题模型聚类方法

    公开(公告)号:CN111813934A

    公开(公告)日:2020-10-23

    申请号:CN202010570956.0

    申请日:2020-06-22

    Applicant: 贵州大学

    Abstract: 本发明公开了一种基于DMA模型和特征划分多源文本主题模型聚类方法,所述方法包含有如下步骤:一、从多个来源收集文本集;二、将来自多个数据源的文本信息进行文本预处理;三、基于DMA模型和特征划分构建多源主题模型;四、进行Blocked Gibbs采样并更新参数;五、根据采样结果进行文本聚类。本发明通过更新多源文本的主题-词分布的先验参数,改善了多源文本的聚类效果;本发明能够自动判别每个数据源文本中簇的数目,而不需要人为提前给定;每个数据源拥有各自的主题分布、主题-特征词分布以及噪音词分布参数,因此本发明能保留多源文本中每个数据源的主题热点以及用词特点。

    一种基于DMA模型和特征划分多源文本主题模型聚类方法

    公开(公告)号:CN111813934B

    公开(公告)日:2024-04-30

    申请号:CN202010570956.0

    申请日:2020-06-22

    Applicant: 贵州大学

    Abstract: 本发明公开了一种基于DMA模型和特征划分多源文本主题模型聚类方法,所述方法包含有如下步骤:一、从多个来源收集文本集;二、将来自多个数据源的文本信息进行文本预处理;三、基于DMA模型和特征划分构建多源主题模型;四、进行Blocked Gibbs采样并更新参数;五、根据采样结果进行文本聚类。本发明通过更新多源文本的主题‑词分布的先验参数,改善了多源文本的聚类效果;本发明能够自动判别每个数据源文本中簇的数目,而不需要人为提前给定;每个数据源拥有各自的主题分布、主题‑特征词分布以及噪音词分布参数,因此本发明能保留多源文本中每个数据源的主题热点以及用词特点。

    一种基于层次狄利克雷多项分配模型的多源文本聚类方法

    公开(公告)号:CN111813935B

    公开(公告)日:2024-04-30

    申请号:CN202010570969.8

    申请日:2020-06-22

    Applicant: 贵州大学

    Abstract: 本发明公开了一种基于层次狄利克雷多项分配模型的多源文本聚类方法,所述方法包含有如下步骤:一、从多个来源收集文本集;二、将来自多个数据源的文本信息进行文本预处理;三、基于层次狄利克雷多项分配模型构建主题模型;四、进行Blocked Gibbs采样并更新参数#imgabs0#;五、根据采样结果进行文本聚类。本发明通过更新多源文本的主题‑词分布的先验参数,改善多源文本聚类效果;所建立的模型能够自动判别每个数据源文本中簇的数目,而不需要人为提前给定,能够较大程度地提高多源文本聚类效果。

    一种基于层次狄利克雷多项分配模型的多源文本聚类方法

    公开(公告)号:CN111813935A

    公开(公告)日:2020-10-23

    申请号:CN202010570969.8

    申请日:2020-06-22

    Applicant: 贵州大学

    Abstract: 本发明公开了一种基于层次狄利克雷多项分配模型的多源文本聚类方法,所述方法包含有如下步骤:一、从多个来源收集文本集;二、将来自多个数据源的文本信息进行文本预处理;三、基于层次狄利克雷多项分配模型构建主题模型;四、进行Blocked Gibbs采样并更新参数;五、根据采样结果进行文本聚类。本发明通过更新多源文本的主题-词分布的先验参数,改善多源文本聚类效果;所建立的模型能够自动判别每个数据源文本中簇的数目,而不需要人为提前给定,能够较大程度地提高多源文本聚类效果。

Patent Agency Ranking