一种文本聚类方法、装置、电子设备及存储介质

    公开(公告)号:CN116992026A

    公开(公告)日:2023-11-03

    申请号:CN202310859085.8

    申请日:2023-07-12

    摘要: 本发明公开了一种文本聚类方法、装置、电子设备及存储介质,方法:获取目标语料数据,预处理后得到目标文本数据;对目标文本数据进行向量化处理,获得第一句向量矩阵;并对第一句向量矩阵进行降维处理,获得第二句向量矩阵;根据目标文本数据构建词汇库,对词汇库进行主题建模,获得概率矩阵;对第二句向量矩阵和概率矩阵进行拼接处理,获得目标矩阵;根据目标矩阵,拟合得到目标聚类质心,基于目标聚类质心进行文本聚类,得到文本聚类结果。本发明能够缓解主题聚类忽略文本的上下文信息的问题,同时也能捕捉到长尾词汇对语义的作用,能减少噪声与异常值的影响;并且能提高聚类的精度,从而提高对文本聚类的效果,可广泛应用于数据处理技术领域。