-
公开(公告)号:CN116992026A
公开(公告)日:2023-11-03
申请号:CN202310859085.8
申请日:2023-07-12
申请人: 华南师范大学
IPC分类号: G06F16/35 , G06F16/332 , G06F16/33 , G06F18/23213 , G06F40/289 , G06F40/30 , G06N3/0464 , G06N3/0455 , G06N3/088 , G06N3/006
摘要: 本发明公开了一种文本聚类方法、装置、电子设备及存储介质,方法:获取目标语料数据,预处理后得到目标文本数据;对目标文本数据进行向量化处理,获得第一句向量矩阵;并对第一句向量矩阵进行降维处理,获得第二句向量矩阵;根据目标文本数据构建词汇库,对词汇库进行主题建模,获得概率矩阵;对第二句向量矩阵和概率矩阵进行拼接处理,获得目标矩阵;根据目标矩阵,拟合得到目标聚类质心,基于目标聚类质心进行文本聚类,得到文本聚类结果。本发明能够缓解主题聚类忽略文本的上下文信息的问题,同时也能捕捉到长尾词汇对语义的作用,能减少噪声与异常值的影响;并且能提高聚类的精度,从而提高对文本聚类的效果,可广泛应用于数据处理技术领域。