基于成对约束和集群引导的深度半监督文本聚类方法

    公开(公告)号:CN114238638A

    公开(公告)日:2022-03-25

    申请号:CN202111574148.2

    申请日:2021-12-21

    Applicant: 中南大学

    Abstract: 本公开实施例中提供了一种基于成对约束和集群引导的深度半监督文本聚类方法,属于数据处理技术领域,具体包括:对目标文本数据进行预处理和向量化,得到多维向量;根据多维向量学习目标文本数据的隐层特征,并将隐层特征输入预设算法进行聚类,得到初始聚类中心;计算聚类损失;利用交叉熵生成成对约束损失;并计算全部有标签集群和全部无标签集群的集群分配损失;根据重构误差、聚类损失、成对约束损失和集群分配损失计算联合损失函数,并根据联合损失函数迭代达到预设条件时,得到聚类结果。通过本公开的方案,充分挖掘标签中的监督信息,加强了其与无标签集群之间的引导学习,提高了深度半监督聚类模型的鲁棒性,同时提升了文本聚类的精度。

Patent Agency Ranking