-
公开(公告)号:CN120067337A
公开(公告)日:2025-05-30
申请号:CN202510536475.0
申请日:2025-04-27
Applicant: 之江实验室
IPC: G06F16/355 , G06F18/231
Abstract: 本申请提供一种文本语料的去重处理方法、去重处理系统和存储介质。文本语料的去重方法包括:对全局待去重文本语料进行随机采样,得到待去重文本语料子集;根据预设的文本分类模型,将待去重文本语料子集分为多个分类集合;对各个分类集合中的文本语料进行层次化聚类,得到层次化聚类结构;根据层次化聚类结构将全局待去重文本语料分至多个语料桶;对所有语料桶进行桶内去重后,进行全局去重,得到去重后的文本。如此,实现了文本语料的去重过程的优化,有利于节约去重过程所需要的计算资源和存储资源。