基于Spark的大规模数据全局去重方法、电子设备及介质

    公开(公告)号:CN116561110A

    公开(公告)日:2023-08-08

    申请号:CN202310439940.X

    申请日:2023-04-18

    申请人: 鹏城实验室

    摘要: 本申请提出一种基于Spark的大规模数据去重方法、电子设备和存储介质,通过将大规模语料数据进行预处理,将预处理后得到的第一处理文档存储至不同存储分区,再在各个存储分区内对第一处理文档进行分组,从而排除大量完全不相关的文档,再进行相似检测得到每个第一处理文档的相似对,并在文档分组、存储分区以及全局三种粒度上对相似对进行合并,在文档分组和存储分区的粒度上通过分布式并行运行的方法对相似对进行高效率合并,大大减少系统全局粒度上合并的计算量,从而实现对大规模数据的高效率模糊去重。

    一种大规模长文本数据的近似重复检测方法、系统及终端

    公开(公告)号:CN114386384A

    公开(公告)日:2022-04-22

    申请号:CN202111482009.7

    申请日:2021-12-06

    申请人: 鹏城实验室

    IPC分类号: G06F40/194 G06F16/2458

    摘要: 本发明公开了一种大规模长文本数据的近似重复检测方法、系统及终端,通过将传统数据库中的倒排索引结构引入到分布式计算框架中,实现了文档相似检测的分布式分区,并且通过倒排表分区方式实现Simhash技术的分布式计算,为其带来可扩展性,最后通过在计算过程中嵌入传统数据库领域的前缀剪枝技术,来进一步减少分布式重复检测过程中倒排分区的通讯读写代价和simhash计算的验证代价。

    语料相似检测方法、装置、智能终端及存储介质

    公开(公告)号:CN114218918A

    公开(公告)日:2022-03-22

    申请号:CN202111447284.5

    申请日:2021-11-30

    申请人: 鹏城实验室

    摘要: 本发明公开了语料相似检测方法、装置、智能终端及存储介质,其中,上述语料相似检测方法包括:获取输入文档集合;分别对上述输入文档集合中的各个输入文档进行分布式预处理,获取待检测编码文档集合,其中,上述分布式预处理包括字符剔除、分词和单词格式转换,上述待检测编码文档集合中包括多个待检测编码文档,上述待检测编码文档中的各个单词为整数类型的编码;基于上述待检测编码文档集合进行语料相似检测。与现有技术相比,本发明中在进行文档比较时,只需要分别对文档中的单词进行比较,且只需要进行整数类型的数据比较,有利于减少计算量、降低比较时间,提高语料相似检测的效率。

    文本数据质量评估方法及装置、电子设备及存储介质

    公开(公告)号:CN118535886A

    公开(公告)日:2024-08-23

    申请号:CN202410767299.7

    申请日:2024-06-13

    申请人: 鹏城实验室

    摘要: 本申请实施例提供了一种文本数据质量评估方法及装置、电子设备及存储介质,属于人工智能技术领域。该方法包括:获取待评估的文本数据集,文本数据集包括多个数据样本;对文本数据集中的多个数据样本进行样本相似处理,得到若干个相似样本子集;对相似样本子集内的数据样本进行合并处理,得到目标数据样本;根据目标数据样本的数据重复率对进行去重处理;将更新后的目标数据样本输入至预训练的质量评估模型中,得到与每个目标数据样本一一对应的样本评估等级;根据样本评估等级,确定文本数据集的数据集评估等级。本申请实施例能够自动化对文本数据集进行评估,提高了数据评估效率,以及为后续的大模型训练提供了高质量的训练库。