文本数据质量评估方法及装置、电子设备及存储介质

    公开(公告)号:CN118535886A

    公开(公告)日:2024-08-23

    申请号:CN202410767299.7

    申请日:2024-06-13

    申请人: 鹏城实验室

    摘要: 本申请实施例提供了一种文本数据质量评估方法及装置、电子设备及存储介质,属于人工智能技术领域。该方法包括:获取待评估的文本数据集,文本数据集包括多个数据样本;对文本数据集中的多个数据样本进行样本相似处理,得到若干个相似样本子集;对相似样本子集内的数据样本进行合并处理,得到目标数据样本;根据目标数据样本的数据重复率对进行去重处理;将更新后的目标数据样本输入至预训练的质量评估模型中,得到与每个目标数据样本一一对应的样本评估等级;根据样本评估等级,确定文本数据集的数据集评估等级。本申请实施例能够自动化对文本数据集进行评估,提高了数据评估效率,以及为后续的大模型训练提供了高质量的训练库。

    基于多面体模型建模的自动并行策略搜索方法及相关设备

    公开(公告)号:CN115964947A

    公开(公告)日:2023-04-14

    申请号:CN202211704600.7

    申请日:2022-12-29

    申请人: 鹏城实验室

    IPC分类号: G06F30/27 G06F9/50 G06F111/04

    摘要: 本发明公开了基于多面体模型建模的自动并行策略搜索方法及相关设备,所述方法包括:根据每两个客户端的智算网络的智算中心资源,以最优的并行策略作为约束条件,分别对该两个客户端上的编解码架构模型进行分配;控制该两个客户端利用所有经过分配后的编解码架构模型,对所述智算中心资源进行协同训练和聚合操作,计算得到多面体模型的梯度值。通过先根据每两个客户端的智算网络的智算中心资源,对各自的编解码架构模型进行不同的分配,再利用经过分配后的编解码架构模型对所述智算中心资源进行协同训练和聚合操作,以便计算得到梯度值,从而实现根据不同算力分布、数据分布、以及不同业务场景进行分配,使得满足多种业务场景,实现大模型训练在智算网络中的规模化扩展。

    多语言翻译模型的生成方法、翻译方法、终端及介质

    公开(公告)号:CN115796192A

    公开(公告)日:2023-03-14

    申请号:CN202211011066.1

    申请日:2022-08-23

    申请人: 鹏城实验室

    IPC分类号: G06F40/58 G06F18/214

    摘要: 本发明实施例提供了一种多语言翻译模型的生成方法、翻译方法、终端及存储介质,通过获取多个第一单语语句,对预设自回归语言模型进行训练,生成预训练语言模型;所述预设自回归语言模型由解码器组成;获取多个双语语句对,并将所述双语语句对中互译的两个语句拼接,生成双语训练样本;基于所述双语训练样本对所述预训练语言模型进行训练,生成多语言翻译模型;所述多语言翻译模型用于将给定的源语言翻译出目标语句。通过上述方案,利用稀缺语言资源生成高翻译质量的多语言翻译模型,实现高质量的多语言翻译。

    语料相似检测方法、装置、智能终端及存储介质

    公开(公告)号:CN114218918A

    公开(公告)日:2022-03-22

    申请号:CN202111447284.5

    申请日:2021-11-30

    申请人: 鹏城实验室

    摘要: 本发明公开了语料相似检测方法、装置、智能终端及存储介质,其中,上述语料相似检测方法包括:获取输入文档集合;分别对上述输入文档集合中的各个输入文档进行分布式预处理,获取待检测编码文档集合,其中,上述分布式预处理包括字符剔除、分词和单词格式转换,上述待检测编码文档集合中包括多个待检测编码文档,上述待检测编码文档中的各个单词为整数类型的编码;基于上述待检测编码文档集合进行语料相似检测。与现有技术相比,本发明中在进行文档比较时,只需要分别对文档中的单词进行比较,且只需要进行整数类型的数据比较,有利于减少计算量、降低比较时间,提高语料相似检测的效率。

    基于智算网络的协同训练方法、装置、终端及存储介质

    公开(公告)号:CN115297008B

    公开(公告)日:2023-08-22

    申请号:CN202210793410.0

    申请日:2022-07-07

    申请人: 鹏城实验室

    摘要: 本发明公开了一种基于智算网络的协同训练方法、装置、终端及存储介质,方法包括:获取若干个待训练算法及对应的数据集,并根据获取的若干个算法及数据集生成多个任务组;根据选择的任务组确定分布式智能协同计算平台中的待训练终端,并确定各待训练终端对应的待训练算法及数据集;通过跨异构智算中心的协同训练策略对所有待训练终端的模型进行协同训练及推理,得到协同训练及推理结果;根据所述协同训练及推理结果获取多模型融合策略,并通过所述多模型融合策略对训练后终端中的算法进行融合,得到基于分布式多框架的跨异构智算中心的协同计算模型。本发明可以实现单集群难以实现的大模型协同训练、多模型融合、大模型压缩等技术。

    一种跨域数据异构的大模型在线剪枝方法及相关设备

    公开(公告)号:CN115423088A

    公开(公告)日:2022-12-02

    申请号:CN202210986537.4

    申请日:2022-08-17

    申请人: 鹏城实验室

    IPC分类号: G06N3/08 G06K9/62

    摘要: 本发明公开了一种跨域数据异构的大模型在线剪枝方法及相关设备,方法包括:获取目标预训练模型和目标数据集;根据目标数据集对目标预训练模型进行预剪枝,得到预剪枝模型;将预剪枝模型的参数发送至云服务器进行处理,得到目标融合参数,将目标融合参数加载至预剪枝模型,得到目标融合模型,将目标预训练模型更新为目标融合模型;重新执行根据目标数据集对目标预训练模型进行预剪枝的步骤,直至完成预设数量的轮数后,将目标融合模型作为目标预剪枝模型;对目标预剪枝模型进行结构剪枝处理,得到目标剪枝模型;根据目标剪枝模型得到目标发布模型。本发明能够在跨域网络环境下,对模型进行在线剪枝,减少模型参数,降低大模型部署对硬件的要求。

    一种跨域协同训练任务计算效率仿真方法及相关设备

    公开(公告)号:CN115391156A

    公开(公告)日:2022-11-25

    申请号:CN202210983212.0

    申请日:2022-08-16

    申请人: 鹏城实验室

    IPC分类号: G06F11/34 G06K9/62

    摘要: 本发明公开了一种跨域协同训练任务计算效率仿真方法及相关设备,所述计算效率仿真方法包括:输入跨域协同训练模型及相关参数;根据所述跨域协同训练模型及所述相关参数初始化跨域协同训练中五种类型计算阶段的仿真模型;根据所述相关参数中的跨域协同训练轮数,计算每个协同训练周期内不同阶段计算任务的时间点;根据所有协同训练周期内的时间点统计出跨域协同训练任务的计算效率指标。通过建立跨域协同训练中五种类型计算阶段的仿真模型后,计算所有协同训练周期内所有协同训练周期内的时间点,再统计出跨域协同训练任务的计算效率指标,从而实现了快捷计算跨域协同训练任务的仿真效率,提高了计算效率仿真的准确性。

    一种支持异构集群下的模型并行训练方法及相关设备

    公开(公告)号:CN115471394A

    公开(公告)日:2022-12-13

    申请号:CN202211156400.2

    申请日:2022-09-22

    申请人: 鹏城实验室

    IPC分类号: G06T1/20 G06N20/00

    摘要: 本发明公开了一种支持异构集群下的模型并行训练方法及相关设备,所述方法包括:各个集群根据自己的框架编写好代码,然后在各自的框架上训练一部分数据,接着先在集群内部进行模型拼接,把模型并行切分到多张卡的模型参数合并成一个完整的模型,不同集群的拼接后得到的模型是一致的,然后将拼接完的模型参数进行分片传输到参数服务器,参数服务器对模型参数进行融合,接着参数服务器将融合后的模型下发到各个集群,最后各个分集群将收到的模型按照各自的模型并行训练策略进行模型并行切分后训练;本发明实现了用户隐私保护、数据安全、大模型并行训练和大模型传输,能整合不同计算中心资源,满足了异构框架,异构集群共同训练大模型的需求。

    基于智算网络的协同训练方法、装置、终端及存储介质

    公开(公告)号:CN115297008A

    公开(公告)日:2022-11-04

    申请号:CN202210793410.0

    申请日:2022-07-07

    申请人: 鹏城实验室

    IPC分类号: H04L41/14 G06K9/62 G06N5/04

    摘要: 本发明公开了一种基于智算网络的协同训练方法、装置、终端及存储介质,方法包括:获取若干个待训练算法及对应的数据集,并根据获取的若干个算法及数据集生成多个任务组;根据选择的任务组确定分布式智能协同计算平台中的待训练终端,并确定各待训练终端对应的待训练算法及数据集;通过跨异构智算中心的协同训练策略对所有待训练终端的模型进行协同训练及推理,得到协同训练及推理结果;根据所述协同训练及推理结果获取多模型融合策略,并通过所述多模型融合策略对训练后终端中的算法进行融合,得到基于分布式多框架的跨异构智算中心的协同计算模型。本发明可以实现单集群难以实现的大模型协同训练、多模型融合、大模型压缩等技术。

    一种基于集群的模型训练方法、装置、设备及存储介质

    公开(公告)号:CN114548206A

    公开(公告)日:2022-05-27

    申请号:CN202111542809.3

    申请日:2021-12-16

    申请人: 鹏城实验室

    IPC分类号: G06K9/62 G06V10/80 G06V10/774

    摘要: 本发明涉及模型训练技术领域,具体是涉及一种基于集群的模型训练方法、装置、设备及存储介质。本发明将待训练模型放在各个集群上利用各个集群上的局部数据进行模型的训练,本发明将待训练模型放在各个集群上,因此本发明不需要将各个集群上的数据迁移至各个集群的外部就可以利用各个集群的数据对模型进行训练,从而保护了各个集群上的数据隐私以防止数据泄密。