深度学习模型的通信优化方法及装置、存储介质

    公开(公告)号:CN116489678A

    公开(公告)日:2023-07-25

    申请号:CN202310389923.X

    申请日:2023-04-04

    申请人: 鹏城实验室

    IPC分类号: H04W24/02 G06F17/16 G06N3/08

    摘要: 本申请实施例提供了一种深度学习模型的通信优化方法及装置、存储介质,方法包括:对深度学习模型进行切分,得到位于第一通信节点下的第一子模型和位于第二通信节点下的第二子模型;在第一通信节点下,根据稀疏化比例参数和第一子模型传输的前向数据,计算前向数据的稀疏化阈值,并且根据稀疏化阈值和稀疏化比例参数对前向数据进行压缩,得到中间数据;在第二通信节点下,根据量化参数对中间数据进行解压缩,得到后向数据;向第二子模型传输后向数据以进行训练。本申请实施例中,两个子模型所处的两个通信节点之间采用低带宽网络连接,整个通信过程的负载消耗能够得到限制,从而能够在保持深度学习模型的训练精度的前提下,有效地降低通信负载。

    模型溯源方法、装置、设备及存储介质

    公开(公告)号:CN117390598A

    公开(公告)日:2024-01-12

    申请号:CN202311399658.X

    申请日:2023-10-25

    申请人: 鹏城实验室

    IPC分类号: G06F21/10 G06F18/24 G06N3/123

    摘要: 本发明公开了一种模型溯源方法、装置、设备及存储介质。该方法包括:获取源模型对应的训练数据;根据所述训练数据确定所述源模型对应的源模型DNA以及目标模型对应的目标模型DNA;基于所述源模型DNA和所述目标模型DNA确定组合DNA;将所述组合DNA输入至预设判别器模型,根据所述预设判别器模型输出的判别结果确定模型溯源结果。由于本发明是通过源模型对应的源模型DNA以及目标模型对应的目标模型DNA确定组合DNA,将组合DNA输入至预设判别器模型,得到模型溯源结果。本发明首次引入了机器学习模型DNA的概念。可以实现对模型的追溯,以追踪模型的来源。这有助于确保模型的可信度和安全性。

    文本翻译方法、装置、设备和存储介质

    公开(公告)号:CN116362265A

    公开(公告)日:2023-06-30

    申请号:CN202310595862.2

    申请日:2023-05-25

    申请人: 鹏城实验室

    摘要: 本发明实施例提供文本翻译方法、装置、设备和存储介质,涉及人工智能技术领域。该方法包括:通过对源语言句子进行编码,得到第一隐藏层向量;然后根据第一隐藏层向量执行迭代翻译过程,在迭代翻译过程中对预测序列的错误进行定位,将错误词语进行掩码后重新预测,直至满足迭代结束条件,将预测序列作为源语言句子的目标语言翻译句子。本申请实施例针对非自回归文本翻译,利用迭代式解码机制提升翻译性能,不同于一次性生成翻译结果的方式,并且其通过迭代翻译过程多次微调中间翻译结果的预测序列,准确判断生成的预测序列中词语的正确性,对其进行错误进行定位,根据定位结果替换需要修改的预测词,能够提升推理速度以及翻译结果。

    一种面向云际环境的大模型分布式训练方法及相关设备

    公开(公告)号:CN116341652A

    公开(公告)日:2023-06-27

    申请号:CN202310133976.5

    申请日:2023-02-08

    申请人: 鹏城实验室

    摘要: 本发明针对使用跨地域算力中心算力进行深度模型训练的场景需求,设计了一种面向云际环境的深度模型训练方法,采用按照网络层次拆分模型参数到不同算力中心、跨域算力节点间采用压缩通信、算力中心内和算力中心间采用混合并行等策略,实现利用跨域算力协同完成深度模型训练。本发明可以使大模型训练不再受单算力中心算力资源的限制,能够高效利用跨域算力中心的算力,在低带宽环境下利用跨域算力协同完成大规模模型的训练任务。

    一种基于图网络的多语言翻译的词表初始化方法及装置

    公开(公告)号:CN115952809A

    公开(公告)日:2023-04-11

    申请号:CN202211709287.6

    申请日:2022-12-29

    申请人: 鹏城实验室

    摘要: 本发明公开了一种基于图网络的多语言翻译的词表初始化方法及装置,包括:根据每种语言对应的双语词典、词语及词元的分解构成关系,构建每种语言与核心语言之间的词表映射异质图;根据异质图神经网络和对比学习算法,在词表映射异质图上学习不同语言词表与核心语言词表之间的词元映射关系;将多语言机器翻译任务中的核心语言词表的词元利用核心语言BERT模型的词表进行初始化,并根据词元映射关系将其他语言映射到核心语言BERT模型的词表空间,完成多语言机器翻译任务中所有词元的初始化。本发明利用构建词元异质图的方式来完成不同语言词元的映射来初始化词元,提高了多语言机器翻译模型的翻译准确率,同时也加快了模型收敛速度。

    一种基于昇思框架的低耦合情感分析算法库及智能终端

    公开(公告)号:CN116225387A

    公开(公告)日:2023-06-06

    申请号:CN202310132331.X

    申请日:2023-02-07

    申请人: 鹏城实验室

    摘要: 本发明公开了一种基于昇思框架的低耦合情感分析算法库,所述低耦合情感分析算法库包括:算法模块,与算法模块耦合连接的暴露接口,以及与暴露接口耦合连接的统一调用接口;其中,算法模块用于构建和训练所述低耦合情感分析算法库中的算法;算法模块包括数据模块、模型模块和训练模块;暴露接口用于为所述统一调用接口提供每个算法的调用接口;统一调用接口包括超参数配置信息和调用逻辑。本发明基于国产昇思框架来构建算法库,通过保留每个算法的完整性来降低不同算法之间的耦合度,让每个算法自成一体的同时通过暴露一个接口来实现统一调度,从而实现算法库跨平台、统一架构、统一调用接口和易扩展的特性。