基于多层级代码生成的AI前端统一计算方法、装置及介质

    公开(公告)号:CN116560666B

    公开(公告)日:2023-09-22

    申请号:CN202310834277.3

    申请日:2023-07-10

    摘要: 本发明公开了基于多层级代码生成的AI前端统一计算方法、装置及介质。包括:对主流AI计算框架和模型标准所编写或定义的网络模型进行解析以获取各计算节点的节点参数,并根据节点参数调用统一API接口生成一致的前端计算图;对前端计算图以迭代的形式推断各运算实例的输出类型与形状,按照静态单赋值形式对各运算实例进行高层级中间表示及整合以生成前端计算图的高层级中间表示;对前端计算图的高层级中间表示按照多层级下降标准进行转义生成前端计算图的标准中间表示以兼容现有AI编译后端。本发明解决了AI编译领域计算前端软件碎片化和兼容性低等问题且在不同硬件平台和主流AI模型上展示出更高兼容性和更快的端到端编译及执行速度。

    一种神经网络模型的计算方法、装置、设备及存储介质

    公开(公告)号:CN115391727B

    公开(公告)日:2023-08-18

    申请号:CN202210995283.2

    申请日:2022-08-18

    摘要: 本发明实施例公开了一种神经网络模型的计算方法、装置、设备及存储介质。该方法包括:将输入数据集加载至目标芯片高级缓存区中;将输入数据集中数据搬运至低级缓存区再搬运至计算单元,进行一维DFT运算得到一半数据量的第一DFT结果,根据结果的共轭对称性得到第一输入DFT运算结果;再进行一维DFT运算得到一半数据量的第二DFT结果,根据结果的中心共轭对称性得到第二输入DFT运算结果;从目标级缓存区搬运共享卷积核DFT运算结果至低级缓存区,再搬运至计算单元,对各第二输入DFT运算结果以及共享卷积核DFT运算结果进行运算,得到卷积运算结果,进行神经网络模型计算。该方法可以提高目标芯片的运算速度。

    应用于AI芯片的计算图简化方法、装置、设备及介质

    公开(公告)号:CN116562348A

    公开(公告)日:2023-08-08

    申请号:CN202310220968.4

    申请日:2023-03-09

    IPC分类号: G06N3/063 G06N3/08

    摘要: 本发明公开了应用于AI芯片的计算图简化方法、装置、设备及介质。该方法包括:获取算法模型所对应的主计算图以及待搜索的子计算图;获取与主计算图适配的AI芯片信息,并根据AI芯片信息建立与主计算图和子计算图分别匹配的主结构体和子结构体;将子结构体与主结构体进行匹配识别,当确定在主结构体中匹配到子结构体时获取匹配位置,根据AI芯片信息和匹配位置对主结构体进行折叠获取简化后的主结构体。通过获取主计算图和子计算图分别对应的主结构体和子结构体之后,采用抽象后的计算图进行子结构搜索、匹配及折叠,并且支持不同硬件架构,从而简化了计算图的复杂度,降低了分析及研究的成本。

    分布式训练中的数据规约方法、装置、介质和训练系统

    公开(公告)号:CN116243978A

    公开(公告)日:2023-06-09

    申请号:CN202310061723.1

    申请日:2023-01-18

    发明人: 刘伟 张亚林

    IPC分类号: G06F9/30 G06N3/098 G06N20/20

    摘要: 本发明公开了一种分布式训练中的数据规约方法、装置、介质和训练系统。该方法多核芯片中贴近外部存储器设置的原子操作模块执行,包括:每当接收到片上计算核或片外计算核通过DMA模块发送的数据规约指令时,将数据规约指令存储于指令缓存区中;从指令缓存区中分别读取各数据规约指令,并根据各数据规约指令中包括的数据规约描述信息,执行针对外部存储器的数据读写原子操作。本发明实施例的技术方案,通过贴近外部存储器设置的原子操作模块执行原子操作以实现数据规约,在减少了数据规约的控制开销的同时,避免了数据规约的过程中产生的逻辑错误,提升了数据规约的准确率和数据规约操作的实现效率。

    一种DLA架构中数据同步方法及芯片

    公开(公告)号:CN116166580A

    公开(公告)日:2023-05-26

    申请号:CN202211516737.X

    申请日:2022-11-29

    摘要: 本发明公开了一种DLA架构中数据同步方法及芯片。方法包括:DLA包括最底层的计算层以及至少一层的搬运层;计算层包括至少一个计算核心;与计算层相邻的第一搬运层包括与计算核心对应的至少一个第一DMA以及一级缓存区;第一DMA将上一级存储区中的数据按预置顺序以预置跨度和预置大小进行切片,并将切片后第一切片搬运至一级缓存区;待第一切片搬运完成后,第一DMA发送第一搬运完成信号至计算核心;计算核心接收到至少一个第一搬运完成信号后,从至少一个一级缓存区中加载第一切片;计算核心将加载后的第一切片中的数据进行计算。本发明根据计算算子的数据流描述,通过DMA与计算核心的协同作用实现数据搬运以及数据计算同步,产生高效的数据流。

    神经网络分布式训练系统、方法、装置、计算单元及介质

    公开(公告)号:CN114912587B

    公开(公告)日:2023-05-26

    申请号:CN202210652215.6

    申请日:2022-06-09

    IPC分类号: G06N3/04 G06N3/08 G06N3/063

    摘要: 本发明公开了神经网络分布式训练系统、方法、装置、计算单元及介质。该系统包括:神经网络芯片和主机;神经网络芯片包括多个计算单元,各计算单元上分别设置有内存屏障;各计算单元,用于根据数据分片进行前向传播计算,得到单机代价函数;根据单机代价函数计算与单机代价函数匹配的梯度分区;在满足内存屏障释放时机时,将梯度分区发送至主机;主机,用于对接收到的全部计算单元的梯度分区进行全局梯度规约,并将得到的全局梯度反馈至各计算单元;各计算单元,还用于根据接收的全局梯度,更新单机计算参数。通过本发明的技术方案,能够减小神经网络芯片和主机之间的梯度状态同步时间,提高了分布式训练的效率。

    中文通用语言的生成方法、装置、设备及存储介质

    公开(公告)号:CN116151194A

    公开(公告)日:2023-05-23

    申请号:CN202310348704.7

    申请日:2023-04-04

    摘要: 本发明涉及自然语言处理技术领域,公开了一种中文通用语言的生成方法、装置、设备及存储介质。该方法包括:获取用户输入的风格提示符、中文文本前缀和文本生成长度;将用户输入的风格提示符、中文文本前缀和文本生成长度输入至预训练的目标语言模型,获取目标语言模型输出的续写文本;其中,目标语言模型基于生成式预训练网络建立;对续写文本进行展示。本实施例的技术方案,通过基于生成式预训练网络建立可以生成中文通用语言的语言模型,可以基于单一语言模型实现对不同风格的中文语言的自动生成,可以提升中文语言生成的多样性和通用性。

    面向异构场景的AI统一计算方法、装置、设备及介质

    公开(公告)号:CN116149797A

    公开(公告)日:2023-05-23

    申请号:CN202310348238.2

    申请日:2023-04-04

    摘要: 本发明公开了一种面向异构场景的AI统一计算方法、装置、设备及介质。包括:获取AI计算图,并将AI计算图转义为中间表达后,将中间表达形式的AI计算图拆分为多个图单元;将各图单元编译为至少一种类型的计算设备能识别的计算字节码单元,并提供给AI计算框架中的运行时系统;其中,各计算设备中预先实现多个标准计算接口;运行时系统在将各计算字节码单元分发调度至目标计算设备后,调用各标准计算接口实施计算,并响应于内存访问指令,统一内存管理器对各目标计算设备进行统一的内存分配和回收。本发明实施例的技术方案屏蔽了不同芯片厂商的设备差异性对上层AI计算框架的影响,实现了不同芯片厂商对主流AI计算框架的兼容和复用。

    芯片链路的电迁移失效时间确定方法、装置及介质

    公开(公告)号:CN116070434A

    公开(公告)日:2023-05-05

    申请号:CN202310060150.0

    申请日:2023-01-18

    发明人: 陈桂芳 张亚林

    摘要: 本发明公开了芯片链路的电迁移失效时间确定方法、装置及介质。包括:构建芯片中待测链路的仿真模型;按照预设的多组测试条件基于仿真模型对待测链路进行电迁移测试,根据电迁移测试结果确定待测链路的失效时间计算公式,其中,测试条件中包括测试脉冲信号和测试温度;基于仿真模型和失效时间计算公式,确定待测链路在指定应用环境中的电迁移失效时间。通过构建芯片链路的仿真模型,并基于仿真模型对待测链路进行电迁移测试获取失效时间计算公式,从而用过所确定的公式可以获取待测链路在指定环境中的电迁移失效时间,从而便于用户以所确定的失效时间作为参考对芯片进行合理的使用。

    算子的切分图样搜索方法、装置、计算机设备及存储介质

    公开(公告)号:CN115617351A

    公开(公告)日:2023-01-17

    申请号:CN202211503027.3

    申请日:2022-11-29

    IPC分类号: G06F8/41

    摘要: 本发明公开了算子的切分图样搜索方法、装置、计算机设备及存储介质。该方法包括:获取目标算子在目标芯片中的切分搜索空间:切分搜索空间中包括多个切分图样;根据多项切分约束条件在切分搜索空间中逐次滤除无效切分图样,得到多个备选切分图样;使用各备选切分图样对目标算子的标准算子实现进行编译,得到对应的目标算子实现;在目标芯片中,分别运行与各备选切分图样对应的目标算子实现,得到与每个备选切分图样分别对应的实测数据;根据各所述实测数据,在各备选切分图样中得到目标算子在目标芯片中的目标切分图样。通过本发明实施例的技术方案,能够快速识别出芯片中各算子较优的切分图样,使得芯片的算力能够得到充分的发挥。