-
公开(公告)号:CN118012632B
公开(公告)日:2024-07-05
申请号:CN202410425213.2
申请日:2024-04-10
申请人: 山东浪潮科学研究院有限公司
摘要: 本申请涉及计算机技术领域,公开一种基于多级重分配机制的GPGPU分支指令调度方法,包括:CPU通过PCIE向GPGPU发送指令信息;GPGPU对指令信息进行多级重分配调度处理,多级重分配调度处理包括第一级基于通用指令执行单元/分支预处理单元,判断指令信息,如果该指令信息是非条件分支指令,则进行顺序计算执行;如果该指令是条件分支指令,则预计算各个warp/thread对应的分支指令指令块,并将其发送至第二级分支调度单元;第二级分支调度单元根据接收到的warp/thread与分支指令指令块对应关系,重分配对应的thread执行语句。本公开保障了GPGPU处理分支指令的高并发性。
-
公开(公告)号:CN118093473A
公开(公告)日:2024-05-28
申请号:CN202410247682.X
申请日:2024-03-05
申请人: 山东浪潮科学研究院有限公司
IPC分类号: G06F13/38 , G06F15/78 , G06F15/163 , G06F13/40
摘要: 本发明公开了基于FPGA的一体化多模态CXL设备链接适配方法及系统,属于CXL设备链接技术领域,该方法的实现包括:主机设备模块,用于完成指令的发送读取、CXL映射内存和本地内存的分配管理、协处理器信息交互、计算执行管理;FPGA设备模块,包括CXL接口模块、CXL协议转换模块、FPGA指令仲裁模块、计算/存储管理模块、接口管理模块,以及FPGA运算/存储单元和挂载计算/存储设备模块;终端设备模块,终端设备通过所述接口管理模块与FPGA实现交互,进而通过FPGA设备模块实现与主机的CXL互联互通。本发明降低了CXL应用技术门槛,扩展了适配CXL的终端设备范围,有助于突破芯片发展三大壁垒。
-
公开(公告)号:CN118838721A
公开(公告)日:2024-10-25
申请号:CN202411320317.3
申请日:2024-09-23
申请人: 山东浪潮科学研究院有限公司
IPC分类号: G06F9/50 , G06F15/163 , G06T1/20
摘要: 本发明公开了一种基于GPGPU的MPI集体通信传输系统及方法,属于MPI通信传输技术领域,用于解决当前的MPI通信机制在集体通信场景下性能表现不理想,且占用CPU的大量资源,影响CPU执行其他计算任务的能力的技术问题。方法包括:MPI通信节点中至少包括一个仲裁单元及若干个通用图形处理单元GPGPU,用于对MPI通信网络发送的压缩数据进行并行处理;仲裁单元与若干个通用图形处理单元GPGPU分别通讯连接;仲裁单元用于监控各个GPGPU的资源使用情况以及计算资源余量,并为接收到的压缩数据分配GPGPU;通用图形处理单元GPGPU中包含MPI信息处理模块,用于对接收到的压缩数据进行并行处理。
-
公开(公告)号:CN118504633A
公开(公告)日:2024-08-16
申请号:CN202410554296.5
申请日:2024-05-07
申请人: 山东浪潮科学研究院有限公司
IPC分类号: G06N3/063 , G06N3/0464 , G06N3/044 , G06N3/0475
摘要: 本发明公开一种基于FPGA的多神经网络可重构硬件加速装置,涉及神经网络深度学习技术领域,其包括应用模块、主机驱动模块和FPGA模块,其中,应用模块负责:存储应用程序,判断应用程序的类型,在应用程序是神经网络应用程序时提取其网络层级特征和算子需求,随后通过主机互联传入主机驱动模块;主机驱动模块负责:保存神经网络模型与FPGA初始化配置的匹配信息,根据应用模块的提取信息匹配神经网络模型,提取模型参数和FPGA初始化配置信息,调度FPGA模块;FPGA模块包括FPGA硬件加速板卡,FPGA模块根据主机驱动模块的调度信息对应调度FPGA硬件加速板卡的算子功能子模块,完成神经网络硬件加速。本发明可以使用一块FPGA硬件加速板卡加速多种神经网络模型。
-
公开(公告)号:CN118779279A
公开(公告)日:2024-10-15
申请号:CN202410747867.7
申请日:2024-06-11
申请人: 山东浪潮科学研究院有限公司
IPC分类号: G06F15/173 , G06F15/78 , G06F13/16
摘要: 本申请涉及计算机技术领域,公开了一种片上网络的数据处理方法、装置及存储介质,通过以片上网路传输过程中的flit为单位,将flit按字节划分为多个slice,然后根据slice的重复度压缩数据,以一个固定的数据格式重组flit,最后将重组后flit*发送至网络。本发明方案一方面通过数据压缩方案减少了网络实际传输过程中的flit位宽,具有良好的数据压缩效率和数据包适配性,有效提高了网络数据传输效率;另一方面,本发明的数据处理方法中的数据压缩机制只需要简单的电路逻辑即可实现,硬件设计简单,满足芯片设计实际需求。
-
公开(公告)号:CN118672654A
公开(公告)日:2024-09-20
申请号:CN202411161943.2
申请日:2024-08-23
申请人: 山东浪潮科学研究院有限公司
摘要: 本申请公开了一种通用图形处理器的寄存器共享方法、装置、设备及介质,涉及芯片存储领域,包括:将接收的若干线程寄存器地址转换为若干哈希地址,并确定若干哈希地址在预设共享寄存器中对应的键值与若干线程寄存器地址是否匹配;若匹配,则从预设共享寄存器中仅读取任一线程寄存器地址对应的目标寄存器数据,并通过对应的目标线程发射目标寄存器数据,并将相应的写回结果写入预设共享寄存器;对若干线程写回至对应线程寄存器的写回数据进行数据差异判断,若存在数据差异,则通过若干线程对应的线程寄存器保存写回数据,若不存在数据差异,则通过预设共享寄存器仅保存任一线程对应的写回数据。由此,可以减少寄存器访问次数、降低动态功耗。
-
公开(公告)号:CN118672789B
公开(公告)日:2024-10-25
申请号:CN202411154881.2
申请日:2024-08-22
申请人: 山东浪潮科学研究院有限公司
摘要: 本申请公开了一种GPU设备任务执行方法、装置、设备及存储介质,涉及GPU系统架构技术领域,应用于GPU设备端,包括:通过CXL交换机获取主机端下发的目标执行任务,并基于CXL控制器将目标执行任务对应的资源控制指令发送至RISC‑V控制器;通过RISC‑V控制器对资源控制指令进行解析以根据解析结果对目标执行任务分配对应的目标计算核,并启动目标计算核执行任务;通过目标计算核控制CXL控制器访问主机端的内存地址以获取目标执行任务对应的数据信息;通过目标计算核和数据信息对目标执行任务进行并行任务计算操作以得到任务执行结果,并将任务执行结果发送至主机端。可以实现主机端与设备端内存资源的低延时访问。
-
公开(公告)号:CN118672967A
公开(公告)日:2024-09-20
申请号:CN202410974187.9
申请日:2024-07-19
申请人: 山东浪潮科学研究院有限公司
摘要: 本申请涉及片上网络互联、芯片缓存技术领域,公开一种权重可配置的片上网络缓存系统、方法、数据更新方法,所述系统包括多个核心,每个核心具有不同的数据处理需求;缓存节点位于片上网络中心,用于存储数据并最小化数据访问延迟;寄存器系统与缓存节点相连接,用于持续跟踪命中计数、缺失总数及配置次数;执行逻辑模块,用于根据每个核心的数据请求的类型,确定缓存处理机制,并更新相关缓存行的替换优先级,所述缓存处理机制包括缓存替换和旁路策略。本公开针对不同的核心数据请求特点,配置不同的缓存读取/写入/替换权重,使得缓存针对不同核心的请求具有不同的数据保持/数据迭代机制,有效地提高了缓存数据命中率。
-
公开(公告)号:CN118672942A
公开(公告)日:2024-09-20
申请号:CN202411161694.7
申请日:2024-08-23
申请人: 山东浪潮科学研究院有限公司
IPC分类号: G06F12/0811 , G06F12/084 , G06F12/0842 , G06T1/60
摘要: 本发明涉及芯片缓存领域,具体是一种面向GPGPU多核系统的多级缓存系统及方法。针对内存访问带宽的限制,设计了一种基于自循环数据预取机制的L0指令缓存,通过对指令数据的高效预取访问机制,减少了计算核心对L1缓存数据的访问频率和缓存系统的带宽压力。针对缓存一致性和访存延时问题,提供一种基于共享标签状态保持的多级缓存架构,通过深入研究多级缓存系统中标签的相互关系,优化了标签比较过程,减少了不必要的标签比较次数。同时在各级缓存中引入状态标记机制,能够在不同缓存层级之间维护数据的一致性。这种状态标记不仅包括数据有效性信息,还涵盖了数据来源和目的地信息,确保了在多级缓存系统中数据的准确性和时效性。
-
公开(公告)号:CN118672789A
公开(公告)日:2024-09-20
申请号:CN202411154881.2
申请日:2024-08-22
申请人: 山东浪潮科学研究院有限公司
摘要: 本申请公开了一种GPU设备任务执行方法、装置、设备及存储介质,涉及GPU系统架构技术领域,应用于GPU设备端,包括:通过CXL交换机获取主机端下发的目标执行任务,并基于CXL控制器将目标执行任务对应的资源控制指令发送至RISC‑V控制器;通过RISC‑V控制器对资源控制指令进行解析以根据解析结果对目标执行任务分配对应的目标计算核,并启动目标计算核执行任务;通过目标计算核控制CXL控制器访问主机端的内存地址以获取目标执行任务对应的数据信息;通过目标计算核和数据信息对目标执行任务进行并行任务计算操作以得到任务执行结果,并将任务执行结果发送至主机端。可以实现主机端与设备端内存资源的低延时访问。
-
-
-
-
-
-
-
-
-