一种利用NVIDIA Kepler GPU汇编指令加速的卷积优化方法及系统

    公开(公告)号:CN106846235A

    公开(公告)日:2017-06-13

    申请号:CN201611215263.X

    申请日:2016-12-26

    Inventor: 周可人 谭光明

    Abstract: 本发明提出一种利用NVIDIA Kepler GPU汇编指令加速的卷积优化方法,涉及深度学习,高性能计算,GPGPU编程技术领域,该方法包括将 大小的矩阵与 大小的矩阵相乘,获得 大小的输出元素,对N维度用bn做分块,对K维度用bk作分块,获得GPU的block维度为 >>,其中N为批处理图像数目,K为输出图像深度,C为输入图像深度,R为卷积核高度,S为卷积核宽度,P为输出图像高度,Q为输出图像宽度。本发明相比传统的卷积过程简化了步骤,减少了调用次数,增加了数据局部性;避免额外延迟并可选取高效的向量指令,如STS.128,LDG.128减少bank冲突和增加带宽;可以达到75%的峰值性能,超过目前最优的cudnn实现20%‑40%。

    一种多核处理器、数据同步的方法及装置

    公开(公告)号:CN105094993A

    公开(公告)日:2015-11-25

    申请号:CN201510507602.0

    申请日:2015-08-18

    Inventor: 谭光明 闫洁

    Abstract: 本发明公开了一种多核处理器,包括:物理锁装置和集成在每个处理器核上的虚拟锁指令执行装置,物理锁装置分别与每个虚拟锁指令执行装置连接,物理锁装置包括多个物理锁,用于存储数据对象的内存空间包括多个虚拟锁的标识,虚拟锁的标识为数据对象的一个存储地址,且虚拟锁的标识的数量大于物理锁的标识的数量;虚拟锁指令执行装置用于根据目的虚拟锁的标识映射出目的物理锁的标识,物理锁装置用于根据目的物理锁的标识,从多个物理锁中确定目的物理锁;对目的物理锁执行锁操作类型标识对应的锁操作,得到针对目标物理锁的锁操作结果。本发明实施例提供的多核处理器,可以解决线程间的对数据对象的访问冲突问题,又避免了物理锁的内存开销。

    一种用于分子动力学的芯片架构模拟系统

    公开(公告)号:CN120032731A

    公开(公告)日:2025-05-23

    申请号:CN202510216967.1

    申请日:2025-02-26

    Abstract: 本发明提供一种用于分子动力学的芯片架构模拟系统,用于模拟面向DeePMD模型的加速器的受力计算过程,该系统包括可编程IO模块、地址映射模块、数据传输模块和异构加速器,可编程IO模块用于通过主机访问和控制异构加速器;地址映射模块用于建立内存与异构加速器间的映射关系;数据传输模块用于根据映射关系执行内存与异构加速器间的数据传输,包括传输原子信息;异构加速器包括:计算逻辑子模块,用于根据原子信息模拟DeePMD模型对原子的受力计算过程,得到原子的受力,并统计受力计算时间;资源建模子模块,用于评估计算逻辑子模块在受力计算过程中的资源占用率;并行度调度子模块,用于以最小化受力计算时间为优化目标,优化计算逻辑子模块的并行度。

    一种基于强化学习的稀疏矩阵向量乘的程序设计系统

    公开(公告)号:CN118733944A

    公开(公告)日:2024-10-01

    申请号:CN202410876067.5

    申请日:2024-07-02

    Abstract: 本发明提供了一种基于强化学习的稀疏矩阵向量乘的程序设计系统,包括:稀疏矩阵表达模块,被配置为:在多个决策阶段中的每个阶段,确定稀疏矩阵对应的阶段表达,各阶段表达包括用于指示稀疏矩阵在当前阶段在计算硬件的层次计算资源中分配信息的层次映射、非零元的绝对位置和相对位置;强化学习模块,被配置为:在第i阶段,利用神经网络从第i‑1阶段的阶段表达中提取阶段特征,根据阶段特征确定第i阶段的策略和预测价值;获取基于蒙特卡洛树搜索算法为该稀疏矩阵维护的搜索树,并基于搜索树、策略和预测价值,确定第i阶段采取的动作;根据所有阶段采取的动作,构建引导稀疏矩阵向量乘在计算硬件上完成计算的程序代码。

    一种数据的传输方法及系统

    公开(公告)号:CN114928573B

    公开(公告)日:2024-09-24

    申请号:CN202210558480.8

    申请日:2022-05-20

    Abstract: 本发明实施例提供了一种数据的传输方法,包括:在与接收方建立的连接上发送一个数据包,其中,每个连接设有对应的连接号;根据所发送的数据包产生一个对应的发送事件,所述发送事件指示针对所述数据建立的连接的连接号以及所述数据包的发送序列号;响应于发送事件,调整为对应连接中发送数据包的计数的数值,并确定当前计数的数值是否达到指定的冗余发送阈值,若是,则根据发送事件中的发送序列号复制对应的数据包,以作为冗余数据包发出,其中,冗余发送阈值与所述连接对应的丢包情况相关。本发明实施例的技术方案通过在计数的数值达到指定的冗余发送阈值时,主动复制对应的数据包,以作为冗余数据包再次发出,在一定程度上降低了接收方的丢包概率,从而提升网络整体性能。

    一种进程热迁移方法、装置、电子设备及存储介质

    公开(公告)号:CN118245189A

    公开(公告)日:2024-06-25

    申请号:CN202410412752.2

    申请日:2024-04-07

    Abstract: 本发明公开了一种进程热迁移方法、装置、电子设备以及存储介质,进程迁移方法包括以下步骤:进程转储步骤:冻结正在进行的进程,获取所述进程的数据为第一数据,将所述第一数据以一组织形式进行准备,流水线压缩所述准备的第一数据后写入镜像文件;进程恢复步骤:获取所述镜像文件中的数据为第二数据,流水线解压缩所述第二数据后恢复至相应位置。本发明的方法通过流水线将压缩的开销隐藏到原有的数据准备、数据处理的过程中,解决了数据压缩占用资源大的问题。

    一种多根CPU下的PCIe交换芯片上、下游端口路由表构建方法

    公开(公告)号:CN114265804B

    公开(公告)日:2024-06-11

    申请号:CN202111587159.4

    申请日:2021-12-23

    Abstract: 本发明提供了一种多根CPU下的PCIe交换芯片上、下游游端口路由表构建方法,用于构建上、下游端口路由表,所述PCIe芯片被划分为多个虚拟交换机,每一个虚拟交换机配置有唯一的虚拟机交换标识,每个虚拟交换机均包括一个上游端口和多个下游端口,其中,上游端口路由表构建方法包括:在每个虚拟交换机的上游端口重复执行如下步骤直至完成上游端口到当前虚拟交换机下的所有下游端口的路由表项构建:S1、上游端口捕获与其相连的操作系统下发的包含当前上游端口所属虚拟交换机标识的且与下游端口路由相关的配置包;S2、解析所述配置包中与路由相关的信息并根据解析到的路由相关信息构建当前虚拟交换机下的上游端口路由表项。

    一种用于深度学习的芯粒互联系统

    公开(公告)号:CN117151183A

    公开(公告)日:2023-12-01

    申请号:CN202311122958.3

    申请日:2023-09-01

    Abstract: 本发明提供了一种用于深度学习的芯粒互联系统,所述芯粒中每个芯粒设有电光通信端口,所述芯粒分为CPU芯粒和GPU芯粒,所述系统包括:至少一个CPU芯粒,其用于管控深度学习任务相关数据的收发与任务执行流程,并且所述CPU芯粒设有电光通信端口;多个GPU芯粒,其用于根据深度学习任务相关数据执行深度学习任务,并且所述GPU芯粒设有电光通信端口;多个阵列波导光栅路由器,其用于对以光波承载的深度学习任务相关的数据,其中,所述阵列波导光栅路由器与所述芯粒通过3D堆叠技术封装在不同的芯片层;多个硅光收发器,其每个硅光收发器用于一个芯粒的电光通信端口与对应阵列波导光栅路由器之间的连接与电光信号转换。

    一种用于RDMA通信设备的DMA通信系统及方法

    公开(公告)号:CN113742267B

    公开(公告)日:2023-10-27

    申请号:CN202111041270.3

    申请日:2021-09-07

    Abstract: 本发明提供一种用于RDMA通信设备的DMA系统,包括多个数据处理通道(10)、仲裁模块(20)、中断处理模块(30)和数据分配模块(40),其中,每个数据处理通道(10)用于接收对本地数据的读请求、写请求以及读响应;仲裁模块(20)用于调度多个数据处理通道(10)中的读请求或写请求;中断处理模块(30)用于对所收到的中断请求进行合并处理;数据分配模块(40)用于分配读响应数据到相应的数据处理通道(10)。基于本发明的实施例,本发明的优点在于减少了频繁的中断对计算机系统造成的大量上下文切换开销,保证了中断请求和数据写请求的序的关系,实现了可配置数量的数据处理通道,可以灵活满足RDMA通信设备对不同数量的数据处理通道的需求。

Patent Agency Ranking