-
公开(公告)号:CN112215349A
公开(公告)日:2021-01-12
申请号:CN202010972552.4
申请日:2020-09-16
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种基于数据流架构的稀疏卷积神经网络加速方法,其包括:通过计算输入激活和权值矩阵的运算,得到输出激活的正负值标记信息;根据所述输出激活的正负值标记信息,对与所述输出激活相关的指令的有效与无效进行标记,得到指令标记信息;根据所述指令标记信息,筛选出所述指令中被标记为有效的指令;跳过所述被标记为无效的指令,仅执行所述被标记为有效的指令。
-
公开(公告)号:CN111738703A
公开(公告)日:2020-10-02
申请号:CN202010474004.9
申请日:2020-05-29
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种加速安全散列算法的加速器,包括:存储模块、PE运算模块、任务划分模块、算法映射模块。本发明相比于现有技术,首先可以降低计算的时间开销,提高计算性能;其次,可以降低计算带来的功耗开销;此外,本发明可以实现安全散列函数的高通量计算,显著提高哈希率,使用本发明设计的计算机系统具有良好的可扩展性和兼容性。
-
公开(公告)号:CN113313251B
公开(公告)日:2023-05-23
申请号:CN202110522385.8
申请日:2021-05-13
Applicant: 中国科学院计算技术研究所
IPC: G06N3/082 , G06F9/30 , G06N3/0464
Abstract: 本发明提出一种基于数据流架构的深度可分离卷积融合方法和系统,包括:将输入图像数据、卷积参数从主存DRAM搬运到数据缓存SPM;PE阵列通过从数据缓存SPM中读取该输入图像数据、卷积参数,以执行DW卷积,并将得到的DW卷积结果存储在PE内的寄存器中;PE阵列对寄存器中DW卷积结果进行激活计算得到该输入图像数据的初步结果Act_out,将该初步结果Act_out写回数据缓存SPM后,进一步存回主存;PE阵列通过从数据缓存SPM中读取初步结果Act_out与卷积参数,执行PW卷积得到最终结果Output;将最终结果Output写回数据缓存SPM后,进一步存回主存DRAM。本发明减少了数据的存储与访问带来的开销,使得深度可分离式卷积计算在数据流架构上的计算实现加速。
-
公开(公告)号:CN113296957A
公开(公告)日:2021-08-24
申请号:CN202110676326.6
申请日:2021-06-18
Applicant: 中国科学院计算技术研究所
IPC: G06F9/50
Abstract: 本发明实施例提供了一种用于动态分配片上网络带宽的方法及装置,该方法获取用户自定义配置的配置文件;根据配置文件将片上网络带宽划分为多个不同优先级的子带宽以及对片上网络上传输的任务进行优先级划分;为各优先级的子带宽分别维护与之对应的任务队列,将相应优先级的任务预分配到与之相同优先级的任务队列;基于轮询机制在每个时间片查询各个任务队列中的可用时间片以及判断相应任务的实时性需求能否满足,若不能满足,则根据所述可用时间片对任务队列中的任务进行重组以跨优先级利用子带宽,本发明可以在片上网络中充分利用带宽,更好地满足片上网络带宽中复杂的任务传输需求。
-
公开(公告)号:CN112183744A
公开(公告)日:2021-01-05
申请号:CN202011022302.0
申请日:2020-09-25
Applicant: 中国科学院计算技术研究所
Abstract: 一种神经网络剪枝装置,包括:存储模块、预处理模块、执行模块以及运算结果缓冲模块;存储模块,用于存储神经网络的权重矩阵和特征矩阵并且为预处理模块提供权重矩阵中的权值与特征矩阵中的特征值的操作数;预处理模块,用于计算存储模块提供的操作数的前导0的个数和,并且当前导0的个数和大于等于一精度阈值时,操作数不送入执行模块,直接得到一近似结果并将近似结果写回运算结果缓冲模块,否则,将操作数送入执行模块进行运算;执行模块,用于对预处理模块送入的操作数进行运算,并将一运算结果写回运算结果缓冲模块;运算结果缓冲模块,用于存储近似结果和运算结果。
-
公开(公告)号:CN112288085B
公开(公告)日:2024-04-09
申请号:CN202011147836.6
申请日:2020-10-23
Applicant: 中国科学院计算技术研究所
IPC: G06N3/082 , G06N3/0464
Abstract: 本发明提出一种卷积神经网络加速方法及系统,包括将待特征分析的图像作为输入激活输入卷积神经网络,分解该卷积神经网络中滤波器的权值向量,得到滤波器中权值对应的符号向量;通过符号向量与输入激活向量执行卷积运算,得到第一卷积结果,通过补偿因子与输入激活向量执行卷积运算,得到第二卷积结果,将该第一卷积结果和第二卷积结果相加,得到预测结果;该卷积神经网络执行卷积计算时根据该预测结果跳过0值相关的运算,得到卷积结果。本发明可预知输出激活的稀疏度,以指导原始的神经网络运算跳过0值相关的运算,从而减少原始网络的计算量,节省计算资源、降低功耗并提升性能。
-
公开(公告)号:CN113298236B
公开(公告)日:2023-07-21
申请号:CN202110676008.X
申请日:2021-06-18
Applicant: 中国科学院计算技术研究所
IPC: G06N3/0464 , G06N3/063
Abstract: 本发明提供一种基于数据流结构的低精度神经网络计算装置,包括输入缓存区,输出缓存区、权重缓存区以及PE阵列,其中,PE阵列中的每个PE包括乘加部件,所述乘加部件以SIMD方式进行乘加运算。本发明还提供一种基于上述装置的低精度神经网络加速方法。本发明节省了计算资源,减少了访存带来的开销。
-
公开(公告)号:CN112015473B
公开(公告)日:2023-06-27
申请号:CN202010719417.9
申请日:2020-07-23
Applicant: 中国科学院计算技术研究所
IPC: G06F9/30 , G06F9/32 , G06N3/10 , G06N3/0464 , G06N3/0495 , G06N3/082
Abstract: 本发明提出一种基于数据流架构的稀疏卷积神经网络加速方法及系统。针对稀疏卷积应用,使用软件方式设计了一套指令共享检测装置和稀疏卷积加速方法。通过对编译器生成的指令进行检测和对比,标记所有指令中指令内容完全相同的指令,将这些指令的地址设置为相同的地址,实现稀疏卷积中指令共享,从而减少了指令加载对内存的访问,提升了稀疏卷积运行的时间。
-
公开(公告)号:CN112311695A
公开(公告)日:2021-02-02
申请号:CN202011134155.6
申请日:2020-10-21
Applicant: 中国科学院计算技术研究所
IPC: H04L12/873 , H04L12/917 , H04L12/933
Abstract: 本发明提出一种片上带宽动态分配方法系统,包括:发射模块接受存储系统的任务请求,将请求封装为发射块,将多个发射块组织为堆结构,动态维护堆结构,向分配模块传输发射块;分配模块由带窗口的队列组成,其功能为接受发射块,为发射块匹配等待队列,更新发射块内容并将其回传存储系统;每个宽度的带宽对应一个等待队列,等待队列中是需要传输的数据。本发明采用硬件与软件协同的方式带宽分配方法,可以提高带宽的利用率,增加芯片的吞吐率,实现高通量的计算需求;本发明控制逻辑、结构简单,不占用计算资源,实现简单,在多种芯片系统中具有普适性。
-
公开(公告)号:CN112015472A
公开(公告)日:2020-12-01
申请号:CN202010685107.X
申请日:2020-07-16
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种数据流架构中无效指令检测并跳过执行的方法,适用于数据流架构下稀疏卷积神经网络的加速。该发明对于稀疏神经网络,包括卷积层和全连接层。通过对编译器编译的指令,依据数据特征生成指令标记信息,指令检测单元又依据指令标记信息对指令进行检测,并跳过无效指令的执行,从而实现稀疏卷积神经网络的加速。
-
-
-
-
-
-
-
-
-