一种基于数据流架构的深度可分离卷积融合方法及系统

    公开(公告)号:CN113313251B

    公开(公告)日:2023-05-23

    申请号:CN202110522385.8

    申请日:2021-05-13

    Abstract: 本发明提出一种基于数据流架构的深度可分离卷积融合方法和系统,包括:将输入图像数据、卷积参数从主存DRAM搬运到数据缓存SPM;PE阵列通过从数据缓存SPM中读取该输入图像数据、卷积参数,以执行DW卷积,并将得到的DW卷积结果存储在PE内的寄存器中;PE阵列对寄存器中DW卷积结果进行激活计算得到该输入图像数据的初步结果Act_out,将该初步结果Act_out写回数据缓存SPM后,进一步存回主存;PE阵列通过从数据缓存SPM中读取初步结果Act_out与卷积参数,执行PW卷积得到最终结果Output;将最终结果Output写回数据缓存SPM后,进一步存回主存DRAM。本发明减少了数据的存储与访问带来的开销,使得深度可分离式卷积计算在数据流架构上的计算实现加速。

    一种用于动态分配片上网络带宽的方法及装置

    公开(公告)号:CN113296957A

    公开(公告)日:2021-08-24

    申请号:CN202110676326.6

    申请日:2021-06-18

    Abstract: 本发明实施例提供了一种用于动态分配片上网络带宽的方法及装置,该方法获取用户自定义配置的配置文件;根据配置文件将片上网络带宽划分为多个不同优先级的子带宽以及对片上网络上传输的任务进行优先级划分;为各优先级的子带宽分别维护与之对应的任务队列,将相应优先级的任务预分配到与之相同优先级的任务队列;基于轮询机制在每个时间片查询各个任务队列中的可用时间片以及判断相应任务的实时性需求能否满足,若不能满足,则根据所述可用时间片对任务队列中的任务进行重组以跨优先级利用子带宽,本发明可以在片上网络中充分利用带宽,更好地满足片上网络带宽中复杂的任务传输需求。

    一种神经网络剪枝方法及装置

    公开(公告)号:CN112183744A

    公开(公告)日:2021-01-05

    申请号:CN202011022302.0

    申请日:2020-09-25

    Abstract: 一种神经网络剪枝装置,包括:存储模块、预处理模块、执行模块以及运算结果缓冲模块;存储模块,用于存储神经网络的权重矩阵和特征矩阵并且为预处理模块提供权重矩阵中的权值与特征矩阵中的特征值的操作数;预处理模块,用于计算存储模块提供的操作数的前导0的个数和,并且当前导0的个数和大于等于一精度阈值时,操作数不送入执行模块,直接得到一近似结果并将近似结果写回运算结果缓冲模块,否则,将操作数送入执行模块进行运算;执行模块,用于对预处理模块送入的操作数进行运算,并将一运算结果写回运算结果缓冲模块;运算结果缓冲模块,用于存储近似结果和运算结果。

    一种基于数据流架构的多精度神经网络计算装置以及方法

    公开(公告)号:CN113298245A

    公开(公告)日:2021-08-24

    申请号:CN202110631644.0

    申请日:2021-06-07

    Abstract: 本发明实施例提供了一种基于数据流架构的多精度神经网络计算装置,包括:微控制器以及与之连接的PE阵列,PE阵列的每个PE中配置有原始精度和精度低于原始精度的多种低精度的计算部件,精度越低的计算部件中配置越多并行的乘法累加器以充分利用片上网络带宽,为每个PE中每种低精度的计算部件配置充足的寄存器以避免数据溢出;所述微控制器被配置为:响应于对特定卷积神经网络的加速请求,控制PE阵列中与所述特定卷积神经网络精度匹配的原始精度或者低精度的计算部件执行相应的卷积操作中的运算并将中间计算结果存储至相应的寄存器。从而可以为不同精度的卷积神经网络进行加速,降低计算时延和能耗,提高用户体验。

    一种卷积神经网络的加速方法及装置

    公开(公告)号:CN112036551A

    公开(公告)日:2020-12-04

    申请号:CN202010995617.7

    申请日:2020-09-21

    Abstract: 本发明提出一种一种卷积神经网络的加速方法,其特征在于,包括:步骤1、根据权值大小对权重矩阵进行降序排列,并记录降序排列前的权值索引;步骤2、利用降序排列后的权重矩阵与特征矩阵进行乘累加运算;步骤3、判断所述乘累加运算的结果是否小于零,如是,则结束运算,如否,则继续步骤2的运算,直至得出最后运算结果。本发明能够有效减少卷积神经网络中的无效计算,一方面可以提高神经网络的计算速度,提高加速器、芯片的性能;另一方面,无效计算的减少还能降低芯片的能耗。

    一种数据流众核处理器的数据预取方法及处理器

    公开(公告)号:CN118132462A

    公开(公告)日:2024-06-04

    申请号:CN202410263613.8

    申请日:2024-03-08

    Abstract: 本发明提供了一种数据流众核处理器的数据预取方法及处理器,方法包括:对于待执行的程序,将程序执行所需的数据划分为可预取数据和不可预取数据;对于可预取数据,在程序执行前加载至处理器的片上存储,且在程序执行前将片上存储中存有所述可预取数据的缓存路设为不可被覆盖的只读状态;对于不可预取数据,在程序执行过程中按需加载至片上存储,有效地减少了对片外存储的访问请求次数,降低了平均访问延迟;并且在程序执行前将片上存储中存有所述可预取数据的缓存路设为不可被覆盖的只读状态,使得可预取数据在程序执行完毕前被稳定地保持在片上存储中。

    一种基于卷积神经网络的图像检测方法及系统

    公开(公告)号:CN112288085B

    公开(公告)日:2024-04-09

    申请号:CN202011147836.6

    申请日:2020-10-23

    Abstract: 本发明提出一种卷积神经网络加速方法及系统,包括将待特征分析的图像作为输入激活输入卷积神经网络,分解该卷积神经网络中滤波器的权值向量,得到滤波器中权值对应的符号向量;通过符号向量与输入激活向量执行卷积运算,得到第一卷积结果,通过补偿因子与输入激活向量执行卷积运算,得到第二卷积结果,将该第一卷积结果和第二卷积结果相加,得到预测结果;该卷积神经网络执行卷积计算时根据该预测结果跳过0值相关的运算,得到卷积结果。本发明可预知输出激活的稀疏度,以指导原始的神经网络运算跳过0值相关的运算,从而减少原始网络的计算量,节省计算资源、降低功耗并提升性能。

Patent Agency Ranking