一种基于数据流架构的深度可分离卷积融合方法及系统

    公开(公告)号:CN113313251B

    公开(公告)日:2023-05-23

    申请号:CN202110522385.8

    申请日:2021-05-13

    Abstract: 本发明提出一种基于数据流架构的深度可分离卷积融合方法和系统,包括:将输入图像数据、卷积参数从主存DRAM搬运到数据缓存SPM;PE阵列通过从数据缓存SPM中读取该输入图像数据、卷积参数,以执行DW卷积,并将得到的DW卷积结果存储在PE内的寄存器中;PE阵列对寄存器中DW卷积结果进行激活计算得到该输入图像数据的初步结果Act_out,将该初步结果Act_out写回数据缓存SPM后,进一步存回主存;PE阵列通过从数据缓存SPM中读取初步结果Act_out与卷积参数,执行PW卷积得到最终结果Output;将最终结果Output写回数据缓存SPM后,进一步存回主存DRAM。本发明减少了数据的存储与访问带来的开销,使得深度可分离式卷积计算在数据流架构上的计算实现加速。

    一种用于动态分配片上网络带宽的方法及装置

    公开(公告)号:CN113296957A

    公开(公告)日:2021-08-24

    申请号:CN202110676326.6

    申请日:2021-06-18

    Abstract: 本发明实施例提供了一种用于动态分配片上网络带宽的方法及装置,该方法获取用户自定义配置的配置文件;根据配置文件将片上网络带宽划分为多个不同优先级的子带宽以及对片上网络上传输的任务进行优先级划分;为各优先级的子带宽分别维护与之对应的任务队列,将相应优先级的任务预分配到与之相同优先级的任务队列;基于轮询机制在每个时间片查询各个任务队列中的可用时间片以及判断相应任务的实时性需求能否满足,若不能满足,则根据所述可用时间片对任务队列中的任务进行重组以跨优先级利用子带宽,本发明可以在片上网络中充分利用带宽,更好地满足片上网络带宽中复杂的任务传输需求。

    一种神经网络剪枝方法及装置

    公开(公告)号:CN112183744A

    公开(公告)日:2021-01-05

    申请号:CN202011022302.0

    申请日:2020-09-25

    Abstract: 一种神经网络剪枝装置,包括:存储模块、预处理模块、执行模块以及运算结果缓冲模块;存储模块,用于存储神经网络的权重矩阵和特征矩阵并且为预处理模块提供权重矩阵中的权值与特征矩阵中的特征值的操作数;预处理模块,用于计算存储模块提供的操作数的前导0的个数和,并且当前导0的个数和大于等于一精度阈值时,操作数不送入执行模块,直接得到一近似结果并将近似结果写回运算结果缓冲模块,否则,将操作数送入执行模块进行运算;执行模块,用于对预处理模块送入的操作数进行运算,并将一运算结果写回运算结果缓冲模块;运算结果缓冲模块,用于存储近似结果和运算结果。

    一种基于卷积神经网络的图像检测方法及系统

    公开(公告)号:CN112288085B

    公开(公告)日:2024-04-09

    申请号:CN202011147836.6

    申请日:2020-10-23

    Abstract: 本发明提出一种卷积神经网络加速方法及系统,包括将待特征分析的图像作为输入激活输入卷积神经网络,分解该卷积神经网络中滤波器的权值向量,得到滤波器中权值对应的符号向量;通过符号向量与输入激活向量执行卷积运算,得到第一卷积结果,通过补偿因子与输入激活向量执行卷积运算,得到第二卷积结果,将该第一卷积结果和第二卷积结果相加,得到预测结果;该卷积神经网络执行卷积计算时根据该预测结果跳过0值相关的运算,得到卷积结果。本发明可预知输出激活的稀疏度,以指导原始的神经网络运算跳过0值相关的运算,从而减少原始网络的计算量,节省计算资源、降低功耗并提升性能。

    一种片上带宽动态分配方法及系统

    公开(公告)号:CN112311695A

    公开(公告)日:2021-02-02

    申请号:CN202011134155.6

    申请日:2020-10-21

    Abstract: 本发明提出一种片上带宽动态分配方法系统,包括:发射模块接受存储系统的任务请求,将请求封装为发射块,将多个发射块组织为堆结构,动态维护堆结构,向分配模块传输发射块;分配模块由带窗口的队列组成,其功能为接受发射块,为发射块匹配等待队列,更新发射块内容并将其回传存储系统;每个宽度的带宽对应一个等待队列,等待队列中是需要传输的数据。本发明采用硬件与软件协同的方式带宽分配方法,可以提高带宽的利用率,增加芯片的吞吐率,实现高通量的计算需求;本发明控制逻辑、结构简单,不占用计算资源,实现简单,在多种芯片系统中具有普适性。

Patent Agency Ranking