一种面向FPGA的稀疏卷积神经网络多级存储计算系统

    公开(公告)号:CN113780529B

    公开(公告)日:2023-09-12

    申请号:CN202111050620.2

    申请日:2021-09-08

    IPC分类号: G06N3/0464 G06N3/063 G06N3/08

    摘要: 本发明公开了一种面向FPGA的稀疏卷积神经网络多级存储计算系统,其特征在于,包括ARM端和FPGA端;其中ARM端用于获取网络模型权重参数和输入特征图数据,根据网络模型权重参数和输入特征图数据的存储信息生成流程控制指令,并将该流程控制指令发送到FPGA端;FPGA端接收到所述流程控制指令后,从ARM端中读取网络模型权重参数和输入特征图数据,并进行计算,最后将计算结果反馈给所述ARM端;其中FPGA端的计算架构设计以并行计算阵列和多级存储结构为核心,发挥FPGA高并行度、高吞吐量和低功耗的硬件优势,充分利用稀疏卷积神经网络的稀疏特性,获得尽可能高的加速比,快速高效的实现卷积神经网络的前向推理过程。

    一种面向FPGA的稀疏卷积神经网络多级存储计算系统

    公开(公告)号:CN113780529A

    公开(公告)日:2021-12-10

    申请号:CN202111050620.2

    申请日:2021-09-08

    IPC分类号: G06N3/04 G06N3/063 G06N3/08

    摘要: 本发明公开了一种面向FPGA的稀疏卷积神经网络多级存储计算系统,其特征在于,包括ARM端和FPGA端;其中ARM端用于获取网络模型权重参数和输入特征图数据,根据网络模型权重参数和输入特征图数据的存储信息生成流程控制指令,并将该流程控制指令发送到FPGA端;FPGA端接收到所述流程控制指令后,从ARM端中读取网络模型权重参数和输入特征图数据,并进行计算,最后将计算结果反馈给所述ARM端;其中FPGA端的计算架构设计以并行计算阵列和多级存储结构为核心,发挥FPGA高并行度、高吞吐量和低功耗的硬件优势,充分利用稀疏卷积神经网络的稀疏特性,获得尽可能高的加速比,快速高效的实现卷积神经网络的前向推理过程。

    一种面向MPSoC的稀疏网络负载均衡调度方法

    公开(公告)号:CN113900803A

    公开(公告)日:2022-01-07

    申请号:CN202111164396.X

    申请日:2021-09-30

    IPC分类号: G06F9/50 G06N3/04 G06N3/08

    摘要: 本发明公开了一种面向MPSoC的稀疏网络负载均衡调度方法,包括:S1:获取输入当前层的特征图;S2:获取计算平台的硬件配置参数,通过动态构建特征图分块实现非零激活值的均衡加载;S3:获取当前网络层的权重参数,通过对卷积核进行分组合并实现非零权重值的均衡加载;S4:基于所述非零激活值的均衡加载和所述非零权重值的均衡加载,采用分层缓冲映射机制进行卷积计算与映射输出,实现稀疏网络负载均衡调度。本发明通过采用非零激活值和权重值的均衡加载策略,实现稀疏网络负载均衡调度,达到稀疏网络在基于分层映射的笛卡尔乘积‑结果哈希映射计算范式下推理阶段的计算负载均衡,从而提高稀疏网络推理加速性能。

    一种面向FPGA的多目标网络结构的构建方法

    公开(公告)号:CN113780542A

    公开(公告)日:2021-12-10

    申请号:CN202111051377.6

    申请日:2021-09-08

    IPC分类号: G06N3/063 G06N3/08 G06N3/04

    摘要: 本发明公开了一种面向FPGA的多目标网络结构的构建方法,包括:构建轻量化、可伸缩并易收敛的网络结构搜索候选模块,对所述候选模块在FPGA平台上的时延进行测试并记录,并设计可微化的时延指标约束函数;设计有向无环图的过参数化网络搜索空间和设计无代理的二阶段网络搜索策略,加速网络结构的搜索过程;将所述时延约束指标函数加入基于梯度下降的反向传播算法中,构建多目标综合搜索损失函数;根据所述多目标综合搜索损失函数,生成适配FPGA的轻量级网络结构。与同等精度水平的手工轻量级神经网络相比,本发明构建的轻量级网络结构在FPGA上具备更高的实时性,更小的模型体积和更少的模型运算量。

    一种面向FPGA的多目标网络结构的构建方法

    公开(公告)号:CN113780542B

    公开(公告)日:2023-09-12

    申请号:CN202111051377.6

    申请日:2021-09-08

    摘要: 本发明公开了一种面向FPGA的多目标网络结构的构建方法,包括:构建轻量化、可伸缩并易收敛的网络结构搜索候选模块,对所述候选模块在FPGA平台上的时延进行测试并记录,并设计可微化的时延指标约束函数;设计有向无环图的过参数化网络搜索空间和设计无代理的二阶段网络搜索策略,加速网络结构的搜索过程;将所述时延约束指标函数加入基于梯度下降的反向传播算法中,构建多目标综合搜索损失函数;根据所述多目标综合搜索损失函数,生成适配FPGA的轻量级网络结构。与同等精度水平的手工轻量级神经网络相比,本发明构建的轻量级网络结构在FPGA上具备更高的实时性,更小的模型体积和更少的模型运算量。

    一种在FPGA和DSP上部署优化的算子库设计方法

    公开(公告)号:CN113778459A

    公开(公告)日:2021-12-10

    申请号:CN202111051284.3

    申请日:2021-09-08

    IPC分类号: G06F8/60 G06N3/04 G06N3/063

    摘要: 本发明公开了一种在FPGA和DSP上部署优化的算子库设计方法,包括:对应高层的深度学习框架的算子库设计底层硬件算子库,并且对于轻量化网络中的算子进行了抽象封装,构成融合算子库;根据所述融合算子库,结合硬件本身的计算资源,采用预设的分割策略,将所述融合算子库封装成具备硬件特性的并行算子库;将所述并行算子库与重排策略相结合。该方法为诸如DSP和FPGA这类资源受限的边端设备上快速完成深度学习网络的部署与优化提供了技术支持。其核心是构建了实用性强和可迁移性高的底层深度学习算子库。该算子库结合硬件特性融合了例如启发式分割、数据流重排等高效的策略。能满足神经网络模型在FPGA和多核DSP部署的基本要求。

    一种粗细粒度联合的神经网络剪枝方法

    公开(公告)号:CN113850385B

    公开(公告)日:2024-09-03

    申请号:CN202111187212.1

    申请日:2021-10-12

    IPC分类号: G06N3/082 G06N3/0464

    摘要: 本发明公开了一种粗细粒度联合的神经网络剪枝方法,包括:对筛选出的候选滤波器进行组稀疏化训练,一定轮数后,将小于阈值的候选滤波器进行修剪;逐层对卷积核的重要性进行排序,并根据预先定义好的剪枝率逐层获得需要被剪枝的卷积核;以权重为单位,对卷积核进行正则化压缩,并在压缩过程中动态生成满足预先构建的模式判别函数的模式集;将每个卷积核匹配到所述模式集中该卷积核的最优模式;进行卷积核剪枝和模式剪枝;将需要被剪枝的参数置零,对模型进行硬剪枝;结合知识蒸馏方法对硬剪枝后的模型进行再训练和微调,得到剪枝后的最终模型。本发明能够充分发挥结构化和非结构化剪枝的优势,提高模型存储和推理效率,具有更高的硬件友好性。

    一种基于CPU-FPGA内存共享的卷积神经网络加速器

    公开(公告)号:CN111626403A

    公开(公告)日:2020-09-04

    申请号:CN202010408260.8

    申请日:2020-05-14

    摘要: 本发明公开了一种基于CPU-FPGA内存共享的卷积神经网络加速器,其中:CPU处理子系统包括输入控制模块、配置参数生成模块和输出控制模块;输入控制模块接收和缓存像素数据和权重数据;配置参数生成模块控制配置参数;输出控制模块控制数据的传输;FPGA加速子系统包括片上存储模块、计算引擎模块和控制模块;片上存储模块用于数据的缓冲和读写访问;计算引擎模块对计算进行加速;控制模块控制片上存储模块对数据的读写操作,与计算引擎模块的数据交换和计算控制。本发明既能充分发挥FPGA的高并行度、高吞吐率和低功耗特点,同时又能充分利用CPU处理器灵活高效的数据处理特点,从而使得整个系统能够以较低的功耗,高效快速实现卷积神经网络的推理过程。

    一种基于CPU-FPGA内存共享的卷积神经网络加速器

    公开(公告)号:CN111626403B

    公开(公告)日:2022-05-10

    申请号:CN202010408260.8

    申请日:2020-05-14

    摘要: 本发明公开了一种基于CPU‑FPGA内存共享的卷积神经网络加速器,其中:CPU处理子系统包括输入控制模块、配置参数生成模块和输出控制模块;输入控制模块接收和缓存像素数据和权重数据;配置参数生成模块控制配置参数;输出控制模块控制数据的传输;FPGA加速子系统包括片上存储模块、计算引擎模块和控制模块;片上存储模块用于数据的缓冲和读写访问;计算引擎模块对计算进行加速;控制模块控制片上存储模块对数据的读写操作,与计算引擎模块的数据交换和计算控制。本发明既能充分发挥FPGA的高并行度、高吞吐率和低功耗特点,同时又能充分利用CPU处理器灵活高效的数据处理特点,从而使得整个系统能够以较低的功耗,高效快速实现卷积神经网络的推理过程。

    支持自定义算子的多硬件目标深度模型优化部署架构

    公开(公告)号:CN113934410A

    公开(公告)日:2022-01-14

    申请号:CN202111216615.4

    申请日:2021-10-19

    IPC分类号: G06F8/30 G06F8/41 G06F8/60

    摘要: 本发明公开了一种支持自定义算子的多硬件目标深度模型优化部署架构,前端导入模块将深度学习模型文件转换为Relay计算图表示;算子转换模块将Relay计算图表示中的Relay OP转换为硬件OP,输出带有硬件OP的Relay计算图表示;模型优化模块对带有硬件OP的Relay计算图表示中的计算图进行图优化操作,输出携带优化后的计算图和优化硬件OP的Relay表示;数据流优化模块对优化后的计算图表示部分进行硬件感知优化,形成计算图执行流;算子优选模块对优化后的硬件OP进行多模态表示和自动优选,输出算子代码;运行时模块加载相应多硬件编译库,将计算图执行流和算子代码,生成部署文件。