-
公开(公告)号:CN113313247B
公开(公告)日:2023-04-07
申请号:CN202110161624.1
申请日:2021-02-05
Applicant: 中国科学院计算技术研究所
IPC: G06N3/082
Abstract: 本发明提供了一种基于数据流架构的稀疏神经网络的运算方法,包括:依据数据流处理器的结构将稀疏神经网络的运算任务从低到高依次划分为子任务、任务和应用三个运算层级;确定所述运算层级中每个所述任务包含的所述子任务的个数、每个所述应用包含的所述任务的个数以及所述应用的个数,其中所述稀疏神经网络的输入图像数据和权重数据至少之一是稀疏矩阵;依据所述运算层级以及各个运算层级的个数,将所述稀疏神经网络的输入图像数据或权重数据划分为若干数据块;以及基于所述运算层级以及每个运算层级对应的数据块完成所述稀疏神经网络的运算任务。
-
公开(公告)号:CN113505383A
公开(公告)日:2021-10-15
申请号:CN202110747114.2
申请日:2021-07-02
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种ECDSA算法执行系统及方法,主机端通过数据流芯片进行加密和解密操作,通过网络传输加密信息。本发明相比于现有技术,通过将ECDSA算法移植到数据流架构芯片上,利用了数据流架构芯片低访存需求的特点,加快了ECDSA算法的运算过程,加速了密钥的生成过程,增加了数据流芯片的通用性。
-
公开(公告)号:CN113313247A
公开(公告)日:2021-08-27
申请号:CN202110161624.1
申请日:2021-02-05
Applicant: 中国科学院计算技术研究所
IPC: G06N3/08
Abstract: 本发明提供了一种基于数据流架构的稀疏神经网络的运算方法,包括:依据数据流处理器的结构将稀疏神经网络的运算任务从低到高依次划分为子任务、任务和应用三个运算层级;确定所述运算层级中每个所述任务包含的所述子任务的个数、每个所述应用包含的所述任务的个数以及所述应用的个数,其中所述稀疏神经网络的输入图像数据和权重数据至少之一是稀疏矩阵;依据所述运算层级以及各个运算层级的个数,将所述稀疏神经网络的输入图像数据或权重数据划分为若干数据块;以及基于所述运算层级以及每个运算层级对应的数据块完成所述稀疏神经网络的运算任务。
-
公开(公告)号:CN113298245A
公开(公告)日:2021-08-24
申请号:CN202110631644.0
申请日:2021-06-07
Applicant: 中国科学院计算技术研究所
Abstract: 本发明实施例提供了一种基于数据流架构的多精度神经网络计算装置,包括:微控制器以及与之连接的PE阵列,PE阵列的每个PE中配置有原始精度和精度低于原始精度的多种低精度的计算部件,精度越低的计算部件中配置越多并行的乘法累加器以充分利用片上网络带宽,为每个PE中每种低精度的计算部件配置充足的寄存器以避免数据溢出;所述微控制器被配置为:响应于对特定卷积神经网络的加速请求,控制PE阵列中与所述特定卷积神经网络精度匹配的原始精度或者低精度的计算部件执行相应的卷积操作中的运算并将中间计算结果存储至相应的寄存器。从而可以为不同精度的卷积神经网络进行加速,降低计算时延和能耗,提高用户体验。
-
公开(公告)号:CN112036551A
公开(公告)日:2020-12-04
申请号:CN202010995617.7
申请日:2020-09-21
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种一种卷积神经网络的加速方法,其特征在于,包括:步骤1、根据权值大小对权重矩阵进行降序排列,并记录降序排列前的权值索引;步骤2、利用降序排列后的权重矩阵与特征矩阵进行乘累加运算;步骤3、判断所述乘累加运算的结果是否小于零,如是,则结束运算,如否,则继续步骤2的运算,直至得出最后运算结果。本发明能够有效减少卷积神经网络中的无效计算,一方面可以提高神经网络的计算速度,提高加速器、芯片的性能;另一方面,无效计算的减少还能降低芯片的能耗。
-
公开(公告)号:CN113296957B
公开(公告)日:2024-03-05
申请号:CN202110676326.6
申请日:2021-06-18
Applicant: 中国科学院计算技术研究所
IPC: G06F9/50
Abstract: 本发明实施例提供了一种用于动态分配片上网络带宽的方法及装置,该方法获取用户自定义配置的配置文件;根据配置文件将片上网络带宽划分为多个不同优先级的子带宽以及对片上网络上传输的任务进行优先级划分;为各优先级的子带宽分别维护与之对应的任务队列,将相应优先级的任务预分配到与之相同优先级的任务队列;基于轮询机制在每个时间片查询各个任务队列中的可用时间片以及判断相应任务的实时性需求能否满足,若不能满足,则根据所述可用时间片对任务队列中的任务进行重组以跨优先级利用子带宽,本发明可以在片上网络中充分利用带宽,更好地满足片上网络带宽中复杂的任务传输需求。
-
公开(公告)号:CN113313251A
公开(公告)日:2021-08-27
申请号:CN202110522385.8
申请日:2021-05-13
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种基于数据流架构的深度可分离卷积融合方法和系统,包括:将输入图像数据、卷积参数从主存DRAM搬运到数据缓存SPM;PE阵列通过从数据缓存SPM中读取该输入图像数据、卷积参数,以执行DW卷积,并将得到的DW卷积结果存储在PE内的寄存器中;PE阵列对寄存器中DW卷积结果进行激活计算得到该输入图像数据的初步结果Act_out,将该初步结果Act_out写回数据缓存SPM后,进一步存回主存;PE阵列通过从数据缓存SPM中读取初步结果Act_out与卷积参数,执行PW卷积得到最终结果Output;将最终结果Output写回数据缓存SPM后,进一步存回主存DRAM。本发明减少了数据的存储与访问带来的开销,使得深度可分离式卷积计算在数据流架构上的计算实现加速。
-
公开(公告)号:CN113298236A
公开(公告)日:2021-08-24
申请号:CN202110676008.X
申请日:2021-06-18
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种基于数据流结构的低精度神经网络计算装置,包括输入缓存区,输出缓存区、权重缓存区以及PE阵列,其中,PE阵列中的每个PE包括乘加部件,所述乘加部件以SIMD方式进行乘加运算。本发明还提供一种基于上述装置的低精度神经网络加速方法。本发明节省了计算资源,减少了访存带来的开销。
-
公开(公告)号:CN113297131A
公开(公告)日:2021-08-24
申请号:CN202110660411.3
申请日:2021-06-15
Applicant: 中国科学院计算技术研究所
IPC: G06F15/82 , G06F15/173
Abstract: 本发明提供一种基于路由信息的数据流指令映射方法,包括:步骤M1,遍历数据流图的节点,对节点进行标号;步骤M2,依节点标号顺序以及PE阵列的PE状态表,对所述数据流图进行n层节点搜索,选取路由代价最小的方式对节点指令进行映射。本发明还提供基于路由信息的数据流指令映射系统。
-
公开(公告)号:CN112861154A
公开(公告)日:2021-05-28
申请号:CN202110209198.4
申请日:2021-02-24
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种面向数据流架构的SHA算法执行方法,对于逻辑左移操作,依次处理数据分量n1到数据分量nI。该方法包括:对于寄存器i的数据分量ni,将其与高位为j个1的K位二进制数1...1000...00进行按位与操作;将按位与操作的结果逻辑右移K-j位,得到寄存器i+1的进位值,并存入寄存器i的输出值REG_OUT中;将寄存器i的数据分量ni左移j位后加上寄存器i-1向寄存器i的进位值REG_IN,得到寄存器i的结果值;依次在寄存器1到寄存器I中分别重复执行上述步骤。
-
-
-
-
-
-
-
-
-