-
公开(公告)号:CN110688088A
公开(公告)日:2020-01-14
申请号:CN201910944451.3
申请日:2019-09-30
Applicant: 南京大学
Abstract: 本发明公开了一种面向神经网络的通用非线性激活函数计算装置和方法。其计算装置包括乘法器、输入选择单元、寻址单元、查找表单元、FIFO单元、乘加运算单元、线性转换单元和输出选择单元。本发明提供的面向神经网络的通用非线性函数计算装置和方法,使用分段线性逼近方法对sigmoid函数进行分段线性拟合操作,利用sigmoid函数和tanh函数的数学关系,共用寻址单元和查找表资源,通过模式选择和相应的线性变化来实现神经网络中不同的非线性函数的运算,从而减少片上计算和存储资源的消耗。
-
公开(公告)号:CN109245773B
公开(公告)日:2021-09-28
申请号:CN201811279234.9
申请日:2018-10-30
Applicant: 南京大学
Abstract: 本发明涉及基于块循环稀疏矩阵神经网络的编解码方法,对具有块循环稀疏权值矩阵的全连接神经网络进行压缩编码;利用权值矩阵的循环特性和稀疏性,设计的采取掩模矩阵和非零值列表的编码方法;利用输入激励的稀疏性,设计的采取掩模向量和非零值列表的编码方法;充分利用了掩模矩阵和循环矩阵的特点,采用了硬件友好的解码方法。有益效果为:对稀疏的输入激励向量和权值矩阵同时进行压缩编码,有效减少数据所需的存储空间和运算过程中搬运数据所需的存储接入次数。在神经网络运算过程中,该方法能够有效降低访存消耗的能量,便于处理器跳过不必要的运算,提高硬件系统的吞吐率。
-
公开(公告)号:CN110110851B
公开(公告)日:2023-03-24
申请号:CN201910359395.7
申请日:2019-04-30
Applicant: 南京大学
IPC: G06N3/063 , G06N3/0442 , G06N3/048 , G06N3/0495 , G06N3/082
Abstract: 本发明提供了一种LSTM神经网络的FPGA加速器及其加速方法。加速器包括数据分发单元、运算单元、控制单元和存储单元;运算单元包括稀疏矩阵向量乘模块、非线性激活函数模块和按元素乘加计算模块;控制单元发出控制信号给数据分发单元,数据分发单元从存储单元中读取输入激励值和神经网络权重参数,并输入到运算单元进行运算。本发明按非零权重值的个数均匀地分配给每个运算单元,这样不会造成运算资源的闲置,从而提高整个网络的运算性能。同时,采用稀疏网络的形式存储剪枝后的神经网络,每一列的权重值存储在同一个地址空间,并根据行索引对其进行编码,在保证精度的情况下,提高了运算性能和数据吞吐率。
-
公开(公告)号:CN106951211B
公开(公告)日:2019-10-18
申请号:CN201710189006.1
申请日:2017-03-27
Applicant: 南京大学
IPC: G06F7/523
Abstract: 本发明提供了一种定浮点通用乘法器,既可以实现24位的定点乘法运算,也可以实现32位的单精度浮点乘法运算。所述乘法器将定点乘法器与主体结构相分离,由24位定点乘法器重构为单精度浮点乘法器。24位定点乘法器由4个12位乘法器组成,其中每个12位乘法器采用BOOTH算法,通过乘累加的紧缩结构完成运算,有效地提高了乘法运算效率和减少了运算资源开销。所述乘法器除了24位定点乘法器外不额外占用太多资源,在保证运算精度和数据吞吐率的情况下,有效地提高了乘法器的通用性。
-
公开(公告)号:CN110688088B
公开(公告)日:2023-03-28
申请号:CN201910944451.3
申请日:2019-09-30
Applicant: 南京大学
Abstract: 本发明公开了一种面向神经网络的通用非线性激活函数计算装置和方法。其计算装置包括乘法器、输入选择单元、寻址单元、查找表单元、FIFO单元、乘加运算单元、线性转换单元和输出选择单元。本发明提供的面向神经网络的通用非线性函数计算装置和方法,使用分段线性逼近方法对sigmoid函数进行分段线性拟合操作,利用sigmoid函数和tanh函数的数学关系,共用寻址单元和查找表资源,通过模式选择和相应的线性变化来实现神经网络中不同的非线性函数的运算,从而减少片上计算和存储资源的消耗。
-
公开(公告)号:CN110058841B
公开(公告)日:2023-03-28
申请号:CN201910321975.7
申请日:2019-04-22
Applicant: 南京大学
IPC: G06F7/544
Abstract: 本发明提供了一种面向具有对称性的非线性函数的通用计算装置和方法。计算装置包括取绝对值单元、地址索引单元、查找表单元、乘加单元、取符号位单元、减法器和选择器。其中,地址索引单元包括比较器、控制器、地址寄存器和分段端点存储器。本发明提供的面向具有对称性的非线性函数计算装置,可以计算任意具有轴对称或中心对称的非线性函数值,具有一定的通用性。同时本发明根据目标分段线性函数与原始非线性函数的最大绝对误差对原始非线性函数进行分段处理,可实现近似计算结果的精度可控。
-
公开(公告)号:CN110058841A
公开(公告)日:2019-07-26
申请号:CN201910321975.7
申请日:2019-04-22
Applicant: 南京大学
IPC: G06F7/544
Abstract: 本发明提供了一种面向具有对称性的非线性函数的通用计算装置和方法。计算装置包括取绝对值单元、地址索引单元、查找表单元、乘加单元、取符号位单元、减法器和选择器。其中,地址索引单元包括比较器、控制器、地址寄存器和分段端点存储器。本发明提供的面向具有对称性的非线性函数计算装置,可以计算任意具有轴对称或中心对称的非线性函数值,具有一定的通用性。同时本发明根据目标分段线性函数与原始非线性函数的最大绝对误差对原始非线性函数进行分段处理,可实现近似计算结果的精度可控。
-
公开(公告)号:CN108665063A
公开(公告)日:2018-10-16
申请号:CN201810480881.X
申请日:2018-05-18
Applicant: 南京大学
IPC: G06N3/063
Abstract: 本发明提供了一种用于BNN硬件加速器的双向数据级并行处理卷积加速系统包括:存储单元,用于存储输入的激励数据、卷积核参数以及该层卷积运算结束后的结果;运算控制器,控制各个卷积层之间数据的传递、激励的输入与读取卷积核参数的读取、参数运算以及计算结果的存储;卷积运算模块,根据所述控制器指令,读取缓冲单元里的数据和参数,完成卷积操作;数据搬运模块,根据运算控制器的配置信息,将所有参数与激励数据从片外DDR搬运至片上存储器。通过增加运算资源和数据存储资源的开销,大大提高了运算吞吐率。
-
公开(公告)号:CN108665063B
公开(公告)日:2022-03-18
申请号:CN201810480881.X
申请日:2018-05-18
Applicant: 南京大学
IPC: G06N3/063
Abstract: 本发明提供了一种用于BNN硬件加速器的双向数据级并行处理卷积加速系统包括:存储单元,用于存储输入的激励数据、卷积核参数以及该层卷积运算结束后的结果;运算控制器,控制各个卷积层之间数据的传递、激励的输入与读取卷积核参数的读取、参数运算以及计算结果的存储;卷积运算模块,根据所述控制器指令,读取缓冲单元里的数据和参数,完成卷积操作;数据搬运模块,根据运算控制器的配置信息,将所有参数与激励数据从片外DDR搬运至片上存储器。通过增加运算资源和数据存储资源的开销,大大提高了运算吞吐率。
-
公开(公告)号:CN110110851A
公开(公告)日:2019-08-09
申请号:CN201910359395.7
申请日:2019-04-30
Applicant: 南京大学
Abstract: 本发明提供了一种LSTM神经网络的FPGA加速器及其加速方法。加速器包括数据分发单元、运算单元、控制单元和存储单元;运算单元包括稀疏矩阵向量乘模块、非线性激活函数模块和按元素乘加计算模块;控制单元发出控制信号给数据分发单元,数据分发单元从存储单元中读取输入激励值和神经网络权重参数,并输入到运算单元进行运算。本发明按非零权重值的个数均匀地分配给每个运算单元,这样不会造成运算资源的闲置,从而提高整个网络的运算性能。同时,采用稀疏网络的形式存储剪枝后的神经网络,每一列的权重值存储在同一个地址空间,并根据行索引对其进行编码,在保证精度的情况下,提高了运算性能和数据吞吐率。
-
-
-
-
-
-
-
-
-