专利检索 ap:("南京航空航天大学") AND inv:"叶剑涛" 第 1 页

1.

发明公开
一种基于FPGA的A3C深度强化学习算法加速器有权

公开(公告)号：CN116739054A

公开(公告)日：2023-09-12

申请号：CN202310730296.1

申请日：2023-06-19

申请人： 南京航空航天大学

发明人： 葛芬 , 张国辉 , 周芳 , 李梓瑜 , 叶剑涛 , 龚文强 , 王浩 , 吴淑宁

IPC分类号： G06N3/0464 , G06N5/04

摘要： 本发明公开了一种基于FPGA的A3C深度强化学习算法加速器，涉及人工智能的深度强化学习技术领域，包括上位机和FPGA加速器，上位机用于提供交互环境；FPGA加速器用于完成智能体推理与训练的计算加速，包括：存储模块；正向计算模块，用于完成神经网络的正向推理计算；反向计算模块，用于完成神经网络的反向传播计算；反向输入计算模块，用于完成反向输入图的计算；梯度计算模块，用于计算每一层参数的梯度；RMSProp参数更新模块，用于完成A3C算法中的RMSProp参数更新过程。本发明的加速器相对于通用处理器具有高能效的特点。

2.

发明授权
一种基于脉动阵列的LSTM加速器及加速方法有权

公开(公告)号：CN117610624B

公开(公告)日：2024-11-12

申请号：CN202311535097.1

申请日：2023-11-16

申请人： 南京航空航天大学

发明人： 葛芬 , 王浩 , 周芳 , 叶剑涛 , 龚文强 , 张国辉

IPC分类号： G06N3/063 , G06N3/0442

摘要： 本发明公开了一种基于脉动阵列的LSTM加速器，加速器包括向量‑矩阵转化模块、脉动阵列、Element‑wise模块、控制模块以及存储模块；向量‑矩阵转化模块负责将输入向量转化为矩阵形式，并映射至脉动阵列的输入数据流上；脉动阵列负责LSTM门控单元的稀疏权重矩阵与输入矩阵的乘法运算，由多个PE模块组成，通过输入数据流和权重数据流在PE模块间流动，高度复用数据，有效避免数据频繁读取。本发明还公开了一种基于脉动阵列的LSTM加速器的加速方法，本发明通过优化数据结构，将原有的矩阵与向量乘法运算转化为矩阵与矩阵乘法运算，并通过脉动阵列对稀疏权重矩阵与输入矩阵的乘法运算进行处理，实现了PE模块的高并行度和高吞吐率，从而提升了加速器的运算性能。

3.

发明授权
一种基于FPGA的A3C深度强化学习算法加速器有权

公开(公告)号：CN116739054B

公开(公告)日：2024-10-01

申请号：CN202310730296.1

申请日：2023-06-19

申请人： 南京航空航天大学

发明人： 葛芬 , 张国辉 , 周芳 , 李梓瑜 , 叶剑涛 , 龚文强 , 王浩 , 吴淑宁

IPC分类号： G06N3/0464 , G06N5/04

摘要： 本发明公开了一种基于FPGA的A3C深度强化学习算法加速器，涉及人工智能的深度强化学习技术领域，包括上位机和FPGA加速器，上位机用于提供交互环境；FPGA加速器用于完成智能体推理与训练的计算加速，包括：存储模块；正向计算模块，用于完成神经网络的正向推理计算；反向计算模块，用于完成神经网络的反向传播计算；反向输入计算模块，用于完成反向输入图的计算；梯度计算模块，用于计算每一层参数的梯度；RMSProp参数更新模块，用于完成A3C算法中的RMSProp参数更新过程。本发明的加速器相对于通用处理器具有高能效的特点。

4.

发明公开
一种基于脉动阵列的LSTM加速器及加速方法有权

公开(公告)号：CN117610624A

公开(公告)日：2024-02-27

申请号：CN202311535097.1

申请日：2023-11-16

申请人： 南京航空航天大学

发明人： 葛芬 , 王浩 , 周芳 , 叶剑涛 , 龚文强 , 张国辉

IPC分类号： G06N3/063 , G06N3/0442

摘要： 本发明公开了一种基于脉动阵列的LSTM加速器，加速器包括向量‑矩阵转化模块、脉动阵列、Element‑wise模块、控制模块以及存储模块；向量‑矩阵转化模块负责将输入向量转化为矩阵形式，并映射至脉动阵列的输入数据流上；脉动阵列负责LSTM门控单元的稀疏权重矩阵与输入矩阵的乘法运算，由多个PE模块组成，通过输入数据流和权重数据流在PE模块间流动，高度复用数据，有效避免数据频繁读取。本发明还公开了一种基于脉动阵列的LSTM加速器的加速方法，本发明通过优化数据结构，将原有的矩阵与向量乘法运算转化为矩阵与矩阵乘法运算，并通过脉动阵列对稀疏权重矩阵与输入矩阵的乘法运算进行处理，实现了PE模块的高并行度和高吞吐率，从而提升了加速器的运算性能。