一种基于脉动阵列的LSTM加速器及加速方法

    公开(公告)号:CN117610624B

    公开(公告)日:2024-11-12

    申请号:CN202311535097.1

    申请日:2023-11-16

    IPC分类号: G06N3/063 G06N3/0442

    摘要: 本发明公开了一种基于脉动阵列的LSTM加速器,加速器包括向量‑矩阵转化模块、脉动阵列、Element‑wise模块、控制模块以及存储模块;向量‑矩阵转化模块负责将输入向量转化为矩阵形式,并映射至脉动阵列的输入数据流上;脉动阵列负责LSTM门控单元的稀疏权重矩阵与输入矩阵的乘法运算,由多个PE模块组成,通过输入数据流和权重数据流在PE模块间流动,高度复用数据,有效避免数据频繁读取。本发明还公开了一种基于脉动阵列的LSTM加速器的加速方法,本发明通过优化数据结构,将原有的矩阵与向量乘法运算转化为矩阵与矩阵乘法运算,并通过脉动阵列对稀疏权重矩阵与输入矩阵的乘法运算进行处理,实现了PE模块的高并行度和高吞吐率,从而提升了加速器的运算性能。

    一种基于FPGA的A3C深度强化学习算法加速器

    公开(公告)号:CN116739054B

    公开(公告)日:2024-10-01

    申请号:CN202310730296.1

    申请日:2023-06-19

    IPC分类号: G06N3/0464 G06N5/04

    摘要: 本发明公开了一种基于FPGA的A3C深度强化学习算法加速器,涉及人工智能的深度强化学习技术领域,包括上位机和FPGA加速器,上位机用于提供交互环境;FPGA加速器用于完成智能体推理与训练的计算加速,包括:存储模块;正向计算模块,用于完成神经网络的正向推理计算;反向计算模块,用于完成神经网络的反向传播计算;反向输入计算模块,用于完成反向输入图的计算;梯度计算模块,用于计算每一层参数的梯度;RMSProp参数更新模块,用于完成A3C算法中的RMSProp参数更新过程。本发明的加速器相对于通用处理器具有高能效的特点。

    一种基于脉动阵列的LSTM加速器及加速方法

    公开(公告)号:CN117610624A

    公开(公告)日:2024-02-27

    申请号:CN202311535097.1

    申请日:2023-11-16

    IPC分类号: G06N3/063 G06N3/0442

    摘要: 本发明公开了一种基于脉动阵列的LSTM加速器,加速器包括向量‑矩阵转化模块、脉动阵列、Element‑wise模块、控制模块以及存储模块;向量‑矩阵转化模块负责将输入向量转化为矩阵形式,并映射至脉动阵列的输入数据流上;脉动阵列负责LSTM门控单元的稀疏权重矩阵与输入矩阵的乘法运算,由多个PE模块组成,通过输入数据流和权重数据流在PE模块间流动,高度复用数据,有效避免数据频繁读取。本发明还公开了一种基于脉动阵列的LSTM加速器的加速方法,本发明通过优化数据结构,将原有的矩阵与向量乘法运算转化为矩阵与矩阵乘法运算,并通过脉动阵列对稀疏权重矩阵与输入矩阵的乘法运算进行处理,实现了PE模块的高并行度和高吞吐率,从而提升了加速器的运算性能。

    一种基于FPGA的A3C深度强化学习算法加速器

    公开(公告)号:CN116739054A

    公开(公告)日:2023-09-12

    申请号:CN202310730296.1

    申请日:2023-06-19

    IPC分类号: G06N3/0464 G06N5/04

    摘要: 本发明公开了一种基于FPGA的A3C深度强化学习算法加速器,涉及人工智能的深度强化学习技术领域,包括上位机和FPGA加速器,上位机用于提供交互环境;FPGA加速器用于完成智能体推理与训练的计算加速,包括:存储模块;正向计算模块,用于完成神经网络的正向推理计算;反向计算模块,用于完成神经网络的反向传播计算;反向输入计算模块,用于完成反向输入图的计算;梯度计算模块,用于计算每一层参数的梯度;RMSProp参数更新模块,用于完成A3C算法中的RMSProp参数更新过程。本发明的加速器相对于通用处理器具有高能效的特点。