一种大规模多运算浮点矩阵计算加速实现方法及装置

    公开(公告)号:CN114218524A

    公开(公告)日:2022-03-22

    申请号:CN202111283133.0

    申请日:2021-11-01

    IPC分类号: G06F17/16 G06F7/483

    摘要: 本发明公开了一种大规模多运算浮点矩阵计算加速实现方法,该方法包括:步骤S1:根据待处理矩阵的操作类型,接收外部输入信号,判断矩阵运算模式:当运算模式是矩阵加、矩阵减时,转入执行步骤S3,当运行模式是矩阵乘、矩阵‑向量乘、矩阵‑标量乘时,转入执行步骤S2;步骤S2:初始化片上RAM为零,转入执行步骤S4;步骤S3:通过RAM通道加载数据源C到片上RAM中,转入执行步骤S4;步骤S4:通过RAM通道预加载部分数据流A,而后边计算边加载数据流A和数据流B;步骤S5:计算完后,将计算结果传输到片外存储器。该装置用来实施上述方法。本发明具有低存储需求、高计算效率、复用度高、适用范围广等优点。

    一种连续运算的浮点矩阵计算加速方法及装置

    公开(公告)号:CN114186188A

    公开(公告)日:2022-03-15

    申请号:CN202111285204.0

    申请日:2021-11-01

    摘要: 一种连续运算的浮点矩阵计算加速方法及装置,该方法包括:步骤S1:根据连续运算具体需求,按照四则运算的顺序排列计算任务;步骤S2:开始第一个矩阵运算,并判断下一次运算模式:如果是矩阵乘运算,转入执行步骤S3,如果是矩阵加、矩阵减运算,转入执行步骤S4;步骤S3:将中间计算结果暂时保存在片上RAM中,用于下一次矩阵运算的数据源,转入步骤S5;步骤S4:将中间计算结果暂时保存到片外存储器,转入步骤S5;步骤S5:进行下一个矩阵计算,重复步骤S2‑步骤S4,直到计算完成,将最终计算结果传输到片外存储器。该装置用来执行上述方法。本发明具有可减少数据访存时间、降低访存带宽、适用性和复用性好等优点。