专利检索 ap:("中国人民解放军国防科技大学" OR "北京动力机械研究所") AND inv:"黄啊慧" 第 1 页

1.

发明公开
一种大规模多运算浮点矩阵计算加速实现方法及装置审中-实审

公开(公告)号：CN114218524A

公开(公告)日：2022-03-22

申请号：CN202111283133.0

申请日：2021-11-01

申请人： 中国人民解放军国防科技大学 , 北京动力机械研究所

发明人： 彭元喜 , 张龙龙 , 郭阳 , 扈啸 , 黄啊慧 , 粟毅 , 张世亮 , 田甜 , 李岩

IPC分类号： G06F17/16 , G06F7/483

摘要： 本发明公开了一种大规模多运算浮点矩阵计算加速实现方法，该方法包括：步骤S1：根据待处理矩阵的操作类型，接收外部输入信号，判断矩阵运算模式：当运算模式是矩阵加、矩阵减时，转入执行步骤S3，当运行模式是矩阵乘、矩阵‑向量乘、矩阵‑标量乘时，转入执行步骤S2；步骤S2：初始化片上RAM为零，转入执行步骤S4；步骤S3：通过RAM通道加载数据源C到片上RAM中，转入执行步骤S4；步骤S4：通过RAM通道预加载部分数据流A，而后边计算边加载数据流A和数据流B；步骤S5：计算完后，将计算结果传输到片外存储器。该装置用来实施上述方法。本发明具有低存储需求、高计算效率、复用度高、适用范围广等优点。

2.

发明公开
一种连续运算的浮点矩阵计算加速方法及装置审中-实审

公开(公告)号：CN114186188A

公开(公告)日：2022-03-15

申请号：CN202111285204.0

申请日：2021-11-01

申请人： 中国人民解放军国防科技大学 , 北京动力机械研究所

发明人： 彭元喜 , 张龙龙 , 扈啸 , 郭阳 , 黄啊慧 , 田甜 , 粟毅 , 张世亮 , 聂聆聪

IPC分类号： G06F17/16 , G06F7/487 , G06F7/485 , G06E3/00

摘要： 一种连续运算的浮点矩阵计算加速方法及装置，该方法包括：步骤S1：根据连续运算具体需求，按照四则运算的顺序排列计算任务；步骤S2：开始第一个矩阵运算，并判断下一次运算模式：如果是矩阵乘运算，转入执行步骤S3，如果是矩阵加、矩阵减运算，转入执行步骤S4；步骤S3：将中间计算结果暂时保存在片上RAM中，用于下一次矩阵运算的数据源，转入步骤S5；步骤S4：将中间计算结果暂时保存到片外存储器，转入步骤S5；步骤S5：进行下一个矩阵计算，重复步骤S2‑步骤S4,直到计算完成，将最终计算结果传输到片外存储器。该装置用来执行上述方法。本发明具有可减少数据访存时间、降低访存带宽、适用性和复用性好等优点。

3.

发明公开
一种基于线性阵列的可配置浮点矩阵乘实现方法及装置审中-实审

公开(公告)号：CN114186187A

公开(公告)日：2022-03-15

申请号：CN202111284552.6

申请日：2021-11-01

申请人： 中国人民解放军国防科技大学 , 北京动力机械研究所

发明人： 扈啸 , 张龙龙 , 彭元喜 , 郭阳 , 黄啊慧 , 张世亮 , 田甜 , 粟毅 , 丁祎明

IPC分类号： G06F17/16 , G06F7/487 , G06E3/00

摘要： 本发明公开了一种基于线性阵列的可配置浮点矩阵乘实现方法及装置，该方法包括：步骤S1：根据矩阵规模确定分块大小及参与计算的阵列维数；步骤S2：根据子块大小和阵列维数，初始化片上RAM块数据为零；步骤S3：RAM通道提前加载部分数据流A，在数据通道送入数据流B的同时开始同步计算；步骤S4：将计算结果返回片外存储器，重复上述步骤S2‑S4，直到所有子块计算完成。该装置用来实施上述方法。本发明具有能够实现任意规模矩阵乘计算、存储需求低、计算效率和数据精度高等优点。