Patent search ap:("中国科学院计算技术研究所") AND inv:"于献智" Page 1

1.

发明授权
利用AMD GPU汇编指令加速的单精度矩阵乘优化方法和系统有权

公开(公告)号：CN110147248B

公开(公告)日：2021-06-29

申请号：CN201910317936.X

申请日：2019-04-19

Applicant: 中国科学院计算技术研究所

Inventor： 谭光明 , 郝海波 , 于献智 , 王朝尉

IPC: G06F9/30 , G06F9/38

Abstract: 本发明涉及一种利用AMD GPU汇编指令加速的单精度矩阵乘优化方法和系统，包括：根据tile_length对原始矩阵进行分块，每个block处理〈tile_length,tile_length〉维度的输出矩阵C；在共享内存上创建4个暂存空间tileA，tileB，tileA’和tileB’；从GPU上的一级存储上的矩阵A读取tileA大小的矩阵到tileA，从矩阵B读取tileB大小的矩阵到tileB；每次从tileA加载一列到寄存器，从tileB加载一行到寄存器，做矩阵乘运算，读取该寄存器内容，并运用乘加融合指令做矩阵乘运算，在矩阵乘运算的同时，从该一级存储分别读取下一个tileA和tileB的一行到tileA’和tileB’；做完tileA和tileB的矩阵乘以后，将tileA和tileA’地址互换，将tileB和tileB’地址互换。

2.

发明公开
利用AMD GPU汇编指令加速的单精度矩阵乘优化方法和系统有权

公开(公告)号：CN110147248A

公开(公告)日：2019-08-20

申请号：CN201910317936.X

申请日：2019-04-19

Applicant: 中国科学院计算技术研究所

Inventor： 谭光明 , 郝海波 , 于献智 , 王朝尉

IPC: G06F9/30 , G06F9/38

Abstract: 本发明涉及一种利用AMD GPU汇编指令加速的单精度矩阵乘优化方法和系统，包括：根据tile_length对原始矩阵进行分块，每个block处理〈tile_length,tile_length〉维度的输出矩阵C；在共享内存上创建4个暂存空间tileA，tileB，tileA’和tileB’；从GPU上的一级存储上的矩阵A读取tileA大小的矩阵到tileA，从矩阵B读取tileB大小的矩阵到tileB；每次从tileA加载一列到寄存器，从tileB加载一行到寄存器，做矩阵乘运算，读取该寄存器内容，并运用乘加融合指令做矩阵乘运算，在矩阵乘运算的同时，从该一级存储分别读取下一个tileA和tileB的一行到tileA’和tileB’；做完tileA和tileB的矩阵乘以后，将tileA和tileA’地址互换，将tileB和tileB’地址互换。

Patent Agency Ranking