Patent search ap:("中国科学院计算技术研究所") AND inv:"王朝尉" Page 1

1.

发明授权
利用AMD GPU汇编指令加速的单精度矩阵乘优化方法和系统有权

公开(公告)号：CN110147248B

公开(公告)日：2021-06-29

申请号：CN201910317936.X

申请日：2019-04-19

Applicant: 中国科学院计算技术研究所

Inventor： 谭光明 , 郝海波 , 于献智 , 王朝尉

IPC: G06F9/30 , G06F9/38

Abstract: 本发明涉及一种利用AMD GPU汇编指令加速的单精度矩阵乘优化方法和系统，包括：根据tile_length对原始矩阵进行分块，每个block处理〈tile_length,tile_length〉维度的输出矩阵C；在共享内存上创建4个暂存空间tileA，tileB，tileA’和tileB’；从GPU上的一级存储上的矩阵A读取tileA大小的矩阵到tileA，从矩阵B读取tileB大小的矩阵到tileB；每次从tileA加载一列到寄存器，从tileB加载一行到寄存器，做矩阵乘运算，读取该寄存器内容，并运用乘加融合指令做矩阵乘运算，在矩阵乘运算的同时，从该一级存储分别读取下一个tileA和tileB的一行到tileA’和tileB’；做完tileA和tileB的矩阵乘以后，将tileA和tileA’地址互换，将tileB和tileB’地址互换。

2.

发明公开
GPU FFMA指令在双发射模式下的通量测试方法有权

公开(公告)号：CN107066706A

公开(公告)日：2017-08-18

申请号：CN201710186589.2

申请日：2017-03-27

Applicant: 中国科学院计算技术研究所

Inventor： 张秀霞 , 谭光明 , 王朝尉

IPC: G06F17/50

CPC classification number: G06F17/5009 , G06F17/5081

Abstract: 本涉及一种GPU FFMA指令在双发射模式下的通量测试方法和系统，其中该测试方法包括对GPU指令的延迟和通量进行测试，获得该GPU指令的延迟周期和GPU指令通量；根据判断寄存器间是否存在bank冲突，选取无bank冲突的寄存器操作数；通过该GPU指令的延迟周期和GPU指令通量，分析测试该GPU指令中控制码的含义，并根据该控制码的含义，控制开启对应的发射模式和GPU的线程调度，若开启的发射模式为双发射模式，则根据该双发射模式和该寄存器操作数计算测试GPU浮点乘加指令在双发射模式下的通量。本发明通过微基准测试程序测试出GPU参数以及其和性能的对应关系，得出参数和性能的关系，有助于优化GPU上的应用。

3.

发明公开
利用AMD GPU汇编指令加速的单精度矩阵乘优化方法和系统有权

公开(公告)号：CN110147248A

公开(公告)日：2019-08-20

申请号：CN201910317936.X

申请日：2019-04-19

Applicant: 中国科学院计算技术研究所

Inventor： 谭光明 , 郝海波 , 于献智 , 王朝尉

IPC: G06F9/30 , G06F9/38

Abstract: 本发明涉及一种利用AMD GPU汇编指令加速的单精度矩阵乘优化方法和系统，包括：根据tile_length对原始矩阵进行分块，每个block处理〈tile_length,tile_length〉维度的输出矩阵C；在共享内存上创建4个暂存空间tileA，tileB，tileA’和tileB’；从GPU上的一级存储上的矩阵A读取tileA大小的矩阵到tileA，从矩阵B读取tileB大小的矩阵到tileB；每次从tileA加载一列到寄存器，从tileB加载一行到寄存器，做矩阵乘运算，读取该寄存器内容，并运用乘加融合指令做矩阵乘运算，在矩阵乘运算的同时，从该一级存储分别读取下一个tileA和tileB的一行到tileA’和tileB’；做完tileA和tileB的矩阵乘以后，将tileA和tileA’地址互换，将tileB和tileB’地址互换。

4.

发明授权
GPU FFMA指令在双发射模式下的通量测试方法有权

公开(公告)号：CN107066706B

公开(公告)日：2019-07-30

申请号：CN201710186589.2

申请日：2017-03-27

Applicant: 中国科学院计算技术研究所

Inventor： 张秀霞 , 谭光明 , 王朝尉

IPC: G06F17/50

Abstract: 本涉及一种GPU FFMA指令在双发射模式下的通量测试方法和系统，其中该测试方法包括对GPU指令的延迟和通量进行测试，获得该GPU指令的延迟周期和GPU指令通量；根据判断寄存器间是否存在bank冲突，选取无bank冲突的寄存器操作数；通过该GPU指令的延迟周期和GPU指令通量，分析测试该GPU指令中控制码的含义，并根据该控制码的含义，控制开启对应的发射模式和GPU的线程调度，若开启的发射模式为双发射模式，则根据该双发射模式和该寄存器操作数计算测试GPU浮点乘加指令在双发射模式下的通量。本发明通过微基准测试程序测试出GPU参数以及其和性能的对应关系，得出参数和性能的关系，有助于优化GPU上的应用。

5.

发明公开
基于NVIDIA Kepler GPU汇编指令的单精度矩阵乘优化方法与系统无效

公开(公告)号：CN106681694A

公开(公告)日：2017-05-17

申请号：CN201611260732.X

申请日：2016-12-30

Applicant: 中国科学院计算技术研究所 , 中国科学院国有资产经营有限责任公司

Inventor： 谭光明 , 张秀霞 , 周可人 , 王朝尉

IPC: G06F9/302 , G06F9/30 , G06F17/16 , G06T1/20

CPC classification number: G06T1/20 , G06F9/30036 , G06F9/3012 , G06F17/16

Abstract: 本发明涉及单精度矩阵乘优化方法，该方法基于NVIDIA Kepler GPU汇编指令，包括：根据A矩阵分块的列长度bm和B矩阵分块的行长度bn对原始矩阵进行分块，每个block处理维度的输出矩阵C；在GPU二级存储上创建4个暂存空间smA，smB，smAx和smBx；从GPU一级存储上的矩阵A读取该smA大小的矩阵到该smA，从矩阵B读取该smB大小的矩阵到该smB；每次从该smA加载一列A矩阵分块数据到寄存器，从该smB加载一行B矩阵分块数据到寄存器，读取该寄存器内容，并运用乘加融合指令做矩阵乘运算，且在做矩阵乘运算的同时，从该GPU一级存储读取下一个该smA的一列到该smAx，并储读取下一个该smB的一行到该smBx；步骤5，做完该smA和该smB的矩阵乘以后，将该smA和该mAx地址互换，将该smB和该smBx地址互换。

Patent Agency Ranking