-
公开(公告)号:CN110147248B
公开(公告)日:2021-06-29
申请号:CN201910317936.X
申请日:2019-04-19
Applicant: 中国科学院计算技术研究所
Abstract: 本发明涉及一种利用AMD GPU汇编指令加速的单精度矩阵乘优化方法和系统,包括:根据tile_length对原始矩阵进行分块,每个block处理〈tile_length,tile_length〉维度的输出矩阵C;在共享内存上创建4个暂存空间tileA,tileB,tileA’和tileB’;从GPU上的一级存储上的矩阵A读取tileA大小的矩阵到tileA,从矩阵B读取tileB大小的矩阵到tileB;每次从tileA加载一列到寄存器,从tileB加载一行到寄存器,做矩阵乘运算,读取该寄存器内容,并运用乘加融合指令做矩阵乘运算,在矩阵乘运算的同时,从该一级存储分别读取下一个tileA和tileB的一行到tileA’和tileB’;做完tileA和tileB的矩阵乘以后,将tileA和tileA’地址互换,将tileB和tileB’地址互换。
-
公开(公告)号:CN107066706A
公开(公告)日:2017-08-18
申请号:CN201710186589.2
申请日:2017-03-27
Applicant: 中国科学院计算技术研究所
IPC: G06F17/50
CPC classification number: G06F17/5009 , G06F17/5081
Abstract: 本涉及一种GPU FFMA指令在双发射模式下的通量测试方法和系统,其中该测试方法包括对GPU指令的延迟和通量进行测试,获得该GPU指令的延迟周期和GPU指令通量;根据判断寄存器间是否存在bank冲突,选取无bank冲突的寄存器操作数;通过该GPU指令的延迟周期和GPU指令通量,分析测试该GPU指令中控制码的含义,并根据该控制码的含义,控制开启对应的发射模式和GPU的线程调度,若开启的发射模式为双发射模式,则根据该双发射模式和该寄存器操作数计算测试GPU浮点乘加指令在双发射模式下的通量。本发明通过微基准测试程序测试出GPU参数以及其和性能的对应关系,得出参数和性能的关系,有助于优化GPU上的应用。
-
公开(公告)号:CN110147248A
公开(公告)日:2019-08-20
申请号:CN201910317936.X
申请日:2019-04-19
Applicant: 中国科学院计算技术研究所
Abstract: 本发明涉及一种利用AMD GPU汇编指令加速的单精度矩阵乘优化方法和系统,包括:根据tile_length对原始矩阵进行分块,每个block处理〈tile_length,tile_length〉维度的输出矩阵C;在共享内存上创建4个暂存空间tileA,tileB,tileA’和tileB’;从GPU上的一级存储上的矩阵A读取tileA大小的矩阵到tileA,从矩阵B读取tileB大小的矩阵到tileB;每次从tileA加载一列到寄存器,从tileB加载一行到寄存器,做矩阵乘运算,读取该寄存器内容,并运用乘加融合指令做矩阵乘运算,在矩阵乘运算的同时,从该一级存储分别读取下一个tileA和tileB的一行到tileA’和tileB’;做完tileA和tileB的矩阵乘以后,将tileA和tileA’地址互换,将tileB和tileB’地址互换。
-
公开(公告)号:CN107066706B
公开(公告)日:2019-07-30
申请号:CN201710186589.2
申请日:2017-03-27
Applicant: 中国科学院计算技术研究所
IPC: G06F17/50
Abstract: 本涉及一种GPU FFMA指令在双发射模式下的通量测试方法和系统,其中该测试方法包括对GPU指令的延迟和通量进行测试,获得该GPU指令的延迟周期和GPU指令通量;根据判断寄存器间是否存在bank冲突,选取无bank冲突的寄存器操作数;通过该GPU指令的延迟周期和GPU指令通量,分析测试该GPU指令中控制码的含义,并根据该控制码的含义,控制开启对应的发射模式和GPU的线程调度,若开启的发射模式为双发射模式,则根据该双发射模式和该寄存器操作数计算测试GPU浮点乘加指令在双发射模式下的通量。本发明通过微基准测试程序测试出GPU参数以及其和性能的对应关系,得出参数和性能的关系,有助于优化GPU上的应用。
-
公开(公告)号:CN106681694A
公开(公告)日:2017-05-17
申请号:CN201611260732.X
申请日:2016-12-30
Applicant: 中国科学院计算技术研究所 , 中国科学院国有资产经营有限责任公司
CPC classification number: G06T1/20 , G06F9/30036 , G06F9/3012 , G06F17/16
Abstract: 本发明涉及单精度矩阵乘优化方法,该方法基于NVIDIA Kepler GPU汇编指令,包括:根据A矩阵分块的列长度bm和B矩阵分块的行长度bn对原始矩阵进行分块,每个block处理 维度的输出矩阵C;在GPU二级存储上创建4个暂存空间smA,smB,smAx和smBx;从GPU一级存储上的矩阵A读取该smA大小的矩阵到该smA,从矩阵B读取该smB大小的矩阵到该smB;每次从该smA加载一列A矩阵分块数据到寄存器,从该smB加载一行B矩阵分块数据到寄存器,读取该寄存器内容,并运用乘加融合指令做矩阵乘运算,且在做矩阵乘运算的同时,从该GPU一级存储读取下一个该smA的一列到该smAx,并储读取下一个该smB的一行到该smBx;步骤5,做完该smA和该smB的矩阵乘以后,将该smA和该mAx地址互换,将该smB和该smBx地址互换。
-
-
-
-