-
公开(公告)号:CN114219083A
公开(公告)日:2022-03-22
申请号:CN202110452694.2
申请日:2021-04-26
申请人: 无锡江南计算技术研究所
摘要: 本发明公开一种基于ONNX面向Caffe2训练的深度学习模型自动转换方法,包括以下步骤:S1、ONNX文件向Caffe2文件的映射,得到Caffe2格式的前向传播网络,S2、根据S1中获得的前向传播网络的信息,自动生成求梯度算子,得到反向传播网络,S3、根据满足生成完整反向传播网络的需要,设计用户配置信息格式,将配置信息融入上步骤的模型定义文件中。本发明可以自动产生包括正向传播神经网络、反向传播神经网络、运行控制块和辅助算子的模型文件,从而进行训练任务。
-
公开(公告)号:CN112560163A
公开(公告)日:2021-03-26
申请号:CN201910910098.7
申请日:2019-09-25
申请人: 无锡江南计算技术研究所
IPC分类号: G06F30/15 , G06F30/28 , G06F30/25 , G06F30/23 , G06F111/08 , G06F111/10 , G06F113/08 , G06F119/14
摘要: 本发明公开一种具有多重条件判别的循环优化方法,包括以下步骤:S1、分析程序运行时的时间热点函数,找出时间热点函数中一个或多个耗时程序段;S2、若S1中找到的循环段为多重条件判别的循环段,执行下一步;S3、开始第一重循环;S4、开始第二重循环;S5、重复类似S3或S4过程;S6、判断最内层循环条件的逻辑值:若为“真”,进行原方法的核心计算、执行S6,若为“假”,直接开始最内层循环的下一个值计算;S7、重复步骤S6,完成最内层循环计算;S8、依据步骤S7的处理方法,依次完成S5、S4、S3步骤相应的循环,完成整个多重循环段的计算。本发明使大规模并行计算的性能有显著提升,提高相关问题的求解效率,从而提高整个应用系统的计算运行效率,对实际工程课题的数值模拟有重要意义。
-
公开(公告)号:CN114218141B
公开(公告)日:2024-02-02
申请号:CN202110479722.X
申请日:2021-04-30
申请人: 无锡江南计算技术研究所
IPC分类号: G06F13/28
摘要: 本发明公开一种针对深度学习半精度算子数据访存对界处理方法,针对深度学习中算子的计算特点和张量空间分布,对多维张量的特定维度做4B对界处理,将四维张量的输入数据按照实际参与计算的维度分为不同的类,分别使用不同的半精度数据对界处理方法;具体为,根据输入的算子类型和输入数据的计算维度,选择不同的对界方法。本发明解决了异构众核平台上半精度算子DMA访存的不对界问题,且不仅能降低内存空间的占用,还能有效减少对界处理的时间,提升对界处理的性能。
-
公开(公告)号:CN112541584B
公开(公告)日:2022-10-04
申请号:CN201910897718.8
申请日:2019-09-23
申请人: 无锡江南计算技术研究所
IPC分类号: G06N3/08
摘要: 本发明公开一种深度神经网络模型并行模式选择方法,包括以下步骤:S1、测算整个神经网络模型的总数据量;S2、判断S1中获得的神经网络模型的总数据量是否超过进行训练的单个计算节点的可用内存总量,如果不超过,执行S3,如果超过,执行S4;S3、选择数据并行模式;S4、将神经网络模型的网络层进行切分,根据切分的结果,得到神经网络模型所需要分布的计算节点数量,如果输入参数中的计算节点数量不足模型切分所需节点数量两倍以上,执行S5,否则执行S6;S5、选择模型并行模式;S6、选择包括数据并行和模型并行的混合并行模式。本发明通过对模型参数、超参数和数据量的信息采集和分析,实现分布式扩展并行模式的自动选择,并且保证较高的并行性能。
-
公开(公告)号:CN114218141A
公开(公告)日:2022-03-22
申请号:CN202110479722.X
申请日:2021-04-30
申请人: 无锡江南计算技术研究所
IPC分类号: G06F13/28
摘要: 本发明公开一种针对深度学习半精度算子数据访存对界处理方法,针对深度学习中算子的计算特点和张量空间分布,对多维张量的特定维度做4B对界处理,将四维张量的输入数据按照实际参与计算的维度分为不同的类,分别使用不同的半精度数据对界处理方法;具体为,根据输入的算子类型和输入数据的计算维度,选择不同的对界方法。本发明解决了异构众核平台上半精度算子DMA访存的不对界问题,且不仅能降低内存空间的占用,还能有效减少对界处理的时间,提升对界处理的性能。
-
公开(公告)号:CN114217944A
公开(公告)日:2022-03-22
申请号:CN202110453555.1
申请日:2021-04-26
申请人: 无锡江南计算技术研究所
摘要: 本发明公开一种神经网络的针对模型并行的动态负载均衡方法,根据不同的模型和系统的相应参数给出切分策略,并在训练过程中进一步迭代更新;根据不同的模型和系统的相应参数,给出对模型网络的切分策略,在训练过程中进一步迭代更新。本发明能够根据不同的模型和系统的相应参数自动给出较好的切分策略,无需手动调整模型,保证计算节点的负载均衡,大大提高了优化效率。
-
公开(公告)号:CN112541584A
公开(公告)日:2021-03-23
申请号:CN201910897718.8
申请日:2019-09-23
申请人: 无锡江南计算技术研究所
IPC分类号: G06N3/08
摘要: 本发明公开一种深度神经网络模型并行模式选择方法,包括以下步骤:S1、测算整个神经网络模型的总数据量;S2、判断S1中获得的神经网络模型的总数据量是否超过进行训练的单个计算节点的可用内存总量,如果不超过,执行S3,如果超过,执行S4;S3、选择数据并行模式;S4、将神经网络模型的网络层进行切分,根据切分的结果,得到神经网络模型所需要分布的计算节点数量,如果输入参数中的计算节点数量不足模型切分所需节点数量两倍以上,执行S5,否则执行S6;S5、选择模型并行模式;S6、选择包括数据并行和模型并行的混合并行模式。本发明通过对模型参数、超参数和数据量的信息采集和分析,实现分布式扩展并行模式的自动选择,并且保证较高的并行性能。
-
公开(公告)号:CN114219065A
公开(公告)日:2022-03-22
申请号:CN202110349448.4
申请日:2021-03-31
申请人: 无锡江南计算技术研究所
摘要: 本发明公开一种面向异构众核平台的Im2col加速方法,C*H*W的张量经过Im2col变换后的矩阵形状为(C*Kh*Kw)*(Ho*Wo),其中C是通道数,H和W分别为输入的高度和宽度,Kh和Kw为卷积核大小,Ho和Wo为输出张量的高度和宽度;根据C*Kh的大小选择不同的算法:当C*Kh大于等于64时,从变换后的矩阵出发,按照C*Kh进行任务划分;当C*Kh小于64时,从变换前的矩阵出发,按照C*H进行任务划分。本发明有效提高了Im2col变换的运算效率,作为卷积计算的前处理过程,有效保障了卷积算子和卷积神经网络的高效运行。
-
公开(公告)号:CN114218146A
公开(公告)日:2022-03-22
申请号:CN202110452650.X
申请日:2021-04-26
申请人: 无锡江南计算技术研究所
IPC分类号: G06F15/163 , G06N3/04 , G06N3/08
摘要: 本发明公开一种针对大规模系统深度学习数据并行的分级通信优化方法,S1、根据所需计算节点总数,从若干个超节点中选择相同数量的计算节点,将计算节点按超节点进行分组;S2、每个计算节点计算出模型参数的梯度后,在分组内部进行MPI_Allreduce通信,计算出分组内的平均梯度;S3、各分组内的通信节点采用Ring_Allreduce算法进行梯度的Allreduce操作,计算出所有计算节点的平均梯度;S4、通信节点在分组内部进行Broadcast操作,完成所有计算节点的梯度更新。本发明在大规模分布式深度学习应用中的梯度更新过程中,减少了高延迟通信次数,充分利用了高速网络的通信性能,提高了通信效率。
-
公开(公告)号:CN114217765A
公开(公告)日:2022-03-22
申请号:CN202110480219.6
申请日:2021-04-30
申请人: 无锡江南计算技术研究所
摘要: 本发明公开一种半精度浮点矩阵乘累加误差的优化方法,针对半精度浮点矩阵乘的分块运算,在进行分块结果累加计算时,先进行各分块内部累加,再进行分块间累加,具体包括以下步骤:S1、两个形状为M*K和K*N的矩阵进行半精度矩阵乘法时,如果K大于64,则将矩阵数据按kernel(M*N*K为8*32*32)进行分块;S2、每组分块中,对矩阵乘法的结果进行内部累加;S3、将S2中获得的每组分块的结果进行块间累加。本发明有效缓解了由于半精度类型数据表示范围较小导致的计算结果误差较大的问题。
-
-
-
-
-
-
-
-
-