专利检索 ap:("无锡江南计算技术研究所") AND inv:"陆旭峰" 第 1 页

1.

发明授权
深度神经网络模型并行模式选择方法有权

公开(公告)号：CN112541584B

公开(公告)日：2022-10-04

申请号：CN201910897718.8

申请日：2019-09-23

申请人： 无锡江南计算技术研究所

发明人： 刘鑫 , 刘沙 , 彭超 , 朱传家 , 陈德训 , 黄则强 , 陆旭峰 , 裴阳

IPC分类号： G06N3/08

摘要： 本发明公开一种深度神经网络模型并行模式选择方法，包括以下步骤：S1、测算整个神经网络模型的总数据量；S2、判断S1中获得的神经网络模型的总数据量是否超过进行训练的单个计算节点的可用内存总量，如果不超过，执行S3，如果超过，执行S4；S3、选择数据并行模式；S4、将神经网络模型的网络层进行切分，根据切分的结果，得到神经网络模型所需要分布的计算节点数量，如果输入参数中的计算节点数量不足模型切分所需节点数量两倍以上，执行S5，否则执行S6；S5、选择模型并行模式；S6、选择包括数据并行和模型并行的混合并行模式。本发明通过对模型参数、超参数和数据量的信息采集和分析，实现分布式扩展并行模式的自动选择，并且保证较高的并行性能。

2.

发明公开
深度神经网络模型并行模式选择方法有权

公开(公告)号：CN112541584A

公开(公告)日：2021-03-23

申请号：CN201910897718.8

申请日：2019-09-23

申请人： 无锡江南计算技术研究所

发明人： 刘鑫 , 刘沙 , 彭超 , 朱传家 , 陈德训 , 黄则强 , 陆旭峰 , 裴阳

IPC分类号： G06N3/08

摘要： 本发明公开一种深度神经网络模型并行模式选择方法，包括以下步骤：S1、测算整个神经网络模型的总数据量；S2、判断S1中获得的神经网络模型的总数据量是否超过进行训练的单个计算节点的可用内存总量，如果不超过，执行S3，如果超过，执行S4；S3、选择数据并行模式；S4、将神经网络模型的网络层进行切分，根据切分的结果，得到神经网络模型所需要分布的计算节点数量，如果输入参数中的计算节点数量不足模型切分所需节点数量两倍以上，执行S5，否则执行S6；S5、选择模型并行模式；S6、选择包括数据并行和模型并行的混合并行模式。本发明通过对模型参数、超参数和数据量的信息采集和分析，实现分布式扩展并行模式的自动选择，并且保证较高的并行性能。

3.

发明公开
针对深度学习的浮点矩阵乘算子众核并行优化方法无效

公开(公告)号：CN112732630A

公开(公告)日：2021-04-30

申请号：CN201910975075.4

申请日：2019-10-14

申请人： 无锡江南计算技术研究所

发明人： 刘沙 , 刘鑫 , 黄则强 , 陈德训 , 朱传家 , 彭超 , 裴阳 , 陆旭峰

IPC分类号： G06F15/173 , G06F17/16 , G06F7/523 , G06F7/57 , G06F9/54

摘要： 本发明公开一种针对深度学习的浮点矩阵乘算子众核并行优化方法，包括将输入矩阵和输出矩阵进行扩展和在从核阵列上基于分块矩阵乘法进行计算；所述将输入矩阵和输出矩阵进行扩展包括以下步骤：S1、预申请扩展矩阵的空间；S2、在预申请空间上对输入矩阵和输出矩阵进行排布；S3、对于行方向M不整除情况，行数小于M的部分，按行读入N个数据，并对非整除列赋零后扩展为N_size个数据，写回扩展矩阵的对应位置；S4、对于列方向N不整除部分，首先从原始矩阵跨步读入右侧N不整除部分数据到局存，倒序扩展第N+1到N_size列为0。发明既可以减少访存的开销，又可以使算法的适用范围得到扩展，对于任意维度都有很好的支持。