-
公开(公告)号:CN114218141B
公开(公告)日:2024-02-02
申请号:CN202110479722.X
申请日:2021-04-30
申请人: 无锡江南计算技术研究所
IPC分类号: G06F13/28
摘要: 本发明公开一种针对深度学习半精度算子数据访存对界处理方法,针对深度学习中算子的计算特点和张量空间分布,对多维张量的特定维度做4B对界处理,将四维张量的输入数据按照实际参与计算的维度分为不同的类,分别使用不同的半精度数据对界处理方法;具体为,根据输入的算子类型和输入数据的计算维度,选择不同的对界方法。本发明解决了异构众核平台上半精度算子DMA访存的不对界问题,且不仅能降低内存空间的占用,还能有效减少对界处理的时间,提升对界处理的性能。
-
公开(公告)号:CN112541584B
公开(公告)日:2022-10-04
申请号:CN201910897718.8
申请日:2019-09-23
申请人: 无锡江南计算技术研究所
IPC分类号: G06N3/08
摘要: 本发明公开一种深度神经网络模型并行模式选择方法,包括以下步骤:S1、测算整个神经网络模型的总数据量;S2、判断S1中获得的神经网络模型的总数据量是否超过进行训练的单个计算节点的可用内存总量,如果不超过,执行S3,如果超过,执行S4;S3、选择数据并行模式;S4、将神经网络模型的网络层进行切分,根据切分的结果,得到神经网络模型所需要分布的计算节点数量,如果输入参数中的计算节点数量不足模型切分所需节点数量两倍以上,执行S5,否则执行S6;S5、选择模型并行模式;S6、选择包括数据并行和模型并行的混合并行模式。本发明通过对模型参数、超参数和数据量的信息采集和分析,实现分布式扩展并行模式的自动选择,并且保证较高的并行性能。
-
公开(公告)号:CN114564973A
公开(公告)日:2022-05-31
申请号:CN202210197587.4
申请日:2022-03-02
申请人: 无锡江南计算技术研究所
IPC分类号: G06G7/26
摘要: 本发明公开一种众核实现的超越函数处理方法,包括以下步骤:步骤1、通过一定的数学变换,将超越函数转换为常用的基本函数的复合运算实现;步骤2、利用数学函数的性质,将经过步骤1转换后的超越函数按照多项式的形式展开计算,获得相应的多项式函数实现;步骤3、结合函数特性,将超越函数的输入区间分解为若干个收敛区间,采用近似多项式逼近的方式,将步骤2中生成的无穷多项式系数降低到有限数量的多项式系数,在每个收敛区间中用近似多项式函数来拟合步骤2中得到的超越函数展开的多项式函数,通过误差逼近来获得收敛区间的范围以及对应的近似多项式函数的系数。本发明可以在处理器上实现不同精度的超越函数计算。
-
公开(公告)号:CN114218141A
公开(公告)日:2022-03-22
申请号:CN202110479722.X
申请日:2021-04-30
申请人: 无锡江南计算技术研究所
IPC分类号: G06F13/28
摘要: 本发明公开一种针对深度学习半精度算子数据访存对界处理方法,针对深度学习中算子的计算特点和张量空间分布,对多维张量的特定维度做4B对界处理,将四维张量的输入数据按照实际参与计算的维度分为不同的类,分别使用不同的半精度数据对界处理方法;具体为,根据输入的算子类型和输入数据的计算维度,选择不同的对界方法。本发明解决了异构众核平台上半精度算子DMA访存的不对界问题,且不仅能降低内存空间的占用,还能有效减少对界处理的时间,提升对界处理的性能。
-
公开(公告)号:CN114217944A
公开(公告)日:2022-03-22
申请号:CN202110453555.1
申请日:2021-04-26
申请人: 无锡江南计算技术研究所
摘要: 本发明公开一种神经网络的针对模型并行的动态负载均衡方法,根据不同的模型和系统的相应参数给出切分策略,并在训练过程中进一步迭代更新;根据不同的模型和系统的相应参数,给出对模型网络的切分策略,在训练过程中进一步迭代更新。本发明能够根据不同的模型和系统的相应参数自动给出较好的切分策略,无需手动调整模型,保证计算节点的负载均衡,大大提高了优化效率。
-
公开(公告)号:CN112541584A
公开(公告)日:2021-03-23
申请号:CN201910897718.8
申请日:2019-09-23
申请人: 无锡江南计算技术研究所
IPC分类号: G06N3/08
摘要: 本发明公开一种深度神经网络模型并行模式选择方法,包括以下步骤:S1、测算整个神经网络模型的总数据量;S2、判断S1中获得的神经网络模型的总数据量是否超过进行训练的单个计算节点的可用内存总量,如果不超过,执行S3,如果超过,执行S4;S3、选择数据并行模式;S4、将神经网络模型的网络层进行切分,根据切分的结果,得到神经网络模型所需要分布的计算节点数量,如果输入参数中的计算节点数量不足模型切分所需节点数量两倍以上,执行S5,否则执行S6;S5、选择模型并行模式;S6、选择包括数据并行和模型并行的混合并行模式。本发明通过对模型参数、超参数和数据量的信息采集和分析,实现分布式扩展并行模式的自动选择,并且保证较高的并行性能。
-
公开(公告)号:CN105426296B
公开(公告)日:2018-04-10
申请号:CN201510826916.7
申请日:2015-11-24
申请人: 无锡江南计算技术研究所
IPC分类号: G06F11/34
摘要: 本发明提供了一种基于插装标签的核间协同多线程PMU事件监测方法,用于异构众核处理器。异构众核处理器包括用于执行计算操作的运算核心和用于执行控制和服务操作的运算控制核心。其中,运算控制核心设置各个运算核心上运行的线程所关心的性能事件;初始化各个运算核心上运行的线程的PMU;在各个运算核心上运行的线程上插装标签;运算控制核心在后台透明地收集各个运算核心上运行的线程上的插装标签所实时返回的数据;运算控制核心集中整理分析返回的数据以执行性能监测记录,从而形成统一的全处理器的性能监测。
-
公开(公告)号:CN114219083A
公开(公告)日:2022-03-22
申请号:CN202110452694.2
申请日:2021-04-26
申请人: 无锡江南计算技术研究所
摘要: 本发明公开一种基于ONNX面向Caffe2训练的深度学习模型自动转换方法,包括以下步骤:S1、ONNX文件向Caffe2文件的映射,得到Caffe2格式的前向传播网络,S2、根据S1中获得的前向传播网络的信息,自动生成求梯度算子,得到反向传播网络,S3、根据满足生成完整反向传播网络的需要,设计用户配置信息格式,将配置信息融入上步骤的模型定义文件中。本发明可以自动产生包括正向传播神经网络、反向传播神经网络、运行控制块和辅助算子的模型文件,从而进行训练任务。
-
公开(公告)号:CN105391784B
公开(公告)日:2018-06-26
申请号:CN201510831791.7
申请日:2015-11-24
申请人: 无锡江南计算技术研究所
IPC分类号: H04L29/08
摘要: 本发明提供了一种基于Eclipse的对等通信方法,其中,在Eclipse客户端中集成一个Web服务器插件,以用于对外提供Http服务;在服务端中集成用于对所述Eclipse客户端的Web服务器插件进行调用的Http客户端插件;在服务端处理完所述Eclipse客户端的请求后,在不等待接收所述Eclipse客户端的状态查询请求的情况下,直接把结果数据经由自身的Http客户端插件通过调用所述Eclipse客户端的服务传递给所述Eclipse客户端。
-
公开(公告)号:CN105391784A
公开(公告)日:2016-03-09
申请号:CN201510831791.7
申请日:2015-11-24
申请人: 无锡江南计算技术研究所
IPC分类号: H04L29/08
摘要: 本发明提供了一种基于Eclipse的对等通信方法,其中,在Eclipse客户端中集成一个Web服务器插件,以用于对外提供Http服务;在服务端中集成用于对所述Eclipse客户端的Web服务器插件进行调用的Http客户端插件;在服务端处理完所述Eclipse客户端的请求后,在不等待接收所述Eclipse客户端的状态查询请求的情况下,直接把结果数据经由自身的Http客户端插件通过调用所述Eclipse客户端的服务传递给所述Eclipse客户端。
-
-
-
-
-
-
-
-
-