一种面向异构计算集群的分布式并行训练方法及系统

    公开(公告)号:CN119271415A

    公开(公告)日:2025-01-07

    申请号:CN202411794971.8

    申请日:2024-12-09

    Abstract: 本发明提供的面向异构计算集群的分布式并行训练方法,是通过获取各个流水级上的N个计算设备的通信开销,结合各个流水级的计算参数,确定N个计算设备的网络拓扑;通过预训练后的神经网络模型、网络拓扑和预设算法,获取模型划分方式;根据模型划分方式,在N个不同种类计算设备之间使用流水线并行的方式,并在M个虚拟机器之间使用数据并行的方式迭代训练神经网络模型。相比于现有技术,本发明结合N个不同种类计算设备的网络拓扑和模型划分方式,平衡各个流水级的计算时间,能在异构计算集群环境下提高混合并行方法的效率。

    一种面向向量处理器的半精度稀疏矩阵乘法多核并行的方法及装置

    公开(公告)号:CN119045887A

    公开(公告)日:2024-11-29

    申请号:CN202411049828.6

    申请日:2024-08-01

    Abstract: 本申请公开了一种面向向量处理器的半精度稀疏矩阵乘法多核并行的方法及装置。根据矩阵的维度和计算核的个数,构建了三种多核并行模式,适用于多种计算场景,充分利用了向量处理器的多核架构。同时减少了部分矩阵维度规格下的计算冗余,提高了稀疏矩阵乘法计算的并行度,有助于发挥向量处理器的计算性能。各多核并行模式为将多个计算核在权值矩阵和稠密输入矩阵的各维度上并行,将稀疏矩阵乘法在不同维度分核并行实现。基于两矩阵的维度规格,获取在每个多核并行模式下进行稀疏矩阵乘法计算的理论计算效率。再选择理论计算效率最大的多核并行模式进行稀疏矩阵乘法计算。如此能够自动适配性能最优的模式执行计算,通用性高,且提升了计算效率。

    一种动态任务调度方法、装置、设备及介质

    公开(公告)号:CN117687755A

    公开(公告)日:2024-03-12

    申请号:CN202311703352.9

    申请日:2023-12-12

    Abstract: 本申请公开了一种动态任务调度方法、装置、设备及介质,涉及人工智能领域异构智能计算技术,包括获取待调度的计算任务组,从本地的任务信息库中调用计算参数;利用所述计算参数对所述计算任务组进行动态任务调度方案计算,以得到任务调度方案;基于所述任务调度方案对所述计算任务组中的所有计算任务进行排队,以得到排队后的所述计算任务;将排队后的所述计算任务分别发送至本地的各组计算单元,以便各组所述计算单元对排队后的所述计算任务并行计算,得到计算结果,以实现对所述计算任务组的动态任务调度。通过本申请的上述技术方案,能够满足不同种类的多方面的应用需求实现动态任务调度,提高异构智能计算系统的运行效率,减少资源浪费。

    一种面向向量处理器的池化向量化实现方法

    公开(公告)号:CN113806261B

    公开(公告)日:2023-06-20

    申请号:CN202111178180.9

    申请日:2021-10-09

    Abstract: 本发明公开了一种面向向量处理器的池化向量化实现方法,包括如下步骤:根据AM空间参数、池化窗口预设参数,获取输入分块特征图每次传入AM空间的传输分块参数;基于DMA操作将分块特征图子块加载至所述AM空间;根据预设规则将单个所述分块特征图子块进行分区;根据预设顺序依次对分块特征图子块的每个区域进行池化处理;基于DMA操作将处理后获得的输出特征图子块从所述AM空间中导出至存储器中;重复上述步骤直至获取所有分块特征图子块的池化结果。该方法逻辑清晰,安全、有效、可靠且操作简便,既能支持非方形特征图、非方形移动步长、非方形池化窗口,又能支持特征图填充,无需对特征图重排,提高池化处理效率。

    基于神经网络的人头检测方法、系统及存储介质

    公开(公告)号:CN111368634B

    公开(公告)日:2023-06-20

    申请号:CN202010080821.6

    申请日:2020-02-05

    Abstract: 本申请实施例中提供了一种基于神经网络的人头检测方法、系统及存储介质。采用本申请基于神经网络的人头检测方法,通过输入被测图像至深度残差网络提取得到特征响应图;然后,输入特征响应图至空间注意力网络得到注意力图,注意力图用于增强特征响应图得到增强特征响应图;其次,输入增强特征响应图至区域生成网络RPN得到候选框;最后根据候选框的特征得到人头检测结果。通过空间注意力网络获得增强的特征,并提高了分类能力,从而提高了头部和相对区域的特征的质量,有效的提高人头检测的准确程度。通过特征模拟方法进一步提高了分类能力。解决了现有技术的现有的人头检测方法无法很好的解决复杂场景中的漏检和虚警的问题。

    一种识别分布式训练系统异常更新的方法、装置及介质

    公开(公告)号:CN115204268A

    公开(公告)日:2022-10-18

    申请号:CN202210717021.X

    申请日:2022-06-23

    Abstract: 本申请公开了一种识别分布式训练系统异常更新的方法、装置及介质,主要涉及人工智能领域。该方法先接收各计算组发送的流量统计数据;其中,流量统计数据包括计算组多次更新的起始时间与结束时间、通信流量大小和发往参数服务器的编号;然后,根据隶属度矩阵和各计算组的流量特征属性数据对各计算组进行聚类分类,得到分类结果;其中,流量特征属性数据为根据流量统计数据计算得到;最后,根据分类结果分析分布式训练系统的工作情况。可见,该方法根据计算组的流量特征属性数据进行聚类分析,能够有效识别各计算组的工作情况,进而可得到计算组所在的分布式训练系统的工作情况,因此能够有效识别出分布式训练系统瓶颈或效率低下等异常情况。

    一种基于路由域划分的类脑芯片路由系统数据通信方法

    公开(公告)号:CN111565152B

    公开(公告)日:2022-04-29

    申请号:CN202010231196.0

    申请日:2020-03-27

    Abstract: 本申请提出一种基于路由域划分的类脑芯片路由系统数据通信方法,该路由域包括:域内路由单元和边界路由单元;域内路由单元和边界路由单元均分别与各自对应的模拟神经元连接,域内路由单元和边界路由单元之间采用第一预设维数的网络结构进行域内通信连接;边界路由单元与其他路由域中的边界路由单元之间采用第二预设维数的网络结构进行域间通信连接。本申请中域内路由单元仅需存储到达域内其他路由单元的路由信息,边界路由单元仅需存储到达域内其他路由单元和到达其他路由域的边界路由单元的路由信息,降低了网络信息的存储开销及域间传输开销。边界路由单元内区分域内数据队列和域间数据队列,实现并行传递域内和域间信息,提高传输效率。

    一种卷积神经网络量化方法及装置、计算机可读存储介质

    公开(公告)号:CN111626402A

    公开(公告)日:2020-09-04

    申请号:CN202010323877.X

    申请日:2020-04-22

    Abstract: 本发明公开了一种卷积神经网络量化方法及装置、计算机可读存储介质。该方法包括:在利用卷积神经网络进行推理过程中,获取当前数据集中的所有图像在卷积神经网络各层中的特征值数据;根据特征值数据中的所有特征值所处的数值范围设置定点整数位数,根据定点整数位数确定定点小数位数;测试当前的至少一种定点格式的精度;判断是否存在至少一种定点格式的精度满足设定的精度:如果是,则直接进行量化;如果否,则进行分层量化。装置包括特征获取模块、定点设置模块、精度测试模块、精度比较模块、整体量化模块及分层量化模块。本发明不仅能够保证卷积神经网络输出结果的精度,而且还能够有效地降低量化位宽,降低存储空间和带宽。

    3D人体网格获取方法及装置

    公开(公告)号:CN111311732A

    公开(公告)日:2020-06-19

    申请号:CN202010085015.8

    申请日:2020-04-26

    Abstract: 本发明公开了一种3D人体网格获取方法及装置,包括:获取视频中每帧图像的图像特征,并针对每帧图像,将该帧图像的图像特征输入已训练的U型图神经网络,以由所述U型图神经网络基于图像特征获得对应的人体3D网格参数;所述视频为包含人的视频;将每一人体3D网格参数按照图像帧的时序次序组合并输入到已训练的残差时序图网络中,以由所述残差时序图网络基于时序对每一人体3D网格参数进行优化,使得优化后的人体3D网格所表示的人体形状与图像中的人体形状相符。

Patent Agency Ranking