-
公开(公告)号:CN118535332A
公开(公告)日:2024-08-23
申请号:CN202410647065.9
申请日:2024-05-23
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种基于算子选择与细粒度融合的深度学习推理方法,包括:获取深度神经网络模型的数据流图,通过线性回归模型模拟该数据流图中算子融合后的融合执行时间,通过动态规划选出该融合执行时间最短的算子对作为待融合算子对;采用基于持久化线程块的算子横向融合策略,对该待融合算子对进行融合,将该待融合算子对的CD kernel和TC kernel融合,得到融合算子;将该数据流图中除待融合算子以外的算子的线程块拆分为粒度更小的算子,得到低粒度算子;对该深度神经网络模型的融合算子和低粒度算子进行编排后输入包含Tensor Core和CUDA Core的GPU,得到该深度神经网络模型的执行结果。
-
公开(公告)号:CN116722884A
公开(公告)日:2023-09-08
申请号:CN202310078726.6
申请日:2023-02-08
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种支持远程数据直接访问协议的网络接口,包括支持远程数据直接访问协议的网络接口,其特征在于,该网络接口包括:控制管理模块,用于对RDMA通信过程进行管理,RDMA通信包括基于RDMA可靠连接模式的RDMA可靠连接通信;上下文信息管理模块,用于对RDMA通信过程在网络接口的缓存中维护的连接上下文信息进行管理,其中,在根据预设的聚合规则确定基于RDMA可靠连接模式的多个原生连接所对应的多条原生连接上下文信息是可聚合的情况下,采用聚合连接上下文信息代替可聚合的多条原生连接上下文信息,以减少对网络接口的缓存空间占用;数据传输模块,用于根据原生连接上下文信息或者聚合连接上下文信息执行RDMA可靠连接通信的数据传输过程。
-
公开(公告)号:CN111584011B
公开(公告)日:2023-08-29
申请号:CN202010278219.3
申请日:2020-04-10
Applicant: 中国科学院计算技术研究所
IPC: G16B50/00 , G16B50/50 , G16B30/10 , G06F12/0877 , G06F12/0862 , G06F9/30
Abstract: 本发明提出一种面向基因比对的细粒度并行负载特征抽取分析方法及系统。本发明抽取的这些负载特征着眼于设计细节,以较细的粒度来分析基因比对的应用,从而使得加速器的结构更具有针对性、效率更高。很多加速器设计均着眼于应用的整体层面,着重刻画应用的“粗粒度”的特征,而定制结构的设计最终还是要落在细节上。此外,这些细粒度的负载特征常常出现在多个基准程序或者应用软件中,本文对这些“共性”部分进行归纳和抽象,对并行模式相同的特征给出统一的设计方案指导,提升了结构设计方法的通用性。
-
公开(公告)号:CN116645733A
公开(公告)日:2023-08-25
申请号:CN202310458727.3
申请日:2023-04-25
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种基于深度伪造检测的深度学习模型推理加速方法、装置,所述方法包括:获取待检测图像视频;优化深度学习模型;基于优化后的所述深度学习模型,识别所述待检测图像视频的人脸特征;以及依据所述人脸特征,判断所述图像视频是否为深度伪造文件。该方法降低了模型推理预测时间,提升了深度伪造图像视频的检测性能。
-
-
公开(公告)号:CN116364148A
公开(公告)日:2023-06-30
申请号:CN202210471090.7
申请日:2022-04-28
Applicant: 中国科学院计算技术研究所 , 联想(北京)有限公司
IPC: G11C11/4091
Abstract: 本发明提出一种面向分布式全闪存储系统的磨损均衡算法,通过节点间的磨损均衡、节点内设备间的磨损均衡、设备内块间的磨损均衡和设备内使用块和空闲块间的磨损均衡四级实现存储系统的多级磨损均衡算法。通过四级磨损均衡算法达到均衡存储系统内各个设备的磨损均衡,最大化延长设备寿命,节省存储系统维护成本,保证数据可靠性。
-
公开(公告)号:CN113572582B
公开(公告)日:2022-11-22
申请号:CN202110799123.6
申请日:2021-07-15
Applicant: 中国科学院计算技术研究所
IPC: H04L1/18
Abstract: 本发明公开了一种数据发送控制方法,包括以下步骤:步骤1、发送控制模块通过系统总线模块从内存模块中读取待发送数据,并将所述待发送数据封装为网络数据包;步骤2、所述发送控制模块从元数据模块中获取缓冲区模块的当前状态来判断所述缓冲区模块的存储空间是否已满,若是,则执行步骤3;否则,执行步骤4;步骤3、根据替换算法用所述网络数据包将所述缓冲区模块的数据换出;步骤4、将所述网络数据包写入所述缓冲区模块;步骤5、将所述网络数据包推送到网络中。
-
公开(公告)号:CN111863139B
公开(公告)日:2022-10-18
申请号:CN202010278048.4
申请日:2020-04-10
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种基于近内存计算结构的基因比对加速方法和系统,包括:将多个垂直的立方内存结构分组,得到多个基因比对处理组;获取参考序列数据,将参考序列数据拆分为参考数据段后分别存储至基因比对处理组,并且通过基因比对加速器的片上网络实现立方内存结构之间数据通信;获取待比对基因序列数据,将待比对基因序列数据拆分为待比对数据段后分别输入至基因比对处理组内各立方内存结构的逻辑层,逻辑层判断与当前待比对数据段比对的参考数据段是否位于本地存储层,若是,则从本地存储层获取参考数据段,与当前待比对数据段进行基因比对,得到比对结果,否则采用函数式消息传递和远端处理的方式得到比对结果。
-
公开(公告)号:CN114004353A
公开(公告)日:2022-02-01
申请号:CN202111161801.2
申请日:2021-09-30
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种减少光器件数量的光神经网络芯片构建方法和系统,通过芯片结构与训练方法协同的方法,通过低秩近似压缩光芯片中冗余光器件的数量,同时基于若干的优化手段,保证神经网络的识别准确率。本发明所提出的减少光器件数量的光神经网络芯片构建方法包括权重矩阵预处理、酉保持训练、器件剪枝和功能光器件网络构建。因此,本发明通过结构和算法的协同,在识别率基本保持不变的情况下,极大地降低光器件的使用数量。
-
公开(公告)号:CN113963271A
公开(公告)日:2022-01-21
申请号:CN202111239182.4
申请日:2021-10-25
Applicant: 中国科学院计算技术研究所
IPC: G06V20/13 , G06V10/764 , G06V10/774 , G06V10/82 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明提供一种用于从遥感图像中识别不透水面的模型,所述模型包括编码器、与编码器输出相连的解码器、与解码器输出相连的分类器,其中:所述编码器包括多层逐层加深的特征提取模块,用于逐层提取输入遥感图像中的包含空间信息的不透水面特征,且相邻特征提取模块之间通过池化层相连;所述解码器包括多层与编码器特征提取模块逐层对应的上采样模块,用于逐层上采样遥感图像中的不透水面特征,且相邻上采样模块之间通过反卷积层相连;其中,所述解码器中的除底层外的每一层上采样模块均配置有注意力模块,所述注意力模块用于将当前上采样模块上一层级输出的特征、与当前上采样模块同级的特征提取模块输出的包含空间信息的特征进行处理后得到的特征并输入当前上采样模块;所述分类器用于根据解码器最终的输出特征对输入遥感图像中的不透水面类别进行分类得到分类结果。
-
-
-
-
-
-
-
-
-