-
公开(公告)号:CN109189478B
公开(公告)日:2020-12-29
申请号:CN201810980602.6
申请日:2018-08-27
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种针对应用程序的反馈优化方法,所述方法包括:步骤1)根据执行应用程序的计算平台的体系结构特征,计算在所述计算平台上所述应用程序经编译得到的计算指令的执行时间以及执行所述应用程序所需的访存时间;步骤2)比较所述计算指令的执行时间和所述访存时间的大小,根据比较结果反馈相应的应用程序优化方案。本发明可以有针对性地给开发者反馈优化建议以及可以达到的预计效果,减少了应用程序开发者使用不同方法去尝试优化应用程序的时间,提高了应用程序优化的效率。
-
公开(公告)号:CN108966056B
公开(公告)日:2020-09-25
申请号:CN201810795776.5
申请日:2018-07-19
Applicant: 中国科学院计算技术研究所
IPC: H04Q11/00
Abstract: 本发明提供一种用于可调谐光装置的控制装置及方法,所述控制装置,可以直接设置在主机以及可调谐光装置之间,不必对主机以及可调谐光装置进行专门的改造,并且可被用于缓存在波长切换过程中持续发送的数据流,持续地判断可调谐光装置波长是否切换完毕,并在切换完成后继续发送缓存的数据,有效改进波长切换过程中高速传输数据发生闪断丢失的问题,有利于降低丢包率,增强网络可靠性与稳定性。
-
公开(公告)号:CN111584011A
公开(公告)日:2020-08-25
申请号:CN202010278219.3
申请日:2020-04-10
Applicant: 中国科学院计算技术研究所
IPC: G16B50/00 , G16B50/50 , G16B30/10 , G06F12/0877 , G06F12/0862 , G06F9/30
Abstract: 本发明提出一种面向基因比对的细粒度并行负载特征抽取分析方法及系统。本发明抽取的这些负载特征着眼于设计细节,以较细的粒度来分析基因比对的应用,从而使得加速器的结构更具有针对性、效率更高。很多加速器设计均着眼于应用的整体层面,着重刻画应用的“粗粒度”的特征,而定制结构的设计最终还是要落在细节上。此外,这些细粒度的负载特征常常出现在多个基准程序或者应用软件中,本文对这些“共性”部分进行归纳和抽象,对并行模式相同的特征给出统一的设计方案指导,提升了结构设计方法的通用性。
-
公开(公告)号:CN108846248B
公开(公告)日:2020-07-31
申请号:CN201810980603.0
申请日:2018-08-27
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种应用程序建模及性能预测方法,所述应用建模方法包括:从应用经编译得到的指令中获得计算指令和访存指令,根据运行所述应用的机器的体系结构特征建模计算指令和访存指令的执行,得出计算指令和访存指令的时间开销;以及根据所述体系结构特征建模所述应用在访存阶段的规则访存和/或非规则访存,得出规则访存和/或非规则访存的时间开销;以及,计算所述应用的访存阶段的时间开销。本发明能够准确且效率地预测应用性能,从而帮助应用开发者找到应用瓶颈并采取相对的优化方案。
-
公开(公告)号:CN110767265A
公开(公告)日:2020-02-07
申请号:CN201911008972.4
申请日:2019-10-23
Applicant: 中国科学院计算技术研究所
Abstract: 本发明公开了一种针对大数据基因组比对文件排序的并行加速方法,包括以下步骤:对目标BAM文件进行读取和解压,并存入连续的第一缓冲区B;每当第一缓冲区B存满后,进行多线程排序并通过堆排序进行归并形成一个中间文件;依次对所述中间文件进行读取,放入关联的第二缓冲区MB,对每个第二缓冲区MB的数据通过堆排序进行归并;将归并的数据通过多个线程进行压缩处理,写入结果文件。本发明通过为读取和解压单独分配线程,分别为解压和压缩构建线程池,减少开辟的线程数量,充分利用多线程资源,提高文件读写效率,减少中间文件的数量,减小内存拷贝操作次数,实现处理时间的缩短。
-
公开(公告)号:CN110147248A
公开(公告)日:2019-08-20
申请号:CN201910317936.X
申请日:2019-04-19
Applicant: 中国科学院计算技术研究所
Abstract: 本发明涉及一种利用AMD GPU汇编指令加速的单精度矩阵乘优化方法和系统,包括:根据tile_length对原始矩阵进行分块,每个block处理〈tile_length,tile_length〉维度的输出矩阵C;在共享内存上创建4个暂存空间tileA,tileB,tileA’和tileB’;从GPU上的一级存储上的矩阵A读取tileA大小的矩阵到tileA,从矩阵B读取tileB大小的矩阵到tileB;每次从tileA加载一列到寄存器,从tileB加载一行到寄存器,做矩阵乘运算,读取该寄存器内容,并运用乘加融合指令做矩阵乘运算,在矩阵乘运算的同时,从该一级存储分别读取下一个tileA和tileB的一行到tileA’和tileB’;做完tileA和tileB的矩阵乘以后,将tileA和tileA’地址互换,将tileB和tileB’地址互换。
-
公开(公告)号:CN109376855A
公开(公告)日:2019-02-22
申请号:CN201811532813.X
申请日:2018-12-14
Applicant: 中国科学院计算技术研究所
IPC: G06N3/067
Abstract: 本发明提供一种光神经元结构和包含该结构的神经网络处理系统。该神经元结构包括突触输入调制模块、突触权值调制模块、光线聚合模块和光强度探测模块,其中,突触输入调制模块用于接收光信号并在与输入神经元关联的电信号的控制下执行光路调制;突触权值调制模块用于在与权值关联的电信号控制下执行对所述承载输入神经元的光信号进行调制;光线聚合模块用于对多个突触权值调制模块的输出光信号进行聚合;光强度探测模块用于将来自于光线聚合模块的输出光信号转换为电信号并执行激活操作。本发明的光神经元结构和包含该结构的神经网络处理系统能够实现神经网络的快速计算。
-
公开(公告)号:CN109067662A
公开(公告)日:2018-12-21
申请号:CN201810700993.1
申请日:2018-06-29
Applicant: 中国科学院计算技术研究所
IPC: H04L12/801 , H04L12/721
Abstract: 本发明涉及一种基于作业部署信息的链路互连方法和系统,包括:获取待运行的作业,为当前作业的分配多个计算节点,获取与计算节点相连的交换节点间的通信概率总和,以及交换节点间的路由路径经过除当前作业以外的其余作业的路由路径数量,根据通信概率总和、路由路径数量,得到多个交换节点间的加权距离;根据多个计算节点的计算资源是否连续,将交换节点间最大加权距离对应的交换节点进行互连。由此本发明解决由于作业部署问题所带来的远距离热点通信问题,对影响网络性能的通信热点准确进行识别,避免对作业与作业间无关交换节点的计算,能更快速地得到互连结果。
-
公开(公告)号:CN106815070A
公开(公告)日:2017-06-09
申请号:CN201611262967.2
申请日:2016-12-30
Applicant: 中国科学院计算技术研究所
IPC: G06F9/48
Abstract: 本发明涉及一种用于图像分析的高性能计算框架系统,其中该框架系统包括:第一阶段模块,用于根据该细胞分割任务的设置和该计算节点的实际情况,组装符合该计算节点特点的第一图像处理流水线,执行细胞分割任务,生成单时间点细胞分割结果;第二阶段模块,用于根据该细胞追踪任务的设置和该计算节点的实际情况,组装符合该计算节点特点的第二图像处理流水线,对汇总的多个该细胞分割结果,执行细胞追踪任务,生成细胞追踪结果。本发明通过运用图像分析的高性能计算框架,根据具体图像处理任务的不同,灵活的搭建相对应的图像处理流水线,提高图像处理的吞吐率,加速图像处理的速度。
-
公开(公告)号:CN118733945A
公开(公告)日:2024-10-01
申请号:CN202410876221.9
申请日:2024-07-02
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供了一种稀疏矩阵向量乘空间表达的方法,包括:按照预定格式构建稀疏矩阵的状态空间,包括:获取待计算的稀疏矩阵向量乘中所需的稀疏矩阵;在多个决策阶段中的每个阶段,分别确定稀疏矩阵对应的阶段表达,其包括层次映射、非零元的绝对位置和相对位置,所述层次映射指示稀疏矩阵的非零元在计算硬件中的分配信息;借助本发明方法所提的阶段表达,对稀疏矩阵的稀疏存储格式和内核优化的过程进行统一表达,以在后续内核优化的过程中考虑之前内核优化的过程对稀疏存储格式的影响,从而有助于提升设计的稀疏矩阵向量乘程序的性能。
-
-
-
-
-
-
-
-
-