-
公开(公告)号:CN115686639A
公开(公告)日:2023-02-03
申请号:CN202211290962.6
申请日:2022-10-21
Applicant: 中国科学院计算技术研究所
IPC: G06F9/38
Abstract: 本发明提供了一种应用于处理器的分支预测方法以及分支预测器,该分支预测方法包括:获取TAGE预测器对分支指令进行分支预测的第一中间参数以及第一预测值;获取GEHL预测器对所述分支指令进行分支预测的第二中间参数以及第二预测值;利用预设的组合预测器根据所述分支指令对应的PC值、第一中间参数、第一预测值、第二中间参数以及第二预测值中的指定比特位按照预定的规则重组确定多个子索引,并基于重组的多个子索引确定对应的第三预测值以及第三预测值的置信度;根据所述分支指令对应的PC值、第三预测值以及第三预测值的置信度生成查询索引,利用所述查询索引从预定的模式历史表中确定分支指令对应的最终预测值,从而提升分支预测的精度和处理器效率。
-
公开(公告)号:CN112311695A
公开(公告)日:2021-02-02
申请号:CN202011134155.6
申请日:2020-10-21
Applicant: 中国科学院计算技术研究所
IPC: H04L12/873 , H04L12/917 , H04L12/933
Abstract: 本发明提出一种片上带宽动态分配方法系统,包括:发射模块接受存储系统的任务请求,将请求封装为发射块,将多个发射块组织为堆结构,动态维护堆结构,向分配模块传输发射块;分配模块由带窗口的队列组成,其功能为接受发射块,为发射块匹配等待队列,更新发射块内容并将其回传存储系统;每个宽度的带宽对应一个等待队列,等待队列中是需要传输的数据。本发明采用硬件与软件协同的方式带宽分配方法,可以提高带宽的利用率,增加芯片的吞吐率,实现高通量的计算需求;本发明控制逻辑、结构简单,不占用计算资源,实现简单,在多种芯片系统中具有普适性。
-
公开(公告)号:CN112015472A
公开(公告)日:2020-12-01
申请号:CN202010685107.X
申请日:2020-07-16
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种数据流架构中无效指令检测并跳过执行的方法,适用于数据流架构下稀疏卷积神经网络的加速。该发明对于稀疏神经网络,包括卷积层和全连接层。通过对编译器编译的指令,依据数据特征生成指令标记信息,指令检测单元又依据指令标记信息对指令进行检测,并跳过无效指令的执行,从而实现稀疏卷积神经网络的加速。
-
公开(公告)号:CN119148980A
公开(公告)日:2024-12-17
申请号:CN202411173637.0
申请日:2024-08-26
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供了一种用于全同态加密运算的加速装置和方法,装置包括:加速芯片,芯片上设有用于执行全同态加密算法中快速数论变换的模运算的多个模运算器组合,每个组合包括:模加器,被配置为基于模加指令根据被加数、加数和模数执行模加运算;模减器,被配置为基于模减指令根据被减数、减数和模数执行模减运算;模乘器,被配置为基于模乘指令根据被乘数、乘数和模数执行模乘运算;本发明的技术方案通过设置模加器、模减器和模乘器来分别完成全同态加密算法中计算开销最大的快速数论变换的模加运算、模减运算和模乘运算,可以避免在通用处理器中完成相应运算时需要用多组指令代替一条指令增加时间开销的问题,减少全同态加密算法的计算时间。
-
公开(公告)号:CN113296957B
公开(公告)日:2024-03-05
申请号:CN202110676326.6
申请日:2021-06-18
Applicant: 中国科学院计算技术研究所
IPC: G06F9/50
Abstract: 本发明实施例提供了一种用于动态分配片上网络带宽的方法及装置,该方法获取用户自定义配置的配置文件;根据配置文件将片上网络带宽划分为多个不同优先级的子带宽以及对片上网络上传输的任务进行优先级划分;为各优先级的子带宽分别维护与之对应的任务队列,将相应优先级的任务预分配到与之相同优先级的任务队列;基于轮询机制在每个时间片查询各个任务队列中的可用时间片以及判断相应任务的实时性需求能否满足,若不能满足,则根据所述可用时间片对任务队列中的任务进行重组以跨优先级利用子带宽,本发明可以在片上网络中充分利用带宽,更好地满足片上网络带宽中复杂的任务传输需求。
-
公开(公告)号:CN115391731A
公开(公告)日:2022-11-25
申请号:CN202210921474.4
申请日:2022-08-02
Applicant: 中国科学院计算技术研究所
Abstract: 本申请公开了一种基于数据流架构的Cholesky分解加速计算方法,所述方法包括:数据准备步骤、矩阵2×2分块计算步骤及矩阵1×1分块计算步骤;将数据流架构中处理单元PE阵列分为多个PE组,将不规则的待计算矩阵按照预定划分规则划分为规则的多个矩阵块,判断规模为N×N的待计算矩阵的N大于预定阈值,则采用基于2×2分块的cholesky拆分算法,循环迭代计算各个PE组中的矩阵块,且通过不同PE组对cholesky分解计算的数据依赖关系,实现PE组间数据传递,待计算矩阵的规模动态调整缩小;判断规模为N×N的所述待计算矩阵的N小于等于预定阈值,采用基于1×1分块的cholesky拆分算法,循环迭代计算,直至计算完成输出计算结果,完成基于数据流架构的Cholesky分解的加速计算。
-
公开(公告)号:CN115390923A
公开(公告)日:2022-11-25
申请号:CN202210843537.9
申请日:2022-07-18
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种基于多模式的SIMD应用高效执行方法和系统,包括:一种能灵活控制SIMD部件运行在不同粒度的SIMD部件架构,使得SIMD部件可以在不同的应用,以及同应用但不同规模等场景下保持高效的利用率。以及与之相配套的搜寻应用最佳粒度并生成应用在对应粒度下的映射方案的方法,以充分发挥多模式SIMD部件的能力。这种多模式SIMD部件能够应用于多种类型的芯片当中。
-
公开(公告)号:CN113313251A
公开(公告)日:2021-08-27
申请号:CN202110522385.8
申请日:2021-05-13
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种基于数据流架构的深度可分离卷积融合方法和系统,包括:将输入图像数据、卷积参数从主存DRAM搬运到数据缓存SPM;PE阵列通过从数据缓存SPM中读取该输入图像数据、卷积参数,以执行DW卷积,并将得到的DW卷积结果存储在PE内的寄存器中;PE阵列对寄存器中DW卷积结果进行激活计算得到该输入图像数据的初步结果Act_out,将该初步结果Act_out写回数据缓存SPM后,进一步存回主存;PE阵列通过从数据缓存SPM中读取初步结果Act_out与卷积参数,执行PW卷积得到最终结果Output;将最终结果Output写回数据缓存SPM后,进一步存回主存DRAM。本发明减少了数据的存储与访问带来的开销,使得深度可分离式卷积计算在数据流架构上的计算实现加速。
-
公开(公告)号:CN113298236A
公开(公告)日:2021-08-24
申请号:CN202110676008.X
申请日:2021-06-18
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种基于数据流结构的低精度神经网络计算装置,包括输入缓存区,输出缓存区、权重缓存区以及PE阵列,其中,PE阵列中的每个PE包括乘加部件,所述乘加部件以SIMD方式进行乘加运算。本发明还提供一种基于上述装置的低精度神经网络加速方法。本发明节省了计算资源,减少了访存带来的开销。
-
公开(公告)号:CN113297131A
公开(公告)日:2021-08-24
申请号:CN202110660411.3
申请日:2021-06-15
Applicant: 中国科学院计算技术研究所
IPC: G06F15/82 , G06F15/173
Abstract: 本发明提供一种基于路由信息的数据流指令映射方法,包括:步骤M1,遍历数据流图的节点,对节点进行标号;步骤M2,依节点标号顺序以及PE阵列的PE状态表,对所述数据流图进行n层节点搜索,选取路由代价最小的方式对节点指令进行映射。本发明还提供基于路由信息的数据流指令映射系统。
-
-
-
-
-
-
-
-
-