-
公开(公告)号:CN118519962B
公开(公告)日:2024-10-08
申请号:CN202410969595.5
申请日:2024-07-19
申请人: 深存科技(无锡)有限公司
IPC分类号: G06F15/80 , G06F7/575 , G06F15/167
摘要: 本申请公开单边输入输出的脉动阵列加速器架构和通用型加速处理器,涉及加速器领域,包括缓冲器和脉动阵列加速器;脉动阵列加速器包括N*N阵列结构的计算核心,缓冲器设置有N组接口;阵列结构中同行计算核心按数据输入端的输入方向流水式级联,流水式传递缓冲器输入的计算数据;同列计算核心按阵列深度流水式级联,将计算核心计算输出的中间数据进行逐级求和;对于行号大于列号的计算核心,同列计算核心按阵列深度逆流水式级联,同行计算核心按数据输出端的输出方向流水式级联,将结果数据逐级传递至行号列号相同的计算核心,再按行逐级送出至缓冲器。该方案改进脉动阵列加速器,实现单边数据输入输出,降低阵列传输和计算延时。
-
公开(公告)号:CN118519960B
公开(公告)日:2024-10-01
申请号:CN202410969196.9
申请日:2024-07-19
申请人: 深存科技(无锡)有限公司
IPC分类号: G06F15/80 , G06F7/575 , G06F7/76 , G06F9/38 , G06F15/167
摘要: 本申请公开基于阵列结构的融合缓冲架构,涉及缓冲器领域,包括缓冲阵列以及与缓冲阵列通过信号线连接的指令模块;指令模块中缓存有编译完成的指令数据,根据时序向缓冲阵列发送指令流;缓冲阵列中包含M行结构相同的缓冲块,相邻行缓冲块之间通过单向指令信号线依次级联,将指令模块送入的指令流根据时序向M行缓冲块逐行传递;M行缓冲块分别设置有数据输入端和数据输出端,分别接收外部数据输入,根据传递到本行的指令数据执行缓存和输出任务。使用sram的阵列单元,采用流水寄存器代替传统总线设计,采用多指令槽控制数据读写传输,实现了与设计规模无关的全局统一管理和存取的缓冲架构,降低了电路设计难度,提升了数据缓存和读写效率。
-
公开(公告)号:CN112650990B
公开(公告)日:2024-08-30
申请号:CN202010526761.6
申请日:2020-06-09
申请人: 百度(美国)有限责任公司 , 昆仑芯(北京)科技有限公司
摘要: 在一个实施方式中,一种获得启用水印的人工智能(AI)模型的水印的数据处理(DP)加速器的计算机实现的方法包括:由DP加速器从主机装置接收输入数据,该输入数据使启用水印的AI模型从启用水印的AI模型中提取水印;以及将启用水印的AI模型的水印提供给主机装置。DP加速器可以从主机装置接收模型。DP加速器还可以接收对水印进行数字签名的命令,并调用DP加速器的安全单元对水印进行数字签名。
-
公开(公告)号:CN118519962A
公开(公告)日:2024-08-20
申请号:CN202410969595.5
申请日:2024-07-19
申请人: 深存科技(无锡)有限公司
IPC分类号: G06F15/80 , G06F7/575 , G06F15/167
摘要: 本申请公开单边输入输出的脉动阵列加速器架构和通用型加速处理器,涉及加速器领域,包括缓冲器和脉动阵列加速器;脉动阵列加速器包括N*N阵列结构的计算核心,缓冲器设置有N组接口;阵列结构中同行计算核心按数据输入端的输入方向流水式级联,流水式传递缓冲器输入的计算数据;同列计算核心按阵列深度流水式级联,将计算核心计算输出的中间数据进行逐级求和;对于行号大于列号的计算核心,同列计算核心按阵列深度逆流水式级联,同行计算核心按数据输出端的输出方向流水式级联,将结果数据逐级传递至行号列号相同的计算核心,再按行逐级送出至缓冲器。该方案改进脉动阵列加速器,实现单边数据输入输出,降低阵列传输和计算延时。
-
公开(公告)号:CN118467463A
公开(公告)日:2024-08-09
申请号:CN202410721499.9
申请日:2019-03-15
申请人: 卡兰控股有限公司
发明人: 杰瓦特·耶尔利
摘要: 描述了一个电子芯片,一个芯片组件,一个计算设备以及一个方法。电子芯片包括多个处理核以及至少一个与一个或以上的处理核的一个进行耦接的硬件界面。至少一个处理核实行一个游戏引擎以及/或者一个模拟引擎,以及一个或以上的处理核实行一个人工智能引擎,其中是在硬件中通过专用的电子电路在芯片上实行。一个或以上的游戏以及/或者模拟引擎在传感数据上执行任务,生成数据集,其通过机器学习算法由硬连线的人工智能引擎进行处理。由硬连线的人工智能引擎所处理的数据集包括至少上下文数据以及目标数据,其中结合两种数据,通过专用的硬件进行处理,从而增强了机器学习处理能力。
-
公开(公告)号:CN113703834B
公开(公告)日:2024-08-02
申请号:CN202111002933.0
申请日:2016-09-13
申请人: 微软技术许可有限责任公司
IPC分类号: G06F9/26 , G06F9/30 , G06F9/32 , G06F9/345 , G06F9/35 , G06F9/38 , G06F9/46 , G06F9/52 , G06F11/36 , G06F12/0806 , G06F12/0862 , G06F15/78 , G06F15/80
摘要: 本公开的实施例涉及基于块的处理器核复合寄存器。公开了与基于块的处理器核复合寄存器相关的系统、装置和方法。在所公开的技术的一个示例中,处理器可以包括多个基于块的处理器核,多个基于块的处理器核用于执行包括多个指令块的程序。相应的基于块的处理器核可以包括一个或多个可共享资源和可编程复合控制寄存器。可编程复合控制寄存器可以用于配置一个或多个可共享资源中的哪些资源与多个处理器核中的其他处理器核共享。
-
公开(公告)号:CN114139108B
公开(公告)日:2024-07-09
申请号:CN202111491342.4
申请日:2021-12-08
申请人: 江苏华创微系统有限公司 , 中国电子科技集团公司第十四研究所
摘要: 本发明公开一种向量DSP核的矩阵LU分解向量化计算方法,包括如下步骤:S1、矩阵补零;S2、对矩阵B转置得到转置矩阵C;S3、转置矩阵C内的上三角矩阵D的行Dr进行行消元;S4、按照公式R=R‑Dr’*er进行更新矩阵panel的计算;S5、判断r是否等于N‑1,若不是,令r=r+1,转步骤S3,若是转步骤S6;S6、向量DSP核使用向量指令进行矩阵转置获得矩阵B的LU分解结果;S7、向量DSP核将获得矩阵B的LU分解结果拷贝至原矩阵在DDR存储器中的存储位置。优点:本发明计算方法,通过向量化的矩阵转置操作将矩阵LU分解中的非连续存储访问转化为连续存储访问,有利于充分发挥向量加载数据的优势。
-
公开(公告)号:CN118211622A
公开(公告)日:2024-06-18
申请号:CN202410249536.0
申请日:2024-03-05
申请人: 电子科技大学
摘要: 本发明公开了一种面向嵌入式设备的通用神经网络矢量处理装置,属于神经网络矢量处理领域,包括RISC‑V处理器,用于存储矢量指令并根据原始数据和RISC‑V扩展指令,利用设置的神经网络算法生成神经网络权重并提取神经网络数据,以及根据神经网络权重、点积运算结果、整数处理数据和浮点数处理数据完成设置的神经网络算法;向量指令缓存,用于缓存矢量指令;数据缓存,用于缓存神经网络数据、点积运算结果、整数处理数据和浮点数处理数据;矢量处理单元,用于根据矢量指令处理神经网络数据得到点积运算结果、整数处理数据和浮点数处理数据。本发明解决了如今神经网络模型都很大但传统面向嵌入式设备的神经网络加速器通用性不强的问题。
-
公开(公告)号:CN111512291B
公开(公告)日:2024-06-18
申请号:CN201880082739.8
申请日:2018-09-18
申请人: 超威半导体公司
发明人: 道格拉斯·班森·亨特 , 杰伊·弗莱施曼
摘要: 一种系统包括多核处理器[102],所述多核处理器包括调度器[111]。所述多核处理器与系统存储器[103]和操作系统[120]进行通信。所述多核处理器执行第一进程和第二进程。所述系统使用所述调度器来控制所述第二进程对存储器带宽的使用直到当所述第一进程的使用的第一设定点[129]处于或低于时延敏感(LS)底限时所述第一进程在控制周期中的当前使用满足所述第一设定点,或者当所述第一设定点超过所述LS底限时所述第一进程在所述控制周期中的当前使用超过所述LS底限。
-
-
-
-
-
-
-
-
-