单边输入输出的脉动阵列加速器架构和通用型加速处理器

    公开(公告)号:CN118519962B

    公开(公告)日:2024-10-08

    申请号:CN202410969595.5

    申请日:2024-07-19

    摘要: 本申请公开单边输入输出的脉动阵列加速器架构和通用型加速处理器,涉及加速器领域,包括缓冲器和脉动阵列加速器;脉动阵列加速器包括N*N阵列结构的计算核心,缓冲器设置有N组接口;阵列结构中同行计算核心按数据输入端的输入方向流水式级联,流水式传递缓冲器输入的计算数据;同列计算核心按阵列深度流水式级联,将计算核心计算输出的中间数据进行逐级求和;对于行号大于列号的计算核心,同列计算核心按阵列深度逆流水式级联,同行计算核心按数据输出端的输出方向流水式级联,将结果数据逐级传递至行号列号相同的计算核心,再按行逐级送出至缓冲器。该方案改进脉动阵列加速器,实现单边数据输入输出,降低阵列传输和计算延时。

    基于阵列结构的融合缓冲架构

    公开(公告)号:CN118519960B

    公开(公告)日:2024-10-01

    申请号:CN202410969196.9

    申请日:2024-07-19

    摘要: 本申请公开基于阵列结构的融合缓冲架构,涉及缓冲器领域,包括缓冲阵列以及与缓冲阵列通过信号线连接的指令模块;指令模块中缓存有编译完成的指令数据,根据时序向缓冲阵列发送指令流;缓冲阵列中包含M行结构相同的缓冲块,相邻行缓冲块之间通过单向指令信号线依次级联,将指令模块送入的指令流根据时序向M行缓冲块逐行传递;M行缓冲块分别设置有数据输入端和数据输出端,分别接收外部数据输入,根据传递到本行的指令数据执行缓存和输出任务。使用sram的阵列单元,采用流水寄存器代替传统总线设计,采用多指令槽控制数据读写传输,实现了与设计规模无关的全局统一管理和存取的缓冲架构,降低了电路设计难度,提升了数据缓存和读写效率。

    单边输入输出的脉动阵列加速器架构和通用型加速处理器

    公开(公告)号:CN118519962A

    公开(公告)日:2024-08-20

    申请号:CN202410969595.5

    申请日:2024-07-19

    摘要: 本申请公开单边输入输出的脉动阵列加速器架构和通用型加速处理器,涉及加速器领域,包括缓冲器和脉动阵列加速器;脉动阵列加速器包括N*N阵列结构的计算核心,缓冲器设置有N组接口;阵列结构中同行计算核心按数据输入端的输入方向流水式级联,流水式传递缓冲器输入的计算数据;同列计算核心按阵列深度流水式级联,将计算核心计算输出的中间数据进行逐级求和;对于行号大于列号的计算核心,同列计算核心按阵列深度逆流水式级联,同行计算核心按数据输出端的输出方向流水式级联,将结果数据逐级传递至行号列号相同的计算核心,再按行逐级送出至缓冲器。该方案改进脉动阵列加速器,实现单边数据输入输出,降低阵列传输和计算延时。

    游戏引擎以及芯片上的人工智能引擎

    公开(公告)号:CN118467463A

    公开(公告)日:2024-08-09

    申请号:CN202410721499.9

    申请日:2019-03-15

    摘要: 描述了一个电子芯片,一个芯片组件,一个计算设备以及一个方法。电子芯片包括多个处理核以及至少一个与一个或以上的处理核的一个进行耦接的硬件界面。至少一个处理核实行一个游戏引擎以及/或者一个模拟引擎,以及一个或以上的处理核实行一个人工智能引擎,其中是在硬件中通过专用的电子电路在芯片上实行。一个或以上的游戏以及/或者模拟引擎在传感数据上执行任务,生成数据集,其通过机器学习算法由硬连线的人工智能引擎进行处理。由硬连线的人工智能引擎所处理的数据集包括至少上下文数据以及目标数据,其中结合两种数据,通过专用的硬件进行处理,从而增强了机器学习处理能力。

    一种向量DSP核的矩阵LU分解向量化计算方法

    公开(公告)号:CN114139108B

    公开(公告)日:2024-07-09

    申请号:CN202111491342.4

    申请日:2021-12-08

    发明人: 夏宁 李世平

    IPC分类号: G06F17/16 G06F15/80

    摘要: 本发明公开一种向量DSP核的矩阵LU分解向量化计算方法,包括如下步骤:S1、矩阵补零;S2、对矩阵B转置得到转置矩阵C;S3、转置矩阵C内的上三角矩阵D的行Dr进行行消元;S4、按照公式R=R‑Dr’*er进行更新矩阵panel的计算;S5、判断r是否等于N‑1,若不是,令r=r+1,转步骤S3,若是转步骤S6;S6、向量DSP核使用向量指令进行矩阵转置获得矩阵B的LU分解结果;S7、向量DSP核将获得矩阵B的LU分解结果拷贝至原矩阵在DDR存储器中的存储位置。优点:本发明计算方法,通过向量化的矩阵转置操作将矩阵LU分解中的非连续存储访问转化为连续存储访问,有利于充分发挥向量加载数据的优势。

    一种面向嵌入式设备的通用神经网络矢量处理装置

    公开(公告)号:CN118211622A

    公开(公告)日:2024-06-18

    申请号:CN202410249536.0

    申请日:2024-03-05

    IPC分类号: G06N3/063 G06F15/80 G06F9/30

    摘要: 本发明公开了一种面向嵌入式设备的通用神经网络矢量处理装置,属于神经网络矢量处理领域,包括RISC‑V处理器,用于存储矢量指令并根据原始数据和RISC‑V扩展指令,利用设置的神经网络算法生成神经网络权重并提取神经网络数据,以及根据神经网络权重、点积运算结果、整数处理数据和浮点数处理数据完成设置的神经网络算法;向量指令缓存,用于缓存矢量指令;数据缓存,用于缓存神经网络数据、点积运算结果、整数处理数据和浮点数处理数据;矢量处理单元,用于根据矢量指令处理神经网络数据得到点积运算结果、整数处理数据和浮点数处理数据。本发明解决了如今神经网络模型都很大但传统面向嵌入式设备的神经网络加速器通用性不强的问题。

    基于服务质量底限调度存储器带宽

    公开(公告)号:CN111512291B

    公开(公告)日:2024-06-18

    申请号:CN201880082739.8

    申请日:2018-09-18

    IPC分类号: G06F13/16 G06F9/48 G06F15/80

    摘要: 一种系统包括多核处理器[102],所述多核处理器包括调度器[111]。所述多核处理器与系统存储器[103]和操作系统[120]进行通信。所述多核处理器执行第一进程和第二进程。所述系统使用所述调度器来控制所述第二进程对存储器带宽的使用直到当所述第一进程的使用的第一设定点[129]处于或低于时延敏感(LS)底限时所述第一进程在控制周期中的当前使用满足所述第一设定点,或者当所述第一设定点超过所述LS底限时所述第一进程在所述控制周期中的当前使用超过所述LS底限。