数据存储和数据读取方法、装置、电子设备及存储介质

    公开(公告)号:CN118535487A

    公开(公告)日:2024-08-23

    申请号:CN202410499407.7

    申请日:2024-04-24

    发明人: 方绍峡 原钢

    IPC分类号: G06F12/02

    摘要: 本发明实施例提供了一种数据存储方法、装置、设备及介质。方法包括:将n个位宽为m的数据进行存储重排,得到数据组;其中,所述n等于存储器中存储单元的存储长度,所述数据组包括m个数据子组,每个数据子组中依次排列n个所述数据的一个子数据,且同一所述数据的子数据在不同数据子组中所在的位序相同;将所述数据组中的子数据依次存储到所述存储器中的m个存储单元,使得以“立式”方式紧致存储数据,采用n个位宽m的数据为基本存取单位,从而有效复用传统字节对齐的数据存取方式,实现了适用于任意位宽的数据类型,访存的寻址规则一致,且不存在存储空间浪费。

    人工智能加速器及设计方法
    2.
    发明公开

    公开(公告)号:CN118396136A

    公开(公告)日:2024-07-26

    申请号:CN202410458514.5

    申请日:2024-04-16

    发明人: 方绍峡 原钢

    IPC分类号: G06N20/00 G06F15/78 G06F13/28

    摘要: 本申请提供一种人工智能加速器及设计方法,人工智能加速器包括形成至少一个芯粒堆叠组的N个计算芯粒和M个缓存芯粒,N个计算芯粒和M个缓存芯粒在垂直方向上排列,每个芯粒堆叠组包括一个计算芯粒和至少一个缓存芯粒,缓存芯粒与计算芯粒通过垂直通孔连接,计算芯粒上部署片上网络,相邻芯粒堆叠组通过片上网络连接;芯粒堆叠组包括第一数目个存算核心,存算核心包括计算芯粒上的计算单元、调度控制单元和DMA写回单元,以及缓存芯粒上的缓存单元和DMA加载单元,调度控制单元控制计算单元、DMA写回单元、缓存单元和DMA加载单元协同进行数据计算与缓存。本申请可显著增加片上缓存与计算单元之间通信带宽,显著扩充片上缓存容量。

    计算电路和人工智能加速器
    3.
    发明公开

    公开(公告)号:CN118312136A

    公开(公告)日:2024-07-09

    申请号:CN202410444916.X

    申请日:2024-04-12

    发明人: 方绍峡 原钢

    摘要: 本申请实施例提供了一种计算电路及人工智能加速器,涉及集成电路技术领域。该计算电路接收多个第一块浮点数,对多个第一块浮点数进行计算,获得多个第二块浮点数,其包括:第一计算单元、转换单元和第二计算单元;第一计算单元接收多个第一块浮点数,对多个第一块浮点数的尾数项进行计算,得到多个第一中间浮点数;转换单元将多个第一中间浮点数归一化为多个归一化尾数项;第二计算单元对多个归一化尾数项进行计算,获得多个第二中间浮点数,基于归一化尾数项将多个第二中间浮点数归一化为多个第二块浮点数。该计算电路降低了电路的逻辑复杂度与功耗,有效降低数据存储需求,解决了人工智能业务存储空间、带宽不足的问题。

    矩阵乘运算电路及方法
    4.
    发明公开

    公开(公告)号:CN118378002A

    公开(公告)日:2024-07-23

    申请号:CN202410468760.9

    申请日:2024-04-18

    发明人: 方绍峡 原钢

    摘要: 本申请提供一种矩阵乘运算电路及方法,该电路包括:IO芯粒,与IO芯粒连接、存储待计算的目标矩阵数据的存储器,以及与IO芯粒连接且与IO芯粒共同部署在目标芯片上的多个AI计算芯粒;IO芯粒包括矩阵乘实时分块模组,矩阵乘实时分块模组基于目标矩阵数据的计算任务信息和目标芯片运行时的当前芯片参数信息确定最优分块策略,根据最优分块策略和多个AI计算芯粒分别对应的权重确定各AI计算芯粒的分块任务信息;AI计算芯粒基于分块任务信息获取矩阵分块数据并通过计算输出局部计算结果;多个AI计算芯粒输出的局部计算结果组合为矩阵乘结果。本申请可有效提高矩阵乘运算的运算效率,解决离线静态矩阵切块策略的局限性。

    算力加速卡、设计方法及算力服务器

    公开(公告)号:CN118260235A

    公开(公告)日:2024-06-28

    申请号:CN202410487111.3

    申请日:2024-04-22

    发明人: 方绍峡 原钢

    IPC分类号: G06F15/16 G06F15/78

    摘要: 本申请提供一种算力加速卡、设计方法及算力服务器,算力加速卡包括:电路板,布设在电路板上的P个算力芯片;算力芯片包括封装基板以及布设在封装基板上的N个算力芯粒硅片,N大于或者等于1、小于或者等于单个算力芯片所允许容纳的算力芯粒硅片数目阈值;算力芯粒硅片包括算力核心单元以及与算力核心单元连接的M个高速串行接口,P、M均大于或者等于1;位于同一算力芯片上的算力芯粒硅片通过对应的高速串行接口形成封装级互连,位于不同算力芯片上的算力芯粒硅片通过对应的高速串行接口形成电路板级互连;P个算力芯片对应的算力核心单元构成核心计算模组。本申请可提升算力芯片的算力能力,降低芯片封装成本,构建高规格算力加速卡。

    多芯粒的软件程序配置方法、装置、电子设备及存储介质

    公开(公告)号:CN117453609B

    公开(公告)日:2024-06-07

    申请号:CN202311354943.X

    申请日:2023-10-18

    发明人: 原钢

    IPC分类号: G06F13/42 G06F15/163 G06F8/71

    摘要: 本申请实施例提供了一种多芯粒的软件程序配置方法、装置、电子设备及存储介质。所述方法包括:基于两根同步串行总线,将外部处理器与多芯粒芯片系统中多个芯粒串行连接,形成闭合链路;通过所述外部处理器根据所述多芯粒芯片系统中各所述芯粒的两线总线连接拓扑顺序,组成数据帧,并将所述数据帧发送给所述多芯粒芯片系统;所述数据帧包括:帧头和各所述芯粒的数据包,每个所述数据包中包含对应芯粒的软件程序数据;依次由各所述芯粒处理所述数据帧中的各所述芯粒对应的数据包,以完成软件程序的配置。本申请实施例可以实现便捷的芯片软件程序配置,降低了软件程序配置的成本。

    连接检测电路和芯粒
    7.
    发明公开

    公开(公告)号:CN118465493A

    公开(公告)日:2024-08-09

    申请号:CN202410431079.7

    申请日:2024-04-10

    发明人: 方绍峡 原钢

    IPC分类号: G01R31/28 H04L45/247

    摘要: 本发明实施例提供了一种连接检测电路和芯粒,涉及通信技术领域。该连接检测电路应用于第一芯粒,第一芯粒包括功能单元和互联接口;连接检测电路包括路由单元,路由单元与功能单元以及互联接口相连;路由单元接收功能单元发送的数据包或基于互联接口传输的数据包,响应于检测到数据包的目的芯粒为第二芯粒,确定第一传输路径,基于第一传输路径传输数据包;路由单元响应于检测到第一传输路径异常的情况下,确定第二传输路径,并基于第二传输路径传输数据包。该连接检测电路在检测到某些芯粒之间的互联失效的情况下,重新选择通信路径发起数据传输,恢复数据传输功能,保证数据传输正常,显著增强芯片的可靠性,适用于各种芯粒互联拓扑结构。

    多芯粒的软件程序配置方法、装置、电子设备及存储介质

    公开(公告)号:CN117453609A

    公开(公告)日:2024-01-26

    申请号:CN202311354943.X

    申请日:2023-10-18

    发明人: 原钢

    IPC分类号: G06F13/42 G06F15/163 G06F8/71

    摘要: 本申请实施例提供了一种多芯粒的软件程序配置方法、装置、电子设备及存储介质。所述方法包括:基于两根同步串行总线,将外部处理器与多芯粒芯片系统中多个芯粒串行连接,形成闭合链路;通过所述外部处理器根据所述多芯粒芯片系统中各所述芯粒的两线总线连接拓扑顺序,组成数据帧,并将所述数据帧发送给所述多芯粒芯片系统;所述数据帧包括:帧头和各所述芯粒的数据包,每个所述数据包中包含对应芯粒的软件程序数据;依次由各所述芯粒处理所述数据帧中的各所述芯粒对应的数据包,以完成软件程序的配置。本申请实施例可以实现便捷的芯片软件程序配置,降低了软件程序配置的成本。