晶粒到晶粒互连的自动校准架构和芯片

    公开(公告)号:CN116825170B

    公开(公告)日:2023-11-07

    申请号:CN202311109092.2

    申请日:2023-08-31

    IPC分类号: G11C29/02

    摘要: 本发明公开了一种晶粒到晶粒互连的自动校准架构和芯片。该架构应用于D2D互连架构,包括:设置于第一晶粒中的主校准模块和设置于第二晶粒中的从校准模块,主校准模块和从校准模块通过状态连接线连接,在上电时,主校准模块在复用器和解复用器之间的连接处于不同延迟值的状态下,依次生成校准测试数据包并发送至第二晶粒;从校准模块将本地生成的校准测试模板数据包与校准测试数据包进行比较,并将比较结果通过状态连接线发送至主校准模块;主校准模块根据不同延迟值的状态下获得的比较结果确定复用器与解复用器之间的最佳延迟值并设置最佳延迟值。本发明实施例的技术方案,能够降低D2D互连自动校准的开销和复杂度。

    用于芯粒到芯粒互连的总线流水线结构和芯片

    公开(公告)号:CN115248796B

    公开(公告)日:2023-08-04

    申请号:CN202210900797.5

    申请日:2022-07-28

    发明人: 李晓均 张宏宇

    IPC分类号: G06F13/40 G06F13/16

    摘要: 本发明公开了一种用于芯粒到芯粒互连的总线流水线结构和芯片。该结构包括:发送端的n路复用器工作于n倍发送芯粒的时钟域;n路复用器将来自发送芯粒的数据流发送至接收端的n路解复用器,n路解复用器将接收到的数据流输入接收端的至少两个寄存器中处于空闲状态的第一寄存器,第一寄存器将接收到的数据流输出至接收芯粒;接收端的接收状态机确认n路解复用器向第一寄存器发送接收到的数据流之后,向发送端的发送状态机发送总线释放标识,接收到总线释放标识的发送状态机在下一个时钟周期控制n路复用器方式数据流。本发明实施例的技术方案,使用较小的实际位宽实现了芯粒之间的高有效带宽,且避免了高延迟。

    一种适用于并行计算架构的卷积神经网络权重地址排布方法

    公开(公告)号:CN116303108A

    公开(公告)日:2023-06-23

    申请号:CN202211091608.0

    申请日:2022-09-07

    发明人: 张宏宇 蒲坤

    摘要: 本发明涉及卷积神经网络技术领域,尤其为一种适用于并行计算架构的卷积神经网络权重地址排布方法,包括:内存排布优化单元按计算顺序来排布权重在内存中的位置;任务拆分控制单元将神经网络计算任务拆分为多个可执行的子任务;直接内存读写控制单元将权重系数从内存搬移到多核处理器中。本发明在卷积神经网络并行计算架构中,按照输出通道将任务拆分到不同处理核中进行运算的需求,针对多任务间的权重系数设计一种高效的内存排布方式,可以显著提高任务执行效率,降低芯片片内存储空间压力。本发明按计算顺序来排布权重在内存中的位置确保权重的连续读取,可以减少内存读取的latency,优化计算。

    一种适用于并行计算架构的权重地址排布方法

    公开(公告)号:CN116303108B

    公开(公告)日:2024-05-14

    申请号:CN202211091608.0

    申请日:2022-09-07

    发明人: 张宏宇 蒲坤

    摘要: 本发明涉及卷积神经网络技术领域,尤其为一种适用于并行计算架构的权重地址排布方法,包括:内存排布优化单元按计算顺序来排布权重在内存中的位置;任务拆分控制单元将神经网络计算任务拆分为多个可执行的子任务;直接内存读写控制单元将权重系数从内存搬移到多核处理器中。本发明在卷积神经网络并行计算架构中,按照输出通道将任务拆分到不同处理核中进行运算的需求,针对多任务间的权重系数设计一种高效的内存排布方式,可以显著提高任务执行效率,降低芯片片内存储空间压力。本发明按计算顺序来排布权重在内存中的位置确保权重的连续读取,可以减少内存读取的latency,优化计算。

    车载感知模型的更新方法、装置、电子设备及存储介质

    公开(公告)号:CN114911813B

    公开(公告)日:2023-09-26

    申请号:CN202210735166.2

    申请日:2022-06-27

    发明人: 张宏宇

    IPC分类号: G06F16/23 G06F18/214

    摘要: 本发明实施例公开了一种车载感知模型的更新方法、装置、电子设备及存储介质。其中,方法包括:获取车辆的目标感知数据,并通过车辆内置的第一感知模型获取与目标感知数据匹配的目标检测结果;根据目标感知数据和目标检测结果构建目标训练样本,并使用目标训练样本对车辆内置的第二感知模型进行训练;如果第二感知模型的推理性能高于第一感知模型,则使用第二感知模型的模型参数对第一感知模型的模型参数进行在线更新。本发明实施例的方案,解决了离线训练得到的车载感知模型存在局限性,在实际环境下车载感知模型的准确率下降的问题,可以实现对车载感知模型的在线更新。

    一种卷积计算中资源共享的方法、装置、介质及设备

    公开(公告)号:CN115858178B

    公开(公告)日:2023-06-06

    申请号:CN202310139977.0

    申请日:2023-02-21

    发明人: 赖斯龑 张迪

    IPC分类号: G06F9/50 G06F17/15 G06N3/063

    摘要: 本公开实施例提供的一种基于卷积计算中资源共享的方法、装置、存储介质及电子设备,将任务拆分到不同的处理核中进行卷积计算,降低了对芯片的片内存储空间的消耗,同时,针对不同场景下存在Input Tensor和Weight共享的情况,进一步进行优化,根据不同的共享维度采用对应的拆分方式对输入数据进行拆分,节省处理核的存储空间,提高了数据传输效率,提高了计算单元的并发度,进而提高计算性能。

    用于支持多处理器架构的系统缓存架构和芯片

    公开(公告)号:CN115858420A

    公开(公告)日:2023-03-28

    申请号:CN202310153451.8

    申请日:2023-02-23

    发明人: 李晓均

    摘要: 本发明公开了一种用于支持多处理器架构的系统缓存架构和芯片。该架构包括:侦听流水线交换端口与多处理器架构的至少两个处理器的最后一级内存总线连接,将来自任一处理器的内存读写请求通过内存请求仲裁器转发至内存系统或者将内存读写请求发送至至少两个高速缓存段中的任一高速缓存段;一致性互连侦听请求器将来自DMA主机的侦听读写请求发送至至少两个高速缓存段中的任一高速缓存段;至少两个高速缓存段用于响应来自侦听流水线交换端口或一致性互连侦听请求器的并发的读写请求,并在存储的缓存数据与内存读写请求或侦听读写请求对应时反馈或更新缓存数据。本发明实施例的技术方案,对多处理器架构的高性能扩展提供了支持。

    一种卷积计算中资源共享的方法、装置、介质及设备

    公开(公告)号:CN115858178A

    公开(公告)日:2023-03-28

    申请号:CN202310139977.0

    申请日:2023-02-21

    发明人: 赖斯龑 张迪

    IPC分类号: G06F9/50 G06F17/15 G06N3/063

    摘要: 本公开实施例提供的一种基于卷积计算中资源共享的方法、装置、存储介质及电子设备,将任务拆分到不同的处理核中进行卷积计算,降低了对芯片的片内存储空间的消耗,同时,针对不同场景下存在Input Tensor和Weight共享的情况,进一步进行优化,根据不同的共享维度采用对应的拆分方式对输入数据进行拆分,节省处理核的存储空间,提高了数据传输效率,提高了计算单元的并发度,进而提高计算性能。

    用于芯粒到芯粒互连的总线流水线结构和芯片

    公开(公告)号:CN115248796A

    公开(公告)日:2022-10-28

    申请号:CN202210900797.5

    申请日:2022-07-28

    发明人: 李晓均 张宏宇

    IPC分类号: G06F13/40 G06F13/16

    摘要: 本发明公开了一种用于芯粒到芯粒互连的总线流水线结构和芯片。该结构包括:发送端的n路复用器工作于n倍发送芯粒的时钟域;n路复用器将来自发送芯粒的数据流发送至接收端的n路解复用器,n路解复用器将接收到的数据流输入接收端的至少两个寄存器中处于空闲状态的第一寄存器,第一寄存器将接收到的数据流输出至接收芯粒;接收端的接收状态机确认n路解复用器向第一寄存器发送接收到的数据流之后,向发送端的发送状态机发送总线释放标识,接收到总线释放标识的发送状态机在下一个时钟周期控制n路复用器方式数据流。本发明实施例的技术方案,使用较小的实际位宽实现了芯粒之间的高有效带宽,且避免了高延迟。

    一种条件分支指令的处理系统和方法

    公开(公告)号:CN116719561B

    公开(公告)日:2023-10-31

    申请号:CN202310993515.5

    申请日:2023-08-09

    发明人: 孙华庆 郑杰

    IPC分类号: G06F9/38 G06F9/30 G06N3/063

    摘要: 本发明公开了一种条件分支指令的处理系统和方法,包括:指令发射单元用于采用第一进程将指令存储单元基于取指令请求反馈的指令数据发送给取指令单元的指令缓冲区,采用第二进程将从指令缓冲区中读取的条件分支指令发送给指令执行单元;指令执行单元用于执行条件分支指令生成执行结果;取指令单元用于在确定跳转信息为需要跳转时,将指令缓冲区进行清空,通过指令发射单元将目标指令发送到指令执行单元。在对条件分支指令进行处理时,能够以简单的硬件实现,由于指令缓冲区的深度为隐藏指令执行单元流水线执行周期所需的指令数量,因此在确定需要跳转时通过清空指令缓冲区,允许1次分支预测错误,不需要深度排空指令,并降低分支预测的功耗。