-
公开(公告)号:CN118502711A
公开(公告)日:2024-08-16
申请号:CN202410632261.9
申请日:2024-05-21
Applicant: 中国科学院计算技术研究所
IPC: G06F7/505 , G06F7/53 , G06N3/063 , G06N3/0464 , G06N3/042
Abstract: 本发明提出一种神经向量检索加速器、及应用其的神经向量检索方法,该加速器包含:外设接口单元,用以接收外部控制信号,从内存中读取输入数据送入缓冲区中;乘积引擎,与外设接口单元耦接,用以读取输入向量及中心点向量,计算输入向量和中心点向量之间的点积或距离,取得第一计算结果;位置生成单元,与外设接口单元耦接,用以依据外部控制信号计算索引位置和结果位置;索引引擎,与乘积引擎、位置生成单元耦接,用以依据索引位置和结果位置,从外设接口单元中获取查找地址,依据查询地址从第一计算结果中索引数据并求和,得到第二计算结果。该加速器降低了神经向量检索的计算和存储访问开销,节省硬件资源。
-
公开(公告)号:CN119476487A
公开(公告)日:2025-02-18
申请号:CN202411551388.4
申请日:2024-11-01
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种基于芯粒和近存计算的边缘端大语言模型推理加速方法和装置,包括模型权重储存在Flash,整个推理过程包含的全部矩阵向量乘法的运算由Flash和NPU协同完成。在Flash中计算的部分:需要NPU把输入向量发送到Flash中,使用Flash内部存储的权重矩阵和该输入向量做矩阵向量乘法,得到结果后发送回NPU。在NPU中计算的部分:NPU中存储着输入向量,需要从Flash中逐块读取权重矩阵,并在NPU中完成运算。运算结果保存在NPU中。注意力运算由NPU独立完成。特殊函数计算由NPU独立完成。NPU与Flash各自承担的任务比例,使得二者能更好地协同完成大语言模型的推理任务。
-
公开(公告)号:CN118502900A
公开(公告)日:2024-08-16
申请号:CN202410632248.3
申请日:2024-05-21
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种多核神经矢量检索硬件加速器及其调度方法,该加速器包含:子加速器堆,包含多个子加速器,用于执行计算任务;调度控制模块,与该子加速器堆耦接,配置为执行一调度程序,将每一计算任务匹配到合适的子加速器上执行。其能够满足神经向量检索多任务系统的实时性与高硬件利用率,提高用户的使用体验以及降低硬件加速器的成本。
-
-