神经向量检索加速器、及应用其的神经向量检索方法

    公开(公告)号:CN118502711A

    公开(公告)日:2024-08-16

    申请号:CN202410632261.9

    申请日:2024-05-21

    Abstract: 本发明提出一种神经向量检索加速器、及应用其的神经向量检索方法,该加速器包含:外设接口单元,用以接收外部控制信号,从内存中读取输入数据送入缓冲区中;乘积引擎,与外设接口单元耦接,用以读取输入向量及中心点向量,计算输入向量和中心点向量之间的点积或距离,取得第一计算结果;位置生成单元,与外设接口单元耦接,用以依据外部控制信号计算索引位置和结果位置;索引引擎,与乘积引擎、位置生成单元耦接,用以依据索引位置和结果位置,从外设接口单元中获取查找地址,依据查询地址从第一计算结果中索引数据并求和,得到第二计算结果。该加速器降低了神经向量检索的计算和存储访问开销,节省硬件资源。

    基于芯粒和近存计算的边缘端大语言模型推理加速方法

    公开(公告)号:CN119476487A

    公开(公告)日:2025-02-18

    申请号:CN202411551388.4

    申请日:2024-11-01

    Abstract: 本发明提出一种基于芯粒和近存计算的边缘端大语言模型推理加速方法和装置,包括模型权重储存在Flash,整个推理过程包含的全部矩阵向量乘法的运算由Flash和NPU协同完成。在Flash中计算的部分:需要NPU把输入向量发送到Flash中,使用Flash内部存储的权重矩阵和该输入向量做矩阵向量乘法,得到结果后发送回NPU。在NPU中计算的部分:NPU中存储着输入向量,需要从Flash中逐块读取权重矩阵,并在NPU中完成运算。运算结果保存在NPU中。注意力运算由NPU独立完成。特殊函数计算由NPU独立完成。NPU与Flash各自承担的任务比例,使得二者能更好地协同完成大语言模型的推理任务。

Patent Agency Ranking