模型量化方法、装置、电子设备及存储介质

    公开(公告)号:CN117574966B

    公开(公告)日:2024-10-25

    申请号:CN202311552181.4

    申请日:2023-11-21

    IPC分类号: G06N3/0464 G06N3/08 G06N5/04

    摘要: 本申请公开一种模型量化方法,包括:获取当前网络层的权重矩阵,对权重矩阵进行划块得到多个权重块;对多个权重块内的权重绝对值按列排序重组得到多个目标权重块;根据每个目标权重块的量化偏差和量化阈值确定每个目标权重块的量化精度;根据多个目标权重块在量化前后的权重分布偏差和分布阈值对量化阈值进行调节以获取多个目标权重块的目标量化精度;根据多个目标权重块的目标量化精度对多个目标权重块进行量化得到多个量化权重块;采用按位交错的映射方式将多个量化权重块映射到多个交叉阵列单元上。本申请还提供一种模型量化装置、电子设备及存储介质,可以灵活选择权重的位宽,在保证压缩效率的同时减少精度损失。

    计算图处理方法、装置、电子设备及存储介质

    公开(公告)号:CN117764122B

    公开(公告)日:2024-06-25

    申请号:CN202311861591.7

    申请日:2023-12-29

    摘要: 本申请公开一种计算图处理方法、装置、电子设备及存储介质,计算图处理方法包括:解析机器学习模型以得到第一计算图,第一计算图包括多个计算节点;对第一计算图进行图级优化操作以得到第二计算图;图级优化操作包括地址传递流优化操作,地址传递流优化操作包括:根据第一计算图中多个计算节点的节点信息和数据依赖关系获取第一计算图的张量数据流;对张量数据流中的张量数据进行稀疏化处理得到相应的稀疏张量数据,稀疏张量数据采用张量感知的稀疏存储格式进行存储;根据张量数据流将稀疏张量数据的地址索引串联成地址传递流;根据地址传递流对第一计算图进行优化。本申请可以实现自动高效的稀疏计算,提高计算效率。

    计算图处理方法、装置、电子设备及存储介质

    公开(公告)号:CN117764122A

    公开(公告)日:2024-03-26

    申请号:CN202311861591.7

    申请日:2023-12-29

    摘要: 本申请公开一种计算图处理方法、装置、电子设备及存储介质,计算图处理方法包括:解析机器学习模型以得到第一计算图,第一计算图包括多个计算节点;对第一计算图进行图级优化操作以得到第二计算图;图级优化操作包括地址传递流优化操作,地址传递流优化操作包括:根据第一计算图中多个计算节点的节点信息和数据依赖关系获取第一计算图的张量数据流;对张量数据流中的张量数据进行稀疏化处理得到相应的稀疏张量数据,稀疏张量数据采用张量感知的稀疏存储格式进行存储;根据张量数据流将稀疏张量数据的地址索引串联成地址传递流;根据地址传递流对第一计算图进行优化。本申请可以实现自动高效的稀疏计算,提高计算效率。

    图像引导滤波方法及系统
    4.
    发明公开

    公开(公告)号:CN117422608A

    公开(公告)日:2024-01-19

    申请号:CN202311453632.9

    申请日:2023-11-03

    摘要: 本申请公开一种图像引导滤波方法及系统,包括:将输入图像和引导图像从主机内存读入GPU的全局内存中;在全局内存中,根据并行数据宽度将输入图像和引导图像划分成多个输入子图像和多个引导子图像,输入子图像和多个引导子图像一一对应;将每个输入子图像的引导滤波处理分别分配至GPU的多个工作项,每个输入子图像和相应的引导子图像进行引导滤波处理的过程对应一个工作项;多个工作项依次并行调用第一内核函数和第二内核函数获取多个输入子图像的缩放矩阵和偏移矩阵的均值滤波结果,根据多个输入子图像以及相应缩放矩阵和偏移矩阵的均值滤波结果计算相应的输出子图像,并将多个输出子图像合并保存至全局内存中,减少资源占用。

    存算一体芯片及其操作方法
    5.
    发明公开

    公开(公告)号:CN116882462A

    公开(公告)日:2023-10-13

    申请号:CN202310728596.6

    申请日:2023-06-19

    摘要: 本申请公开了一种存算一体芯片,存算一体芯片包括多个由片上网络连接的块,每个块均包括存算模块和向量处理模块,存算一体芯片用于根据网络模型的配置参数获取注意力头的数量,并根据注意力头的数量将神经网络的注意力权重存储在多个块的存算模块中,多个块的存算模块中均存储所有类型的注意力权重;将输入数据与注意力权重卷积运算得到多个特征向量,每个特征向量包括多个特征向量矩阵;以及将每个特征向量对应的多个特征向量矩阵中的一个发送至每个块的向量处理模块中进行多头注意力运算得到多个注意力头矩阵。本申请还提供一种存算一体芯片的操作方法,可以实现注意力机制的多头并行运算,提高计算效率,减小推理过程的延迟时间。

    基于不同网络类型的自适应基函数叠加量化方法及系统

    公开(公告)号:CN116306837A

    公开(公告)日:2023-06-23

    申请号:CN202310172732.8

    申请日:2023-02-28

    IPC分类号: G06N3/0495

    摘要: 本发明公开了一种基于不同网络类型的自适应基函数叠加量化方法及系统,属于神经网络模型压缩技术领域,该方法包括如下步骤:S1:获取神经网络权值;S2:选择不同的基函数分别对神经网络权值进行整体量化,得到不同基函数量化后的权值和精度结果,并进行搜索,选择精度损失最低的基函数方案,自适应的搜索得到最佳量化参数配置;S3:重复上述步骤,直至神经网络各个权值层均被量化,并汇总最佳量化参数配置,以及量化后的权值层;S4:输出整个神经网络量化后的结果。本发明可以在保持高压缩率的情况下降低网络精度损失,在量化下可以更灵活、更高效。

    一种针对基于ReRAM存算芯片的能效提升方法

    公开(公告)号:CN116129962A

    公开(公告)日:2023-05-16

    申请号:CN202310177358.0

    申请日:2023-02-28

    IPC分类号: G11C13/00

    摘要: 本发明公开了一种针对基于ReRAM存算芯片的能效提升方法,包括以下步骤:S1.输入权重;S2.依据输入的权重进行量化;S3.将量化后的数据进行映射;S4.将映射后的数据进行比特翻转;S5.将比特翻转后的数据传入模拟数字转换器中进行转化;其中,所述S4步骤中包括以下子步骤:S41.空列锁定,即将所有的位矩阵中本身就全0的列锁定;S42.开销计算,计算将1翻转为0所需要的花费;S43.翻转与补偿;S44.锁定修改,即将锁定“1”数量最多且剪枝过的列,然后重复以上步骤,直到所有的位矩阵都剪枝完成。有效地解决了现有技术中能耗浪费过高的问题。

    一种针对ReRAM的神经网络加速器
    8.
    发明公开

    公开(公告)号:CN115965067A

    公开(公告)日:2023-04-14

    申请号:CN202310049117.8

    申请日:2023-02-01

    摘要: 本发明公开了一种基于ReRAM的神经网络加速器,属于神经网络加速器设计领域,其加速器包括ReRAM原位计算阵列、输入寄存器、累加缓存器、向量逻辑单元、全局缓存器、计算控制单元和特征数据读写DMA;所述输入寄存器和累加缓存器连接ReRAM原位计算阵列。本发明采用一种新颖的神经网络权重的映射方法用于神经网络的推理计算,并采用高效的直接存储器访问和灵活的数据摆放格式,在提高数据流和计算流并行度的同时,解决了推理过程中数据阻塞的问题,提升架构的数据吞吐率。

    网页应用开发系统及方法
    9.
    发明公开

    公开(公告)号:CN117539656A

    公开(公告)日:2024-02-09

    申请号:CN202311368593.2

    申请日:2023-10-20

    IPC分类号: G06F9/54 G06F16/958

    摘要: 本申请公开一种网页应用开发系统及方法,包括:网页浏览器,用于发送Http请求;网页应用服务器,用于接收Http请求,以及当Http请求为服务请求时对Http请求进行解析并构建相应的GRPC请求;业务服务器,用于接收GRPC请求,并根据GRPC请求执行相应的业务服务以产生GRPC响应;网页应用服务器还用于接收GRPC响应,并对GRPC响应进行解析并构建相应的Http响应,并发送至网页浏览器;其中,网页应用服务器同时集成有前端页面、后端服务和GRPC服务以实现将http请求与GRPC请求的转换以及GRPC响应与http响应的转换。本申请可以实现后端直接调用GRPC服务,简化系统架构。

    张量切分方法、装置以及电子设备

    公开(公告)号:CN117172289A

    公开(公告)日:2023-12-05

    申请号:CN202311125349.3

    申请日:2023-09-01

    摘要: 本申请公开一种张量切分方法及装置,张量切分方法包括:基于神经网络的输入数据,获取神经网络对该输入数据进行计算时的计算图以及张量数据的张量信息;根据计算图的拓扑顺序对神经网络的张量数据进行内存分配,并从计算图中获取当前节点和当前张量数据,当前张量数据的尺寸超过当前内存的可分配空间;从当前节点进行反向搜索以获取当前节点分组以及当前张量切分组,当前张量切分组包括至少2个张量数据;对当前张量切分组内的张量数据进行切分以使当前张量切分组内的切分后的张量数据的尺寸均不超过当前内存的可分配空间。本申请可以对大的张量数据进行切分以满足内存空间要求,减少对外部存储器的访问,提高计算效率。