-
公开(公告)号:CN115374935A
公开(公告)日:2022-11-22
申请号:CN202211122342.1
申请日:2022-09-15
申请人: 重庆大学 , 中国人民解放军陆军军医大学第一附属医院
摘要: 本发明提出了一种神经网络的剪枝方法,包括以下步骤:S1,根据硬件资源的规模、时序约束、以及先验知识,确定脉动阵列规模,再根据硬件资源的规模、时序约束、以及先验知识、脉动阵列规模,确定最大筛选通道数和过滤器分组的最小数量;S2,将S1得到的最大筛选通道数和过滤器分组的最小数量以及其它约束条件训练神经网络;S3,训练完毕后,通过编译器产生指令,对加速器的剪枝模式进行配置;S4,然后加速器接收解码后的指令,将输入特征图数据、经过训练压缩后的权重数据、根据训练生成的剪枝模式配置信息、以及经过训练生成的通道选择数据加载至加速器内部的硬件缓存单元中;S5,数据全部加载至硬件内部资源后,加速器开始进行卷积计算,脉动阵列开始工作,最终得到卷积结果。本发明能够在满足脉动阵列SA工作模式,保证其工作效率的前提下,减少了模型的参数量,提高了模型推理的速度。
-
公开(公告)号:CN115374935B
公开(公告)日:2023-08-11
申请号:CN202211122342.1
申请日:2022-09-15
申请人: 重庆大学 , 中国人民解放军陆军军医大学第一附属医院
摘要: 本发明提出了一种神经网络的剪枝方法,包括以下步骤:S1,根据硬件资源的规模、时序约束、以及先验知识,确定脉动阵列规模,再根据硬件资源的规模、时序约束、以及先验知识、脉动阵列规模,确定最大筛选通道数和过滤器分组的最小数量;S2,将S1得到的最大筛选通道数和过滤器分组的最小数量以及其它约束条件训练神经网络;S3,训练完毕后,通过编译器产生指令,对加速器的剪枝模式进行配置;S4,然后加速器接收解码后的指令,将输入特征图数据、经过训练压缩后的权重数据、根据训练生成的剪枝模式配置信息、以及经过训练生成的通道选择数据加载至加速器内部的硬件缓存单元中;S5,数据全部加载至硬件内部资源后,加速器开始进行卷积计算,脉动阵列开始工作,最终得到卷积结果。本发明能够在满足脉动阵列SA工作模式,保证其工作效率的前提下,减少了模型的参数量,提高了模型推理的速度。
-
公开(公告)号:CN113516249B
公开(公告)日:2023-04-07
申请号:CN202110681063.8
申请日:2021-06-18
申请人: 重庆大学
摘要: 本发明公开了一种基于半异步的联邦学习方法,其在中央服务器上根据每一个客户端的的本地模型更新方向和更新时间对所述客户端进行分组,得到多个客户端组,并创建多个以客户端组为单位的调度进程,以使得所述调度进程在每个通信轮中初始化所属组的组模型版本号,并在每个通信轮中根据客户端的本地模型的版本号与组模型版本号计算版本号之差,以用来衡量客户端的本地模型的过时程度,进而使得所述客户端根据版本号之差与预设模型过时阈值的比较结果选择同步更新或异步更新的方式更新本地模型,其能有效解决客户端的掉队效应,并能解决客户端的模型过时问题,进而提升模型的精确度。
-
公开(公告)号:CN115098481A
公开(公告)日:2022-09-23
申请号:CN202210737553.X
申请日:2022-06-27
申请人: 重庆大学
IPC分类号: G06F16/215
摘要: 本申请涉及一种重复数据删除的元数据管理方法,接收I/O的请求,将数据切割成数据块,利用哈希算法建立唯一指纹;在指纹索引结构中,对数据块的指纹进行查询;以位图形式创建事务条目,元数据管理器扫描位图,获取处于自由状态的事务条目,分配全局唯一Trans‑i d;若接收到命中指纹索引的请求,则将上层访问的逻辑块号映射为指纹映射中的物理块号,引用计数加1;如果没有命中指纹索引的请求,则分配新的空闲物理块号,建立一个逻辑块号映射,将映射表和引用计数写入到PM的元数据区,对写入的数据块进行存储。本申请中引入与日志机制相结合的事务条目,确保事务条目内的原子性,保证崩溃时一致性的重复数据删除的元数据。
-
公开(公告)号:CN113536024B
公开(公告)日:2022-09-09
申请号:CN202110918561.X
申请日:2021-08-11
申请人: 重庆大学
IPC分类号: G06F16/583 , G06M1/272 , G06K9/62 , G06F7/501
摘要: 本发明提出了一种基于FPGA的ORB_SLAM重定位特征点检索加速方法,包括:S1,将输入的图片缓冲,提取描述子;S2,然后进入工作空间Workspace,通过计算电路对结点的距离求解;S3,每个计算电路的结果会一起流向一个并行比较电路,求出最小值所在的点;S4,最后再判断是否是底层,若是则搜索结束,得出最终结点;S5,每个结点会有一个偏移值,用于寻找求子结点的地址,从而获得关键帧,然后根据关键帧集合进行重新定位。本发明对于电路资源的消耗情况,在计数器前加上近似单元AU形成累计并行计数器APC的电路结构,基于近似计算的原理,在bit流比较长并且需要复制多个相同结构的情况下可以减少硬件资源的消耗,并且提高电路计算速度。
-
公开(公告)号:CN114995823A
公开(公告)日:2022-09-02
申请号:CN202210639397.3
申请日:2022-06-07
申请人: 重庆大学
摘要: 本发明提出了一种面向CNN专用加速器的深度学习编译器优化方法,包括以下之一或者任意组合步骤:S1,通过算子融合和/或bn融合的优化方法减少加速器对内存的访问以及存储空间的浪费,同时使用内存分配地址叠加的方式避免各张量之间的数据覆盖;S2,采用内存共享和编址的方法,并通过特征图深度复制、算子执行顺序交换策略使编译器支持复杂的跳跃连接网络结构;S3,采用优化卷积循环平铺和循环重排的调度策略来提升加速器的性能。
-
公开(公告)号:CN114662689A
公开(公告)日:2022-06-24
申请号:CN202210332430.8
申请日:2022-03-31
申请人: 重庆大学
摘要: 本发明公开了一种神经网络的剪枝方法、装置、设备及介质,包括:根据预先配置的PE阵列的总行数和预设的筛选通道数,获取随机存取存储器的总数量;根据所述总数量配置若干随机存取存储器,并将每一通道的输入特征图数据分别存入每一所述随机存取存储器中;对若干所述随机存取存储器进行分组,得到若干小组随机存取存储器;当接收到剪枝信号时,根据通道选择信号,对输入特征图数据进行选择,将每一小组内的不同通道的输入特征图数据输入至PE阵列,以实现神经网络的剪枝操作。采用本发明实施例能够提高神经网络模型的处理效率。
-
公开(公告)号:CN117592106A
公开(公告)日:2024-02-23
申请号:CN202311595368.2
申请日:2023-11-28
申请人: 重庆大学
摘要: 本申请提供一种基于文件级加密的块级去重方法、系统及存储介质,属于计算机存储技术领域,用于解决现有技术中在开启文件级加密的环境中使用块级去重失效的问题。方法步骤为:获取待写入的原始数据块并加密,获得加密数据;计算原始数据块的指纹值,并根据原始数据块的指纹值以及其密钥描述符进行数据去重。本申请在开启文件级加密的同时实现块级文件去重,降低外存的存储空间占用,同时消除文件加密对块级去重的影响;安全地保护去重过程中使用的文件密钥,防止数据泄露或被破解,去重粒度低,去重效果好。
-
公开(公告)号:CN117170846A
公开(公告)日:2023-12-05
申请号:CN202311149151.9
申请日:2023-09-07
申请人: 重庆大学
IPC分类号: G06F9/48 , G06F9/50 , G06F9/46 , G06F15/78 , G06F13/28 , G06F13/16 , G06F12/02 , G06F16/22 , G06F16/2455 , G06F16/907 , G06F1/3234 , G06F1/3293 , G01S7/41
摘要: 本发明公开了一种雷达信号存储与处理系统及方法,属于数据存储管理技术,包括主机和计算型存储器,主机通过高速PCIe总线与所述计算型存储器连接,主机包括CPU和DRAM,计算型存储器包括主机控制器、嵌入式处理器、内存、多个闪存和多个闪存控制器;主机中加载有雷达信号处理应用程序,在DRAM中存储有雷达信号处理库和驱动程序;嵌入式处理器中配置有请求调度器、雷达信号布局管理器和闪存转换层。其效果是:有效提升了雷达信号写入速度、检索速度和处理速度,避免了冗余、多级的雷达信号映射,减少了大量的数据搬移,减少了I/O能耗开销,系统整体功耗低。
-
公开(公告)号:CN114648439A
公开(公告)日:2022-06-21
申请号:CN202210295337.4
申请日:2022-03-24
申请人: 重庆大学
IPC分类号: G06T1/20 , G06F16/901 , G06F16/908 , G06F7/487 , G06F7/485 , G06F7/499
摘要: 本发明提供了一种基于FPGA的3D点云数据的立方体划分加速器,包括:立方体坐标计算模块、哈希函数模块、哈希查找模块、哈希数据模块、立方体信息输出模块、读写存储模块。采用本发明实施例,能够基于FPGA具有的集成度高、易实现并行计算、低功耗等优点,利用FPGA可配置实现并行化、流水线结构的特性,结合哈希算法对点云数据进行实时处理和划分,对点云数据三维坐标进行并行计算,划分出每个点所属的三维立方体,并通过哈希算法实时更新每个三维立方体包含的点,以哈希表查询与插入立方体信息,从而提高点云数据划分的速度,达到3D点云目标检测中实时处理的要求。
-
-
-
-
-
-
-
-
-