专利检索 ap:("哈尔滨工业大学" OR "中国航天科工集团第二研究院") AND inv:"吴然" 第 1 页

1.

发明公开
一种卷积神经网络的量化压缩方法审中-实审

公开(公告)号：CN114118406A

公开(公告)日：2022-03-01

申请号：CN202111262226.5

申请日：2021-10-28

申请人： 哈尔滨工业大学 , 中国航天科工集团第二研究院

发明人： 吴然 , 刘环宇 , 唐嘉泽 , 董博 , 李君宝 , 马喆

IPC分类号： G06N3/08 , G06N3/04

摘要： 一种卷积神经网络的量化压缩方法，解决了如何能够在提高压缩比的同时有效保留精度的问题，属于神经网络加速领域。本发明包括：S1、获取卷积神经网络的原始权重张量、输入特征张量以及量化点；S2、将原始权重张量输入至DP结构，DP结构对原始权重张量进行修改，输出修改后的原始权重张量；S3、利用量化点及量化函数对修改后的原始权重张量及除第一层外的原始输入特征张量进行定点量化；利用定点量化后的权重张量和输入特征张量替换原始权值张量和输入特征张量，得到量化后的卷积神经网络；S4、将训练数据输入至量化后的卷积神经网络，计算loss，利用反向传播和梯度下降更新DP结构的参数和原始权重张量，转入S2，进行下一轮，直至训练完成。

2.

发明授权
一种基于FPGA的Yolov3网络计算加速系统及其加速方法有权

公开(公告)号：CN111414994B

公开(公告)日：2022-07-12

申请号：CN202010150245.8

申请日：2020-03-03

申请人： 哈尔滨工业大学

发明人： 郑浩然 , 李君宝 , 刘环宇 , 吴然 , 吴瑞东 , 赵菲 , 刘小龙

IPC分类号： G06N3/04 , G06N3/08 , G06K9/62

摘要： 本发明是一种基于FPGA的Yolov3网络计算加速系统及其加速方法。所述系统包括ARM和FPGA平台架构、片外存储区、AXI_M接口和AXI_S接口，所述ARM平台架构包括核心处理器和数据和内存控制器，所述FPGA平台架构包括加速核心单元、输入缓存端和输出缓存端；所述核心处理器包括ARM Cortex‑A53CPU和L2缓存区，所述片外存储区包括SD卡和外部DDR4，所述加速核心单元包括数据矩阵向量阵列和计算模块。本发明输入和输出缓存端采用多通道并行读取写回的方式代替传统的单通道读写方式，最大化利用了Zynq芯片的带宽。输入缓存端设计双缓存区和寄存器阵列，实现高效的数据复用，成倍提高带宽。

3.

发明公开
基于无监督蒸馏网络的学生网络获取方法、图像分类模型获取方法、图像分类方法审中-实审

公开(公告)号：CN115861765A

公开(公告)日：2023-03-28

申请号：CN202211439778.3

申请日：2022-11-17

申请人： 哈尔滨工业大学

发明人： 刘环宇 , 吴然 , 李君宝 , 杨忠琳

IPC分类号： G06V10/82 , G06V10/774 , G06V10/764 , G06N3/045 , G06N3/0499 , G06N3/088 , G06N3/096

摘要： 基于无监督蒸馏网络的学生网络获取方法、图像分类模型获取方法、图像分类方法，涉及神经网络加速领域。针对现有技术中无监督训练方法面对大网络性能较好，在小网络上则不能保证训练的精度，除了预训练教师网络外，还会构造一个样本库来实现损失函数，限制了网络在边缘端的更新的问题，本发明提供了：基于无监督蒸馏网络的学生网络获取方法，包括：采集图像作为数据集；根据数据集，得到两个增广；两个增广分别通过教师网络和学生网络，得到教师网络的投影值和预测值和学生网络的投影值和预测值；根据教师网络的投影值和预测值和学生网络的投影值和预测值，更新教师网络和学生网络；输出当前学生网络，作为结果。适合应用于边缘计算场景。

4.

发明公开
一种基于FPGA的Yolov3网络计算加速系统及其加速方法有权

公开(公告)号：CN111414994A

公开(公告)日：2020-07-14

申请号：CN202010150245.8

申请日：2020-03-03

申请人： 哈尔滨工业大学

发明人： 郑浩然 , 李君宝 , 刘环宇 , 吴然 , 吴瑞东 , 赵菲 , 刘小龙

IPC分类号： G06N3/04 , G06N3/08 , G06K9/62

摘要： 本发明是一种基于FPGA的Yolov3网络计算加速系统及其加速方法。所述系统包括ARM和FPGA平台架构、片外存储区、AXI_M接口和AXI_S接口，所述ARM平台架构包括核心处理器和数据和内存控制器，所述FPGA平台架构包括加速核心单元、输入缓存端和输出缓存端；所述核心处理器包括ARM Cortex-A53CPU和L2缓存区，所述片外存储区包括SD卡和外部DDR4，所述加速核心单元包括数据矩阵向量阵列和计算模块。本发明输入和输出缓存端采用多通道并行读取写回的方式代替传统的单通道读写方式，最大化利用了Zynq芯片的带宽。输入缓存端设计双缓存区和寄存器阵列，实现高效的数据复用，成倍提高带宽。