-
公开(公告)号:CN113962272A
公开(公告)日:2022-01-21
申请号:CN202110720153.3
申请日:2021-06-28
申请人: 北京旷视科技有限公司 , 北京迈格威科技有限公司
发明人: 张选杨
摘要: 本发明实施例提供一种模型蒸馏方法、装置和系统以及存储介质。方法包括:在学生网络的训练过程中的第i次迭代下,执行当前迭代操作,包括:获取多个样本图像,i∈{1、2……Mi};将多个样本图像输入学生网络中,以获得学生网络输出的学生图像处理信息;获取候选结构池,其包括N1i个教师网络;对于每个教师网络,将多个样本图像输入该教师网络中,以获得该教师网络输出的教师图像处理信息;对于每个教师网络,计算对应的教师图像处理信息与学生图像处理信息之间的相似度;从候选结构池中选择相似度最大的教师网络;利用所选择的教师网络对学生网络进行蒸馏训练。为学生网络动态搜索自适应的教师网络,使得学生网络取得更好的蒸馏效果。
-
公开(公告)号:CN113792871A
公开(公告)日:2021-12-14
申请号:CN202110893233.9
申请日:2021-08-04
申请人: 北京旷视科技有限公司 , 北京迈格威科技有限公司
发明人: 张选杨
摘要: 本发明提供了一种神经网络训练方法、目标识别方法、装置和电子设备,该神经网络训练方法包括:获取预先训练的教师网络,教师网络包括多个教师子网络,多个教师子网络的层数相同,通道数不同;按照通道数由少到多的顺序,应用教师网络中的教师子网络,依次对初始学生网络进行蒸馏训练,得到目标学生网络。通过本发明实施例提供的神经网络训练方法,将教师网络对学生网络的训练分为多个训练周期,使学生网络能够循序渐进地进行知识提取,可以有效提升学生网络的训练效率,进而提升学生网络的预测性能和识别精度。
-
公开(公告)号:CN113792871B
公开(公告)日:2024-09-06
申请号:CN202110893233.9
申请日:2021-08-04
申请人: 北京旷视科技有限公司 , 北京迈格威科技有限公司
发明人: 张选杨
IPC分类号: G06N3/045 , G06N3/0464 , G06N3/096 , G06F18/241
摘要: 本发明提供了一种神经网络训练方法、目标识别方法、装置和电子设备,该神经网络训练方法包括:获取预先训练的教师网络,教师网络包括多个教师子网络,多个教师子网络的层数相同,通道数不同;按照通道数由少到多的顺序,应用教师网络中的教师子网络,依次对初始学生网络进行蒸馏训练,得到目标学生网络。通过本发明实施例提供的神经网络训练方法,将教师网络对学生网络的训练分为多个训练周期,使学生网络能够循序渐进地进行知识提取,可以有效提升学生网络的训练效率,进而提升学生网络的预测性能和识别精度。
-
公开(公告)号:CN114202055A
公开(公告)日:2022-03-18
申请号:CN202111096280.7
申请日:2021-09-17
申请人: 北京旷视科技有限公司 , 北京迈格威科技有限公司
发明人: 张选杨
摘要: 本公开是关于一种神经网络模型结构搜索方法、装置及存储介质。神经网络模型结构搜索方法包括:初始化第一超网络和第二超网络;基于所述第一超网络和所述第二超网络,进行模型结构搜索,得到多个候选子网络,所述多个候选子网络具有相同网络结构但不同模型参数;基于所述多个候选子网络的模型参数变化程度,确定神经网络模型结构,其中,所述候选子网络的模型参数变化程度包括所述第一超网络中子网络的参数与所述第二超网络中子网络的参数之间的变化程度。通过本公开可以改善超网络中多个子网络之间参数共享的问题。
-
公开(公告)号:CN112734013A
公开(公告)日:2021-04-30
申请号:CN202110020618.4
申请日:2021-01-07
申请人: 北京迈格威科技有限公司
发明人: 张选杨
摘要: 本申请实施例提供了图像处理方法、装置、电子设备及存储介质,该方法包括:基于待处理图像,确定与待处理图像对应的动态卷积神经网络,与待处理图像对应的动态卷积神经网络具有第二动态连接方式和第二操作方式,其中,第二动态连接方式表征所有处理节点中的每一个处理节点各自连接的对象,第二操作方式表征每一个处理节点连接的各对象对应的操作类型;动态卷积神经网络基于第二动态连接方式和第二操作方式对待处理图像进行处理,生成待处理图像的处理结果。提升动态卷积神经网络的性能,同时,增强动态卷积神经网络的表达能力。
-
公开(公告)号:CN112598110B
公开(公告)日:2024-05-07
申请号:CN202011403214.5
申请日:2020-12-04
申请人: 北京迈格威科技有限公司
发明人: 张选杨
IPC分类号: G06N3/0464 , G06N3/082
摘要: 本发明实施例提供了一种神经网络构建方法、装置、设备及介质,所述方法包括:从原始神经网络中确定待替换的卷积层;将所述待替换的卷积层替换为目标卷积层,得到目标卷积神经网络;其中,所述目标卷积层的目标卷积核参数是根据所述原始神经网络的裁剪率,对所述待替换的原始卷积层卷积核参数进行调整后得到的;所述目标卷积层用于按照所述目标卷积核参数对待卷积的特征图进行卷积操作,得到卷积后的特征图。
-
公开(公告)号:CN112686321A
公开(公告)日:2021-04-20
申请号:CN202011639067.1
申请日:2020-12-31
申请人: 北京迈格威科技有限公司
发明人: 张选杨
摘要: 本申请实施例提供了一种确定网络的性能参数值的方法、装置、设备及介质,属于机器学习技术领域,所述方法包括:将多个网络模块分别与原始网络进行组合,得到所述原始网络的多个子网络,其中,一个网络模块用于实现一种类型的数据处理操作;对所述多个子网络交替训练多次,以完成对所述原始网络的训练,其中,包括同一个网络模块的各个子网络之间共享该个网络模块的参数;针对所述多个子网络中的任一子网络,根据该子网络包括的各个网络模块各自在所述原始网络的训练过程中的累积梯度值,确定该子网络的性能参数值。
-
公开(公告)号:CN112232505A
公开(公告)日:2021-01-15
申请号:CN202010948437.3
申请日:2020-09-10
申请人: 北京迈格威科技有限公司 , 内蒙古旷视金智科技有限公司
发明人: 张选杨
摘要: 本发明实施例提供了一种模型训练方法、处理方法、装置、电子设备及存储介质。该方法中,根据待裁剪模型,创建第一目标模型,第一目标模型中设置有动态激活函数分支,对于第一目标模型中的处理层,根据动态激活函数分支,确定处理层的输入特征图中各个通道对应的重要性表征参数,重要性表征参数包括通道对应的斜率,不同输入特征图对应的重要性表征参数不同,接着,根据各个通道对应的重要性表征参数确定各个通道的重要度,并根据各个通道的重要度对输入特征图的通道进行裁剪,最后,基于裁剪后的输入特征图及第一目标模型,训练获取第二目标模型。这样,一定程度上可以在提高效率的同时,确保预测效果。
-
公开(公告)号:CN112734013B
公开(公告)日:2024-06-21
申请号:CN202110020618.4
申请日:2021-01-07
申请人: 北京迈格威科技有限公司
发明人: 张选杨
IPC分类号: G06V10/82 , G06N3/0464 , G06N3/048 , G06N3/08
摘要: 本申请实施例提供了图像处理方法、装置、电子设备及存储介质,该方法包括:基于待处理图像,确定与待处理图像对应的动态卷积神经网络,与待处理图像对应的动态卷积神经网络具有第二动态连接方式和第二操作方式,其中,第二动态连接方式表征所有处理节点中的每一个处理节点各自连接的对象,第二操作方式表征每一个处理节点连接的各对象对应的操作类型;动态卷积神经网络基于第二动态连接方式和第二操作方式对待处理图像进行处理,生成待处理图像的处理结果。提升动态卷积神经网络的性能,同时,增强动态卷积神经网络的表达能力。
-
公开(公告)号:CN112686299A
公开(公告)日:2021-04-20
申请号:CN202011593032.9
申请日:2020-12-29
申请人: 北京迈格威科技有限公司
发明人: 张选杨
摘要: 本公开提供了一种计算机执行的神经网络模型获取方法、模型训练方法、目标分类方法、用于计算机的神经网络模型获取装置、模型训练装置、目标分类装置、电子设备和计算机可读存储介质,其中计算机执行的神经网络模型获取方法包括:获取训练集,其中,所述训练集包括多个训练数据及所述训练数据对应的分类标签;基于所述训练集训练初始状态的超网络,得到训练完成的超网络;基于所述训练完成的超网络,进行模型搜索,得到多个由候选节点组成的子网络,形成候选集;基于候选集中子网络的参数的变化程度,确定神经网络模型。能够不依赖于训练数据的分类标签质量,降低了成本,并能够得到更优质的目标分类模型的网络架构。
-
-
-
-
-
-
-
-
-