-
公开(公告)号:CN116975253A
公开(公告)日:2023-10-31
申请号:CN202310750125.5
申请日:2023-06-25
IPC: G06F16/34 , G06T11/20 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种基于Transformer自注意力的可视分析方法及装置。本发明通过可视分析图表了解深度学习模型的训练层及注意力头的自注意力的整体分布情况及统计规律,并可通过数据链接图和矩阵图具体训练样本查看自注意力在实例中的联系情况;计算机视觉领域的注意力可视分析揭示在训练任务中像素块之间的相互关注性,通过全局归一化和局部归一化两种方式查看不同层和头之间的自注意力分布情况,获得下游任务得出结果的过程。通过本发明,研究人员利用统计分析图表,可直观地观察Transformer模型内部注意力头的值分布情况,选择感兴趣的注意力头。且通过具体的单个注意力头可视化,研究人员可以分析注意力头在具体任务中所发挥的作用,帮助研究人员改进优化模型。
-
公开(公告)号:CN116205290B
公开(公告)日:2023-09-15
申请号:CN202310499470.6
申请日:2023-05-06
Applicant: 之江实验室
IPC: G06N3/096 , G06N3/0464 , G06V10/764 , G06V10/82 , G06V10/80 , G06V10/74
Abstract: 一种基于中间特征知识融合的知识蒸馏方法和装置,将图像数据喂入教师模型和学生模型,并提取教师模型和学生模型的各阶段中间特征;构建阶段级残差连接,将学生模型某一阶段中间特征与上一阶段特征实现特征知识融合;将教师模型与融合后的学生模型分别经过全局平均池化,构建出语义类别特征向量,对该特征向量计算交叉熵损失,以最大化特征相似性;将学生模型预测输出与类别标签的分类损失与特征向量相似性损失加权求和,训练学生模型。还包括一种基于中间特征知识融合的知识蒸馏系统。本发明相较于现有技术,本发明充分融合教师模型的中间特征知识,知识蒸馏性能更优。
-
公开(公告)号:CN116304704A
公开(公告)日:2023-06-23
申请号:CN202310275618.8
申请日:2023-03-14
Applicant: 之江实验室
IPC: G06F18/214 , G06N3/04 , G06N3/08
Abstract: 本说明书公开了一种模型训练方法、装置、存储介质及电子设备,本说明书实施例针对确定的算子集合中的每个基础算子,确定与该基础算子具有第一阶数关系的目标算子,若算子集合不包含目标算子,或者目标算子无法通过算子集合中的基础算子拼接实现,则将目标算子保存于算子集合中,将目标算子重新确定为基础算子,继续确定出与重新确定为基础算子具有第一阶数关系的目标算子,直到确定出目标算子已保存在算子集合中为止。这样构建算子集合的方法,可以避免算子集合中出现重复的算子,从而避免将算子集合中的算子部署到深度学习框架中会出现算子冗余问题。
-
公开(公告)号:CN119127149B
公开(公告)日:2025-04-22
申请号:CN202411605822.2
申请日:2024-11-12
Applicant: 之江实验室
Abstract: 本申请涉及一种设备后端的深度学习框架适配方法、装置以及设备。所述方法包括:获取设备后端的预配置信息;根据所述预配置信息,生成所述设备后端的初始框架和集成模版;基于所述初始框架和集成模板,构建所述设备后端的适配代码模板;对所述适配代码模板进行自适应代码配置,得到所述设备后端适配的深度学习框架。采用本方法能够屏蔽了不同框架、版本和设备类型的差异,使设备能够快速、高效的完成深度学习框架适配和维护,简化和规范深度学习框架与设备后端的适配过程。
-
公开(公告)号:CN116205290A
公开(公告)日:2023-06-02
申请号:CN202310499470.6
申请日:2023-05-06
Applicant: 之江实验室
IPC: G06N3/096 , G06N3/0464 , G06V10/764 , G06V10/82 , G06V10/80 , G06V10/74
Abstract: 一种基于中间特征知识融合的知识蒸馏方法和装置,将图像数据喂入教师模型和学生模型,并提取教师模型和学生模型的各阶段中间特征;构建阶段级残差连接,将学生模型某一阶段中间特征与上一阶段特征实现特征知识融合;将教师模型与融合后的学生模型分别经过全局平均池化,构建出语义类别特征向量,对该特征向量计算交叉熵损失,以最大化特征相似性;将学生模型预测输出与类别标签的分类损失与特征向量相似性损失加权求和,训练学生模型。还包括一种基于中间特征知识融合的知识蒸馏系统。本发明相较于现有技术,本发明充分融合教师模型的中间特征知识,知识蒸馏性能更优。
-
公开(公告)号:CN119294454B
公开(公告)日:2025-03-25
申请号:CN202411824198.5
申请日:2024-12-12
Applicant: 之江实验室
Abstract: 本申请涉及一种人工智能加速卡异构集群适配方法、系统和存储介质,其中,该人工智能加速卡异构集群适配方法包括:获取根据训练框架提供的私有关键字注册的统一标准化适配模块;训练框架为异构集群模型的训练框架;在统一标准化适配模块中,通过工厂模式接入各异构加速卡的硬件层软件栈;通过插件形式扩展训练框架的计算任务分发机制,以使训练框架自主寻优目标异构加速卡;根据统一标准化适配模块所在的运行环境进行条件编译,以接入目标异构加速卡并用于训练框架自主寻优;根据统一测试模块验证统一标准化适配模块与各目标异构加速卡的适配状态,解决了人工智能加速卡异构集群适配开发成本大和无法自主寻优的问题。
-
公开(公告)号:CN119127149A
公开(公告)日:2024-12-13
申请号:CN202411605822.2
申请日:2024-11-12
Applicant: 之江实验室
Abstract: 本申请涉及一种设备后端的深度学习框架适配方法、装置以及设备。所述方法包括:获取设备后端的预配置信息;根据所述预配置信息,生成所述设备后端的初始框架和集成模版;基于所述初始框架和集成模板,构建所述设备后端的适配代码模板;对所述适配代码模板进行自适应代码配置,得到所述设备后端适配的深度学习框架。采用本方法能够屏蔽了不同框架、版本和设备类型的差异,使设备能够快速、高效的完成深度学习框架适配和维护,简化和规范深度学习框架与设备后端的适配过程。
-
公开(公告)号:CN116091895B
公开(公告)日:2023-07-11
申请号:CN202310361997.2
申请日:2023-04-04
Applicant: 之江实验室
IPC: G06V10/82 , G06V10/80 , G06V10/764 , G06N3/0464 , G06N3/084
Abstract: 本说明书公开了一种面向多任务知识融合的模型训练方法及装置。首先,获取图像数据。其次,根据待训练的目标识别模型中的特征块数量,对预先训练的各识别模型进行恒等变换,得到各等量特征块识别模型。然后,针对目标识别模型中包含的每个特征块,从各等量特征块识别模型中确定出与该特征块相对应的特征块,作为目标特征块,将各目标特征块输出的图像特征进行拼接,得到该特征块对应的拼接后图像特征,并将该特征块输出的图像特征与该特征块对应的拼接后图像特征之间的偏差,作为该特征块对应的偏差。最后,以最小化各特征块对应的偏差为优化目标,对目标识别模型进行训练。本方法可以使得目标识别模型能够同时解决预先训练的各识别模型的任务。
-
公开(公告)号:CN119294454A
公开(公告)日:2025-01-10
申请号:CN202411824198.5
申请日:2024-12-12
Applicant: 之江实验室
Abstract: 本申请涉及一种人工智能加速卡异构集群适配方法、系统和存储介质,其中,该人工智能加速卡异构集群适配方法包括:获取根据训练框架提供的私有关键字注册的统一标准化适配模块;训练框架为异构集群模型的训练框架;在统一标准化适配模块中,通过工厂模式接入各异构加速卡的硬件层软件栈;通过插件形式扩展训练框架的计算任务分发机制,以使训练框架自主寻优目标异构加速卡;根据统一标准化适配模块所在的运行环境进行条件编译,以接入目标异构加速卡并用于训练框架自主寻优;根据统一测试模块验证统一标准化适配模块与各目标异构加速卡的适配状态,解决了人工智能加速卡异构集群适配开发成本大和无法自主寻优的问题。
-
公开(公告)号:CN116091895A
公开(公告)日:2023-05-09
申请号:CN202310361997.2
申请日:2023-04-04
Applicant: 之江实验室
IPC: G06V10/82 , G06V10/80 , G06V10/764 , G06N3/0464 , G06N3/084
Abstract: 本说明书公开了一种面向多任务知识融合的模型训练方法及装置。首先,获取图像数据。其次,根据待训练的目标识别模型中的特征块数量,对预先训练的各识别模型进行恒等变换,得到各等量特征块识别模型。然后,针对目标识别模型中包含的每个特征块,从各等量特征块识别模型中确定出与该特征块相对应的特征块,作为目标特征块,将各目标特征块输出的图像特征进行拼接,得到该特征块对应的拼接后图像特征,并将该特征块输出的图像特征与该特征块对应的拼接后图像特征之间的偏差,作为该特征块对应的偏差。最后,以最小化各特征块对应的偏差为优化目标,对目标识别模型进行训练。本方法可以使得目标识别模型能够同时解决预先训练的各识别模型的任务。
-
-
-
-
-
-
-
-
-