一种基于相似性的模块减枝方法

    公开(公告)号:CN114154589B

    公开(公告)日:2023-09-29

    申请号:CN202111515202.6

    申请日:2021-12-13

    IPC分类号: G06F18/22 G06N3/082

    摘要: 本发明公开了一种基于相似性的模块减枝方法,属于人工智能模型压缩领域,包括:S1,将M个样本输入神经网络模型中,并分别提取神经网络模型中N个模块的输出特征;S2,找到神经网络模型中串联的N个模块的最后一个模块的输出特征,分别计算输出特征与各个模块的输出特征的余弦相似度,得到M*N个余弦相似度;S3,计算#imgabs0#个样本的平均余弦相似度;S4,将模块的相似度换算为贡献度,根据贡献度高低对模块进行排序;S5,裁剪掉贡献度低的模块,对神经网络模型进行调优训练来恢复精度。本发明在模块层面上进行剪枝,粒度更大,有效减少网络参数,且模块重要性求得的方法非常简单,易于实际部署中快速对网络进行裁剪。

    一种基于集束搜索的大语言模型训练方法及装置

    公开(公告)号:CN117668164A

    公开(公告)日:2024-03-08

    申请号:CN202311768805.6

    申请日:2023-12-20

    发明人: 周仁爽 李杰 杨瀚

    摘要: 本申请公开了一种基于集束搜索的大语言模型训练方法及装置,在语料库中收集原始训练数据集对大语言模型进行预训练,将垂直领域知识输入预训练后的大语言模型得到垂直领域相关指令和对应的回答数据,将其作为正样本,加入其余回答数据作为负样本,根据过滤模型对正样本和负样本进行对比学习以优化过滤模型,根据优化后的过滤模型对正样本和负样本进行过滤,使用过滤后的正样本和负样本对大语言模型进行训练,重复对比学习步骤和训练步骤直至大语言模型的达到预期性能。通过自蒸馏方式过滤生成数据来增强数据的整体质量,训练出效果优异的大语言模型,来提升特定领域大语言模型生成文本的质量以及对特定领域知识的理解能力。

    一种老片退化数据的生成方法及设备

    公开(公告)号:CN115965546A

    公开(公告)日:2023-04-14

    申请号:CN202211660433.0

    申请日:2022-12-23

    IPC分类号: G06T5/00 G06N3/0475 G06N3/094

    摘要: 本发明公开了一种老片退化数据的生成方法及设备,属于深度学习数据集生成领域,包括步骤:定义种类多样丰富的退化核集合,将退化核的顺序以及数量任意更改;使用一个训练好的退化模型对已有的退化核进行随机动态调整,生成的新的退化核;使用动态调整后的退化核作用于现有的高清素材,生成退化后对应的老片素材。本发明通过一个高度随机性的流程,基于已有的高清素材,大量高效的生成随机退化后的老片素材,为老片修复的深度神经网络训练生成了高质量的数据集,极大减少了人工标注的成本,提升了退化空间的大小,增强了深度神经网络模型的泛化能力。

    一种基于相似性的模块减枝方法
    6.
    发明公开

    公开(公告)号:CN114154589A

    公开(公告)日:2022-03-08

    申请号:CN202111515202.6

    申请日:2021-12-13

    IPC分类号: G06K9/62 G06N3/08

    摘要: 本发明公开了一种基于相似性的模块减枝方法,属于人工智能模型压缩领域,包括:S1,将M个样本输入神经网络模型中,并分别提取神经网络模型中N个模块的输出特征;S2,找到神经网络模型中串联的N个模块的最后一个模块的输出特征,分别计算输出特征与各个模块的输出特征的余弦相似度,得到M*N个余弦相似度;S3,计算个样本的平均余弦相似度;S4,将模块的相似度换算为贡献度,根据贡献度高低对模块进行排序;S5,裁剪掉贡献度低的模块,对神经网络模型进行调优训练来恢复精度。本发明在模块层面上进行剪枝,粒度更大,有效减少网络参数,且模块重要性求得的方法非常简单,易于实际部署中快速对网络进行裁剪。