语言模型的训练方法、NLP任务处理方法及装置

    公开(公告)号:CN113420123B

    公开(公告)日:2025-01-14

    申请号:CN202110705729.9

    申请日:2021-06-24

    Abstract: 本申请提供了一种语言模型的训练方法、NLP任务处理方法及装置,包括:获取训练样本集;训练样本集包括新任务的第一任务标签、新任务的多个第一训练文本和每个第一训练文本的第一文本标签、至少一个旧任务中每个旧任务的第二任务标签;复制语言模型得到教师语言模型,将语言模型作为学生语言模型;将第二任务标签输入至教师语言模型中,生成旧任务对应的多个第二训练文本和每个第二训练文本的第二文本标签;将第一任务标签、第二任务标签、第一训练文本和第二训练文本输入至学生语言模型中,生成第一预测文本、第一预测结果、第二预测文本和第二预测结果,对学生语言模型进行训练。根据本申请实施例,能够解决相关技术中存储资源占用大的问题。

    语言模型的训练方法、NLP任务处理方法及装置

    公开(公告)号:CN113420123A

    公开(公告)日:2021-09-21

    申请号:CN202110705729.9

    申请日:2021-06-24

    Abstract: 本申请提供了一种语言模型的训练方法、NLP任务处理方法及装置,包括:获取训练样本集;训练样本集包括新任务的第一任务标签、新任务的多个第一训练文本和每个第一训练文本的第一文本标签、至少一个旧任务中每个旧任务的第二任务标签;复制语言模型得到教师语言模型,将语言模型作为学生语言模型;将第二任务标签输入至教师语言模型中,生成旧任务对应的多个第二训练文本和每个第二训练文本的第二文本标签;将第一任务标签、第二任务标签、第一训练文本和第二训练文本输入至学生语言模型中,生成第一预测文本、第一预测结果、第二预测文本和第二预测结果,对学生语言模型进行训练。根据本申请实施例,能够解决相关技术中存储资源占用大的问题。

    一种基于无网格最大互信息准则的神经网络训练加速方法

    公开(公告)号:CN108629412A

    公开(公告)日:2018-10-09

    申请号:CN201710152727.5

    申请日:2017-03-15

    Abstract: 本发明提供了一种基于无网格最大互信息准则的神经网络训练加速方法,本发明的方法通过对无网格最大互信息准则(LFMMI准则)下的神经网络CE准则输出端进行低秩转换,将原有的高秩矩阵模块拆分为两个低秩矩阵模块,拆分后的两个低秩矩阵模块内的子阵相乘最后的维度和之前的全连接矩阵一致,在保证神经网络CE准则输出端总体维度不变的情况下,利用改造后的低维度子阵进行神经网络训练,从而简化了运算结构,使神经网络的输出层前向计算和后向计算占据训练时间比例明显减小,加快了神经网络的训练。

Patent Agency Ranking