发明公开
- 专利标题: 语言模型的训练方法和文本生成方法
-
申请号: CN202410014277.3申请日: 2024-01-04
-
公开(公告)号: CN117910478A公开(公告)日: 2024-04-19
- 发明人: 李庆源 , 李亮 , 张勃 , 初祥祥 , 孙业锐
- 申请人: 北京三快在线科技有限公司
- 申请人地址: 北京市海淀区北四环西路9号2106-030
- 专利权人: 北京三快在线科技有限公司
- 当前专利权人: 北京三快在线科技有限公司
- 当前专利权人地址: 北京市海淀区北四环西路9号2106-030
- 代理机构: 北京三高永信知识产权代理有限责任公司
- 代理商 谢冬寒
- 主分类号: G06F40/30
- IPC分类号: G06F40/30 ; G06F16/35 ; G06F16/33 ; G06F16/332 ; G06N3/0455 ; G06N3/084
摘要:
本申请公开了一种语言模型的训练方法和文本生成方法,属于人工智能技术领域。方法包括:获取样本文本数据和第一语言模型,第一语言模型包括多个第一解码网络,第一解码网络包括第一线性层和第一标准化层;对任一个第一解码网络中的第一线性层进行压缩,得到第二线性层;基于任一个第一解码网络对应的第二解码网络,对第一输入特征进行解码处理得到第一输出特征,第二解码网络包括第二线性层和第一标准化层;基于第一输出特征对第一标准化层进行训练得到第二标准化层;基于各个第一解码网络对应的第三解码网络,确定第二语言模型,第三解码网络包括第二线性层和第二标准化层。本申请降低了模型的参数量,且提高了训练后的语言模型的精度。