语言模型的训练方法和文本生成方法

发明公开

请登陆查看更多内容

专利标题： 语言模型的训练方法和文本生成方法
申请号： CN202410014277.3

申请日： 2024-01-04
公开(公告)号： CN117910478A

公开(公告)日： 2024-04-19
发明人: 李庆源 , 李亮 , 张勃 , 初祥祥 , 孙业锐
申请人： 北京三快在线科技有限公司
申请人地址： 北京市海淀区北四环西路9号2106-030
专利权人： 北京三快在线科技有限公司
当前专利权人： 北京三快在线科技有限公司
当前专利权人地址： 北京市海淀区北四环西路9号2106-030
代理机构： 北京三高永信知识产权代理有限责任公司
代理商 谢冬寒
主分类号： G06F40/30
IPC分类号： G06F40/30 ; G06F16/35 ; G06F16/33 ; G06F16/332 ; G06N3/0455 ; G06N3/084

摘要：

本申请公开了一种语言模型的训练方法和文本生成方法，属于人工智能技术领域。方法包括：获取样本文本数据和第一语言模型，第一语言模型包括多个第一解码网络，第一解码网络包括第一线性层和第一标准化层；对任一个第一解码网络中的第一线性层进行压缩，得到第二线性层；基于任一个第一解码网络对应的第二解码网络，对第一输入特征进行解码处理得到第一输出特征，第二解码网络包括第二线性层和第一标准化层；基于第一输出特征对第一标准化层进行训练得到第二标准化层；基于各个第一解码网络对应的第三解码网络，确定第二语言模型，第三解码网络包括第二线性层和第二标准化层。本申请降低了模型的参数量，且提高了训练后的语言模型的精度。

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06F	电数字数据处理（基于特定计算模型的计算机系统入G06N）
G06F40/00	处理自然语言数据（语音分析或综合，语音识别G10L）
G06F40/30	.语义分析