一种生成式大语言模型的预训练方法和装置

发明公开

请登陆查看更多内容

专利标题： 一种生成式大语言模型的预训练方法和装置
申请号： CN202411008948.1

申请日： 2024-07-26
公开(公告)号： CN118551750A

公开(公告)日： 2024-08-27
发明人: 蔡恒兴 , 高志锋 , 张林峰 , 孙伟杰
申请人： 北京深势科技有限公司
申请人地址： 北京市海淀区海淀大街3号1幢11层1101
专利权人： 北京深势科技有限公司
当前专利权人： 北京深势科技有限公司
当前专利权人地址： 北京市海淀区海淀大街3号1幢11层1101
代理机构： 北京万商睿博知识产权代理有限公司
代理商 高梅
主分类号： G06F40/20
IPC分类号： G06F40/20 ; G06N3/0455 ; G06N3/084 ; G06N3/088 ; G06N5/01

摘要：

本发明实施例涉及一种生成式大语言模型的预训练方法和装置，所述方法包括：构建初始模型；构建初始数据集；对初始数据集预处理；初始化模型词汇表；对预处理数据集进行数据批次划分和排序；按反向预测方向根据模型词汇表和批次数据集序列对初始模型进行预训练得到反向模型；按正向预测方向根据模型词汇表、批次数据集序列和反向模型对初始模型进行预训练得到正向模型；评测正向模型；评测合格时将正向模型作为预训练结果输出。通过本发明可以降低生成式大语言模型的本地化发展难度、加快本地化发展应用进程。

公开/授权文献

CN118551750B 一种生成式大语言模型的预训练方法和装置公开/授权日：2024-10-29

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06F	电数字数据处理（基于特定计算模型的计算机系统入G06N）
G06F40/00	处理自然语言数据（语音分析或综合，语音识别G10L）
G06F40/20	.自然语言分析（自然语言的语义分析入G06F40/30）