发明公开
- 专利标题: 一种生成式大语言模型的预训练方法和装置
-
申请号: CN202411008948.1申请日: 2024-07-26
-
公开(公告)号: CN118551750A公开(公告)日: 2024-08-27
- 发明人: 蔡恒兴 , 高志锋 , 张林峰 , 孙伟杰
- 申请人: 北京深势科技有限公司
- 申请人地址: 北京市海淀区海淀大街3号1幢11层1101
- 专利权人: 北京深势科技有限公司
- 当前专利权人: 北京深势科技有限公司
- 当前专利权人地址: 北京市海淀区海淀大街3号1幢11层1101
- 代理机构: 北京万商睿博知识产权代理有限公司
- 代理商 高梅
- 主分类号: G06F40/20
- IPC分类号: G06F40/20 ; G06N3/0455 ; G06N3/084 ; G06N3/088 ; G06N5/01
摘要:
本发明实施例涉及一种生成式大语言模型的预训练方法和装置,所述方法包括:构建初始模型;构建初始数据集;对初始数据集预处理;初始化模型词汇表;对预处理数据集进行数据批次划分和排序;按反向预测方向根据模型词汇表和批次数据集序列对初始模型进行预训练得到反向模型;按正向预测方向根据模型词汇表、批次数据集序列和反向模型对初始模型进行预训练得到正向模型;评测正向模型;评测合格时将正向模型作为预训练结果输出。通过本发明可以降低生成式大语言模型的本地化发展难度、加快本地化发展应用进程。
公开/授权文献
- CN118551750B 一种生成式大语言模型的预训练方法和装置 公开/授权日:2024-10-29