Invention Publication
- Patent Title: 语义大模型增量预训练方法及相关装置
-
Application No.: CN202411108350.XApplication Date: 2024-08-13
-
Publication No.: CN119106664APublication Date: 2024-12-10
- Inventor: 刘同阳 , 郑和奇 , 胡宇巍 , 张赛 , 王志皓 , 张强 , 梁潇 , 石聪聪 , 陈晰 , 周飞 , 高昆仑
- Applicant: 国网智能电网研究院有限公司
- Applicant Address: 北京市昌平区未来科技城滨河大道18号
- Assignee: 国网智能电网研究院有限公司
- Current Assignee: 国网智能电网研究院有限公司
- Current Assignee Address: 北京市昌平区未来科技城滨河大道18号
- Agency: 北京中巡通大知识产权代理有限公司
- Agent 孟大帅
- Main IPC: G06F40/16
- IPC: G06F40/16 ; G06F40/30 ; G06N3/0475 ; G06N3/045 ; G06N3/094

Abstract:
本发明属于人工智能领域,公开了一种语义大模型增量预训练方法及相关装置,包括:获取专业领域增量训练样本、语义大模型和语义大模型预训练样本;将语义大模型作为生成器和判别器构建对抗生成网络,并基于专业领域增量训练样本和语义大模型预训练样本训练对抗生成网络;获取训练后的对抗生成网络中的生成器,得到专业领域增量预训练大模型。可有效避免语义大模型在拟合专业领域增量训练样本时发生灾难性遗忘的风险,也有效避免了模型崩溃问题。可以在专业领域的数据基础上使用较小的算力、样本和时间成本完成增量训练,可借助语义大模型本身的理解能力,更好地学习和适应专业领域的专业术语、知识结构和业务逻辑,提高在专业领域的应用效果。
Information query