-
公开(公告)号:CN118132969A
公开(公告)日:2024-06-04
申请号:CN202410340959.3
申请日:2024-03-25
申请人: 北京智谱华章科技有限公司
IPC分类号: G06F18/21 , G06F18/214 , G06F18/2431 , G06F40/177
摘要: 本发明涉及一种表格数据处理大语言模型的训练方法、装置、设备及介质,用以解决现有技术中的大语言模型对于表格数据处理的准确率低的问题,方法包括:获取表格问答数据,表格问答数据包括表格、问题和答案;将表格和问题输入智能问答模型中,以生成答案的拓展答案,基于表格、问题和拓展答案形成拓展训练数据;基于表格生成新的问题,将表格和新的问题输入智能问答模型中,基于不同的方式生成第一答案和第二答案;比对第一答案和第二答案以进行交叉验证,若通过交叉验证则基于表格、新的问题以及第一答案和/或第二答案形成生成训练数据;根据生成训练数据和拓展训练数据形成混合训练集对预训练模型进行训练,以获得表格数据处理大语言模型。