一种模型训练方法和解决特定领域问题的方法

    公开(公告)号:CN117852654A

    公开(公告)日:2024-04-09

    申请号:CN202410166430.4

    申请日:2024-02-05

    申请人: 清华大学

    摘要: 本申请涉及一种模型训练方法和解决特定领域问题的方法,其中,模型训练方法包括:获取第一样本数据;第一样本数据包括N个第一问题文本和N个第一答案文本;根据第一样本数据和第一大语言模型,得到N个第一知识文本;根据第一样本数据中的至少部分数据和N个第一知识文本中的至少部分数据,对第一中间语言模型继续进行训练,得到第一语言模型;本申请提供的模型训练方法通过预训练一个应用于特定领域的小型语言模型,并利用大语言模型生成伪数据对该小型语言模型进行调整,可以得到能够生成针对特定领域问题的相关知识的第一语言模型,第一语言模型可以帮助大语言模型解决特定领域问题,提高大语言模型解决特定领域问题的能力。

    一种模型训练方法和解决特定领域问题的方法

    公开(公告)号:CN117852654B

    公开(公告)日:2024-09-03

    申请号:CN202410166430.4

    申请日:2024-02-05

    申请人: 清华大学

    摘要: 本申请涉及一种模型训练方法和解决特定领域问题的方法,其中,模型训练方法包括:获取第一样本数据;第一样本数据包括N个第一问题文本和N个第一答案文本;根据第一样本数据和第一大语言模型,得到N个第一知识文本;根据第一样本数据中的至少部分数据和N个第一知识文本中的至少部分数据,对第一中间语言模型继续进行训练,得到第一语言模型;本申请提供的模型训练方法通过预训练一个应用于特定领域的小型语言模型,并利用大语言模型生成伪数据对该小型语言模型进行调整,可以得到能够生成针对特定领域问题的相关知识的第一语言模型,第一语言模型可以帮助大语言模型解决特定领域问题,提高大语言模型解决特定领域问题的能力。

    一种预训练语言模型的训练方法及装置

    公开(公告)号:CN116561574A

    公开(公告)日:2023-08-08

    申请号:CN202310431071.6

    申请日:2023-04-20

    申请人: 清华大学

    摘要: 本申请涉及一种预训练语言模型的训练方法及装置,其中,预训练语言模型包括编码器及至少一个解码器,该方法包括:获取法律文书样本;法律文书样本包括表示基本事实的第一文本;对第一文本中的至少一个字符进行替换处理,得到第一替换文本;根据标志符和第一替换文本对编码器进行训练,并根据基本事实向量和第二文本对至少一个解码器进行训练;其中,基本事实向量为编码器输出的表征第一文本语义的向量,第二文本为法律文书样本中除所述第一文本以外的文本;本申请提供的预训练语言模型的训练方法可以捕获法律文书不同结构之间的联系,增强预训练语言模型对关键法律要素的理解,提升预训练语言模型在法律领域的检索效果。