一种学习文本中事实性知识的模型训练方法

    公开(公告)号:CN118313380A

    公开(公告)日:2024-07-09

    申请号:CN202410418238.X

    申请日:2024-04-09

    Applicant: 南京大学

    Abstract: 本发明公开了一种学习文本中事实性知识的模型训练方法,包括以下步骤:步骤1,根据先验知识从原始训练文本语料数据中选择高置信度的文本信源集合,获得可靠信源文本;步骤2,抽取可靠信源文本中的事实性知识,生成文本支持数据;步骤3,结合文本支持数据和原始训练文本语料数据训练生成式语言模型。该方法能够在文本语料训练过程中提升模型对可靠文本信源的学习效率和学习效果,减少为训练文本语料进行训练排序的人工成本,减少设计持续学习方案所需的人工成本;能够在训练过程中为语言模型注入更多可靠的事实性知识,不局限知识的表述方式,提升生成式语言模型的可靠性。

Patent Agency Ranking