发明公开
- 专利标题: 一种模型训练方法、装置及系统
-
申请号: CN202310752628.6申请日: 2023-06-25
-
公开(公告)号: CN116910205A公开(公告)日: 2023-10-20
- 发明人: 黄毅 , 欧智坚 , 冯俊兰 , 蔡予诚 , 刘红 , 金镝
- 申请人: 中国移动通信集团有限公司研究院 , 清华大学
- 申请人地址: 北京市西城区金融大街28号院1号楼11层;
- 专利权人: 中国移动通信集团有限公司研究院,清华大学
- 当前专利权人: 中国移动通信集团有限公司研究院,清华大学
- 当前专利权人地址: 北京市西城区金融大街28号院1号楼11层;
- 代理机构: 北京银龙知识产权代理有限公司
- 代理商 廖叶子
- 主分类号: G06F16/332
- IPC分类号: G06F16/332 ; G06F16/338 ; G06N3/09 ; G06N3/0895 ; G06N5/04 ; G06N3/0475
摘要:
本发明提供了模型训练方法、装置及系统,所述方法包括构建待训练的对话模型,待训练的对话模型包括生成模型、推断模型和检索模型;基于有标注的第一数据对待训练的对话模型中的推断模型和检索模型进行有监督的预训练,预训练后的推断模型用于根据第一数据中的用户输入数据和系统回复数据得到隐变量数据,预训练后的检索模型用于根据第一数据中的用户输入数据从数据库中检索得到查询结果;基于第一数据和无标注的第二数据形成的训练样本,对预训练后的对话模型进行半监督训练,得到训练好的对话模型,训练好的对话模型中生成模型用于生成对话动作数据和系统回复数据。提升了任务型对话任务中模型对于知识的结合能力,更加适用于知识型的任务。