发明授权
- 专利标题: 语料文本的处理方法、装置及电子设备
-
申请号: CN202011009875.X申请日: 2020-09-23
-
公开(公告)号: CN112148877B公开(公告)日: 2023-07-04
- 发明人: 浦嘉澍 , 毛晓曦 , 范长杰 , 胡志鹏
- 申请人: 网易(杭州)网络有限公司
- 申请人地址: 浙江省杭州市滨江区长河街道网商路599号4幢7层
- 专利权人: 网易(杭州)网络有限公司
- 当前专利权人: 网易(杭州)网络有限公司
- 当前专利权人地址: 浙江省杭州市滨江区长河街道网商路599号4幢7层
- 代理机构: 北京超成律师事务所
- 代理商 张芮
- 主分类号: G06F16/35
- IPC分类号: G06F16/35 ; G06F16/36 ; G06F18/2411 ; G06F18/21
摘要:
本发明提供了语料文本的处理方法、装置及电子设备。其中,该方法包括:将待处理的语料文本集合输入语言模型,得到语料文本的特征向量;基于聚类算法和语料文本的特征向量,对语料文本集合进行聚类处理,得到语料分类信息;修改目标语料文本标注的意图类别标注信息,得到目标语料文本;并将目标语料文本添加至原始训练样本中,以训练语言模型,得到优化的语言模型。本发明中,通过语言模型和聚类算法对语料文本集合进行聚类处理,并修正语料分类信息中目标语料信息标注的意图类别标注信息,以训练语言模型,使语言模型在使用过程中能够迭代优化,提升了语言模型和聚类算法的泛化能力,以及语料文本对应意图类别标注信息的标注准确度。
公开/授权文献
- CN112148877A 语料文本的处理方法、装置及电子设备 公开/授权日:2020-12-29