发明公开
- 专利标题: 一种基于主动学习的小样本文本标注方法及装置
-
申请号: CN202210703906.4申请日: 2022-06-21
-
公开(公告)号: CN115129872A公开(公告)日: 2022-09-30
- 发明人: 潘晓华 , 沈诗婧 , 张志伟 , 尹建伟
- 申请人: 浙江大学 , 浙江大学滨江研究院
- 申请人地址: 浙江省杭州市西湖区余杭塘路866号;
- 专利权人: 浙江大学,浙江大学滨江研究院
- 当前专利权人: 浙江大学,浙江大学滨江研究院
- 当前专利权人地址: 浙江省杭州市西湖区余杭塘路866号;
- 代理机构: 杭州天勤知识产权代理有限公司
- 代理商 高燕
- 主分类号: G06F16/35
- IPC分类号: G06F16/35 ; G06F40/279 ; G06F40/30 ; G06N3/04 ; G06N3/08
摘要:
本发明公开了一种基于主动学习的小样本文本标注方法,包括:获取已标注样本集与未标注样本集;使用已标注样本集对预构建的标注模型进行训练,使用未标注样本集对训练后的标注模型进行测试;利用判断策略从测试结果中选取出至少一个不确定性文本,构建不确定性文本集;利用预先构建的主动学习框架,对步骤3获得的不确定性文本集进行数据处理与人工标注,获得代表性标注样本集;利用代表性标注样本集,对标注模型进行迭代训练,获得最终的标注模型。本发明还公开了一种基于上述方法构建的文本标注装置。本发明提供的方法通过引入判断策略与主动学习框架,提高了小样本资源的利用率,也缓解人工标注的压力,从而获得高质量的标注模型。