一种基于主动学习的小样本文本标注方法及装置
摘要:
本发明公开了一种基于主动学习的小样本文本标注方法,包括:获取已标注样本集与未标注样本集;使用已标注样本集对预构建的标注模型进行训练,使用未标注样本集对训练后的标注模型进行测试;利用判断策略从测试结果中选取出至少一个不确定性文本,构建不确定性文本集;利用预先构建的主动学习框架,对步骤3获得的不确定性文本集进行数据处理与人工标注,获得代表性标注样本集;利用代表性标注样本集,对标注模型进行迭代训练,获得最终的标注模型。本发明还公开了一种基于上述方法构建的文本标注装置。本发明提供的方法通过引入判断策略与主动学习框架,提高了小样本资源的利用率,也缓解人工标注的压力,从而获得高质量的标注模型。
0/0