发明公开
- 专利标题: 样本数据标注方法、装置、计算机设备及存储介质
- 专利标题(英): Sample data labeling method and device, computer equipment and storage medium
-
申请号: CN201910561309.0申请日: 2019-06-26
-
公开(公告)号: CN110378396A公开(公告)日: 2019-10-25
- 发明人: 尤晓赫 , 徐彬彬 , 李曙鹏 , 华蔚颖 , 施恩 , 谢永康
- 申请人: 北京百度网讯科技有限公司
- 申请人地址: 北京市海淀区上地十街10号百度大厦2层
- 专利权人: 北京百度网讯科技有限公司
- 当前专利权人: 北京百度网讯科技有限公司
- 当前专利权人地址: 北京市海淀区上地十街10号百度大厦2层
- 代理机构: 北京鸿德海业知识产权代理事务所
- 代理商 田宏宾
- 主分类号: G06K9/62
- IPC分类号: G06K9/62
摘要:
本发明公开了样本数据标注方法、装置、计算机设备及存储介质,其中方法可包括:获取初始的标注模型;利用用户从上传的样本数据中选出并进行标注的M个样本数据组成训练数据集,M为大于一的正整数;进行模型优化处理,包括:利用训练数据集对标注模型进行finetuning,得到优化后的标注模型;若能够从未标注的样本数据中选出符合预定要求的样本数据,则将选出的样本数据经用户标注后合并到训练数据集中,并重复所述模型优化处理,否则,利用最新得到的标注模型对未标注的样本数据进行标注。应用本发明所述方案,可节省人力成本,提升处理效率,并提高标注结果的准确性等。