- 专利标题: 一种文本标注噪声检测方法、装置、存储介质及电子设备
-
申请号: CN202110587910.4申请日: 2021-05-27
-
公开(公告)号: CN113343695B公开(公告)日: 2022-02-01
- 发明人: 马星扬 , 夏妍
- 申请人: 镁佳(北京)科技有限公司
- 申请人地址: 北京市朝阳区创远路34号院6号楼11层1101室
- 专利权人: 镁佳(北京)科技有限公司
- 当前专利权人: 镁佳(北京)科技有限公司
- 当前专利权人地址: 北京市朝阳区创远路34号院6号楼11层1101室
- 代理机构: 北京三聚阳光知识产权代理有限公司
- 代理商 李静玉
- 主分类号: G06F40/295
- IPC分类号: G06F40/295 ; G06F40/216 ; G06F40/30 ; G06N20/00
摘要:
本发明公开了一种文本标注噪声检测方法、装置、存储介质及电子设备,该方法包括:获取待训练模型的样本数据集;根据样本数据集采用K折交叉验证得到模型预测结果;基于模型预测结果的输出计算样本数据集中每个数据的信任度;根据信任度和信任度阈值的关系确定样本数据集的噪声文本。通过实施本发明,提出了信任度度量指标,通过对数据样本集中的数据进行信任度评估,根据阈值筛选出噪声文本,可以用于工程上的数据标注纠错。并且,由于该检测方法的检测过程与神经模型无关,无需对模型做任何改动;因此,该检测方法与概率估计和鲁棒性的方法相比,集成性强,简化了繁琐的工程步骤;能够提供灵活的信任度配置,检测过程及效果更加可控。
公开/授权文献
- CN113343695A 一种文本标注噪声检测方法、装置、存储介质及电子设备 公开/授权日:2021-09-03