一种文本标注噪声检测方法、装置、存储介质及电子设备
摘要:
本发明公开了一种文本标注噪声检测方法、装置、存储介质及电子设备,该方法包括:获取待训练模型的样本数据集;根据样本数据集采用K折交叉验证得到模型预测结果;基于模型预测结果的输出计算样本数据集中每个数据的信任度;根据信任度和信任度阈值的关系确定样本数据集的噪声文本。通过实施本发明,提出了信任度度量指标,通过对数据样本集中的数据进行信任度评估,根据阈值筛选出噪声文本,可以用于工程上的数据标注纠错。并且,由于该检测方法的检测过程与神经模型无关,无需对模型做任何改动;因此,该检测方法与概率估计和鲁棒性的方法相比,集成性强,简化了繁琐的工程步骤;能够提供灵活的信任度配置,检测过程及效果更加可控。
0/0