- 专利标题: 一种样本选择方法、样本选择系统、识别方法和识别系统
-
申请号: CN202311609958.6申请日: 2023-11-29
-
公开(公告)号: CN117634489B公开(公告)日: 2024-09-24
- 发明人: 陆瑾 , 刘志伟 , 王晓伟 , 杨涛 , 魏申平 , 薛斌
- 申请人: 中国电子投资控股有限公司
- 申请人地址: 北京市大兴区北京经济技术开发区景园北街2号57幢18层1801(北京自贸试验区高端产业片区亦庄组团)
- 专利权人: 中国电子投资控股有限公司
- 当前专利权人: 中国电子投资控股有限公司
- 当前专利权人地址: 北京市大兴区北京经济技术开发区景园北街2号57幢18层1801(北京自贸试验区高端产业片区亦庄组团)
- 代理机构: 北京卓岚智财知识产权代理有限公司
- 代理商 蔡永波
- 主分类号: G06F40/295
- IPC分类号: G06F40/295 ; G06F40/216 ; G06F18/214 ; G06F18/2415 ; G06N3/0442 ; G06N3/084
摘要:
本发明实施例提供一种样本选择方法、样本选择系统、识别方法和识别系统,涉及实体识别领域,该方法包括:将未标注样本输入初步实体识别模型对所述未标注样本内的实体进行推理识别,输出各未标注样本对应的推理结果;针对每条所述未标注样本对应的推理结果,基于概率分布差异的采样模型确定所述推理结果中的各类型实体的概率分布差异值;将所述概率分布差异值不低于阈值的所述未标注样本作为补充样本。采用基于概率分布差异的采样模型比较未标注样本与标注样本的实体类别的概率分布差异,概率分布差异值大的未标注样本作为补充样本再次训练实体识别模型的样本,最终的实体识别模型能够识别与补充样本中的实体类型相同的实体,提高了召回率。
公开/授权文献
- CN117634489A 一种样本选择方法、样本选择系统、识别方法和识别系统 公开/授权日:2024-03-01