- 专利标题: 一种数据的筛选方法、系统、设备和存储介质
-
申请号: CN202111064035.8申请日: 2021-09-10
-
公开(公告)号: CN113780418B公开(公告)日: 2024-06-28
- 发明人: 谭风云 , 魏韬 , 王少军 , 马骏
- 申请人: 平安科技(深圳)有限公司
- 申请人地址: 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼
- 专利权人: 平安科技(深圳)有限公司
- 当前专利权人: 平安科技(深圳)有限公司
- 当前专利权人地址: 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼
- 代理机构: 广州嘉权专利商标事务所有限公司
- 代理商 廖慧贤
- 主分类号: G06F18/2415
- IPC分类号: G06F18/2415 ; G06F40/289 ; G06F40/216 ; G06F40/237 ; G06N20/00
摘要:
本发明涉及人工智能技术领域,提供一种数据的筛选方法、系统、设备和存储介质,其方法包括:训练得到第一语言模型,计算第一语言模型的第一困惑度;根据所述第一困惑度将所述第一语言模型的第一训练集分类得到至少两个语句集合;根据所述语句集合进行分词训练得到至少两个第二语言模型;将至少两个所述第二语言模型进行组合得到第三语言模型,通过所述第三语言模型对目标语料进行筛选得到目标文本数据;方法能够减小无效训练数据量,减少了训练过程中产生的噪音;方法还提高模型识别结果的通畅性和准确率,可广泛应用于人工智能技术领域。
公开/授权文献
- CN113780418A 一种数据的筛选方法、系统、设备和存储介质 公开/授权日:2021-12-10