发明公开
- 专利标题: 训练文本获取方法、装置、设备和存储介质
-
申请号: CN202410656447.8申请日: 2024-05-24
-
公开(公告)号: CN118585749A公开(公告)日: 2024-09-03
- 发明人: 王士进 , 张轶鑫 , 伍大勇 , 王宝鑫 , 刘聪 , 胡国平
- 申请人: 科大讯飞(北京)有限公司 , 科大讯飞股份有限公司 , 河北省讯飞人工智能研究院
- 申请人地址: 北京市海淀区西北旺东路10号院东区5号楼3层311-2; ;
- 专利权人: 科大讯飞(北京)有限公司,科大讯飞股份有限公司,河北省讯飞人工智能研究院
- 当前专利权人: 科大讯飞(北京)有限公司,科大讯飞股份有限公司,河北省讯飞人工智能研究院
- 当前专利权人地址: 北京市海淀区西北旺东路10号院东区5号楼3层311-2; ;
- 代理机构: 深圳市威世博知识产权代理事务所
- 代理商 何倚雯
- 主分类号: G06F18/10
- IPC分类号: G06F18/10 ; G06F18/214 ; G06F40/232
摘要:
本申请公开了一种训练文本获取方法、装置、设备和存储介质,该方法包括:获取用第一语种表达的第一文本集,并确定所述第一文本集中各第一文本所属的目标类别;利用各所述目标类别对应的清洗方式清洗属于各所述目标类别的第一文本,得到用所述第一语种表达的目标文本集,所述目标文本集中的目标文本用于作为目标文本纠错模型的训练文本。通过上述方式,本申请能够提高训练文本的质量,进而能够缩短目标文本纠错模型的训练时间。