发明公开
- 专利标题: 一种双语平行数据一致性检测与纠正方法
-
申请号: CN201911324133.3申请日: 2019-12-20
-
公开(公告)号: CN111178089A公开(公告)日: 2020-05-19
- 发明人: 杜权 , 李自荐 , 朱靖波 , 肖桐 , 张春良
- 申请人: 沈阳雅译网络技术有限公司
- 申请人地址: 辽宁省沈阳市和平区东软电脑城C座11楼
- 专利权人: 沈阳雅译网络技术有限公司
- 当前专利权人: 沈阳雅译网络技术有限公司
- 当前专利权人地址: 辽宁省沈阳市和平区东软电脑城C座11楼
- 代理机构: 沈阳优普达知识产权代理事务所
- 代理商 李晓光
- 主分类号: G06F40/45
- IPC分类号: G06F40/45 ; G06F40/284
摘要:
本发明公开一种双语平行数据一致性检测与纠正方法,步骤为:对在基础数据集中的源语言以及目标语言单语数据集执行单词切分操作,并组成双语平行数据集;对双语平行数据集执行词对齐信息获取操作,得到数据集中句子的词汇对应关系并进行辅助判断,得出实体对应表;如果句对间序号不一致,则进行纠正;在分词后双语平行数据集的基础上对句对中的括号内容一致性进行检测;对检测到的存在括号内容不一致性进行评估,并给出修正或删除操作;获取数据中出现的单词粘连情况并进行拆分修正;得到最终经过数据处理后的双语平行数据集。本发明对句子中出现的不一致性、单词黏连等情况进行精确的识别与纠正,改善了双语数据质量,提升神经机器翻译性能。
公开/授权文献
- CN111178089B 一种双语平行数据一致性检测与纠正方法 公开/授权日:2023-03-14