一种双语平行数据一致性检测与纠正方法
摘要:
本发明公开一种双语平行数据一致性检测与纠正方法,步骤为:对在基础数据集中的源语言以及目标语言单语数据集执行单词切分操作,并组成双语平行数据集;对双语平行数据集执行词对齐信息获取操作,得到数据集中句子的词汇对应关系并进行辅助判断,得出实体对应表;如果句对间序号不一致,则进行纠正;在分词后双语平行数据集的基础上对句对中的括号内容一致性进行检测;对检测到的存在括号内容不一致性进行评估,并给出修正或删除操作;获取数据中出现的单词粘连情况并进行拆分修正;得到最终经过数据处理后的双语平行数据集。本发明对句子中出现的不一致性、单词黏连等情况进行精确的识别与纠正,改善了双语数据质量,提升神经机器翻译性能。
公开/授权文献
0/0