一种基于词性约束的越南语拼写纠错语料构建方法
摘要:
本发明涉及一种基于词性约束的越南语拼写纠错语料构建方法。本发明利用已有的越南语语音识别模型模拟现实场景中出现的拼写错误,构建原始的越南语拼写纠错语料;然后根据原始纠错语料中的错误分布,计算出各类词性出现错误的数量及比例;接着,通过网络爬虫收集越南语文本数据,并对其进行筛选和预处理构建更干净的越南语单语语料;最后,利用错误的词性概率指导混淆集对单语语料进行不同方式的替换操作,并通过联合训练的方式筛选出更符合实际错误分布的越南语拼写纠错语料,从而有效解决越南语拼写纠错语料匮乏的问题。
0/0