发明公开
- 专利标题: 一种基于词性约束的越南语拼写纠错语料构建方法
-
申请号: CN202410159473.X申请日: 2024-02-04
-
公开(公告)号: CN117973370A公开(公告)日: 2024-05-03
- 发明人: 李英 , 陈鑫 , 余正涛
- 申请人: 昆明理工大学
- 申请人地址: 云南省昆明市呈贡区景明南路727号
- 专利权人: 昆明理工大学
- 当前专利权人: 昆明理工大学
- 当前专利权人地址: 云南省昆明市呈贡区景明南路727号
- 代理机构: 昆明隆合知识产权代理事务所
- 代理商 何娇
- 主分类号: G06F40/232
- IPC分类号: G06F40/232 ; G06F40/237 ; G06F40/289 ; G06F18/10 ; G06F18/214
摘要:
本发明涉及一种基于词性约束的越南语拼写纠错语料构建方法。本发明利用已有的越南语语音识别模型模拟现实场景中出现的拼写错误,构建原始的越南语拼写纠错语料;然后根据原始纠错语料中的错误分布,计算出各类词性出现错误的数量及比例;接着,通过网络爬虫收集越南语文本数据,并对其进行筛选和预处理构建更干净的越南语单语语料;最后,利用错误的词性概率指导混淆集对单语语料进行不同方式的替换操作,并通过联合训练的方式筛选出更符合实际错误分布的越南语拼写纠错语料,从而有效解决越南语拼写纠错语料匮乏的问题。