语音识别文本纠错方法及装置
摘要:
本发明揭示了一种语音识别文本纠错方法及装置,方法包括:将语音数据转译为文本数据;在语料库中使用文本相似度模型筛选与文本数据的语义相似的相似文本集合;在语料库中筛选与文本数据的编辑距离在预设阈值范围内的距离集合;通过二分类模型,判断文本数据的每一位的值是第一值还是第二值;在相似文本集合和距离集合中筛选与文本数据的文本长度相同、且每个指定位置的内容与所述文本数据的内容均相同的候选文本集合;在候选文本集合中取出现频率最高的文本为已纠错文本。运用该语音识别文本纠错方法及装置,可以以不对语句分词的形式确定出已纠错文本,实现文本的纠错,从而更清楚地识别用户的真实需求。
0/0