一种语音转录文本的实体纠错方法及系统
摘要:
本发明提供了一种语音转录文本的实体纠错方法及系统,该方法包括:对从目标语音转录文本中提取的实体词汇进行拼音标注;利用标注的拼音及基于拼音相似度的编辑距离对实体词汇进行聚类,生成聚类结果;将聚类结果中在同一类别出现频率最高的实体词汇确定为标准实体词汇,并将该类别中其他实体词汇替换为标准实体词汇。通过利用基于拼音相似度的编辑距离对实体词汇进行聚类,从而将拼音相似度作为参考因素加入编辑距离算法中,加强了对同义词及音词的辨别能力,使得聚类结果更加符合语音转录文本的实际情况,根据该聚类结果用同一类别中出现频率最高的实体词汇替换其他实体词汇,实现了对语音转录文本的纠错,进而提高了最终语音转录文本的准确性。
公开/授权文献
0/0