一种端到端中文语音文本纠错方法、装置和存储介质
摘要:
本发明提出了一种端到端中文语音文本纠错方法、装置和存储介质,该方法包括如下步骤:基于语音识别数据集构建语音纠错数据集,语音纠错数据集包括待纠错样本和正确样本;获取纯文本数据,并对纯文本数据进行预处理;采用预处理后的纯文本数据进行模型训练,获得融入语音信息的预训练语言模型;从待纠错样本的句子中提取拼音和字,输入至融入语音信息的预训练语言模型,获得语义序列表征;采用语义序列表征进行模型训练,获得端到端语音文本纠错模型;将待纠错文本输入至端到端语音文本纠错模型中,获得纠错后文本。本发明实现了语音信息的融入,语义和拼音信息的双重编码,以及针对语音文本的实时纠错,同时提升了针对语音文本的纠错效果。
0/0