语音识别方法、装置、设备及存储介质

    公开(公告)号:CN113920999A

    公开(公告)日:2022-01-11

    申请号:CN202111274880.8

    申请日:2021-10-29

    摘要: 本申请提出一种语音识别方法、装置、设备及存储介质,该方法包括:获取待识别语音的声学状态序列;基于所述待识别语音所属场景下的垂类关键字集合及句式解码网络,构建语音识别解码网络,其中,所述句式解码网络通过对所述待识别语音所属场景下的文本语料进行句式归纳和语法槽定义处理构建得到;利用所述语音识别解码网络对所述声学状态序列进行解码,得到语音识别结果。通过构建上述的语音识别解码网络,并用于语音识别,能够准确识别待识别语音,尤其是能够准确识别涉及垂类关键字的特定场景下的语音,特别是能准确识别语音中的垂类关键字。

    一种英文文本数据清洗方法、装置、存储介质及设备

    公开(公告)号:CN117609214A

    公开(公告)日:2024-02-27

    申请号:CN202311693991.1

    申请日:2023-12-08

    摘要: 本申请公开了一种英文文本数据清洗方法、装置、存储介质及设备,该方法包括:首先获取待清洗的目标英文文本数据;并对其进行脱敏处理,得到脱敏后的目标英文文本数据,然后通过串并联的N个不同路径,对脱敏后的目标英文文本数据分别进行不同维度的错误信息挖掘及纠错处理,得到N个不同路径各自对应的纠错后的目标英文文本数据;接着利用预训练语言模型对目标英文文本数据和N个不同路径各自对应的纠错后的目标英文文本数据进行评分,并根据评分结果对目标英文文本数据进行清洗,得到清洗结果。从而能够在利用串并联的N个不同路径实现对于错误信息的深度挖掘和顺序多样化的多路径纠错后,准确清洗出高质量英文文本数据,提高了数据清洗效果。