自动语音识别模型建立方法、语音识别方法及相关设备

    公开(公告)号:CN118098213A

    公开(公告)日:2024-05-28

    申请号:CN202410216875.9

    申请日:2024-02-27

    IPC分类号: G10L15/06 G10L15/16

    摘要: 本公开提供了一种自动语音识别模型建立方法、语音识别方法及相关设备,涉及语音识别技术领域。该方法包括获取训练数据集中的多个训练样本作为训练样本组和目标领域的多个语音数据;根据第一自动语音识别模型对各个训练样本和多个语音数据进行处理,得到各个训练样本的第一语义信息和各个语音数据的第二语义信息;根据第一语义信息和第二语义信息,计算语义相似度;根据语义相似度,构造第二自动语音识别模型;选择目标领域的部分语音数据作为验证集,对第二自动语音识别模型进行训练,若满足预设训练停止条件,得到目标自动语音识别模型。本公开有效降低时间成本和人力成本,提升模型在目标领域语音上的识别能力。

    语音识别方法及装置、存储介质、电子设备

    公开(公告)号:CN113990293A

    公开(公告)日:2022-01-28

    申请号:CN202111214686.0

    申请日:2021-10-19

    发明人: 李思琪

    摘要: 本公开提供一种语音识别方法、语音识别装置、存储介质与电子设备,涉及计算机技术领域。其中,所述语音识别方法包括:获取待识别语音,并对所述待识别语音进行特征提取获取语音特征;通过结合建模单元构建的声学模型对所述语音特征进行预测处理,确定所述待识别语音的建模单元的概率分布;所述建模单元包括主要语言字符和辅助语言子词;基于所述主要语言字符和所述辅助语言子词构建的语言模型对所述待识别语音进行识别处理,确定所述待识别语音的语法得分;结合所述概率分布以及所述语法得分,确定所述待识别语音的识别结果。本公开的技术方案能够提高语音识别的准确性。

    一种语音识别的方法和装置
    3.
    发明公开

    公开(公告)号:CN116844534A

    公开(公告)日:2023-10-03

    申请号:CN202310300312.3

    申请日:2023-03-24

    发明人: 李思琪 付立

    IPC分类号: G10L15/16 G10L15/06 G10L15/26

    摘要: 本发明公开了一种语音识别的方法和装置,涉及人工智能技术领域。该方法的一具体实施方式包括:针对语音识别场景接收到的语音数据划分成多个语音数据块,为每一个语音数据块增加多个填充语音帧,基于填充过的语音数据块执行提取包含设定数量语音帧的语音帧组,并利用预设语音识别模型处理输入的语音帧组中的语音帧以得到识别结果;其中预设语音识别模型包含的卷积核的数量与设定数量一致;本发明的实施例克服了现有技术中由于未考虑一个语音数据块中当前帧与当前帧之后的语音帧的语音信息的关联性而导致的语音识别准确率偏低的问题,提高了语音识别的效果。

    一种语音识别方法、声学模型的训练方法、装置及设备

    公开(公告)号:CN116434735A

    公开(公告)日:2023-07-14

    申请号:CN202210006570.6

    申请日:2022-01-04

    发明人: 李思琪 付立

    摘要: 本申请提供一种语音识别方法、声学模型的训练方法、装置及设备。该语音识别方法包括:接收语音识别请求,语音识别请求包括目标语种的待识别语音;对待识别语音提取语音特征并输入第一声学模型,得到声学特征,声学特征包括待识别语音的可能性字符,第一声学模型是根据第一语音样本和第二语音样本,基于神经网络进行训练得到的用于识别语音数据中目标语种的可能性字符的模型,第一语音样本包括人工标定的多个语音样本和对应的目标语种的字符,第二语音样本包括采用第一语音样本训练的第二声学模型标定的多个语音样本和对应的目标语种的字符;根据声学特征确定目标语种的语音识别结果并输出。本申请的方法提高了目标语种的语音识别准确度。

    一种语音识别方法和装置
    5.
    发明公开

    公开(公告)号:CN115954004A

    公开(公告)日:2023-04-11

    申请号:CN202211562955.7

    申请日:2022-12-07

    发明人: 李思琪

    IPC分类号: G10L15/26 G10L15/06

    摘要: 本发明公开了一种语音识别方法和装置,涉及深度学习技术领域。该方法的具体实施方式包括:接收语音识别请求;其中,语音识别请求包括一个或多个待识别语音;将待识别语音输入预训练的语音识别模型,语音识别模型包括声学模块、语言模块和注意力模块,语音识别模型的目标函数为声学模块、语言模块和注意力模块的概率分布之积;响应于语音识别请求,根据语音识别模型的输出,识别一个或多个待识别语音的语音文字信息。该实施方式能够利用以声学模块、语言模块和注意力模块的综合概率之积作为目标函数的语音识别模型对待识别语音进行识别,大大提高了语音识别模型的语音文字信息的识别准确率,而且应用广泛,可以适用于各种识别场景。

    语音识别模型训练方法、装置和相关设备

    公开(公告)号:CN116543756A

    公开(公告)日:2023-08-04

    申请号:CN202310620477.9

    申请日:2023-05-29

    发明人: 付立 李思琪 范璐

    IPC分类号: G10L15/06 G10L15/02 G10L15/28

    摘要: 本公开提供一种语音识别模型训练方法、装置以及电子设备和计算机可读存储介质,涉及语音识别技术领域,上述语音识别模型训练方法可以包括:获取流式无标注语音、流式有标注语音、非流式无标注语音和非流式有标注语音;通过所述流式无标注语音和所述非流式无标注语音,对目标神经网络进行无监督训练,获得预训练模型;通过所述流式有标注语音和所述非流式有标注语音,对所述预训练模型进行参数微调,获得流式和非流式统一语音识别模型。通过本公开实施例提供的语音识别模型可以使得流式语音和非流式语音通过同一个语音识别模型进行识别,减少了模型训练过程和维护过程,提高了语音识别效率和准确率。