一种语音增强模型的训练方法、装置及设备

    公开(公告)号:CN114999514A

    公开(公告)日:2022-09-02

    申请号:CN202210610450.7

    申请日:2022-05-31

    摘要: 本申请实施例提供了一种语音增强模型的训练方法、装置及设备,涉及语音处理及识别技术领域,用以通过一个语音增强模型实现降低音频中的语音失真和抑制音频中的噪声。该方法中,首先获取训练样本集;通过语音增强模型的输入层对训练样本集中的第一音频样本进行预处理获取第一音频样本数据;通过语音增强模型的N个隐藏层提取第一音频样本数据的音频特征;将音频特征分别输入语音增强模型的M个输出层获得M个音频降噪结果;通过M个输出层分别对应的损失函数确定M个音频降噪结果分别与音频掩蔽结果之间的损失得到M个损失值;根据M个损失值的加权结果调整输入层、N个隐藏层以及M个输出层的网络参数,以获得训练后的语音增强模型。

    一种语音识别方法及装置

    公开(公告)号:CN113516967A

    公开(公告)日:2021-10-19

    申请号:CN202110889732.0

    申请日:2021-08-04

    发明人: 李程帅 周全 徐涛

    IPC分类号: G10L15/01 G10L15/32

    摘要: 本申请公开了一种语音识别方法及装置,用以提高语音识别效率,从而提高语音指令的响应速度。本申请提供的一种语音识别方法,包括:逐帧确定用户语音解码的最优路径;在用户语音截止之前,根据当前最优路径的置信度确定是否输出用户语音对应的识别结果。

    一种音频负样本的生成方法及装置

    公开(公告)号:CN113223499A

    公开(公告)日:2021-08-06

    申请号:CN202110386374.1

    申请日:2021-04-12

    发明人: 李程帅 徐涛 牟杰

    IPC分类号: G10L15/06 G10L15/22

    摘要: 本发明实施例涉及音频处理技术领域,尤其涉及一种音频负样本的生成方法、装置、计算设备及计算机可读存储介质。包括:从音频正样本中截取k个第一子音频部分;所述音频正样本为具有唤醒词的音频信号;从音频负样本中截取k个第二子音频部分,所述音频负样本为不具有所述唤醒词的音频信号;将所述k个第一子音频部分替换所述音频负样本中的所述k个第二子音频部分,得到第一合成音频负样本。提高了模型对与正样本相似性较高的负样本的识别精度。同时,直接利用原有的正样本和负样本生成具有相似发音的负样本数据,无需另行采集负样本,方法便捷而高效,通用性强,生成的负样本数据覆盖面广。

    一种音频负样本的生成方法及装置

    公开(公告)号:CN113223499B

    公开(公告)日:2022-11-04

    申请号:CN202110386374.1

    申请日:2021-04-12

    发明人: 李程帅 徐涛 牟杰

    IPC分类号: G10L15/06 G10L15/22

    摘要: 本发明实施例涉及音频处理技术领域,尤其涉及一种音频负样本的生成方法、装置、计算设备及计算机可读存储介质。包括:从音频正样本中截取k个第一子音频部分;所述音频正样本为具有唤醒词的音频信号;从音频负样本中截取k个第二子音频部分,所述音频负样本为不具有所述唤醒词的音频信号;将所述k个第一子音频部分替换所述音频负样本中的所述k个第二子音频部分,得到第一合成音频负样本。提高了模型对与正样本相似性较高的负样本的识别精度。同时,直接利用原有的正样本和负样本生成具有相似发音的负样本数据,无需另行采集负样本,方法便捷而高效,通用性强,生成的负样本数据覆盖面广。

    一种指令词识别方法及装置

    公开(公告)号:CN113192501B

    公开(公告)日:2022-04-22

    申请号:CN202110386410.4

    申请日:2021-04-12

    发明人: 李程帅 徐涛 牟杰

    摘要: 本发明实施例涉及音频识别技术领域,尤其涉及一种指令词识别方法、装置、计算设备及计算机可读存储介质。包括:对采集的音频信号进行语音识别,得到第一指令词;确定所述第一指令词对应的第一相似词;所述第一相似词与所述第一指令词存在发音相似关系;确定所述第一指令词在所述语音识别过程中的第一识别概率与所述第一相似词在所述语音识别过程中的第二识别概率;若所述第一识别概率不小于所述第二识别概率,则输出所述第一指令词。如此,避免了在用户发出的指令是相似词,而智能设备误识别为第一指令词的情况。有效降低了指令识别的误识别率。

    一种音频同步采集方法、装置及终端设备

    公开(公告)号:CN115407825A

    公开(公告)日:2022-11-29

    申请号:CN202211047656.X

    申请日:2022-08-30

    IPC分类号: G06F1/12 G06F16/638

    摘要: 本申请实施例提供了一种音频同步采集方法、装置及终端设备,涉及语音处理技术领域,用以对不同设备之间的播放的音频实现同步采集。该方法包括:采集近端设备播放的第一音频数据和远端设备播放的第二音频数据;第一音频数据包括第一参考信号和近端设备的第一待播放音频数据,第二音频数据包括第二参考信号和远端设备的第二待播放音频数据;第一参考信号与第二参考信号的频率不同;确定第一参考信号的采集时间与第二参考信号的采集时间的第一时间差;根据第一时间差调整第一参考信号与第一待播放音频数据之间的时间间隔,使得第一待播放音频数据的采集时间与第二待播放音频数据的采集时间同步。

    一种语音处理方法及装置

    公开(公告)号:CN113192488B

    公开(公告)日:2022-05-06

    申请号:CN202110366094.4

    申请日:2021-04-06

    摘要: 本发明实施例涉及语音处理技术领域,尤其涉及一种语音处理方法、装置、计算设备及计算机可读存储介质。包括:针对语音集中的任一第一语音文件,通过语音分析确定第一语音文件的第一有效语音;对各第一有效语音在各第一语音文件中的位置进行聚类,得到有效语音在语音文件中的k个预测位置;针对语音集中的任一第二语音文件,从第二语音文件在k个预测位置处的语音序列中,确定第二语音文件的第二有效语音。通过先对语音集中的一部分语音文件的有效语音所在的位置进行聚类,得到k个可能的预测位置,如此,针对剩下的语音文件,只需在这k个预测位置处进行判断即可,无需对再进行逐帧的语音分析,从而提高了提取有效语音的效率。

    语音识别模型的训练方法、语音识别方法及相关装置

    公开(公告)号:CN113889086A

    公开(公告)日:2022-01-04

    申请号:CN202111078440.5

    申请日:2021-09-15

    IPC分类号: G10L15/06 G10L15/02

    摘要: 本申请涉及人工智能技术领域,提供一种语音识别模型的训练方法、语音识别方法及相关装置,用以解决在语音识别模型进行语音识别时准确率较低的问。本申请在将音频文件的音频特征数据输入给语音识别模型之前,对音频特征数据进行以模型感受野为间隔的掩蔽,然后将掩蔽处理后的音频特征数据输入给语音识别模型,基于音频特征数据,对语音识别模型进行训练。由于进行了本申请的掩蔽处理,使得样本包括了有上下文,没有上下文,没有上文,没有下文等多种样本,使得语音识别模型能够学习到不同情况下的识别结果。综上,本申请能够通过对音频特征数据进行等感受野间隔的掩蔽,摆脱语音识别模型对部分信息的过度依赖,提升语音识别模型的识别率。