音频处理方法、装置、电子设备和存储介质

    公开(公告)号:CN117037842A

    公开(公告)日:2023-11-10

    申请号:CN202310997762.2

    申请日:2023-08-07

    Abstract: 本发明提供一种音频处理方法、装置、电子设备和存储介质,方法包括:提取待处理音频的音频特征,并将音频特征作为待处理音频所对应的时频图像,提取时频图像的图像特征;基于图像特征,在连续的多个时间窗口上分别进行概率分布预测,得到待处理音频在每个时间窗口上的概率分布预测结果;基于每个时间窗口上的概率分布预测结果,确定待处理音频的音频处理结果。本发明提供的方法、装置,将音频特征作为时频图像,提取时频图像的图像特征,基于图像特征,在连续的多个时间窗口上分别进行概率分布预测,得到在每个时间窗口上的概率分布预测结果,实现了全面的特征提取,时间视野充足和丰富的概率预测,进而大大提升了进行音频处理的准确性。

    情感检测方法、装置、电子设备和存储介质

    公开(公告)号:CN116312641A

    公开(公告)日:2023-06-23

    申请号:CN202211095543.7

    申请日:2022-09-05

    Abstract: 本发明提供一种情感检测方法、装置、电子设备和存储介质,其中方法包括:获取待检测语音;基于情感检测模型,对所述待检测语音的语义特征进行情感检测,得到情感检测结果;其中,所述情感检测模型是基于样本语音的语义特征以及所述样本语音的语音情感标签训练得到的;所述样本语音的语音情感标签是基于所述样本语音的转写文本中各关键词的分词情感信息确定的。本发明中样本语音的语音情感标签是基于样本语音的转写文本中各关键词的分词情感信息确定的,从而实现自监督训练,进而节省人工标注成本的同时确保情感检测的鲁棒性。

    语音识别、语音识别模型训练方法、装置、介质及设备

    公开(公告)号:CN116013257A

    公开(公告)日:2023-04-25

    申请号:CN202211637702.1

    申请日:2022-12-16

    Abstract: 本申请实施例公开了一种语音识别、语音识别模型训方法、装置、存储介质及设备,该方法包括:通过在语音识别模型的编码网络模块中加入混合专家网络和嵌入模块,利用嵌入模块对目标语音数据的目标声学特征序列进行语音特征提取处理,以得到目标语音嵌入特征,将目标语音嵌入特征和目标声学特征序列输入至混合专家网络的神经网络模块中进行编码处理,使得混合专家网络的神经网络模块中可以得到与语言相关的特征和目标声学特征序列,提高混合专家网络的神经网络模块的输出结果的准确性,将输出结果输入至解码网络模块中进行解码处理,以得到目标语音数据的识别文本,可提高各种语言混说场景中的语音识别的准确率。

    语音识别方法、装置、电子设备和存储介质

    公开(公告)号:CN115798463A

    公开(公告)日:2023-03-14

    申请号:CN202211370747.7

    申请日:2022-11-03

    Abstract: 本发明提供一种语音识别方法、装置、电子设备和存储介质,其中方法包括:获取待识别语音;基于一体化框架中的语音识别模块,对待识别语音进行语音识别,得到待识别语音的声学特征和识别结果采样特征;基于一体化框架中的纠错模块,应用声学特征和识别结果采样特征进行文本纠错,得到待识别语音的语音识别结果;一体化框架是基于样本语音,以及样本语音的标签文本训练得到的。本发明提供的方法、装置、电子设备和存储介质,经由语音识别和文本纠错得到的语音识别结果具备更强的语义合理性;并且,在一体化框架下对语音识别任务和文本纠错任务进行联合训练,也无需额外获取携带声学特征的平行语料,降低了训练成本。

    识别方法、装置、电子设备及存储介质

    公开(公告)号:CN115526228A

    公开(公告)日:2022-12-27

    申请号:CN202211000191.2

    申请日:2022-08-19

    Abstract: 本发明提供一种识别方法、装置、电子设备及存储介质,该方法包括:获取待识别的多媒体数据;基于识别模型,确定所述多媒体数据的情绪识别结果和/或意图识别结果;所述识别模型是基于样本多媒体数据,以及所述样本多媒体数据的情绪标签和意图标签,执行包括情绪识别和意图识别在内的多任务学习得到。本发明提供的方法、装置、电子设备和存储介质,应用包括情绪识别和意图识别在内的多任务学习所得的识别模型进行情绪识别和/或意图识别,使得多媒体数据中与情绪、意图相关的信息能够得到充分应用,提高了情绪识别和意图识别的结果准确率。

    语音识别纠错方法、装置、电子设备和存储介质

    公开(公告)号:CN115455946A

    公开(公告)日:2022-12-09

    申请号:CN202211080639.6

    申请日:2022-09-05

    Abstract: 本发明提供一种语音识别纠错方法、装置、电子设备和存储介质,其中方法包括:确定待纠错的语音数据的识别文本;基于所述识别文本中各字符在所述语音数据中的对齐位置,确定所述识别文本中各字符对应的声学特征;基于所述识别文本中各字符对应的声学特征和所述识别文本中各字符的语义特征,对所述识别文本进行纠错。本发明提供的语音识别纠错方法、装置、电子设备和存储介质,不仅仅使用到了识别文本中各字符的语义特征,还使用到了各字符对应的声学特征,相比于相关技术仅考虑语义特征,能够捕获到各字符的声学和语义两方面特征,充分利用多种特征来增强待纠错的识别文本的表示能力,从而提高了错误定位和错误纠正的准确性。

    语音内容检测方法、模型训练方法及相关装置

    公开(公告)号:CN115101090A

    公开(公告)日:2022-09-23

    申请号:CN202210535565.4

    申请日:2022-05-17

    Abstract: 本申请提出一种语音内容检测方法、模型训练方法、装置、电子设备及存储介质,该方法包括:将目标语音的音频数据以及所述目标语音对应的视频数据,输入预先训练的多模态音频帧分类网络,得到对所述目标语音的各个音频帧的分类结果;其中,所述目标语音对应的视频数据中包含所述目标语音的说话人的面部影像;所述多模态音频帧分类网络,是与辅助训练网络联合训练得到的、用于将音频帧分类为语音帧或非语音帧的神经网络;在所述联合训练过程中,所述辅助训练网络以语音训练样本的文本标签为训练标签,对语音训练样本进行语音内容识别训练。上述方法能够提高语音内容检测的准确度。

Patent Agency Ranking