-
公开(公告)号:CN117200839A
公开(公告)日:2023-12-08
申请号:CN202311250963.2
申请日:2023-09-25
Applicant: 科大讯飞股份有限公司 , 科大讯飞(苏州)科技有限公司
IPC: H04B7/0413 , H04B7/06 , H04B7/08
Abstract: 本发明提供一种波束选择和数据传输方法、装置、电子设备和存储介质,方法包括:确定波束集合;将波束集合中的各波束分别作为个体,将各波束的波束方向作为个体位置,进行个体位置的搜索迭代,搜索迭代以基于所述各波束的数据传输效果为优化目标;基于迭代完成的个体位置,对波束集合进行波束选择。本发明提供的方法、装置,将与数据传输效果相关联的优化目标引入MIMO系统波束的多目标任务锁定中的波束选择中,避免搜索迭代中过早陷入局部最优解,实现了贴合多目标的最适宜的波束集合的选择,进而在MIMO系统中实现了多目标的数据传输。
-
公开(公告)号:CN117037842A
公开(公告)日:2023-11-10
申请号:CN202310997762.2
申请日:2023-08-07
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种音频处理方法、装置、电子设备和存储介质,方法包括:提取待处理音频的音频特征,并将音频特征作为待处理音频所对应的时频图像,提取时频图像的图像特征;基于图像特征,在连续的多个时间窗口上分别进行概率分布预测,得到待处理音频在每个时间窗口上的概率分布预测结果;基于每个时间窗口上的概率分布预测结果,确定待处理音频的音频处理结果。本发明提供的方法、装置,将音频特征作为时频图像,提取时频图像的图像特征,基于图像特征,在连续的多个时间窗口上分别进行概率分布预测,得到在每个时间窗口上的概率分布预测结果,实现了全面的特征提取,时间视野充足和丰富的概率预测,进而大大提升了进行音频处理的准确性。
-
公开(公告)号:CN116758912A
公开(公告)日:2023-09-15
申请号:CN202310641371.7
申请日:2023-05-31
Applicant: 科大讯飞股份有限公司
IPC: G10L15/22 , G10L15/24 , G10L15/26 , G10L25/57 , G06V20/40 , G06V10/40 , G06F18/25 , G06F18/24 , G06F18/214 , G06F18/23
Abstract: 本发明提供了一种语音识别方法、装置、设备及存储介质,语音识别方法包括:获取目标语音和目标视频,其中,目标语音为目标视频的视频内容的解说语音;对目标语音提取声学特征,得到目标语音的声学特征,并对目标视频提取含视频内容信息的视觉特征,得到目标视频的视觉特征;根据目标语音的声学特征并辅以目标视频的视觉特征,确定目标语音的语音识别结果。考虑到目标语音为目标视频的视频内容的解说语音,其与目标视频的视频内容具有一定的相关性,本发明对目标视频提取含视频内容信息的视觉特征,辅以视觉特征对解说语音进行语音识别,在对目标语音即解说语音进行语音识别时,辅以含视频内容信息的视觉特征,能够获得较为准确的语音识别结果。
-
公开(公告)号:CN116312641A
公开(公告)日:2023-06-23
申请号:CN202211095543.7
申请日:2022-09-05
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种情感检测方法、装置、电子设备和存储介质,其中方法包括:获取待检测语音;基于情感检测模型,对所述待检测语音的语义特征进行情感检测,得到情感检测结果;其中,所述情感检测模型是基于样本语音的语义特征以及所述样本语音的语音情感标签训练得到的;所述样本语音的语音情感标签是基于所述样本语音的转写文本中各关键词的分词情感信息确定的。本发明中样本语音的语音情感标签是基于样本语音的转写文本中各关键词的分词情感信息确定的,从而实现自监督训练,进而节省人工标注成本的同时确保情感检测的鲁棒性。
-
公开(公告)号:CN116013257A
公开(公告)日:2023-04-25
申请号:CN202211637702.1
申请日:2022-12-16
Applicant: 科大讯飞股份有限公司
Abstract: 本申请实施例公开了一种语音识别、语音识别模型训方法、装置、存储介质及设备,该方法包括:通过在语音识别模型的编码网络模块中加入混合专家网络和嵌入模块,利用嵌入模块对目标语音数据的目标声学特征序列进行语音特征提取处理,以得到目标语音嵌入特征,将目标语音嵌入特征和目标声学特征序列输入至混合专家网络的神经网络模块中进行编码处理,使得混合专家网络的神经网络模块中可以得到与语言相关的特征和目标声学特征序列,提高混合专家网络的神经网络模块的输出结果的准确性,将输出结果输入至解码网络模块中进行解码处理,以得到目标语音数据的识别文本,可提高各种语言混说场景中的语音识别的准确率。
-
公开(公告)号:CN115798463A
公开(公告)日:2023-03-14
申请号:CN202211370747.7
申请日:2022-11-03
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种语音识别方法、装置、电子设备和存储介质,其中方法包括:获取待识别语音;基于一体化框架中的语音识别模块,对待识别语音进行语音识别,得到待识别语音的声学特征和识别结果采样特征;基于一体化框架中的纠错模块,应用声学特征和识别结果采样特征进行文本纠错,得到待识别语音的语音识别结果;一体化框架是基于样本语音,以及样本语音的标签文本训练得到的。本发明提供的方法、装置、电子设备和存储介质,经由语音识别和文本纠错得到的语音识别结果具备更强的语义合理性;并且,在一体化框架下对语音识别任务和文本纠错任务进行联合训练,也无需额外获取携带声学特征的平行语料,降低了训练成本。
-
公开(公告)号:CN115526228A
公开(公告)日:2022-12-27
申请号:CN202211000191.2
申请日:2022-08-19
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种识别方法、装置、电子设备及存储介质,该方法包括:获取待识别的多媒体数据;基于识别模型,确定所述多媒体数据的情绪识别结果和/或意图识别结果;所述识别模型是基于样本多媒体数据,以及所述样本多媒体数据的情绪标签和意图标签,执行包括情绪识别和意图识别在内的多任务学习得到。本发明提供的方法、装置、电子设备和存储介质,应用包括情绪识别和意图识别在内的多任务学习所得的识别模型进行情绪识别和/或意图识别,使得多媒体数据中与情绪、意图相关的信息能够得到充分应用,提高了情绪识别和意图识别的结果准确率。
-
公开(公告)号:CN115455946A
公开(公告)日:2022-12-09
申请号:CN202211080639.6
申请日:2022-09-05
Applicant: 科大讯飞股份有限公司
IPC: G06F40/232 , G06F40/30 , G06N3/04 , G06N3/08 , G10L15/26
Abstract: 本发明提供一种语音识别纠错方法、装置、电子设备和存储介质,其中方法包括:确定待纠错的语音数据的识别文本;基于所述识别文本中各字符在所述语音数据中的对齐位置,确定所述识别文本中各字符对应的声学特征;基于所述识别文本中各字符对应的声学特征和所述识别文本中各字符的语义特征,对所述识别文本进行纠错。本发明提供的语音识别纠错方法、装置、电子设备和存储介质,不仅仅使用到了识别文本中各字符的语义特征,还使用到了各字符对应的声学特征,相比于相关技术仅考虑语义特征,能够捕获到各字符的声学和语义两方面特征,充分利用多种特征来增强待纠错的识别文本的表示能力,从而提高了错误定位和错误纠正的准确性。
-
公开(公告)号:CN115101090A
公开(公告)日:2022-09-23
申请号:CN202210535565.4
申请日:2022-05-17
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提出一种语音内容检测方法、模型训练方法、装置、电子设备及存储介质,该方法包括:将目标语音的音频数据以及所述目标语音对应的视频数据,输入预先训练的多模态音频帧分类网络,得到对所述目标语音的各个音频帧的分类结果;其中,所述目标语音对应的视频数据中包含所述目标语音的说话人的面部影像;所述多模态音频帧分类网络,是与辅助训练网络联合训练得到的、用于将音频帧分类为语音帧或非语音帧的神经网络;在所述联合训练过程中,所述辅助训练网络以语音训练样本的文本标签为训练标签,对语音训练样本进行语音内容识别训练。上述方法能够提高语音内容检测的准确度。
-
公开(公告)号:CN114495914A
公开(公告)日:2022-05-13
申请号:CN202210135438.5
申请日:2022-02-14
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音识别方法、语音识别模型的训练方法及相关装置,所述语音识别方法包括:获得待识别语音;将所述待识别语音输入至训练后的语音识别模型中以获得输出文本;其中,训练所述语音识别模型所采用的总损失与首字延迟损失相关。通过上述方式,本申请能够降低首字延迟的时间。
-
-
-
-
-
-
-
-
-