-
公开(公告)号:CN119724187A
公开(公告)日:2025-03-28
申请号:CN202411981844.9
申请日:2024-12-31
Applicant: 合肥智能语音创新发展有限公司 , 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音识别方法及相关装置,涉及语音处理技术领域,包括:在确定待识别语音数据的通用解码文本序列之后,先将通用解码文本序列转换为元素粒度更低的可泛化文本序列,再利用与可泛化文本序列中各元素对应的相似元素对可泛化文本序列进行扩充,得到相应粒度的扩充文本序列;并基于预设的长尾词汇语言模型对可泛化文本序列和扩充文本序列进行重贴分操作,得到长尾解码文本序列;最后,基于通用解码文本序列以及长尾解码文本序列,确定最终的语音识别结果。由于该方案能够得到长尾解码文本序列,因此能够提升最终的语音识别结果是长尾解码文本序列的可能性,因此,能够有效提升端到端语音识别模型的长尾词汇识别效果。
-
公开(公告)号:CN116343764A
公开(公告)日:2023-06-27
申请号:CN202211311416.6
申请日:2022-10-25
Applicant: 合肥智能语音创新发展有限公司
Abstract: 本申请实施例中公开了一种语音识别方法、装置、设备及存储介质。其中,该方法包括:接收待识别语音信息;获取待识别语音信息对应的语种信息;根据语种信息确定语音识别模型包括的编码器中对应的语种残差模块;利用语种残差模块对待识别语音信息进行识别,得到初步识别结果;将初步识别结果输入语音识别模型包括的解码器进行识别,得到语音识别结果。可见,本申请实施例中根据语种信息能确定特定的语种残差模块对待识别语音信息进行识别,从而使得语音识别更具针对性,能更好地提升编码器对多语种信息的区分能力与提取能力,进而能提高语音识别准确性。
-
公开(公告)号:CN116343764B
公开(公告)日:2025-01-24
申请号:CN202211311416.6
申请日:2022-10-25
Applicant: 合肥智能语音创新发展有限公司
Abstract: 本申请实施例中公开了一种语音识别方法、装置、设备及存储介质。其中,该方法包括:接收待识别语音信息;获取待识别语音信息对应的语种信息;根据语种信息确定语音识别模型包括的编码器中对应的语种残差模块;利用语种残差模块对待识别语音信息进行识别,得到初步识别结果;将初步识别结果输入语音识别模型包括的解码器进行识别,得到语音识别结果。可见,本申请实施例中根据语种信息能确定特定的语种残差模块对待识别语音信息进行识别,从而使得语音识别更具针对性,能更好地提升编码器对多语种信息的区分能力与提取能力,进而能提高语音识别准确性。
-
公开(公告)号:CN115963893A
公开(公告)日:2023-04-14
申请号:CN202211051052.2
申请日:2022-08-30
Applicant: 西安讯飞超脑信息科技有限公司 , 合肥智能语音创新发展有限公司
IPC: G06F1/12
Abstract: 本发明提供一种设备同步方法、装置、电子设备和存储介质,所述方法包括:获取第一设备采集的目标声源的第一音频以及第二设备采集的目标声源的第二音频;确定第一音频与第二音频之间的采样时间偏差以及第一音频与第二音频之间的采样率偏差;基于采样时间偏差以及采样率偏差,对第一设备和第二设备进行同步。本发明提供的设备同步方法、装置、电子设备和存储介质,基于采样时间偏差以及采样率偏差准确对第一设备和第二设备进行同步,提高了设备同步精度。
-
公开(公告)号:CN119611498A
公开(公告)日:2025-03-14
申请号:CN202411787967.9
申请日:2024-12-06
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种电动液压助力转向系统及车辆,涉及汽车电子设备技术领域,包括:信号采集处理系统、液压系统、转向系统和远程监控系统;信号采集处理系统包括数字信号处理器、压力传感器、角度传感器和无线通信模块;数字信号处理器分别与压力传感器、角度传感器以及无线通信模块连接。通过设置压力传感器和角度传感器,可以使数字信号处理器实现对液压系统和转向系统的准确操控,并可以掌握实时的系统状态。而且,采用了无线通信模块,可以与远程监控系统实现无线通信连接,实现对液压系统和转向系统的远程实时监控,相比于有线通信,可以提高用户的远程监控体验。
-
公开(公告)号:CN117474807B
公开(公告)日:2024-05-31
申请号:CN202311819869.4
申请日:2023-12-27
Applicant: 科大讯飞股份有限公司
IPC: G06T5/77 , G06V10/44 , G06V10/774 , G06V10/86
Abstract: 本发明提供了一种图像修复方法、装置、设备及存储介质,图像修复方法包括:获取待修复图像以及与待修复图像相关的音频;获取能够表征音频的整个音频信息的音频特征,作为目标音频特征;利用目标音频特征,对待修复图像进行修复,得到待修复图像对应的修复后图像。本发明提供的图像修复方法可利用与待修复图像相关的音频的信息对待修复图像中受损的图像信息进行补偿,从而实现真正意义上的受损补偿,本发明提供的图像修复方法具有较好的修复效果。
-
公开(公告)号:CN117711378A
公开(公告)日:2024-03-15
申请号:CN202311629338.9
申请日:2023-11-28
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种语音识别方法、装置、电子设备和存储介质,其中方法包括:获取待识别语音;基于语音识别模型,对所述待识别语音进行语音识别;所述语音识别模型是联合基于语音的音素识别任务和/或基于音素的文本生成任务,以及语音识别任务训练得到的。本发明提供的方法、装置、电子设备和存储介质,联合基于语音的音素识别任务和/或基于音素的文本生成任务,以及语音识别任务训练语音识别模型,以增强语音识别模型对于语音信息的提取能力,使得基于由此训练得到的语音识别模型,能够获取到在语义层面上表现更优的语音识别文本,从而提高语音识别的可靠性和准确性。
-
公开(公告)号:CN110956959B
公开(公告)日:2023-07-25
申请号:CN201911167009.0
申请日:2019-11-25
Applicant: 科大讯飞股份有限公司
IPC: G10L15/20 , G10L15/26 , G10L19/005 , G10L25/03
Abstract: 本申请公开了一种语音识别纠错方法、相关设备及可读存储介质,首先,获取待识别的语音数据及其第一次识别结果;然后,从第一次识别结果中提取关键词,关键词是具有领域特性的专业词汇;并参考第一次识别结果的上下文信息以及关键词,对语音数据进行第二次识别,得到第二次识别结果;最后,根据第二次识别结果,确定最终的识别结果。上述方案中,在参考第一次识别结果的上下文信息以及关键词,对语音数据进行第二次识别,充分考虑了识别结果的上下文信息以及语音数据的适用场景,如果第一次识别结果有误,即可利用第二次识别对其进行纠错,因此,能够提升语音识别准确率。
-
公开(公告)号:CN110517664B
公开(公告)日:2022-08-05
申请号:CN201910852557.0
申请日:2019-09-10
Applicant: 科大讯飞股份有限公司
Abstract: 本申请实施例公开了一种多方言识别方法、装置、设备及可读存储介质,通过预先构建的方言识别模型进行方言的识别,其中,该方言识别模型通过包括多种方言的训练语料训练得到,而且该方言识别模型的训练过程中不仅局限于语料的语音内容,还引入了方言所属的方言种类,结合方言所属的方言种类对方言识别模型进行优化,使得方言识别模型能够准确识别多种方言,使得用户不必再进行语音识别模式的切换,简化了用户操作,提高了多方言识别的准确率和效率。
-
公开(公告)号:CN114283786A
公开(公告)日:2022-04-05
申请号:CN202111669746.8
申请日:2021-12-31
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音识别方法、装置及计算机可读存储介质。其中,该方法包括:获取待识别语音信息;利用编码网络中的至少两个子编码网络分别对所述语音信息进行特征提取,获得至少两个语音特征;其中,每个所述子编码网络根据相应语种的样本数据训练得到;利用融合网络将所述至少两个语音特征进行融合,得到融合语音特征;利用解码网络对所述融合语音特征进行解码,得到语音识别结果。通过上述方式,本申请能够提高语音识别的准确度。
-
-
-
-
-
-
-
-
-