-
公开(公告)号:CN119694302A
公开(公告)日:2025-03-25
申请号:CN202411769405.1
申请日:2024-12-04
Applicant: 合肥智能语音创新发展有限公司 , 科大讯飞股份有限公司
Abstract: 本申请公开了一种多语种语音识别模型训练方法及相关装置,涉及语音识别技术领域,包括:预先构建包含第一训练分支和第二训练分支的多语种语音识别模型训练模型,其中,第一训练分支和第二训练分支均由编码器和解码器组成,第一训练分支和第二训练分支共用解码器和部分编码器;通过语音文本有监督训练数据以及纯文本训练数据,对第一训练分支和第二训练分支进行多任务联合训练,得到训练好的第一训练分支作为多语种语音识别模型。该方案能够降低模型训练的计算开销,提高训练数据的利用率,从而在有效降低训练周期和减少有监督训练数据的情况下,训练得到一个高效、准确的多语种语音识别模型,进而提升多语种语音识别的效果。
-
公开(公告)号:CN119541495A
公开(公告)日:2025-02-28
申请号:CN202411461438.X
申请日:2024-10-18
Applicant: 合肥智能语音创新发展有限公司 , 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音识别方法及相关装置、设备和存储介质,语音识别方法包括:获取当前轮次的第一解码特征;其中,当前轮次的第一解码特征包含上一轮次所输出解码字符的特征信息;获取待识别语音中各个语音帧的编码特征分别与第一解码特征之间的对齐概率,并基于对齐概率选择至少部分语音帧的编码特征与第一解码特征进行融合,得到第二解码特征;基于第二解码特征进行解码,得到当前轮次所输出的解码字符,并返回获取当前轮次的第一解码特征的步骤进行迭代,直至最新输出的解码字符表征语音识别结束为止,基于各个轮次的解码字符,得到待识别语音的识别文本。上述方案,能够提升语音识别的效率和准确性,特别是流式语音识别的效率和准确性。
-
公开(公告)号:CN119724187A
公开(公告)日:2025-03-28
申请号:CN202411981844.9
申请日:2024-12-31
Applicant: 合肥智能语音创新发展有限公司 , 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音识别方法及相关装置,涉及语音处理技术领域,包括:在确定待识别语音数据的通用解码文本序列之后,先将通用解码文本序列转换为元素粒度更低的可泛化文本序列,再利用与可泛化文本序列中各元素对应的相似元素对可泛化文本序列进行扩充,得到相应粒度的扩充文本序列;并基于预设的长尾词汇语言模型对可泛化文本序列和扩充文本序列进行重贴分操作,得到长尾解码文本序列;最后,基于通用解码文本序列以及长尾解码文本序列,确定最终的语音识别结果。由于该方案能够得到长尾解码文本序列,因此能够提升最终的语音识别结果是长尾解码文本序列的可能性,因此,能够有效提升端到端语音识别模型的长尾词汇识别效果。
-
公开(公告)号:CN116343764A
公开(公告)日:2023-06-27
申请号:CN202211311416.6
申请日:2022-10-25
Applicant: 合肥智能语音创新发展有限公司
Abstract: 本申请实施例中公开了一种语音识别方法、装置、设备及存储介质。其中,该方法包括:接收待识别语音信息;获取待识别语音信息对应的语种信息;根据语种信息确定语音识别模型包括的编码器中对应的语种残差模块;利用语种残差模块对待识别语音信息进行识别,得到初步识别结果;将初步识别结果输入语音识别模型包括的解码器进行识别,得到语音识别结果。可见,本申请实施例中根据语种信息能确定特定的语种残差模块对待识别语音信息进行识别,从而使得语音识别更具针对性,能更好地提升编码器对多语种信息的区分能力与提取能力,进而能提高语音识别准确性。
-
公开(公告)号:CN116343764B
公开(公告)日:2025-01-24
申请号:CN202211311416.6
申请日:2022-10-25
Applicant: 合肥智能语音创新发展有限公司
Abstract: 本申请实施例中公开了一种语音识别方法、装置、设备及存储介质。其中,该方法包括:接收待识别语音信息;获取待识别语音信息对应的语种信息;根据语种信息确定语音识别模型包括的编码器中对应的语种残差模块;利用语种残差模块对待识别语音信息进行识别,得到初步识别结果;将初步识别结果输入语音识别模型包括的解码器进行识别,得到语音识别结果。可见,本申请实施例中根据语种信息能确定特定的语种残差模块对待识别语音信息进行识别,从而使得语音识别更具针对性,能更好地提升编码器对多语种信息的区分能力与提取能力,进而能提高语音识别准确性。
-
公开(公告)号:CN118471222B
公开(公告)日:2025-04-18
申请号:CN202410885174.4
申请日:2024-07-03
Applicant: 合肥智能语音创新发展有限公司
IPC: G10L15/22 , G10L15/06 , G10L15/16 , G10L19/008
Abstract: 本申请公开了一种语音唤醒方法及相关装置,预先训练得到训练好的多语种唤醒词检测模型。该训练好的多语种唤醒词检测模型包括训练好的第一编码器和训练好的第一解码器,第一编码器为轻量级编码器,第一解码器为轻量级解码器。在获取待识别的语音信号之后,利用训练好的第一编码器对语音信号进行编码得到编码特征,利用训练好的第一解码器对编码特征进行解码,即可得到唤醒词检测结果;根据唤醒词检测结果,即可确定所述语音信号的唤醒结果。本方案一方面可以利用多语种唤醒词检测模型实现多个语种的唤醒词的语音唤醒的目的,另一方面,模型为轻量化模型,更容易部署,降低了多语种语音唤醒的实现难度。
-
公开(公告)号:CN118471222A
公开(公告)日:2024-08-09
申请号:CN202410885174.4
申请日:2024-07-03
Applicant: 合肥智能语音创新发展有限公司
IPC: G10L15/22 , G10L15/06 , G10L15/16 , G10L19/008
Abstract: 本申请公开了一种语音唤醒方法及相关装置,预先训练得到训练好的多语种唤醒词检测模型。该训练好的多语种唤醒词检测模型包括训练好的第一编码器和训练好的第一解码器,第一编码器为轻量级编码器,第一解码器为轻量级解码器。在获取待识别的语音信号之后,利用训练好的第一编码器对语音信号进行编码得到编码特征,利用训练好的第一解码器对编码特征进行解码,即可得到唤醒词检测结果;根据唤醒词检测结果,即可确定所述语音信号的唤醒结果。本方案一方面可以利用多语种唤醒词检测模型实现多个语种的唤醒词的语音唤醒的目的,另一方面,模型为轻量化模型,更容易部署,降低了多语种语音唤醒的实现难度。
-
公开(公告)号:CN115497460B
公开(公告)日:2025-05-09
申请号:CN202211096150.8
申请日:2022-09-08
Applicant: 科大讯飞股份有限公司
IPC: G10L15/06 , G10L15/02 , G10L15/08 , G10L13/08 , G06N20/00 , G06N7/01 , G06N3/047 , G06F40/279 , G06F16/334
Abstract: 本申请提供了音频识别方法、模型的训练方法、装置、设备及存储介质,具体实现方案为:在第一音频数据集中确定低频三音素;基于低频三音素,从预设语料库中确定包含低频三音素的低频文本;基于低频文本训练音频识别模型。根据本申请的技术方案,能够有效提升训练数据中的低频数据内容的多样性和准确性。
-
公开(公告)号:CN119721071A
公开(公告)日:2025-03-28
申请号:CN202510224089.8
申请日:2025-02-27
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音翻译方法、系统和相关装置,该方法包括:基于目标对象的待翻译音频,确定所述待翻译音频对应的音频特征、文本转换特征和所述目标对象匹配的声学特征;获取与翻译任务匹配的链路信息,基于所述链路信息、所述音频特征、所述文本转换特征和所述声学特征,编码得到与所述待翻译音频匹配的目标转换特征;对所述目标转换特征进行解码,得到所述待翻译音频对应的翻译音频。通过上述方式,本申请能够提高语音翻译的准确性。
-
公开(公告)号:CN119611498A
公开(公告)日:2025-03-14
申请号:CN202411787967.9
申请日:2024-12-06
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种电动液压助力转向系统及车辆,涉及汽车电子设备技术领域,包括:信号采集处理系统、液压系统、转向系统和远程监控系统;信号采集处理系统包括数字信号处理器、压力传感器、角度传感器和无线通信模块;数字信号处理器分别与压力传感器、角度传感器以及无线通信模块连接。通过设置压力传感器和角度传感器,可以使数字信号处理器实现对液压系统和转向系统的准确操控,并可以掌握实时的系统状态。而且,采用了无线通信模块,可以与远程监控系统实现无线通信连接,实现对液压系统和转向系统的远程实时监控,相比于有线通信,可以提高用户的远程监控体验。
-
-
-
-
-
-
-
-
-