-
公开(公告)号:CN115497460B
公开(公告)日:2025-05-09
申请号:CN202211096150.8
申请日:2022-09-08
Applicant: 科大讯飞股份有限公司
IPC: G10L15/06 , G10L15/02 , G10L15/08 , G10L13/08 , G06N20/00 , G06N7/01 , G06N3/047 , G06F40/279 , G06F16/334
Abstract: 本申请提供了音频识别方法、模型的训练方法、装置、设备及存储介质,具体实现方案为:在第一音频数据集中确定低频三音素;基于低频三音素,从预设语料库中确定包含低频三音素的低频文本;基于低频文本训练音频识别模型。根据本申请的技术方案,能够有效提升训练数据中的低频数据内容的多样性和准确性。
-
公开(公告)号:CN119721071A
公开(公告)日:2025-03-28
申请号:CN202510224089.8
申请日:2025-02-27
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音翻译方法、系统和相关装置,该方法包括:基于目标对象的待翻译音频,确定所述待翻译音频对应的音频特征、文本转换特征和所述目标对象匹配的声学特征;获取与翻译任务匹配的链路信息,基于所述链路信息、所述音频特征、所述文本转换特征和所述声学特征,编码得到与所述待翻译音频匹配的目标转换特征;对所述目标转换特征进行解码,得到所述待翻译音频对应的翻译音频。通过上述方式,本申请能够提高语音翻译的准确性。
-
公开(公告)号:CN119611498A
公开(公告)日:2025-03-14
申请号:CN202411787967.9
申请日:2024-12-06
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种电动液压助力转向系统及车辆,涉及汽车电子设备技术领域,包括:信号采集处理系统、液压系统、转向系统和远程监控系统;信号采集处理系统包括数字信号处理器、压力传感器、角度传感器和无线通信模块;数字信号处理器分别与压力传感器、角度传感器以及无线通信模块连接。通过设置压力传感器和角度传感器,可以使数字信号处理器实现对液压系统和转向系统的准确操控,并可以掌握实时的系统状态。而且,采用了无线通信模块,可以与远程监控系统实现无线通信连接,实现对液压系统和转向系统的远程实时监控,相比于有线通信,可以提高用户的远程监控体验。
-
公开(公告)号:CN119517006A
公开(公告)日:2025-02-25
申请号:CN202411486618.3
申请日:2024-10-23
Applicant: 科大讯飞股份有限公司
IPC: G10L15/00 , G10L15/18 , G10L25/51 , G10L15/06 , G06F16/334
Abstract: 本申请提出一种方言识别方法、装置、设备及程序产品,该方法包括:将方言语音输入方言语音识别模型,得到方言识别结果;其中,所述方言语音识别模型是基于方言语音样本进行方言语音识别训练以及基于方言文本发音样本进行方言文本预测训练得到的,所述方言文本发音样本包括方言文本对应的普通话发音。上述方案基于新的模型训练方案训练方言语音识别模型并将其用于方言语音识别,能够提高方言语音识别效果。
-
公开(公告)号:CN119400179A
公开(公告)日:2025-02-07
申请号:CN202411493818.1
申请日:2024-10-24
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了语音翻译方法及装置、电子设备以及计算机可读存储介质,语音翻译方法包括:获取到待翻译语音的第一语音编码向量;对第一语音编码向量进行实时顺滑处理,得到第一语音编码向量对应的标记信息与分段信息;基于第一语音编码向量、标记信息、分段信息与至少一个提示词生成具有要点信息且顺滑的第二语音编码向量;对第二语音编码向量进行解码,得到目标语音;其中,待翻译语音与目标语音对应的语种不同。本申请能够基于要点信息对源语音进行翻译,从而提高翻译的流畅性与准确性,继而提高用户体验。
-
公开(公告)号:CN119204125A
公开(公告)日:2024-12-27
申请号:CN202411242743.X
申请日:2024-09-05
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提出一种模型运行方法、装置、设备、介质及产品,该方法通过确定硬件设备的剩余存储资源;通过将硬件设备的剩余存储资源与量化模型所需的存储资源进行比较,确定硬件设备能够运行的目标模型的类型,目标模型的类型为第一量化模型或第二量化模型,第一量化模型及其对应的第一量化系数存储在内存中,第一量化参数用于对第一量化模型进行解量化得到第二量化模型,第二量化模型对应的模型参数的位宽大于第一量化模型对应的模型参数的位宽;根据目标模型的类型获取相应的目标模型,并由硬件设备运行目标模型执行目标任务。本申请能够实现占用内存小且推理准确度高的效果。
-
公开(公告)号:CN117474807B
公开(公告)日:2024-05-31
申请号:CN202311819869.4
申请日:2023-12-27
Applicant: 科大讯飞股份有限公司
IPC: G06T5/77 , G06V10/44 , G06V10/774 , G06V10/86
Abstract: 本发明提供了一种图像修复方法、装置、设备及存储介质,图像修复方法包括:获取待修复图像以及与待修复图像相关的音频;获取能够表征音频的整个音频信息的音频特征,作为目标音频特征;利用目标音频特征,对待修复图像进行修复,得到待修复图像对应的修复后图像。本发明提供的图像修复方法可利用与待修复图像相关的音频的信息对待修复图像中受损的图像信息进行补偿,从而实现真正意义上的受损补偿,本发明提供的图像修复方法具有较好的修复效果。
-
公开(公告)号:CN118053417A
公开(公告)日:2024-05-17
申请号:CN202410125909.3
申请日:2024-01-29
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音处理方法及相关装置、设备和存储介质,其中,语音处理方法包括:获取待处理数据;其中,待处理数据中至少包含待处理语音和用于指示对待处理语音执行目标任务的提示文本;提取待处理语音的第一特征表示;基于各种语音属性的混合专家系统分别处理第一特征表示,得到对应语音属性的语音属性特征,并基于语言属性的混合专家系统处理第一特征表示,得到语言属性的语言属性特征;基于目标任务将各种语音属性的语音属性特征与语言属性的语言属性特征进行自适应融合,得到融合属性特征;至少基于融合属性特征执行目标任务,得到语音处理结果。上述方案,能够区分不同处理任务进行语音处理,以提升语音处理的处理精度。
-
公开(公告)号:CN118038863A
公开(公告)日:2024-05-14
申请号:CN202311718263.1
申请日:2023-12-13
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提出一种唤醒语音识别方法、装置、电子设备及存储介质,该方法包括:基于待识别语音的声学特征,从模型集合中确定出与所述声学特征适配的建模模型,并利用所述建模模型对所述声学特征进行特征建模处理,得到建模声学特征;所述模型集合包括用于对唤醒语音的声学特征进行建模的唤醒语音建模模型,以及用于对非唤醒语音的声学特征进行建模的非唤醒语音建模模型;基于所述建模声学特征,从所述待识别语音中识别唤醒语音。上述方案能够提高唤醒语音识别的准确度和识别效率。
-
公开(公告)号:CN117935782A
公开(公告)日:2024-04-26
申请号:CN202311793025.7
申请日:2023-12-22
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了语音意图识别方法及其模型训练方法、设备、存储介质,该识别方法包括:提取待识别语音数据的语义特征;以及获取待识别语音数据的语音边界信息,语音边界信息用于区分待识别语音数据中的有效语音部分和无效语音部分;基于语音边界信息,对语义特征进行特征抽取,得到意图特征,语音边界信息用于指示从有效语音部分对应的语义特征中抽取得到意图特征;基于意图特征确定待识别语音数据的意图。上述方案,能够提升语音识别的准确率。
-
-
-
-
-
-
-
-
-