-
公开(公告)号:CN114648980B
公开(公告)日:2025-02-28
申请号:CN202210203533.4
申请日:2022-03-03
Applicant: 科大讯飞股份有限公司
IPC: G10L15/02 , G10L15/06 , G10L15/26 , G10L15/08 , G10L25/06 , G10L25/51 , G06F18/24 , G06F18/25 , G06F40/211
Abstract: 本发明提供一种数据分类和语音识别方法、装置、电子设备及存储介质,其中方法包括,确定待分类数据,待分类数据包括原始语音、识别文本和修改文本;确定待分类数据在预设特征下的特征值,预设特征用于表征识别文本和修改文本之间的差异信息和用户的用户信息;基于特征值,确定待分类数据的有效性分类结果。本发明提供的方法、装置、电子设备及存储介质,能够通过获取样本数据的候选特征中各个特征值,并根据候选特征中各个特征值对应的有效标注样本数和无效标注样本数,从候选特征中选取预设特征,实现了从候选特征中去除无效特征,在不影响有效性判断准确率的情况下,能够提高判断的执行效率。
-
公开(公告)号:CN112863539B
公开(公告)日:2024-04-16
申请号:CN201911188336.4
申请日:2019-11-28
Applicant: 科大讯飞股份有限公司
IPC: G10L21/0332 , G10L19/04 , G10L15/06 , G10L25/18
Abstract: 本申请提供了一种高采样率语音波形重建方法、装置、设备及存储介质,其中,方法包括:获取待重建语音波形的条件特征;根据待重建语音波形的条件特征分别构建低采样率语音波形和残差语音波形,其中,低采样率语音波形能够反映待重建语音波形的整体形状,残差语音波形能够反映待重建语音波形的局部精细结构;根据低采样率语音波形和残差语音波形,重建高采样率语音波形。本申请根据低采样率语音波形和残差语音波形能够重建出高质量的高采样率语音波形。
-
公开(公告)号:CN115641861A
公开(公告)日:2023-01-24
申请号:CN202211254927.9
申请日:2022-10-13
Applicant: 科大讯飞股份有限公司
IPC: G10L21/02 , G10L15/20 , G10L25/30 , B60R16/037
Abstract: 本申请公开了一种车载语音增强方法、装置、存储介质及设备,该方法包括:首先获取目标车辆的车载辅助信息,以及获取目标车辆上各个音区车载用户的目标语音信息,然后利用车载辅助信息对目标语音信息进行增强处理,得到增强后的目标语音信息;接着,根据增强后的目标语音信息,对车载用户和/或目标车辆进行预设操作处理,得到处理结果。可见,本申请是先根据车载辅助信息对车辆上各个音区车载用户的语音进行增强,再利用增强后的语音进行后续车辆唤醒和用户定位及识别等预设操作处理,从而能够提升唤醒、定位和识别效果,进而提高了用户在目标车辆行车状态下的语音交互体验。
-
公开(公告)号:CN115563277A
公开(公告)日:2023-01-03
申请号:CN202211178020.9
申请日:2022-09-23
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种意图识别方法、装置、电子设备及存储介质,该方法包括:获取待识别文本;基于语言模型,提取所述待识别文本的文本意图特征;基于意图识别分支,确定所述文本意图特征对应的意图识别结果;其中,所述语言模型是结合掩膜预测分支进行掩膜预测训练,并结合所述意图识别分支进行意图识别训练得到的;所述掩膜预测训练是以携带掩膜的第一样本文本为样本、以预测所述第一样本文本中的掩膜部分为任务执行的,所述意图识别训练是以携带意图标签的第二样本文本为样本、以识别所述第二样本文本的意图为任务执行的。本发明提供的方法、装置、电子设备和存储介质,极大程度提升了意图识别的自由度,提高了意图识别的泛化能力。
-
公开(公告)号:CN115359783A
公开(公告)日:2022-11-18
申请号:CN202210855299.3
申请日:2022-07-19
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种音素识别方法、装置、电子设备和存储介质,所述方法包括:确定待识别语音;将待识别语音输入至音素识别模型,得到音素识别模型输出的音素识别结果;音素识别模型基于多个语种的样本语音及各样本语音的音素级标签,对第一识别模型进行训练得到,第一识别模型是基于第二识别模型下各音素节点所对应音素之间的相似度,对第二识别模型下的音素节点进行筛选得到的,第二识别模型包括多个语种分别对应的音素节点。本发明提供的音素识别方法、装置、电子设备和存储介质,不仅减小了音素识别模型的规模,而且音素识别模型能够准确对不同语种的音素进行区分。
-
公开(公告)号:CN115035885A
公开(公告)日:2022-09-09
申请号:CN202210393427.7
申请日:2022-04-15
Applicant: 科大讯飞股份有限公司
IPC: G10L13/027 , G10L13/08 , G10L17/04
Abstract: 本发明提供了一种语音合成方法、装置、设备及存储介质,方法包括:获取目标文本对应的音素序列,通过语音合成模型的矢量预测模型将音素序列处理成包含音素信息和目标说话人的说话人信息的矢量,作为目标矢量,通过语音合成模型的语音合成模块对目标矢量进行处理,以生成合成语音。本发明采用目标说话人的单一语种语音和非目标说话人的多语种语音训练得到音频转换模型,进而基于音频转换模型和大量非目标说话人的多语种语音获得大量具有目标说话人音色的多语种语音,从而可利用大量具有目标说话人音色的多语种语音训练得到矢量预测模型,在此基础上构建能够合成目标说话人多语种语音的语音合成模型,经由本发明可合成出目标说话人的多语种语音。
-
公开(公告)号:CN114944149A
公开(公告)日:2022-08-26
申请号:CN202210400143.6
申请日:2022-04-15
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音识别方法、语音识别设备及计算机可读存储介质。该方法包括:基于待识别语音进行语音特征提取,得到语音特征,并基于参考文本进行文本特征提取,得到参考文本特征,其中,参考文本对参考语音识别得到,参考文本的语境与待识别语音的语境相关,参考语音的发言时间先于待识别语音的发言时间;基于参考文本特征和语音特征,识别得到待识别语音的识别文本。通过上述方式,能够提高识别文本的准确度。
-
公开(公告)号:CN114155838A
公开(公告)日:2022-03-08
申请号:CN202111532128.9
申请日:2021-12-14
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种语音唤醒方法、装置、电子设备及存储介质,其中方法包括:确定待分类语音;基于辅助语音的语音特征与待分类语音的语音特征之间的相关性,以及辅助语音的语音特征与待分类语音的语音特征,确定待分类语音的唤醒类别,辅助语音包括未唤醒语音和/或误唤醒语音;在唤醒类别为唤醒语音时,执行唤醒操作。本发明提供的方法、装置、电子设备及存储介质,能够通过基于辅助语音和待分类语音之间的相关性,以及联合辅助语音和待分类语音的语音特征,得到待分类语音的唤醒类别,实现了在对语音进行唤醒分类时引入辅助语音协助识别的方式,提高了识别唤醒类别的准确率,减少了未唤醒和误唤醒的几率,进而提高了用户的体验度。
-
公开(公告)号:CN109410956B
公开(公告)日:2021-10-08
申请号:CN201811580955.3
申请日:2018-12-24
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供了一种音频数据的对象识别方法、装置、设备及存储介质,方法包括:获取目标场景下的待识别音频数据,以及与目标场景相适应的目标声纹特征集合;基于与目标场景相适应的目标声纹特征集合,识别待识别音频数据对应的对象。本申请提供的音频数据的对象识别方法,由于目标声纹特征集合与目标场景相适应,因此,基于目标声纹特征集合能较好地对从目标场景下的待识别音频数据中提取的声纹特征进行匹配,从而能够提升目标场景下待识别音频数据对应对象的识别效果。
-
公开(公告)号:CN113129863A
公开(公告)日:2021-07-16
申请号:CN201911417701.4
申请日:2019-12-31
Applicant: 科大讯飞股份有限公司
Abstract: 本申请实施例公开了一种语音时长预测方法、装置、设备及可读存储介质,在获取文本数据后,利用预先训练好的时长预测模型对文本数据进行至少两个韵律层级的编码,得到至少两个韵律层级的编码特征序列;利用上述时长预测模型,根据上述至少两个韵律层级的编码特征序列,生成文本数据对应的语音时长序列,该方案在对文本数据进行编码时,进行了至少两个韵律层级的编码,从而可以对语音时长进行不同韵律层级的控制,基于该方法预测的语音时长进行语音合成时,降低了一字一顿现象出现的概率,使得合成语音的连续性更好。
-
-
-
-
-
-
-
-
-