-
公开(公告)号:CN113793591B
公开(公告)日:2024-05-31
申请号:CN202110768683.5
申请日:2021-07-07
Applicant: 科大讯飞股份有限公司
IPC: G10L13/08
Abstract: 本申请公开了一种语音合成方法及相关装置和电子设备、存储介质,其中,语音合成方法包括:获取待合成文本的待合成音素;利用语音合成模型对待合成音素进行合成处理,得到合成音频;其中,语音合成模型是利用发言对象的样本数据训练预设语音网络而得到的,样本数据是利用发言对象的第一音频提取得到的,样本数据包括第一音频的样本音素序列以及第一音频的样本音频频谱和样本融合频谱,且样本音素序列包括若干样本音素,样本音频频谱包含若干样本音频帧,样本融合频谱是分别融合各个样本音素对应的样本音频帧而得到的。上述方案,能够提高语音合成质量。
-
公开(公告)号:CN113345410B
公开(公告)日:2024-05-31
申请号:CN202110513379.6
申请日:2021-05-11
Applicant: 科大讯飞股份有限公司
IPC: G10L13/027
Abstract: 本发明提供一种通用语音、目标语音合成模型的训练方法及相关装置,其中通用语音合成模型的训练方法包括:利用语音样本数据对初始语音建模模型进行训练,进而得到语音建模模型,其中,语音样本数据为非标注文本信息的样本数据;利用语音建模模型对语音测试数据进行处理,进而得到第一语音建模数据;利用第一语音建模数据对初始通用语音合成模型进行训练,进而得到通用语音合成模型。本申请的方法采用未标注文本信息的语音样本数据即可训练得到语音合成模型,其能够降低训练语音合成模型的代价以及困难度。
-
公开(公告)号:CN113129864B
公开(公告)日:2024-05-31
申请号:CN201911423685.X
申请日:2019-12-31
Applicant: 科大讯飞股份有限公司
IPC: G10L13/10
Abstract: 本申请实施例公开了一种语音特征预测方法、装置、设备及可读存储介质,对文本特征序列进行至少一个韵律层级的编码,得到至少一个韵律层级的隐变量序列,至少可以在一个韵律层级上对隐层特征进行多种控制,在得到多个韵律层级的隐变量序列时,还可以在每个韵律层级上分别对隐层特征进行多种控制,从而可以对隐层特征进行多种控制,增加了对隐层特征的控制能力,从而可以在每个韵律层级分别对语音特征的生成进行多种控制,使得语音特征在上述至少一个韵律层级的各个韵律层级上均可控,进而使得合成语音在上述至少一个韵律层级的各个韵律上均是可控的,增强了对语音合成控制能力。
-
公开(公告)号:CN113129863B
公开(公告)日:2024-05-31
申请号:CN201911417701.4
申请日:2019-12-31
Applicant: 科大讯飞股份有限公司
Abstract: 本申请实施例公开了一种语音时长预测方法、装置、设备及可读存储介质,在获取文本数据后,利用预先训练好的时长预测模型对文本数据进行至少两个韵律层级的编码,得到至少两个韵律层级的编码特征序列;利用上述时长预测模型,根据上述至少两个韵律层级的编码特征序列,生成文本数据对应的语音时长序列,该方案在对文本数据进行编码时,进行了至少两个韵律层级的编码,从而可以对语音时长进行不同韵律层级的控制,基于该方法预测的语音时长进行语音合成时,降低了一字一顿现象出现的概率,使得合成语音的连续性更好。
-
公开(公告)号:CN112786012B
公开(公告)日:2024-05-31
申请号:CN202011623508.9
申请日:2020-12-31
Applicant: 科大讯飞股份有限公司
IPC: G10L13/10
Abstract: 本发明提供一种语音合成方法、装置、电子设备和存储介质,其中方法包括:将初始语音输入至韵律学模型,得到韵律学特征;将韵律学特征和目标音色特征输入至语音合成模型,得到语音合成模型输出的合成结果;其中,韵律学模型是基于各第一语音训练得到的,各第一语音是基于相同的第一韵律学特征和不同的音色合成的;语音合成模型是基于各第二语音及其第二韵律学特征和音色特征训练得到的,第二韵律学特征是将第二语音输入韵律学模型得到的。本发明提供的方法、装置、电子设备和存储介质,韵律学模型输出的韵律学特征与音色无关,提高了语音合成的可靠性和准确性;此外,韵律学模型是针对各语种通用的,极大降低了语音合成任务的实现难度。
-
公开(公告)号:CN112786018B
公开(公告)日:2024-04-30
申请号:CN202011634065.3
申请日:2020-12-31
Applicant: 中国科学技术大学 , 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音转换及相关模型的训练方法、电子设备和存储装置,其中,语音转换模型的训练方法包括:获取目标对象的第一样本语音以及预训练的语音转换模型;语音转换模型是利用样本对象的第二样本语音及其经音色转换后的第三样本语音预训练得到的;利用音素识别网络识别第一样本语音的第一音素信息,并提取第一样本语音的第一实际声学信息;利用声学预测网络对第一音素信息和第一实际声学信息进行预测,得到第一预测声学信息,并基于第一实际声学信息和第一预测声学信息之间的差异,调整声学预测网络的网络参数;将音素识别网络和调整后的声学预测网络的组合,作为与目标对象匹配的语音转换模型。上述方案,能够提高语音转换的质量。
-
公开(公告)号:CN109300468B
公开(公告)日:2022-09-06
申请号:CN201811063799.3
申请日:2018-09-12
Applicant: 科大讯飞股份有限公司
IPC: G10L13/10
Abstract: 本申请公开了一种语音标注方法及装置,该方法包括:在获取到用户朗读初始录音文本时录制得到的语音后,可以将其作为待标注的录制语音,然后,根据该录制语音的识别文本对初始录音文本进行修正,以得到目标录音文本,接着,可以根据目标录音文本对录制语音进行韵律标注。可见,本申请实施例不再完全根据初始录音文本对录制语音进行语音标注,而是利用与用户的录制语音在内容上更一致的修正后录音文本对其进行语音标注,可以提高语音标注结果的准确率。
-
公开(公告)号:CN114333760A
公开(公告)日:2022-04-12
申请号:CN202111679120.5
申请日:2021-12-31
Applicant: 科大讯飞股份有限公司
IPC: G10L13/02 , G10L13/08 , G10L13/10 , G06F16/35 , G06F40/242 , G06F40/284 , G06F40/289 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本申请提供了一种信息预测模块的构建方法、信息预测方法及相关设备,构建方法包括:以能获得文本单元在不同语境下的语义信息为目标,构建文本处理模块;基于文本处理模块和预设的多种语音合成前端信息预测任务构建多任务处理模块;对多任务处理模块进行处理,以使处理后的多任务处理模块具备处理多种语音合成前端信息的预测任务的能力,处理后的模块作为构建的信息预测模块。经由本申请提供的构建方法可构建出同时对多种语音合成前端信息进行预测的模块。在构建方法的基础上,本申请还提供了可同时预测多种语音合成前端信息的信息预测方法,在此基础上,本申请还提供了可同时预测出较为准确的韵律词边界和调核位置的信息预测方法。
-
公开(公告)号:CN114299911A
公开(公告)日:2022-04-08
申请号:CN202111630204.X
申请日:2021-12-28
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音合成方法及相关装置、电子设备和存储介质,其中,语音合成方法包括:将待合成文本进行口语化转换,得到口语化文本;其中,口语化转换参考至少一种转换模式;提取口语化文本的音素序列,并预测口语化文本的口语化控制标签;其中,口语化控制标签用于控制发音状态;基于音素序列和口语化控制标签,合成得到待合成文本的口语化语音。上述方案,能够实现口语化的语音合成,以提升用户交互体验。