-
公开(公告)号:CN114299908A
公开(公告)日:2022-04-08
申请号:CN202010996501.5
申请日:2020-09-21
申请人: 华为技术有限公司
IPC分类号: G10L13/02 , G10L13/033 , G10L13/04 , G10L15/02 , G10L15/06 , G10L15/16 , G10L15/26 , G10L25/18 , G10L25/30 , H04M1/72433 , H04M1/72403
摘要: 一种语音转换方法及相关设备,用于实现人声美化的多样化。本申请实施例方法包括:接收用户输入的模式选择操作,所述模式选择操作用于选择语音转换的模式;提供的多种可以选择的模式包括:风格转换模式,用于对待转换的第一语音进行说话风格转换;方言转换模式,用于对第一语音实现加口音或去口音;语音增强模式,用于对第一语音实现语音增强;三种模式具有对应的语音转换网络,根据用户选择的目标转换模式,选择目标转换模式对应的目标语音转换网络对第一语音进行转换,输出转换之后的第二语音,从而实现人声美化的多样化,满足用户在不同应用场景下的需求。
-
公开(公告)号:CN118366464A
公开(公告)日:2024-07-19
申请号:CN202310119140.X
申请日:2023-01-18
申请人: 华为技术有限公司
摘要: 本申请实施例提供了一种音频编解码方法及电子设备。该方法包括:将语音通话数据输入至第一编码器,以得到第一编码器输出的第一特征矩阵,其中,第一特征矩阵包括R个特征向量;随后,基于预设码本对R个特征向量分别进行量化,以得到索引矩阵;其中,索引矩阵包括S个索引,一个特征向量对应一个或多个索引;接着,基于索引矩阵,生成第一码流。相对于现有技术编码特征向量而言,编码索引的数据量更小,进而能够在低码率的情况下,实现全频带语音编码。
-
公开(公告)号:CN118522296A
公开(公告)日:2024-08-20
申请号:CN202310152315.7
申请日:2023-02-17
申请人: 华为技术有限公司
IPC分类号: G10L19/00 , G10L19/008 , G10L19/032 , G10L19/18
摘要: 本申请公开了一种有损编解码器和无损编解码器之间的切换方法和装置,该方法包括:获取上一帧Ti‑1的波形,并将上一帧Ti‑1的波形更新到无损编解码器上输入帧缓存;上一帧Ti‑1的波形由有损编码器进行编码;对无损编码器缓存中的波形进行整数时域加窗混叠消除INT winTDAC,得到第一变换结果,并将第一变换结果更新到无损编解码器上交叠缓存中;获取当前帧Ti的波形,并将当前帧Ti的波形更新到输入帧缓存;对无损编码器缓存中的波形进行整数改进离散余弦变换INTMDCT,得到第二变换结果。通过本申请,可以实现有损编解码器和无损编解码器之间实现实时无感切换,开销小,且不会引入感知噪声。
-
公开(公告)号:CN115881161A
公开(公告)日:2023-03-31
申请号:CN202111148233.2
申请日:2021-09-29
申请人: 华为技术有限公司
IPC分类号: G10L25/57 , G10L21/0208 , G10L15/25
摘要: 本申请实施例提供了一种语音处理方法和模型训练方法及电子设备。该语音处理方法包括:当确定视频画面发生变焦时,获取变焦参数、所述视频的第一视频语音数据和画面变焦后的视频画面数据;然后通过对所述变焦后的视频画面数据和所述第一视频语音数据进行多模态融合处理,以得到第二视频语音数据;接着,基于所述变焦参数对所述第二视频语音数据进行变焦,得到第三视频语音数据,输出所述第三视频语音数据。这样,通过多模态融合处理,有效的抑制视频语音数据中的噪声和混响,进而仅对抑制噪声和混响后的视频语音数据进行变焦,能够提高变焦后的视频语音数据的质量,以及提高用户体验。
-
-
-