-
公开(公告)号:CN118016105A
公开(公告)日:2024-05-10
申请号:CN202410044481.X
申请日:2024-01-11
申请人: 美的集团(上海)有限公司 , 美的集团股份有限公司
摘要: 本发明提出了一种情绪识别模型的确定方法、情绪类型的识别方法和装置。情绪识别模型的确定方法包括:获取模型训练数据;对模型训练数据进行数据训练,以得到情绪联合网络,情绪联合网络储存有模型训练数据对应的情感预测概率;基于情感预测概率,确定损失函数;根据损失函数和情绪联合网络,创建情绪识别模型。
-
公开(公告)号:CN116959404A
公开(公告)日:2023-10-27
申请号:CN202310953039.4
申请日:2023-07-31
申请人: 美的集团(上海)有限公司 , 美的集团股份有限公司
摘要: 本发明提供了一种音频信号的生成方法、装置、可读存储介质和电子设备,涉及音频合成技术领域。其中,音频信号的生成方法,包括:获取第一音频生成模型,第一音频生成模型包括一维卷积节点;对一维卷积节点进行编译处理,得到对应的目标机器码;根据目标机器码对第一音频生成模型进行目标处理,得到处理后的第二音频生成模型;通过第二音频生成模型生成目标音频信号。
-
公开(公告)号:CN116343814A
公开(公告)日:2023-06-27
申请号:CN202310310419.6
申请日:2023-03-27
申请人: 美的集团(上海)有限公司 , 美的集团股份有限公司
IPC分类号: G10L21/0232 , G10L21/007 , G10L13/047 , G10L13/04
摘要: 本发明提出了一种频响均衡模型的训练方法、语音合成方法和可读存储介质。频响均衡模型的训练方法包括:获取原始音频和音频播放设备的播放音频,其中,播放音频为原始音频经过音频播放设备播放输出的音频;对原始音频和播放音频进行数据训练,以得到频响均衡模型。
-
公开(公告)号:CN114678002A
公开(公告)日:2022-06-28
申请号:CN202210344456.4
申请日:2022-03-31
申请人: 美的集团(上海)有限公司 , 美的集团股份有限公司
摘要: 本申请涉及语音合成领域,提供一种文本的切分方法和文本的切分装置,所述文本的切分方法,包括:将目标文本转化为韵律音素序列,所述韵律音素序列包括与所述目标文本对应的多个音素以及位于相邻所述音素之间的韵律标识符;基于多个所述韵律标识符在所述韵律音素序列中确定第一切分位置;基于所述第一切分位置对所述韵律音素序列进行切分,生成第一子韵律音素序列和第二子韵律音素序列,且所述第一子韵律音素序列对应的语音合成时长在目标时长内。本申请的文本的切分方法,能够缩短合成系统的首句响应时间。
-
公开(公告)号:CN113409826A
公开(公告)日:2021-09-17
申请号:CN202110890585.9
申请日:2021-08-04
申请人: 美的集团(上海)有限公司 , 美的集团股份有限公司
摘要: 本申请公开了一种TTS系统性能测试方法、装置、设备及介质,应用于语音合成技术领域,用以解决现有技术的TTS系统性能测试方法存在的准确度较低的问题。具体为:获取TTS系统对输入文本的文本预测结果和语音预测结果;基于文本预测结果,确定TTS系统的文本处理性能测试结果;基于语音预测结果,确定TTS系统的语音转换性能测试结果;基于文本处理性能测试结果和语音转换性能测试结果,确定TTS系统的综合性能测试结果。这样,采用文本处理和语音转换两个方面的客观指标对TTS系统的性能进行测试,不仅可以实现对TTS系统性能的全方位测试,还可以提高TTS系统性能测试的准确度。
-
公开(公告)号:CN118918906A
公开(公告)日:2024-11-08
申请号:CN202411238688.7
申请日:2024-09-04
申请人: 美的集团(上海)有限公司 , 美的集团股份有限公司
IPC分类号: G10L19/008 , G10L21/0316 , G10L21/0216
摘要: 本发明提出了一种语音处理方法及装置、电子设备和可读存储介质。语音处理方法包括:获取多个麦克风通道的多个原始语音信号;对多个原始语音信号在N个波束方向进行波束形成,得到N个波束信号,N为正整数;对多个麦克风通道中的目标麦克风通道的目标原始语音信号和N个波束信号进行降噪处理,得到第一语音信号;对目标原始语音信号和第一语音信号进行加权处理,得到第二语音信号。这样,结合多波束信号处理以及多通道语音降噪神经网络进行语音降噪,并结合原始语音信号进行语音信号的降噪和加权,无需声源定位,也无需使用大量训练数据,提高了高噪音环境下语音降噪的准确性,并保证了降噪后的语音信号的保真性。
-
公开(公告)号:CN114822496B
公开(公告)日:2024-09-20
申请号:CN202110962055.0
申请日:2021-08-20
申请人: 美的集团(上海)有限公司 , 美的集团股份有限公司
发明人: 高羽
IPC分类号: G10L13/08 , G10L13/033
摘要: 本申请公开了一种音色切换方法、装置、设备及介质,应用于语音合成技术领域,用以解决现有技术在切换TTS系统的发音人时存在的用户感知明显、用户体验较差的问题。具体为:获取目标发音人数据和原始发音人数据;基于各个音色变化阶段的音色变化程度,对目标发音人数据和原始发音人数据进行混合,得到各个音色变化阶段的发音人数据;基于各个音色变化阶段的发音人数据,获得各个音色变化阶段的TTS系统;基于各个音色变化阶段的音色变化程度表征的调用顺序,调用各个音色变化阶段的TTS系统,从而可以实现从原始发音人音色到的目标发音人音色的平滑切换,进而可以降低TTS系统切换发音人时的用户感知,提高TTS系统的用户体验。
-
公开(公告)号:CN118116360A
公开(公告)日:2024-05-31
申请号:CN202410238722.4
申请日:2024-03-01
申请人: 美的集团(上海)有限公司 , 美的集团股份有限公司
IPC分类号: G10L13/02 , G06F16/332 , G06F16/335 , G10L13/027 , G10L13/08 , G10L13/10 , G10L25/03
摘要: 本发明提出了一种语音风格提示信息的确定方法及装置、电子设备和介质。语音风格提示信息的确定方法包括:根据参考音频,提取参考音频的发音特征以及键值对向量;根据目标文本以及参考音频的发音特征,确定预测基频值与预测能量值;根据预测基频值、预测能量值以及参考音频的发音特征,确定查询向量;根据注意力机制处理查询向量和键值对向量,得到目标文本的语音风格提示信息。
-
公开(公告)号:CN114822484A
公开(公告)日:2022-07-29
申请号:CN202110069952.9
申请日:2021-01-19
申请人: 美的集团(上海)有限公司 , 美的集团股份有限公司
发明人: 高羽
摘要: 本发明的实施例提供了一种声学特征预测模型训练方法、装置、电子设备和计算机可读存储介质,涉及数据处理技术领域,方法包括:获得待输出文本信息和家居场景对应的训练风格嵌入信息,将待输出文本信息和训练风格嵌入信息输入声学特征预测网络,获得与家居场景对应的待合成声音预测特征,从而实现对家居场景对应的声学特征的可靠预测。
-
公开(公告)号:CN114678001A
公开(公告)日:2022-06-28
申请号:CN202210344448.X
申请日:2022-03-31
申请人: 美的集团(上海)有限公司 , 美的集团股份有限公司
发明人: 高羽
摘要: 本申请涉及语音合成领域,提供一种语音合成方法,包括:切分目标文本的韵律音素序列,生成多个分句序列,韵律音素序列包括与目标文本对应的多个音素以及位于相邻音素之间的韵律标识符,每个分句序列包括至少一个音素;对多个分句序列中的第一子韵律音素序列进行语音合成,得到第一语音信息;输出第一语音信息且对多个分句序列中的第二子韵律音素序列进行语音合成,生成第二语音信息,第二子韵律音素序列为在韵律音素序列中位于第一子韵律音素序列之后的至少一个分句序列。本申请的语音合成方法,有效加快系统在接收到网络语音合成服务请求后的反馈速度,缩短用户的等待时间。
-
-
-
-
-
-
-
-
-