-
公开(公告)号:CN114170998B
公开(公告)日:2025-01-28
申请号:CN202111339548.5
申请日:2021-11-12
Applicant: 科大讯飞股份有限公司
IPC: G10L13/06 , G10L13/07 , G10L13/08 , G06F40/242 , G06F40/289
Abstract: 本申请提供了一种停顿位置预测方法、语音合成方法及相关设备,其中,停顿位置预测方法包括:获取目标文本;基于预先建立的第一词典,对目标文本进行分词,获得目标文本的分词结果,其中,第一词典中包括若干第一基本语言单元和若干第二基本语言单元,第一基本语言单元为发生连读的多个文法词组成的文法词串,第二基本语言单元为不与其他文法词发生连读的单个文法词;根据目标文本的分词结果,预测目标文本的停顿位置。经由本申请提供的停顿位置预测方法可预测出较为合理的停顿位置,根据采用本申请提供的停顿位置预测方法针对目标文本预测的停顿位置进行语音合成,能够获得效果较好的合成语音。
-
公开(公告)号:CN118379983A
公开(公告)日:2024-07-23
申请号:CN202410298015.4
申请日:2024-03-15
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G10L13/02 , G10L13/06 , G10L25/24 , G10L25/63 , G10L25/27 , G06F18/10 , G06F18/24 , G06F18/213 , G06F18/214
Abstract: 本发明提供了一种跨说话人情感语音合成方法、系统及存储介质,包括步骤1,数据采集及预处理步骤;步骤2,训练声学模型及多粒度情感信息提取模块步骤;步骤3,训练细粒度情感信息预测模块步骤;步骤4,跨说话人情感语音合成步骤。本发明的有益效果是:本发明能够提高生成语音质量,并且在提高情感表现力的同时保证其稳定性。
-
公开(公告)号:CN113823259B
公开(公告)日:2024-07-02
申请号:CN202110832833.4
申请日:2021-07-22
Applicant: 腾讯科技(深圳)有限公司 , 清华大学深圳国际研究生院
Abstract: 公开了一种将文本数据转换为音素序列的方法、装置、设备、和计算机可读存储介质。该将文本数据转换为音素序列的方法包括:基于所述文本数据中的句子,提取所述句子对应的句义特征和所述句子中的一个或多个连续字符对应的字符语义特征,基于所述句子对应的句义特征,确定所述句子对应的语法特征,基于所述字符语义特征和所述句子对应的语法特征,确定多音字特征,所述多音字特征指示字符的多音字发音信息,以及基于所述语法特征和所述多音字特征,确定所述句子对应的音素序列。本公开利用神经网络提取了文本数据中的语法特征和多音字特征并将上述的特征以级联的方式进行了融合,并可选地引入了文本数据中的变调信息,使得合成的语音更加自然。
-
公开(公告)号:CN111785246B
公开(公告)日:2024-06-18
申请号:CN202010617733.5
申请日:2020-06-30
Applicant: 联想(北京)有限公司
Abstract: 本申请提出了一种虚拟角色语音处理方法、装置及计算机设备,针对现有的语音合成引擎的虚拟角色固定单一,无法满足用户个性化需求的问题,本申请提出自定义虚拟角色的发明构思,具体的,计算机设备可以响应针对语音合成引擎的虚拟角色配置请求,输出虚拟角色配置界面,用户可以根据自身喜好及需求,在该虚拟角色配置界面相应位置输入虚拟角色的多个形象特征等属性信息,以利用人工智能技术得到与该属性信息相匹配的虚拟角色图像和虚拟角色声音特征,从而利用该虚拟角色图像和虚拟角色声音特征,构建成用户自定义的虚拟角色画像并展示,满足了不同用户对语音合成引擎的虚拟角色的个性化需求,提高了人机语音交互的多样性及乐趣。
-
公开(公告)号:CN117953852A
公开(公告)日:2024-04-30
申请号:CN202311123192.0
申请日:2023-08-31
Applicant: 马上消费金融股份有限公司
Inventor: 白安琪
Abstract: 本说明书实施例提供了文本处理方法及装置,其中,一种文本处理方法包括:在待处理文本中检测目标语种下的异读字符;根据所述异读字符和音序映射关系对所述异读字符的第一音序进行变换处理,得到所述异读字符的第二音序;识别所述待处理文本中的第一字符串,以及将所述第一字符串替换为对应的第二字符串,得到合成文本;对所述合成文本进行语音合成得到第一语音,以及基于所述第二音序和所述合成文本对所述第一语音进行语音修正,得到所述合成文本的第二语音。采用本申请实施例能够提升目标语种下的语音合成精确度。
-
公开(公告)号:CN117716421A
公开(公告)日:2024-03-15
申请号:CN202280051577.8
申请日:2022-06-21
Applicant: 国立研究开发法人情报通信研究机构
IPC: G10L13/06
Abstract: 实现一种音频数据生成装置,能够在不使用能够高速处理的GPU的情况下高速地实现高品质的音频生成处理。在音频数据生成装置(100)中,具有通过多流生成部(1)获取多个流数据的结构,此外,通过导入能够学习的卷积处理部(3),能够进行与高精度的音频数据识别装置(Dev_D)的对抗学习。然后,通过利用该对抗学习获取的音频数据生成装置(100),能够进行高速且高精度的音频数据生成处理。此外,由于音频数据生成装置(100)具有简单的结构,所以能够在不使用能够高速处理的GPU的情况下高速地实现高品质的音频数据生成处理(例如,声音合成处理)。
-
公开(公告)号:CN117672182A
公开(公告)日:2024-03-08
申请号:CN202410145879.2
申请日:2024-02-02
Applicant: 江西拓世智能科技股份有限公司 , 拓世科技集团有限公司
IPC: G10L13/10 , G10L13/06 , G10L13/027 , G06F40/151 , G06F40/284 , G06F40/169 , G10L13/08
Abstract: 本发明提供了一种基于人工智能的声音克隆方法及系统,该方法通过将原始文本正则化处理,并依次转换为若干待转换句和若干待转换词,获取待转换词的拼音,并将其中各字的拼音进行标注,得到第一标注,将字的拼音中的声母和韵母拆分,并将字的拼音的第一标注赋给韵母,再对字的拼音中的声母进行标注,根据预设规则,确定音素信息,音素信息包括第一标注中的目标标注,然后重新组合词组,并根据用户说话语速,确定重新组合后的各词组之间的停顿时间,最后根据字和对应的音素信息,转换为声学特征,并将声学特征转换为目标波形,根据目标波形,完成声音克隆,可以有效解决仅依靠专业的语义学知识和经验进行人工设计,往往耗时耗力,且效果不好的问题。
-
公开(公告)号:CN113327572B
公开(公告)日:2024-02-09
申请号:CN202110612224.8
申请日:2021-06-02
Applicant: 清华大学深圳国际研究生院
IPC: G10L13/027 , G10L13/06 , G10L13/08 , G10L25/63
Abstract: 本发明公开了一种基于情感类别标签的可控情感语音合成系统及方法,该方法包括:文本特征提取步骤,用于从输入的音素序列中提取出语音文本特征;语音风格特征提取步骤,用于接收与音素序列对应的目标语音的声学特征,并从声学特征中提取出语音风格特征;语音风格特征记忆步骤,用于根据语音风格特征得到目标语音的情感风格特征;声学特征预测步骤,用于根据语音文本特征和情感风格特征预测合成情感语音声学特征。本发明可提高语音风格特征与语音文本特征的解耦程度,使得合成语音的风格调控结果不受文本内容限制,提升合成语音的可控性和灵活性,并且可有效利用语料中语音的情感标签与各情感数据分布信息,以更高效地提取各情感的语音风格特征。(56)对比文件张海龙;何小雨;李鹏;周美丽.基于语音信号的情感识别技术研究.延安大学学报(自然科学版).2017,(第01期),全文.
-
公开(公告)号:CN116863908A
公开(公告)日:2023-10-10
申请号:CN202310954513.5
申请日:2023-07-31
Applicant: 上海墨百意信息科技有限公司
Abstract: 本公开提供了一种重读可控语音合成方法、装置、电子设备及存储介质。本公开实施例的重读可控语音合成方法包括:获取用户提供的第一文本;通过语音合成模型中的文本编码器获取第一文本的文本编码状态;获取重读特征,重读特征包括第一重读特征和/或第二重读特征,第一重读特征由用户设置,第二重读特征通过语音合成模型中的重音预测器基于第一文本的文本编码状态得到;至少通过语音合成模型中的解码器基于第一文本的文本编码状态和重读特征获得第一文本的合成音频。本公开实施例能够在不降低语音合成质量的前提下实现语音合成的重读可控。
-
公开(公告)号:CN116686043A
公开(公告)日:2023-09-01
申请号:CN202180083413.9
申请日:2021-12-17
Applicant: 国立研究开发法人情报通信研究机构
IPC: G10L13/06
Abstract: 本发明实现信号生成处理装置,该信号生成处理装置实现可以保持语音合成处理或图像信号生成的速度且获得高质量的语音信号或图像信号的语音合成处理或图像信号生成处理。在信号生成处理装置中,第一子模型部~第N子模型部分别使用不同的噪声水平的范围中包含的噪声水平进行第一子模型部~第N子模型部中包含的学习模型的学习处理,从而获取已学习模型。也就是说,在信号生成处理装置中,可以针对各子模型部并行地进行处理,其结果是,可以高速地进行学习处理。另外,在信号生成处理装置中,在预测处理时,可以适当地选择所使用的子模型部进行处理,因此可以执行高精度的语音合成处理或图像生成处理。
-
-
-
-
-
-
-
-
-