-
公开(公告)号:CN112885329B
公开(公告)日:2023-10-31
申请号:CN202110150163.8
申请日:2021-02-02
申请人: 广州广哈通信股份有限公司
IPC分类号: G10L13/02 , G10L13/033 , H04L65/65
摘要: 本发明公开了一种提高混音音质的控制方法、装置及存储介质,所述方法包括:接收待混音的RTP数据,对所述RTP数据进行RTP重排序、数据解码、静音检测、统一采样率和写入输入队列;其中,一个所述输入队列对应一个混音通道;计算所述输入队列中语音数据的能量值,作为对应的混音通道的权重;根据所述混音通道的权重,选择参与混音的混音通道,并设置通道状态;根据预设的混音算法,执行混音操作,将参与混音的各通道的输出语音数据分别写入对应的混音通道的输出队列中;将所述输出队列的语音数据封装为RTP数据包,发送至音频发送端。本发明通过在混音前对语音数据进行预处理和混音后进行后处理,有效提高了混音输出的音质。
-
公开(公告)号:CN116895272A
公开(公告)日:2023-10-17
申请号:CN202310929195.7
申请日:2023-07-26
申请人: 武汉中科创达软件有限公司
IPC分类号: G10L13/033
摘要: 本申请公开了一种音频处理方法、装置、设备、介质及产品,包括:接收第一输入,响应于第一输入,获取初始音频的音频数据,初始音频的音频数据包括初始音频的音轨;响应于接收到的第二输入,在初始音频的音轨上,显示初始音频对应的波形数据;响应于接收到的第三输入,基于编辑操作,调整初始音频对应的波形数据以得到目标音频,第三输入用于指示对初始音频对应的波形数据的编辑操作。本申请实施例,降低了音频的编辑复杂度,进而提高了用户对音频的编辑效率。
-
公开(公告)号:CN116800725A
公开(公告)日:2023-09-22
申请号:CN202310769269.5
申请日:2023-06-27
申请人: 联想(北京)有限公司
IPC分类号: H04L65/75 , G10L13/02 , G10L13/047 , G10L13/033 , H04N5/262 , H04N5/265
摘要: 本申请提供一种数据处理方法及装置,该方法中,发送端分析目标数据的至少一数据包,获得与数据包关联的文本信息,并向接收端发送目标数据的数据包及与数据包关联的文本信息。接收端接收发送端发送的目标数据的数据包以及与数据包关联的文本信息;接收端在检测到目标数据丢包的情况下,获取与丢失的数据包关联的目标文本信息;基于目标文本信息,输出目标数据中丢失的数据包对应的数据片段。
-
公开(公告)号:CN116580694A
公开(公告)日:2023-08-11
申请号:CN202310386808.7
申请日:2023-04-12
申请人: 中科极限元(杭州)智能科技股份有限公司
IPC分类号: G10L13/08 , G10L13/033
摘要: 本发明公开了一种音频对抗样本生成方法、装置、设备及存储介质,方法包括:获取文本信息及噪声;将文本信息输入至随机时长预测器得到每一个文本的时长信息,根据时长信息与噪声进行对齐,得到对齐结果;将文本信息和对齐结果输入至先验编码器中,以编码得到中间特征;将中间特征及噪声输入至条件分布生成器,以噪声作为条件,经过多个并行的长短期记忆网络和全连接层,获得在噪声条件下,多个关于中间特征的帧级别分布;将分布经过flow层转换为与音频帧后验分布的近似分布,并采样出隐变量;对隐变量进行解码得到音频对抗样本。本发明利用分布采样原理条件的将噪声添加到人耳听不到的领域,使得生成的音频对抗样本更好的达到欺骗人耳的效果。
-
公开(公告)号:CN116580691A
公开(公告)日:2023-08-11
申请号:CN202310640902.0
申请日:2023-05-31
申请人: 平安科技(深圳)有限公司
IPC分类号: G10L13/02 , G10L13/08 , G10L13/10 , G10L13/047 , G10L13/04 , G10L13/033 , G10L25/30 , G06F16/35 , G06N3/0464 , G06N3/08 , G06N3/044
摘要: 本发明实施例提供语音合成方法、语音合成装置、电子设备及存储介质,涉及人工智能及数字医疗技术领域。其中语音合成方法利用跨域情感识别子模型得到目标文本信息的辅助情感标识;利用韵律编码子模型得到参考语音的韵律嵌入;利用音高预测子模型得到音高特征向量;利用持续时间预测子模型得到持续时间特征向量;利用音高特征向量、持续时间特征向量和文本编码向量进行语音合成,得到目标文本信息对应的语音内容。利用跨域情感识别子模型对目标文本信息生成辅助情感标识,在语音合成过程中结合辅助情感标识和韵律之间的关联性,选取参考语音生成包含情感的合成语音,提升合成语音的自然度,扩展文本到语音合成技术的应用范围。
-
公开(公告)号:CN116564272A
公开(公告)日:2023-08-08
申请号:CN202310545946.5
申请日:2023-05-12
申请人: 阿里巴巴(中国)有限公司
IPC分类号: G10L13/033 , G10L13/08
摘要: 本申请实施例公开了提供语音内容的方法及电子设备,所述方法包括:获取用户的声纹数据;确定所述用户选择的目标阅读对象,根据所述声纹数据以及所述目标阅读对象,生成带有所述用户的语音特征的个性化语音内容;将所述个性化语音内容提供给客户端,以便对所述个性化语音内容进行播放。通过本申请实施例,可以使得播放出的语音内容具有用户的语音特征,在母婴幼教、亲子阅读等场景中,进而使得儿童获得父母亲自为其阅读的体验。
-
公开(公告)号:CN116543746A
公开(公告)日:2023-08-04
申请号:CN202310641242.8
申请日:2023-05-31
申请人: 平安科技(深圳)有限公司
IPC分类号: G10L13/033 , G10L13/047 , G10L13/04 , G10L21/007 , G10L21/013 , G10L25/24 , G10L19/00
摘要: 本申请实施例提供了一种音频处理方法及装置、电子设备、存储介质,属于金融技术领域。该方法包括:基于预配置的音频编码器,根据第一音色向量、第一内容向量和第一音高向量生成第一潜变量;对第一潜变量进行潜在关系映射处理,得到第二潜变量;将第一内容向量与获取到的第二音高向量进行对齐处理,得到待处理音频对应的第二内容向量;基于音频编码器,根据第一音色向量、第二内容向量、第二音高向量以及第二潜变量,对初始梅尔频谱进行频谱优化处理,得到优化梅尔频谱。本申请实施例不仅可以改善待处理音频的音质和音高,还可以基于改善后的音频参数对初始梅尔频谱进行优化处理,得到美化过的梅尔频谱,有利于提升声音美化的音频质量。
-
公开(公告)号:CN116486778A
公开(公告)日:2023-07-25
申请号:CN202310246019.3
申请日:2023-03-08
申请人: 腾讯音乐娱乐科技(深圳)有限公司
IPC分类号: G10L13/02 , G10L13/033 , G10L13/047
摘要: 本申请提供了一种音频合成方法、计算机设备及存储介质、程序产品,该方法包括:将目标文本的音素特征信息与目标文本对应的标签信息进行特征融合处理,得到目标音素特征信息;将目标音素特征信息以及目标音高特征信息进行拼接处理,得到拼接特征信息;根据拼接特征信息,生成预测梅尔频谱;通过声码器对预测梅尔频谱进行转换处理,得到与目标文本对应的曲谱匹配的音频数据。采用本申请,可以降低音频合成的成本,且有利于提升合成的音频数据的音色稳定性。
-
公开(公告)号:CN110718209B
公开(公告)日:2023-07-18
申请号:CN201910916818.0
申请日:2015-02-23
申请人: 微软技术许可有限责任公司
IPC分类号: G10L13/08 , G10L13/033
摘要: 提供了多语音字体插值。多语音字体插值引擎允许通过对来自现有的字体的说话者特性和韵律进行插值,而产生具有宽泛的多种说话者特性和/或韵律的计算机生成的话音。使用来自多语音字体的预测模型,多语音字体插值引擎预测对从待说出的文本中所获得的音素序列的说话者特性和/或韵律有影响的参数的值。对于每个参数,通过根据所预测的值的加权的插值而生成额外的参数值。利用经插值的参数值来修改现有的语音字体改变了话音的风格和/或情绪,同时保留了原始的语音的基本音质。多语音字体插值引擎允许说话者特性和/或韵律从一个语音字体移植到另一个语音字体,或者允许针对现有的语音字体而生成全新的说话者特性和/或韵律。
-
公开(公告)号:CN108363706B
公开(公告)日:2023-07-18
申请号:CN201710056801.3
申请日:2017-01-25
申请人: 北京搜狗科技发展有限公司
IPC分类号: G06F16/332 , G10L15/22 , G10L13/033 , G10L15/06 , G10L15/07 , G10L25/63
摘要: 本发明实施例提供了一种人机对话交互的方法和装置,其中所述方法包括:获取交互方的语音数据、图像数据、以及场景数据;依据所述场景数据获取对应的场景特征模型;将所述语音数据和图像数据输入至所述场景特征模型得到目标人物特征属性;采用所述目标人物特征属性和场景数据确定目标对话策略;基于所述目标对话策略控制机器人的表情、语音和/或动作输出。本发明实施例使得在人机交互的过程中,机器可以根据目标对话策略配合交互方当前对话的特征,与交互方进行拟人化的对话,从而提高交互方交互体验。
-
-
-
-
-
-
-
-
-