-
公开(公告)号:CN114494069B
公开(公告)日:2024-10-15
申请号:CN202210106712.6
申请日:2022-01-28
申请人: 广州华多网络科技有限公司
摘要: 本申请公开一种图像处理方法、装置、计算机设备及存储介质,包括:获取由第一目标图像进行格式转换得到的第二目标图像;在预设的第一颜色空间内,将第二目标图像颜色值进行调整,生成第一增强图像;在预设的第二颜色空间内,计算第一目标图像和第二目标图像的均值和标准差;根据均值和标准差生成第二目标图像的第二增强图像;基于预设的权重计算式,生成第一权重高斯金字塔和第二权重高斯金字塔;基于预设的拉普拉斯计算式,获取第一图像拉普拉斯金字塔和第二图像拉普拉斯金字塔;应用预设的强化图像计算式,将各个所述的金字塔,生成强化图像。如此,可以获取既能保证图像细节,又能保证图像色彩的融合图像,提升获取图像的质量。
-
公开(公告)号:CN114494069A
公开(公告)日:2022-05-13
申请号:CN202210106712.6
申请日:2022-01-28
申请人: 广州华多网络科技有限公司
摘要: 本申请公开一种图像处理方法、装置、计算机设备及存储介质,包括:获取由第一目标图像进行格式转换得到的第二目标图像;在预设的第一颜色空间内,将第二目标图像颜色值进行调整,生成第一增强图像;在预设的第二颜色空间内,计算第一目标图像和第二目标图像的均值和标准差;根据均值和标准差生成第二目标图像的第二增强图像;基于预设的权重计算式,生成第一权重高斯金字塔和第二权重高斯金字塔;基于预设的拉普拉斯计算式,获取第一图像拉普拉斯金字塔和第二图像拉普拉斯金字塔;应用预设的强化图像计算式,将各个所述的金字塔,生成强化图像。如此,可以获取既能保证图像细节,又能保证图像色彩的融合图像,提升获取图像的质量。
-
公开(公告)号:CN111951779A
公开(公告)日:2020-11-17
申请号:CN202010838901.3
申请日:2020-08-19
申请人: 广州华多网络科技有限公司
摘要: 本申请涉及语音合成技术领域,提供了一种语音合成的前端处理方法及相关设备,该方法包括:获取待处理的原始文本信息,并将原始文本信息转换为正则化文本信息;将正则化文本信息输入多任务模型,获取对应的分词、韵律边界预测和多音字拼音的标签序列;整合分词和韵律边界预测的标签序列,获得整合标签序列;根据多音字拼音的标签序列和整合标签序列,确定原始文本信息的音素序列。本申请的实施有利于提高语音合成中前端处理结果的准确度。
-
公开(公告)号:CN110503976A
公开(公告)日:2019-11-26
申请号:CN201910754271.9
申请日:2019-08-15
申请人: 广州华多网络科技有限公司
IPC分类号: G10L21/0272 , G10L25/03 , G10L25/30 , G06N3/04 , G06N3/08
摘要: 本申请公开了一种音频分离方法、装置、电子设备及存储介质,该音频分离方法包括:获取待处理的混合音频;提取混合音频的音频特征;将音频特征输入预先训练好的音频分离神经网络模型,音频分离神经网络模型包括密集模块DenseBlock结构以及沙漏Hourglass结构,DenseBlock结构以及Hourglass结构用于根据音频特征逐级输出混合音频对应的伴奏音频特征和人声音频特征;获得音频分离神经网络模型输出的混合音频对应的伴奏音频特征和人声音频特征;基于伴奏音频特征和人声音频特征,获取混合音频对应的伴奏音频和人声音频,作为混合音频的混音分离结果。本申请将混合音频输入包含DenseBlock结构以及Hourglass结构的音频分离神经网络模型,能够比较准确分离出纯净伴奏和纯净人声,提高了音频分离效果。
-
公开(公告)号:CN108847234A
公开(公告)日:2018-11-20
申请号:CN201810689163.3
申请日:2018-06-28
申请人: 广州华多网络科技有限公司
摘要: 本发明实施例公开了一种唇语合成方法、装置、电子设备及存储介质,通过神经网络建立语音信号的梅尔频率倒谱系数特征向量与嘴型之间的对应关系,在将驱动用语音输入上述神经网络后,可以实时获取与驱动用语音对应的嘴型标定点数据。实现了嘴型数据的自动标定,在降低工作量的同时,提高了通用性。
-
公开(公告)号:CN107564063A
公开(公告)日:2018-01-09
申请号:CN201710765514.X
申请日:2017-08-30
申请人: 广州华多网络科技有限公司
摘要: 本申请公开了一种基于卷积神经网络的虚拟物显示方法及装置,该方法包括:获取摄像机当前时刻所拍摄的每帧画面,针对每帧画面中的任一帧画面,将该帧画面与目标画面输入预先建立的卷积神经网络模型,输出该帧画面与目标画面的四个顶点坐标之间的偏差,当每帧画面与目标画面的四个顶点坐标之间的偏差小于阈值,则显示虚拟物。通过上述方法,可以有效的确定出摄像机的当前时刻的影像是否没有到达指定的位置。
-
公开(公告)号:CN114007135A
公开(公告)日:2022-02-01
申请号:CN202111267436.3
申请日:2021-10-29
申请人: 广州华多网络科技有限公司
IPC分类号: H04N21/4402 , H04N21/2343 , H04N7/01 , G06V20/40 , G06V10/774 , G06V10/80 , G06V10/82 , G06K9/62 , G06N3/04 , G06N3/08
摘要: 本申请公开一种视频插帧方法及其装置、设备、介质、产品,所述方法包括:获取待插帧处理的目标视频,提取出所述目标视频中在时域上连续的两个参考帧图;由预训练的光流预测模型计算两个参考帧图之间的过渡帧图相对于两个参考帧图的光流预测向量;由预训练的插帧合成模型根据所述光流预测向量与所述两个参考帧图的图像特征向量生成所述过渡帧图的残差信息,所述残差信息包含残差值及图像映射权重;由预训练的插帧合成模型参考所述两个参考帧图,根据所述各个向量与所述残差信息生成所述过渡帧图,将过渡帧图插入两个参考帧图之间用于播放。本申请实现了端对端对目标视频进行插帧以提升其视频显示质量的效果,应用前景广阔。
-
公开(公告)号:CN110491404B
公开(公告)日:2020-12-22
申请号:CN201910754273.8
申请日:2019-08-15
申请人: 广州华多网络科技有限公司
IPC分类号: G10L21/0208 , G10L15/06 , G10L25/30
摘要: 本申请公开了一种语音处理方法、装置、终端设备及存储介质,该方法包括:获取带噪音频数据,带噪音频数据包括语音源信号;对带噪音频数据进行预处理,从带噪音频数据中提取带噪音频特征并输入预先训练好的语音处理网络模型,得到去噪后的音频特征,预先训练好的语音处理网络模型包括多个因果卷积层和至少一个递归神经网络层,多个因果卷积层用于根据带噪音频特征输出对应语音源信号的纹理特征,至少一个递归神经网络层用于根据纹理特征输出去噪后的音频特征;根据去噪后的音频特征,得到语音源信号的估计值,并将其作为去噪后的带噪音频数据进行输出。本申请通过因果卷积层和递归神经网络层实现对带噪音频数据的实时降噪,提高了语音降噪效果。
-
公开(公告)号:CN112037754A
公开(公告)日:2020-12-04
申请号:CN202010940049.0
申请日:2020-09-09
申请人: 广州华多网络科技有限公司
摘要: 本申请提供一种语音合成训练数据的生成方法及相关设备,通过获取原始训练数据,并确定原始训练数据的语音类型所对应的预先建立的音色转换网络,预先建立的音色转换网络至少包括语音内容识别模型、语音说话人识别模型、声码器模型和音色转换模型,其中,至少音色转换模型基于目标音色数据集进行训练调整得到;将原始训练数据输入预先建立的音色转换网络进行音频转换,输出转换成指定目标音色的音频数据,并将音频数据作为语音合成TTS训练数据,音频数据具有与原始训练数据相同的拼音标注和韵律标注。本申请能够实现在短时间内生成具有更多音色选择和数量的高质量TTS训练数据的目的。
-
公开(公告)号:CN111951780A
公开(公告)日:2020-11-17
申请号:CN202010839731.0
申请日:2020-08-19
申请人: 广州华多网络科技有限公司
摘要: 本申请涉及语音合成技术领域,提供了一种语音合成的多任务模型训练方法及相关设备,该方法包括:设定至少两个序列标注任务,以处理语音合成中的文本分析;根据序列标注任务构建包括多任务输出层的多任务模型,将多任务输出层配置为将目标文本信息作为各项序列标注任务独立的输入并输出各项序列标注任务对应的标签序列;获取样本信息,样本信息包括训练文本信息,以及训练文本信息与各项序列标注任务对应的训练标签序列;采用样本信息对多任务模型进行训练,得到语音合成前端处理的多任务模型。本申请将各项序列标注任务整合在同一多任务模型中,有利于简化模型的训练流程。
-
-
-
-
-
-
-
-
-