一种图像编辑方法、图像编辑装置及存储介质

    公开(公告)号:CN120032017A

    公开(公告)日:2025-05-23

    申请号:CN202311568933.6

    申请日:2023-11-22

    Inventor: 梁芸浩 袁熹

    Abstract: 本公开是关于一种图像编辑方法、图像编辑装置及存储介质。图像编辑方法包括:获取第一图像和第二图像;基于双向扩散网络模型,将所述第一图像中的第一区域图像替换为所述第二图像中的第二区域图像,以生成目标图像;其中,所述双向扩散网络模型中包括第一扩散模型以及第二扩散模型,所述第一扩散模型用于对所述第一区域图像进行特征建模编码以及解码建模,所述第二扩散模型用于将所述第二区域图像融合至所述第一区域图像。通过本公开,基于图像指导的方式生成目标图像,提升了图像画质以及质量,降低了融合度损失的同时满足了用户的需求。

    音频合成方法、装置、设备、存储介质和程序产品

    公开(公告)号:CN118553254A

    公开(公告)日:2024-08-27

    申请号:CN202411018524.3

    申请日:2024-07-26

    Inventor: 梁芸浩 刘锐

    Abstract: 本公开涉及一种音频合成方法、装置、设备、存储介质和程序产品,涉及数据处理技术领域,该方法包括:通过获取待处理音频的原始合成数据,该原始合成数据包括目标伴奏、目标基音特征和目标干净音频,目标基音特征和目标干净音频基于待处理音频得到,并通过目标合成模型对原始合成数据进行处理,得到目标合成音频,该目标合成模型基于多个样本合成数据训练基础合成模型得到,样本合成数据包括样本伴奏、样本基音特征、样本干净音频以及真实合成音频。以便使该目标合成模型能够基于用户的目标伴奏、目标基音特征和目标干净音频,生成更加自然且更加接近用户的真实声音的歌声。

    立体声合成方法、模型构建方法、装置、设备及存储介质

    公开(公告)号:CN119864037A

    公开(公告)日:2025-04-22

    申请号:CN202311361778.0

    申请日:2023-10-19

    Inventor: 梁芸浩

    Abstract: 本公开提供一种立体声合成方法、模型构建方法、装置、设备及存储介质。音频处理模型包括声音事件定位与分类网络和声源分离网络。立体声合成方法包括:获取待处理的音频流;将所述待处理的音频流输入音频处理模型中,以由所述声音事件定位与分类网络对所述音频流进行声音事件分类和声源方位估计,得到至少一个声音事件的类别和方位,并由所述声源分离网络根据所述至少一个声音事件的类别和方位对所述混合音频进行分离处理,得到各个声音事件的音频信号,输出至少一个声音事件中的各个声音事件的方位和音频信号;根据至少一个声音事件中的各个声音事件的方位对至少一个声音事件分别对应的音频信号进行混音处理,合成立体声。

    一种音源识别方法、装置及存储介质

    公开(公告)号:CN119207460A

    公开(公告)日:2024-12-27

    申请号:CN202310765100.2

    申请日:2023-06-26

    Inventor: 梁芸浩

    Abstract: 本公开是关于一种音源识别方法、装置及存储介质。其中,音源识别方法包括:提取待进行音源识别音频信号的混合音源特征;按照如下方式依次基于所述混合音源特征执行音源识别,直至识别得到第n个音源,所述n为所述混合音源特征中包括的音源数量;基于所述混合音源特征识别得到第i个音源,所述i的取值为从1至n‑1的正整数;在所述混合音源特征中去除所述第i个音源的特征,并基于所述混合音源特征以及去除所述第i个音源特征的特征,识别得到第i+1个音源。通过本公开,能够实现对混合音源信号的多音源进行识别。

    模型训练方法、语音处理方法、装置、电子设备及介质

    公开(公告)号:CN118553268A

    公开(公告)日:2024-08-27

    申请号:CN202310211909.0

    申请日:2023-02-27

    Inventor: 梁芸浩

    Abstract: 本公开是关于一种模型训练方法、语音处理方法、装置、电子设备及介质。该模型训练方法包括:根据样本语音信号获取第一空域特征;其中,样本语音信号具有用于标注样本语音信号的目标对象所处方位的第一方位信息;根据第一空域特征和第一模型的编码器,得到表征目标对象所处方位的第二方位信息;根据样本语音信号对应的第二方位信息和样本语音信号的第一方位信息,计算第一损失值;根据第一损失值调整第一模型的编码器的模型参数。本公开实施例通过将预设的样本语音信号以及样本语音信号对应的第一方位信息引入模型的训练过程,如此训练得到的模型,后续可根据基于语音信号识别得到方位信息,实现对语音信号更准确发声对象识别。

    确定音频事件的方法、装置、存储介质及终端

    公开(公告)号:CN118230762A

    公开(公告)日:2024-06-21

    申请号:CN202211644746.7

    申请日:2022-12-20

    Inventor: 梁芸浩 袁熹

    Abstract: 本公开涉及一种确定音频事件的方法、装置、存储介质及终端,所述方法包括:获取待确定音频事件的目标音频的目标语谱图,所述目标语谱图包括目标窄带语谱图和目标宽带语谱图;通过预先生成的音频事件确定模型,确定目标窄带语谱图对应的第一音频特征和目标宽带语谱图对应的第二音频特征,并根据第一音频特征、所述第二音频特征以及所述目标窄带语谱图,确定所述目标音频包含的目标音频事件。该目标音频事件是基于该目标音频的窄带语谱图和宽带语谱图确定的,该第一音频特征和该第二音频特征结合了该目标音频不同分辨率的特征,能够体现该目标音频更细致的频域特征,从而使得根据该第一音频特征和该第二音频特征确定的音频事件的准确率更高。

    视频处理方法、视频处理装置及存储介质

    公开(公告)号:CN120050488A

    公开(公告)日:2025-05-27

    申请号:CN202311586113.X

    申请日:2023-11-24

    Inventor: 梁芸浩

    Abstract: 本公开是关于一种视频处理方法、视频处理装置及存储介质。视频处理方法包括:对待处理视频进行分帧处理,获取待处理视频对应的多帧视频帧图像,并基于接收到的选取指令在所述多帧视频帧图像中确定待处理图像。接收图像编辑指令,确定所述待处理图像的文本描述信息,并确定所述待处理图像的多模态特征,所述图像编辑指令为文本信息。根据所述图像编辑指令、所述文本描述信息和所述多模态特征处理所述待处理图像,得到目标图像。将所述目标图像插入所述待处理视频,得到目标视频。通过本公开,使用交互文本的方式编辑视频帧,便于用户快速上手视频内容编辑,并基于视频单帧多模态的内容生成方式,提高编辑内容的画质,保证编辑后视频的质量。

    多模态任务执行方法、装置及存储介质

    公开(公告)号:CN120045291A

    公开(公告)日:2025-05-27

    申请号:CN202311597053.1

    申请日:2023-11-27

    Inventor: 梁芸浩

    Abstract: 本公开是关于一种多模态任务执行方法、装置及存储介质。多模态任务执行方法包括:确定多模态任务中当前执行的单模态任务。获取所述当前执行的单模态任务的执行结果。响应于所述执行结果为正确结果,基于所述执行策略继续执行下一待执行的单模态任务。响应于所述执行结果为错误结果,重新确定多模态任务的执行策略,并按照重新确定的执行策略执行所述多模态任务。通过本公开能够优化多模态任务的执行过程,提高获取多模态任务执行结果的准确度。

    音频处理方法、音频处理装置及存储介质

    公开(公告)号:CN120020947A

    公开(公告)日:2025-05-20

    申请号:CN202311540425.7

    申请日:2023-11-17

    Inventor: 梁芸浩 张琪

    Abstract: 本公开是关于一种音频处理方法、音频处理装置及存储介质。音频处理方法包括:获取待处理音频,并获取待提取音频的文本描述信息;获取第一特征信息,并获取所述待处理音频的相位信息,所述第一特征信息为所述待处理音频的音频特征信息;根据所述文本描述信息和所述第一特征信息,通过扩散模型得到第二特征信息,所述第二特征信息为所述待提取音频的音频特征信息;根据所述相位信息对所述第二特征信息进行音频恢复处理,将所述音频恢复处理得到的音频,确定为所述目标音频。通过本公开,基于文本信息的指导通过扩散模型进行声源分离,保证分离效果的稳定性,使获取得到的音频来自于目标声源,不存在其他声源的干扰。

Patent Agency Ranking