-
公开(公告)号:CN120032017A
公开(公告)日:2025-05-23
申请号:CN202311568933.6
申请日:2023-11-22
Applicant: 北京小米移动软件有限公司
Abstract: 本公开是关于一种图像编辑方法、图像编辑装置及存储介质。图像编辑方法包括:获取第一图像和第二图像;基于双向扩散网络模型,将所述第一图像中的第一区域图像替换为所述第二图像中的第二区域图像,以生成目标图像;其中,所述双向扩散网络模型中包括第一扩散模型以及第二扩散模型,所述第一扩散模型用于对所述第一区域图像进行特征建模编码以及解码建模,所述第二扩散模型用于将所述第二区域图像融合至所述第一区域图像。通过本公开,基于图像指导的方式生成目标图像,提升了图像画质以及质量,降低了融合度损失的同时满足了用户的需求。
-
公开(公告)号:CN119919534A
公开(公告)日:2025-05-02
申请号:CN202311432698.X
申请日:2023-10-31
Applicant: 北京小米移动软件有限公司
Abstract: 本公开是关于一种图像绘制方法、图像绘制装置及存储介质。图像绘制方法包括:获取第一图像;响应于检测到在所述第一图像上选择区域图像的操作,调用图像风格模型,对所述区域图像进行风格化处理,得到第二图像;在所述第一图像的所述区域图像处融合所述第二图像,得到目标图像。通过本公开,实现图像的局部创作,并实现局部编辑风格与原图风格相同,满足了用户的喜好与需求。
-
公开(公告)号:CN118553254A
公开(公告)日:2024-08-27
申请号:CN202411018524.3
申请日:2024-07-26
Applicant: 北京小米移动软件有限公司
IPC: G10L21/003 , G10L21/013 , G10L25/06 , G10L25/90 , G10L25/30 , G10H7/00 , G06N3/0464 , G06N3/0455 , G06N3/0442 , G06N3/048
Abstract: 本公开涉及一种音频合成方法、装置、设备、存储介质和程序产品,涉及数据处理技术领域,该方法包括:通过获取待处理音频的原始合成数据,该原始合成数据包括目标伴奏、目标基音特征和目标干净音频,目标基音特征和目标干净音频基于待处理音频得到,并通过目标合成模型对原始合成数据进行处理,得到目标合成音频,该目标合成模型基于多个样本合成数据训练基础合成模型得到,样本合成数据包括样本伴奏、样本基音特征、样本干净音频以及真实合成音频。以便使该目标合成模型能够基于用户的目标伴奏、目标基音特征和目标干净音频,生成更加自然且更加接近用户的真实声音的歌声。
-
公开(公告)号:CN119864037A
公开(公告)日:2025-04-22
申请号:CN202311361778.0
申请日:2023-10-19
Applicant: 北京小米移动软件有限公司
Inventor: 梁芸浩
IPC: G10L19/008 , G10L25/24 , G10L25/30 , G10L25/27 , G10L25/03
Abstract: 本公开提供一种立体声合成方法、模型构建方法、装置、设备及存储介质。音频处理模型包括声音事件定位与分类网络和声源分离网络。立体声合成方法包括:获取待处理的音频流;将所述待处理的音频流输入音频处理模型中,以由所述声音事件定位与分类网络对所述音频流进行声音事件分类和声源方位估计,得到至少一个声音事件的类别和方位,并由所述声源分离网络根据所述至少一个声音事件的类别和方位对所述混合音频进行分离处理,得到各个声音事件的音频信号,输出至少一个声音事件中的各个声音事件的方位和音频信号;根据至少一个声音事件中的各个声音事件的方位对至少一个声音事件分别对应的音频信号进行混音处理,合成立体声。
-
公开(公告)号:CN119207460A
公开(公告)日:2024-12-27
申请号:CN202310765100.2
申请日:2023-06-26
Applicant: 北京小米移动软件有限公司
Inventor: 梁芸浩
IPC: G10L21/028 , G10L25/30
Abstract: 本公开是关于一种音源识别方法、装置及存储介质。其中,音源识别方法包括:提取待进行音源识别音频信号的混合音源特征;按照如下方式依次基于所述混合音源特征执行音源识别,直至识别得到第n个音源,所述n为所述混合音源特征中包括的音源数量;基于所述混合音源特征识别得到第i个音源,所述i的取值为从1至n‑1的正整数;在所述混合音源特征中去除所述第i个音源的特征,并基于所述混合音源特征以及去除所述第i个音源特征的特征,识别得到第i+1个音源。通过本公开,能够实现对混合音源信号的多音源进行识别。
-
公开(公告)号:CN118553268A
公开(公告)日:2024-08-27
申请号:CN202310211909.0
申请日:2023-02-27
Applicant: 北京小米移动软件有限公司
Inventor: 梁芸浩
Abstract: 本公开是关于一种模型训练方法、语音处理方法、装置、电子设备及介质。该模型训练方法包括:根据样本语音信号获取第一空域特征;其中,样本语音信号具有用于标注样本语音信号的目标对象所处方位的第一方位信息;根据第一空域特征和第一模型的编码器,得到表征目标对象所处方位的第二方位信息;根据样本语音信号对应的第二方位信息和样本语音信号的第一方位信息,计算第一损失值;根据第一损失值调整第一模型的编码器的模型参数。本公开实施例通过将预设的样本语音信号以及样本语音信号对应的第一方位信息引入模型的训练过程,如此训练得到的模型,后续可根据基于语音信号识别得到方位信息,实现对语音信号更准确发声对象识别。
-
公开(公告)号:CN118230762A
公开(公告)日:2024-06-21
申请号:CN202211644746.7
申请日:2022-12-20
Applicant: 北京小米移动软件有限公司
Abstract: 本公开涉及一种确定音频事件的方法、装置、存储介质及终端,所述方法包括:获取待确定音频事件的目标音频的目标语谱图,所述目标语谱图包括目标窄带语谱图和目标宽带语谱图;通过预先生成的音频事件确定模型,确定目标窄带语谱图对应的第一音频特征和目标宽带语谱图对应的第二音频特征,并根据第一音频特征、所述第二音频特征以及所述目标窄带语谱图,确定所述目标音频包含的目标音频事件。该目标音频事件是基于该目标音频的窄带语谱图和宽带语谱图确定的,该第一音频特征和该第二音频特征结合了该目标音频不同分辨率的特征,能够体现该目标音频更细致的频域特征,从而使得根据该第一音频特征和该第二音频特征确定的音频事件的准确率更高。
-
公开(公告)号:CN119919535A
公开(公告)日:2025-05-02
申请号:CN202311433830.9
申请日:2023-10-31
Applicant: 北京小米移动软件有限公司
Abstract: 本公开是关于一种图像绘制方法、图像绘制装置及存储介质。图像绘制方法包括:获取待创作的第一图像;响应于检测到对待创作的第一图像进行绘制处理的操作,显示图像绘制选项,图像绘制选项包括图像绘制风格选项和图像绘制文本描述选项;基于用户选择的目标图像绘制风格选项,确定目标图像绘制风格,并获取用户基于图像绘制文本描述选项输入的目标图像绘制文本描述;基于目标图像绘制风格以及目标图像绘制文本描述,调用图像绘制模型;基于图像绘制模型,生成并显示目标图像,目标图像与待创作的第一图像符合相似度条件、并匹配目标图像绘制风格以及目标图像绘制文本描述。通过本公开,可实现自定义风格创作,并可满足用户需求进行二次创作。
-
公开(公告)号:CN119903319A
公开(公告)日:2025-04-29
申请号:CN202311403326.4
申请日:2023-10-26
Applicant: 北京小米移动软件有限公司
IPC: G06F18/2113 , G06F18/25 , G06F18/22 , G06F18/213 , G06F40/284 , G06F40/35 , G06N3/006
Abstract: 本公开是关于一种基于多模态数据的人机交互方法、装置以及存储介质。多模态数据的人机交互方法包括:获取多模态数据以及交互文本;分别提取所述多模态数据中各模态数据的语义特征,得到各模态数据的第一语义特征;分别对所述各模态数据的第一语义特征中的隐私特征进行过滤,得到各模态数据的第二语义特征;基于所述交互信息以及所述各模态数据的第二语义特征,得到所述多模态数据应答所述交互信息的应答信息。通过本公开的基于多模态数据的人机交互方法,能够对多模态数据和交互文本进行过滤操作,输出应答信息,减少用户隐私曝光概率,保护用户隐私安全。
-
公开(公告)号:CN119314508A
公开(公告)日:2025-01-14
申请号:CN202310870313.1
申请日:2023-07-14
Applicant: 北京小米移动软件有限公司
Inventor: 梁芸浩
Abstract: 本公开是关于一种音源识别方法、装置及存储介质。音源识别方法包括:响应于获取到待进行音源识别的音频信号,确定音频信号的频谱特征数据;调用进行音源识别的网络模型,网络模型包括编码网络、特征过渡网络以及解码网络;将频谱特征数据输入至网络模型的编码网络,由编码网络基于频谱特征数据,提取音频信号的时域特征,并基于提取时域特征后得到的音频时域数据,提取音频信号的频域特征,得到音频信号的音源嵌入层特征;将音源嵌入层特征输入至网络模型的特征过渡网络,由特征过渡网络进行多音源嵌入层特征拼接后输入至解码网络,由解码网络对音源嵌入层特征进行特征还原,得到音源信号。通过本公开能够实现对输入的音频进行实时识别。
-
-
-
-
-
-
-
-
-