复调音频的音高识别模型的训练方法、装置、介质及设备

    公开(公告)号:CN118298845A

    公开(公告)日:2024-07-05

    申请号:CN202410530115.5

    申请日:2024-04-29

    摘要: 本申请公开了一种复调音频的音高识别模型的训练方法、装置、介质及设备,属于数据处理技术领域。将训练集中的复调音频的每帧音频数据转换成梅尔频谱图;搭建音高识别模型;利用模型中的Mamba‑UNet对每帧梅尔频谱图进行特征提取,得到第一中间特征;利用模型中的Transformer‑encoder对连续帧的第一中间特征进行分析,得到第二中间特征;利用全连接层对第二中间特征进行处理,得到人声的音高识别结果;根据训练集中的真实音高信息和音高识别结果对音高识别模型进行训练。本申请能在不牺牲全局感受野的情况下实现线性复杂度计算,降低计算成本;还能避免梯度问题,在处理大规模数据时显示出更高的效率和更好的性能。

    专利文本中的领域命名实体识别方法、装置、介质及设备

    公开(公告)号:CN114444470A

    公开(公告)日:2022-05-06

    申请号:CN202210081976.0

    申请日:2022-01-24

    摘要: 本申请公开了一种专利文本中的领域命名实体识别方法、装置、介质及设备,属于计算机技术领域。所述方法包括:获取训练数据,训练数据中包含多篇专利文本的至少一个字段和已经标注好的领域命名实体;利用训练数据对BART预训练模型进行训练;根据预设的Prompt模板和训练数据生成Prompt数据,其中,Prompt模板是针对同一专利领域中领域命名实体的特点创建的,且不同专利领域的Prompt模板不同;利用Prompt数据对训练后的BART模型进行调优,得到领域命名实体识别模型;利用领域命名实体识别模型识别各个专利文本中的领域命名实体。本申请既降低了专利文本中的领域命名实体的识别难度,也提高了识别的准确率。

    专利文本中的领域命名实体识别方法、装置、介质及设备

    公开(公告)号:CN114444470B

    公开(公告)日:2022-12-02

    申请号:CN202210081976.0

    申请日:2022-01-24

    摘要: 本申请公开了一种专利文本中的领域命名实体识别方法、装置、介质及设备,属于计算机技术领域。所述方法包括:获取训练数据,训练数据中包含多篇专利文本的至少一个字段和已经标注好的领域命名实体;利用训练数据对BART预训练模型进行训练;根据预设的Prompt模板和训练数据生成Prompt数据,其中,Prompt模板是针对同一专利领域中领域命名实体的特点创建的,且不同专利领域的Prompt模板不同;利用Prompt数据对训练后的BART模型进行调优,得到领域命名实体识别模型;利用领域命名实体识别模型识别各个专利文本中的领域命名实体。本申请既降低了专利文本中的领域命名实体的识别难度,也提高了识别的准确率。

    视频换脸方法、装置、存储介质及设备

    公开(公告)号:CN116993576A

    公开(公告)日:2023-11-03

    申请号:CN202310735505.1

    申请日:2023-06-21

    摘要: 本申请公开了一种视频换脸方法、装置、存储介质及设备,属于图像处理技术领域。所述方法包括:获取源人脸的关键点和待换脸的目标视频;提取目标视频的视频帧序列中目标人脸的关键点,得到第一关键点序列;根据关键点和第一关键点序列计算第二关键点序列,第二关键点序列具有源人脸的面部五官轮廓和脸型的信息,且具有目标人脸在前后帧的面部五官轮廓和脸型的变换信息;根据第一关键点序列和第二关键点序列对视频帧序列中的目标人脸进行面部五官轮廓和脸型调整;利用SimSwap模型将源人脸的人脸特征映射到调整后的视频帧序列中的目标人脸上;将映射后的视频帧序列编码为换脸视频。本申请保证了换脸的相似度,达到了稳定且真实的换脸效果。

    复调音频的音高识别模型的训练方法、装置、介质及设备

    公开(公告)号:CN118298845B

    公开(公告)日:2024-11-01

    申请号:CN202410530115.5

    申请日:2024-04-29

    摘要: 本申请公开了一种复调音频的音高识别模型的训练方法、装置、介质及设备,属于数据处理技术领域。将训练集中的复调音频的每帧音频数据转换成梅尔频谱图;搭建音高识别模型;利用模型中的Mamba‑UNet对每帧梅尔频谱图进行特征提取,得到第一中间特征;利用模型中的Transformer‑encoder对连续帧的第一中间特征进行分析,得到第二中间特征;利用全连接层对第二中间特征进行处理,得到人声的音高识别结果;根据训练集中的真实音高信息和音高识别结果对音高识别模型进行训练。本申请能在不牺牲全局感受野的情况下实现线性复杂度计算,降低计算成本;还能避免梯度问题,在处理大规模数据时显示出更高的效率和更好的性能。

    说话人视频的生成模型训练和使用方法、装置及设备

    公开(公告)号:CN115908662B

    公开(公告)日:2024-05-28

    申请号:CN202211631657.9

    申请日:2022-12-19

    摘要: 本申请公开了一种说话人视频的生成模型训练和使用方法、装置及设备,属于机器学习技术领域。方法包括:改进AD‑NeRF模型得到生成模型;利用生成模型处理训练样本中的视频数据和音频数据,得到头部语义编码和躯干语义编码;基于头部神经辐射场中的第一Transformer模块渲染头部语义编码,利用头部神经辐射场中的第一判别器对头部渲染结果和真实头部图像计算头部损失;基于躯干神经辐射场中的第二Transformer模块渲染躯干语义编码,利用躯干神经辐射场中的第二判别器对躯干渲染结果和真实躯干图像计算躯干损失;利用头部损失和躯干损失训练生成模型。本申请能提升表征和图像生成能力,改善躯干模糊的问题。

    说话人视频的生成模型训练和使用方法、装置及设备

    公开(公告)号:CN115908662A

    公开(公告)日:2023-04-04

    申请号:CN202211631657.9

    申请日:2022-12-19

    摘要: 本申请公开了一种说话人视频的生成模型训练和使用方法、装置及设备,属于机器学习技术领域。方法包括:改进AD‑NeRF模型得到生成模型;利用生成模型处理训练样本中的视频数据和音频数据,得到头部语义编码和躯干语义编码;基于头部神经辐射场中的第一Transformer模块渲染头部语义编码,利用头部神经辐射场中的第一判别器对头部渲染结果和真实头部图像计算头部损失;基于躯干神经辐射场中的第二Transformer模块渲染躯干语义编码,利用躯干神经辐射场中的第二判别器对躯干渲染结果和真实躯干图像计算躯干损失;利用头部损失和躯干损失训练生成模型。本申请能提升表征和图像生成能力,改善躯干模糊的问题。