-
公开(公告)号:CN117828537B
公开(公告)日:2024-05-17
申请号:CN202410243382.4
申请日:2024-03-04
Applicant: 北京建筑大学
IPC: G06F18/25 , G06F18/241 , G06F18/27 , G06N3/0464 , G06N3/0442 , G06N3/0455 , G06N3/098 , G06F16/65
Abstract: 本申请提供一种基于CBA模型的音乐情感识别方法和装置,所述CBA模型包括CNN模型、BiGRU模型和Attention模型;所述方法包括:利用CNN模型从待识别音乐片段中提取待识别特征矩阵,所述待识别特征矩阵包括多个维度的音乐特征;利用BiGRU模型对所述待识别特征矩阵进行序列化处理,得到各个时间周期的音频信息;其中,基于Attention模型计算各个时间周期的音乐特征权重,根据所述权重对各个时间周期的音频信息加权求和,得到综合待识别音乐时序;基于全连接层,对所述综合待识别音乐时序进行回归预测,预测所述待识别音乐片段的情感标签。本申请提供的基于CBA模型的音乐情感识别方法和装置,提供了一种专门用于音乐情感识别的音乐情感识别模型,可以实现音乐情感的准确识别。
-
公开(公告)号:CN117877506B
公开(公告)日:2024-05-10
申请号:CN202410274836.4
申请日:2024-03-11
Applicant: 北京建筑大学
IPC: G10L21/0216 , G10L15/20 , G10L25/27 , G10L25/48 , H04L9/40
Abstract: 本申请提供一种对语音内容进行增强的对抗性攻击方法、装置和系统,包括:将待识别的语音输入对抗性攻击模型中,获得待识别的语音对应的对抗性攻击语音;将所述对抗性攻击语音输入至预训练的语音增强模型中,获得降噪后语音;基于语音识别系统对所述降噪后语音进行语音识别,获得所述降噪后语音对应的语音语义,其中,识别后获得的所述语音语义与所述待识别的语音语义不同,与所述对抗性攻击语音语义相同。本申请通过在增强之前对待识别语音进行对抗性攻击,保护了语音内容,提高了数据的安全性。
-
公开(公告)号:CN117995140A
公开(公告)日:2024-05-07
申请号:CN202311858130.4
申请日:2023-12-29
Applicant: 北京建筑大学
IPC: G10H1/00 , G10H1/26 , G10L21/0308 , G10L25/18 , G10L25/24
Abstract: 本申请提供一种基于音源分离的自动记谱方法和装置。本申请提供的基于音源分离的自动记谱方法,包括:根据用户输入的目标音频文件,利用多个音源分离模型中的目标音源分离模型,输出目标音频文件中包含的目标乐器或所有乐器的音频序列,目标音源分离模型为一个或多个;对音频序列进行噪声抑制,优化音频序列;根据优化后的音频序列,通过自动记谱技术输出对应的乐谱,通过对数据集进行预先处理得到目标乐器的数据集,进而利用所述目标乐器的数据集训练得到目标音源分离模型,解决了训练数据获取困难、音源分离模型无法训练的问题;通过目标音源分离模型和自动记谱技术输出目标音频文件的乐谱,实现了多乐器识别和分离的效果。
-
公开(公告)号:CN117854509B
公开(公告)日:2024-05-03
申请号:CN202410250740.4
申请日:2024-03-05
Applicant: 北京建筑大学
Abstract: 本申请提供一种耳语说话人识别模型训练方法和装置。本申请提供的耳语说话人识别模型训练方法,包括:基于迁移学习构建初始耳语说话人识别模型,所述迁移学习对象至少包括由正常语音音频预训练好的TDNN模型;建立第一耳语数据集,第一耳语数据集中至少包括多个第一耳语样本,每个第一耳语样本中至少包括耳语语音音频、与耳语语音音频为同一说话人的正常语音音频和耳语语音音频对应的说话人标识;对第一耳语数据集进行数据增强,获得第二耳语数据集;混合第一耳语数据集和第二耳语数据集,构建第三耳语数据集,利用第三耳语数据集训练初始耳语说话人识别模型,得到最终的耳语说话人识别模型。本申请提供的耳语说话人识别模型训练方法和装置,可提高耳语说话人识别准确性和鲁棒性。
-
公开(公告)号:CN117912484B
公开(公告)日:2024-05-17
申请号:CN202410318898.0
申请日:2024-03-20
Applicant: 北京建筑大学
IPC: G10L21/0272 , G10L25/27
Abstract: 本申请提供一种剪枝可调的音频分离模型优化方法和装置。包括:基于所述第一性能确定所述预训练的音频分离模型的参数的第一排序;根据优化目标对所述预训练的音频分离模型的参数进行聚类,获得多个参数簇;基于第一冗余阈值、所述第一排序和所述多个参数簇筛选第一剪枝范围;基于所述第一剪枝范围对预训练的音频分离模型进行剪枝和量化,都得到第二音频分离模型;检测所述第二音频分离模型的第二性能,基于所述第二性能调整聚类参数簇和所述第一冗余阈值,对所述预训练的音频分离模型重新剪枝和量化。本申请不断调整剪枝和量化的尺度,自适应实现剪枝、量化程度的调整,从而实现音频分离模型的最佳优化效果,保证音频分离效果,同时优化模型体积。
-
公开(公告)号:CN117912484A
公开(公告)日:2024-04-19
申请号:CN202410318898.0
申请日:2024-03-20
Applicant: 北京建筑大学
IPC: G10L21/0272 , G10L25/27
Abstract: 本申请提供一种剪枝可调的音频分离模型优化方法和装置。包括:基于所述第一性能确定所述预训练的音频分离模型的参数的第一排序;根据优化目标对所述预训练的音频分离模型的参数进行聚类,获得多个参数簇;基于第一冗余阈值、所述第一排序和所述多个参数簇筛选第一剪枝范围;基于所述第一剪枝范围对预训练的音频分离模型进行剪枝和量化,都得到第二音频分离模型;检测所述第二音频分离模型的第二性能,基于所述第二性能调整聚类参数簇和所述第一冗余阈值,对所述预训练的音频分离模型重新剪枝和量化。本申请不断调整剪枝和量化的尺度,自适应实现剪枝、量化程度的调整,从而实现音频分离模型的最佳优化效果,保证音频分离效果,同时优化模型体积。
-
公开(公告)号:CN117854509A
公开(公告)日:2024-04-09
申请号:CN202410250740.4
申请日:2024-03-05
Applicant: 北京建筑大学
Abstract: 本申请提供一种耳语说话人识别模型训练方法和装置。本申请提供的耳语说话人识别模型训练方法,包括:基于迁移学习构建初始耳语说话人识别模型,所述迁移学习对象至少包括由正常语音音频预训练好的TDNN模型;建立第一耳语数据集,第一耳语数据集中至少包括多个第一耳语样本,每个第一耳语样本中至少包括耳语语音音频、与耳语语音音频为同一说话人的正常语音音频和耳语语音音频对应的说话人标识;对第一耳语数据集进行数据增强,获得第二耳语数据集;混合第一耳语数据集和第二耳语数据集,构建第三耳语数据集,利用第三耳语数据集训练初始耳语说话人识别模型,得到最终的耳语说话人识别模型。本申请提供的耳语说话人识别模型训练方法和装置,可提高耳语说话人识别准确性和鲁棒性。
-
公开(公告)号:CN117854478A
公开(公告)日:2024-04-09
申请号:CN202410250738.7
申请日:2024-03-05
Applicant: 北京建筑大学
IPC: G10L13/08 , G10L13/027
Abstract: 本发明提供基于可控文本的语音合成方法、装置和系统,包括:获取待合成的语音内容,基于外部说话者嵌入模块形成第一音素序列;识别输入文本的语义信息,分别获取解耦的语音风格、情感类型和语言类型;基于转换器转换第一音素序列的语言类型,生成第二音素序列;提取所述第二音素序列的风格特征和时间分布特征;基于所述情感类型调整所述第二音素序列的时间分布特征;基于所述语音风格调整所述第二音素序列的风格特征;基于调整前的时间对应关系融合调整后的时间分布特征和调整后的语音风格特征,得到第三音素序列;基于解码器解码第三音素序列,获得合成语音。提高合成语音的质量,提高了风格可控性和方法适用性。
-
公开(公告)号:CN118486322A
公开(公告)日:2024-08-13
申请号:CN202410803397.1
申请日:2024-06-20
Applicant: 北京建筑大学
IPC: G10L21/0272 , G10L21/0308 , G10L25/30 , G10L25/18
Abstract: 本申请提供了一种音频分离方法、装置、电子设备及存储介质,音频分离方法包括:将获取到的混合音频输入至预先训练好的音频分离模型之中,对混合音频分割成多个第一子频带特征,并对多个第一子频带特征进行合并,确定出合并子频带特征;基于音频分离模型对合并子频带特征进行时序建模,得到合并子频带特征的时序特征序列,再对时序特征序列进行频带级建模,得到时序特征序列的频带特征序列;基于音频分离模型对频带特征序列进行特征处理确定出全频带掩膜特征,基于全频带掩膜特征以及混合音频,将混合音频中的目标音频分离出来。通过音频分离模型对混合音频中的目标音频进行分离,从而提高了单一音频分离的准确性以及效率。
-
公开(公告)号:CN117851940B
公开(公告)日:2024-06-18
申请号:CN202410264348.5
申请日:2024-03-08
Applicant: 北京建筑大学
IPC: G06F18/2431 , G06F18/2415 , G06F18/2413 , G06F18/213 , G06N3/0464 , G06N3/048 , G06N3/08
Abstract: 本公开提供了一种超声导波损伤检测方法、装置、电子设备及存储介质,通过将目标回波信号输入至训练好的多标签分类网络,经过第一基础模块的卷积处理后,通过第一细粒度模块提取损伤类型特征;在第一基础模块的卷积处理之后,通过第二基础模块与第二细粒度模块提取损伤深度特征;在第二基础模块的卷积处理之后,通过第三基础模块与第三细粒度模块提取损伤大小特征;多标签分类网络通过对应通道分别输出目标回波信号对应的损伤类型分类概率、损伤深度分类概率以及损伤大小分类概率。可以实现高准确度的损伤类型分类,同时通过设计层次多标签网络框架,将信号分为损伤类型‑损伤深度‑损伤大小三层标签,能够实现更精细化的细粒度损伤分类。