-
公开(公告)号:CN118016081B
公开(公告)日:2024-06-21
申请号:CN202410423860.X
申请日:2024-04-10
摘要: 本公开提供了基于语音质量分级模型的变速率语音编码方法及系统,涉及语音信号处理技术领域,包括:获取编码器不同误码率下得到的合成语音文件;将所述合成语音文件输入至语音质量分级模型中,得到语音质量的预测结果;对未来可能出现的语音质量的变化情况进行模态划分;其中,语音质量的变化情况包括三种模态,分别为平衡态、休眠态以及激活态;判断当前预测出的语音质量的所属模态,并根据当前所属模态,实时地对语音编码的速率进行自适应调整,在语音编码的自然度、可懂度和系统容量间得到最佳平衡。
-
公开(公告)号:CN118335092A
公开(公告)日:2024-07-12
申请号:CN202410748437.7
申请日:2024-06-12
摘要: 本发明属于语音信号处理技术领域,提供了一种基于多尺度残差注意力的语音压缩方法及系统,包括获取语音信号;对语音信号进行卷积操作,得到第一特征,对第一特征进行操作,得到第一特征的残差和恒等映射;将残差和恒等映射相加得到第一输出特征,对第一输出特征进行特征提取,经过多次操作得到注意力分数,将注意力分数分别与残差和恒等映射相乘,经过多次操作得到第三输出特征;对第三输出特征进行多级迭代量化,得到第一矢量,第二网络根据接收到的第一矢量的索引,在码本中找到相应的量化矢量,将所有量化矢量相加,得到重构矢量;对重构矢量解码输出合成语音,并对生成语音的真伪通过判别器进行判断。本发明能够提高合成语音的质量。
-
公开(公告)号:CN116659829A
公开(公告)日:2023-08-29
申请号:CN202310500680.2
申请日:2023-04-28
摘要: 本发明涉及故障检测技术领域,提供了一种机械设备异常检测方法、系统、存储介质及设备,包括:获取机械设备运行声音;对机械设备运行声音进行变换,得到对数梅尔频谱;基于对数梅尔频谱,采用异常检测模型,进行机械设备异常声音检测;所述异常检测模型训练所采用的训练集,通过对原始训练集进行时移、音量增益、变换、噪声注入和数据增强得到;其中,变换包括,对每个帧进行傅里叶变换得到频域表示,将频域表示映射到梅尔刻度上并分成若干个频带,并对每个频带的能量取对数。增加了数据样本数量和多样性,有助于提高异常检测模型的性能。
-
公开(公告)号:CN115858792A
公开(公告)日:2023-03-28
申请号:CN202310132159.8
申请日:2023-02-20
IPC分类号: G06F16/35 , G06F40/289 , G06F40/30 , G06F40/216 , G06N3/045 , G06N3/0442 , G06N3/0464 , G06N3/08
摘要: 本发明涉及数据处理技术领域,公开了基于图神经网络的招标项目名称短文本分类方法及系统;方法包括:获取待分类的招标项目名称;对文本进行分词处理;将分词结果输入到训练后的短文本分类模型中,输出分类结果;训练后的短文本分类模型,对分词结果提取出语义图的特征矩阵;对分词结果构建顺序图,得到顺序图的特征矩阵;对分词结果提取出文本特征,将文本特征分别映射到语义图的特征矩阵和顺序图的特征矩阵中,得到映射后的语义图特征矩阵和映射后的顺序图特征矩阵;实现语义图和顺序图的图内传播和图间传播,对招标项目名称短文本进行分类,得到分类标签;本发明能够解决现有人工标注效率不高和信息资源严重浪费的问题。
-
公开(公告)号:CN118447880A
公开(公告)日:2024-08-06
申请号:CN202410640457.2
申请日:2024-05-22
摘要: 本发明提供了一种基于多特征注意力融合的语音情感识别方法及系统,包括:基于获取的待识别语音信号,通过预处理获得语音信号的语谱图和梅尔频率倒谱系数;基于所述语谱图,通过时频特征提取获得语谱图特征;基于所述梅尔频率倒谱系数,利用预先训练的神经网络模型进行特征提取,获得梅尔频率倒谱系数特征;基于待识别语音信号,利用自动语音识别的预训练模型进行特征提取,获得W2E特征;分别将语谱图特征和W2E特征以及梅尔频率倒谱系数特征和W2E特征进行特征融合,获得第一融合特征和第二融合特征;基于所述第一融合特征和第二融合特征,通过全局融合获得最终的融合特征;基于获得的融合特征,利用预先训练的情感分类器,获得情感分类结果。
-
公开(公告)号:CN118016081A
公开(公告)日:2024-05-10
申请号:CN202410423860.X
申请日:2024-04-10
摘要: 本公开提供了基于语音质量分级模型的变速率语音编码方法及系统,涉及语音信号处理技术领域,包括:获取编码器不同误码率下得到的合成语音文件;将所述合成语音文件输入至语音质量分级模型中,得到语音质量的预测结果;对未来可能出现的语音质量的变化情况进行模态划分;其中,语音质量的变化情况包括三种模态,分别为平衡态、休眠态以及激活态;判断当前预测出的语音质量的所属模态,并根据当前所属模态,实时地对语音编码的速率进行自适应调整,在语音编码的自然度、可懂度和系统容量间得到最佳平衡。
-
公开(公告)号:CN117934914A
公开(公告)日:2024-04-26
申请号:CN202311830648.7
申请日:2023-12-27
IPC分类号: G06V10/764 , G06V10/82 , G06N3/0475 , G06N3/094 , G06N3/084 , G06N3/09 , G06N3/096
摘要: 本发明公开一种基于数据增强和最大绝对差异的对抗样本生成方法及系统,该方法包括:预处理原始图像,得到被攻击图像;创建初始扰动图像,开始迭代;基于被攻击图像,获得并调整多张局部图像,结合扰动图像,对被攻击图像和多张局部图像进行数据增强处理;将数据增强处理后的图像输入至分类网络模型中,计算全局特征与多个局部特征之间的最大绝对差异损失值,并计算分类器损失值,综合得到总损失值,通过反向传播获取损失函数梯度信息;计算得到最终的图像梯度信息,生成并更新扰动图像;判断是否达到最大迭代次数,若是,则对被攻击图像叠加更新后的扰动图像,生成对抗样本;反之则迭代更新扰动图像。本发明能够有效提高生成对抗样本的迁移率。
-
公开(公告)号:CN117877521A
公开(公告)日:2024-04-12
申请号:CN202410021090.6
申请日:2024-01-04
摘要: 本发明提出了基于数据增强的无监督机械声音异常识别方法及系统,通过对采集的正常音频数据提取对数梅尔谱图,并对对数梅尔谱图进行数据增强处理,用于识别模型的训练,增强了识别模型对于复杂故障模式的识别能力,并提高了其对于未知故障类型的泛化能力;在识别模型中通过添加自注意力机制捕捉长距离依赖,能够关注到输入特征图中相距较远的区域间的关系,提高特征提取和特征表达能力。
-
公开(公告)号:CN117219120A
公开(公告)日:2023-12-12
申请号:CN202311000370.0
申请日:2023-08-09
摘要: 本发明公开一种基于时频域音频增强的机械设备异常检测方法及系统,包括:获取正常运行音频信号,提取幅度谱和相位谱,对幅度谱进行增强处理,将增强后的幅度谱与相位谱合并得到正常运行音频增强信号;对正常运行音频增强信号提取频谱特征,对卷积自编码器网络进行训练;对待测运行音频信号进行增强处理后得到待测运行音频增强信号,根据待测运行音频增强信号采用训练后的卷积自编码器网络得到待测运行音频重构信号,根据待测运行音频重构信号与待测运行音频增强信号间的重构误差得到异常检测结果。通过对音频信号进行增强,使得采集到的机械设备运行音频更加接近于机械设备本身,更利于异常声音检测而不会发生误判。
-
公开(公告)号:CN116758451A
公开(公告)日:2023-09-15
申请号:CN202310601381.8
申请日:2023-05-24
摘要: 本发明属于情感计算技术领域,提供了基于多尺度和全局交叉注意力的视听情感识别方法及系统,通过多尺度卷积注意力模块,提取不同上下文尺度的模态关键情感特征,弥补了单一尺度特征不足以表达人类复杂情感的缺陷。通过全局交叉注意力模块,同时考虑模态间和模态内的交互,从而学习更丰富的模态交互信息,并且减少了融合特征中的冗余。最后又设计了多尺度特征学习模块,从融合特征中进一步学习对两个模态共同有意义的情感信息。通过以上改进,最终所提出的方法能够实现更好的情感识别准确率和更高效的情感识别效率。
-
-
-
-
-
-
-
-
-