-
公开(公告)号:CN113470684B
公开(公告)日:2024-01-12
申请号:CN202110837937.4
申请日:2021-07-23
申请人: 平安科技(深圳)有限公司
IPC分类号: G10L21/0224 , G10L21/0232 , G10L25/30
摘要: 本发明涉及人工智能,提供一种音频降噪方法、装置、设备及存储介质。该方法能够对带噪音频进行预处理,得到频谱信息,基于频域信号处理网络处理频谱信息,得到频谱掩膜特征,根据频谱信息及频谱掩膜特征获取时频特征,基于时域信号处理网络处理时频特征,得到时频掩膜特征,根据时频特征及时频掩膜特征生成预测音频,基于预测音频及纯净音频调整预设学习器的网络参数,得到降噪模型,获取请求音频,基于降噪模型对请求音频进行降噪处理,得到目标音频。本发明能够提高请求音频的降噪准确性及实时性。此外,本发明还涉及区块链技术,所述目标音频可存储于区块链中。
-
公开(公告)号:CN113470672B
公开(公告)日:2024-01-12
申请号:CN202110839251.9
申请日:2021-07-23
申请人: 平安科技(深圳)有限公司
摘要: 本发明涉及人工智能,提供一种语音增强方法、装置、设备及存储介质。该方法能够基于编码网络对带噪音频进行编码处理,得到音频编码信息,基于特征提取网络提取音频编码信息的全局特征,基于掩膜网络对全局特征进行掩膜处理,得到掩膜结果,基于解码网络对掩膜结果进行解码处理,得到解码音频,根据纯净音频及解码音频调整预设学习器的网络参数,得到语音增强模型,获取请求音频,将请求音频输入至语音增强模型中,得到目标音频。本发明能够准确的生成目标音频。此外,本发明还涉及区块链技术,所述目标音频可存储于区块链中。
-
公开(公告)号:CN113421584B
公开(公告)日:2023-06-23
申请号:CN202110758661.0
申请日:2021-07-05
申请人: 平安科技(深圳)有限公司
IPC分类号: G10L21/0264 , G10L25/24 , G10L25/93
摘要: 本申请实施例属于人工智能领域,涉及一种音频降噪方法、装置、计算机设备及存储介质,方法包括:获取带有噪声的待处理音频;提取待处理音频的梅尔频率倒谱系数;将梅尔频率倒谱系数输入声学特征预测模型,以根据梅尔频率倒谱系数预测无噪音频声学特征,无噪音频声学特征包括频谱包络、对数基频以及非周期性特征;计算无噪音频声学特征的变化趋势特征;对待处理音频进行清音浊音判断,得到清音浊音判断信息;根据无噪音频声学特征、变化趋势特征和清音浊音判断信息进行音频合成,得到无噪音频。此外,本申请还涉及区块链技术,无噪音频可存储于区块链中。本申请提高了降噪后音频的质量。
-
公开(公告)号:CN112990434B
公开(公告)日:2023-06-20
申请号:CN202110255893.4
申请日:2021-03-09
申请人: 平安科技(深圳)有限公司
IPC分类号: G06N3/0455 , G06N3/0499 , G06N3/084 , G06F40/284 , G06F18/22
摘要: 本申请实施例提供了一种机器翻译模型的训练方法及相关装置,该方法包括:通过自注意力层计算待编码单词与预设的第一序列中每个单词之间的相似度,其中,待编码单词为预设的第二序列中第i时刻输入的单词,第二序列为预设的需要通过k个时刻输完的单词序列,第一序列为第二序列的单词中第i个时刻之前输入的单词序列,i和k均为正整数,i小于k;根据相似度计算得到待编码单词的自注意力;将自注意力输入至前馈神经网络中得到输出结果;计算输出结果与自注意力之间的损失值;根据损失值调整机器翻译模型的网络参数。通过本申请实施例,能够提高模型的训练速度。
-
公开(公告)号:CN113409823B
公开(公告)日:2023-03-21
申请号:CN202110734840.0
申请日:2021-06-30
申请人: 平安科技(深圳)有限公司
摘要: 本发明涉及人工智能技术领域,提供一种语音情绪识别方法、装置、电子设备及存储介质,所述方法包括:对小样本数据集进行语音数据扩充,得到目标小样本数据集;将大样本数据集和目标小样本数据集进行融合,得到目标样本数据集;根据目标样本数据集训练构建好的语音情绪识别模型;获取待识别语音数据;将待识别语音数据输入至训练好的语音情绪识别模型中,得到待识别语音数据的情绪识别结果。本发明通过对小样本数据集进行语音数据扩充,扩充了小样本数据集的数据分布,增强了模型中的神经网络的鲁棒性,提高了语音情绪识别模型的泛化能力及情绪识别的准确率。
-
公开(公告)号:CN113113048B
公开(公告)日:2023-03-10
申请号:CN202110386156.8
申请日:2021-04-09
申请人: 平安科技(深圳)有限公司
摘要: 本申请涉及一种语音情绪识别方法、装置、计算机设备及介质,其中方法包括:对待识别语音数据进行划分,得到至少两个待识别语音片段;基于特征识别网络对各个所述待识别语音片段进行识别,得到至少两个局部表征信息,每一所述待识别语音片段对应至少一个所述局部表征信息;基于特征学习网络对至少两个所述局部表征信息进行学习,得到全局表征信息;基于情绪识别网络对所述全局表征信息进行识别,得到目标情绪。采用本申请,可提高语音情绪识别的准确率。
-
公开(公告)号:CN115116476A
公开(公告)日:2022-09-27
申请号:CN202210828337.6
申请日:2022-07-13
申请人: 平安科技(深圳)有限公司
IPC分类号: G10L25/63 , G10L15/02 , G10L15/16 , G10L15/22 , G10L15/26 , G10L19/26 , G06F16/33 , G06N3/04
摘要: 本申请实施例属于人工智能领域,涉及一种情绪识别方法,方法包括获取语音信号对应的语音特征和文本特征;将文本特征加入语音特征,得到融合语音特征;将语音特征加入文本特征,得到融合文本特征;根据融合语音特征和融合文本特征确定语音信号对应的情绪。本申请还提供一种情绪识别装置、计算机设备及存储介质。本申请解决了目前的情绪识别结果不准确的问题。
-
公开(公告)号:CN114882911A
公开(公告)日:2022-08-09
申请号:CN202210608076.7
申请日:2022-05-31
申请人: 平安科技(深圳)有限公司
摘要: 本申请涉及声音识别技术领域,提供了一种低资源声音事件检测方法、装置、设备及存储介质,其中方法包括:获取待检测的声音;将待检测的声音输入至训练好的声音组类别神经网络模型,得到声音组类别信息;将待检测的声音输入至预先训练好的声音事件类别判断模型的编码器得到细粒度特征信息,并将组类别信息与细粒度特征信息拼接融合,得到融合特征信息;将融合特征信息输入至声音事件类别判断模型的解码器,并基于注意力机制,结合预先得到的组类别表示矩阵对融合特征信息进行解码,得到声音事件判断结果。本发明通过将待检测的声音形成包含丰富信息的大类组声音组类别信息,通过自注意力机制实现基于大类声音事件结果辅助判别。
-
公开(公告)号:CN113870887A
公开(公告)日:2021-12-31
申请号:CN202111129168.9
申请日:2021-09-26
申请人: 平安科技(深圳)有限公司
IPC分类号: G10L21/0216 , G10L25/30 , G10L25/03
摘要: 本申请实施例属于人工智能领域,涉及一种单通道语音增强方法,包括对待增强带噪语音进行特征提取,得到语谱特征,将语谱特征输入训练好的语音增强模型中,通过数据变形层对语谱特征进行数据变形,得到变形特征,将变形特征输入卷积网络层获得第一语音特征和第二语音特征,将第一语音特征和第二语音特征输入循环网络层获得第一增强特征和第二增强特征,通过输出层将第一增强特征和第二增强特征进行拼接,输出语音增强数据。本申请还提供一种单通道语音增强装置、计算机设备及存储介质。此外,本申请还涉及区块链技术,语音增强数据可存储于区块链中。本申请可以实现实时语音增强,同时,可以提升语音增强效果。
-
公开(公告)号:CN113470684A
公开(公告)日:2021-10-01
申请号:CN202110837937.4
申请日:2021-07-23
申请人: 平安科技(深圳)有限公司
IPC分类号: G10L21/0224 , G10L21/0232 , G10L25/30
摘要: 本发明涉及人工智能,提供一种音频降噪方法、装置、设备及存储介质。该方法能够对带噪音频进行预处理,得到频谱信息,基于频域信号处理网络处理频谱信息,得到频谱掩膜特征,根据频谱信息及频谱掩膜特征获取时频特征,基于时域信号处理网络处理时频特征,得到时频掩膜特征,根据时频特征及时频掩膜特征生成预测音频,基于预测音频及纯净音频调整预设学习器的网络参数,得到降噪模型,获取请求音频,基于降噪模型对请求音频进行降噪处理,得到目标音频。本发明能够提高请求音频的降噪准确性及实时性。此外,本发明还涉及区块链技术,所述目标音频可存储于区块链中。
-
-
-
-
-
-
-
-
-