一种基于神经网络中间层特征滤波的音频信号分类方法

    公开(公告)号:CN111354373B

    公开(公告)日:2023-05-12

    申请号:CN201811572720.X

    申请日:2018-12-21

    Abstract: 本发明公开了一种基于神经网络中间层特征滤波的音频信号分类方法,所述方法包括:对待分类的数字声音信号进行预处理并提取频谱;计算频谱的梅尔滤波器组系数作为音频特征;将音频特征输入到训练好的插入滤波层的分类网络;输出所述对待分类的数字声音信号的每一帧的预测概率,最大值对应的类别为帧级的音频信号分类标签。本发明的方法无需使用复杂的网络结构,仅利用离散余弦变换实现了音频时域信息的滤波,基本不影响神经网络的运算速度,同时对数据量要求小。

    一种基于神经网络中间层特征滤波的音频信号分类方法

    公开(公告)号:CN111354373A

    公开(公告)日:2020-06-30

    申请号:CN201811572720.X

    申请日:2018-12-21

    Abstract: 本发明公开了一种基于神经网络中间层特征滤波的音频信号分类方法,所述方法包括:对待分类的数字声音信号进行预处理并提取频谱;计算频谱的梅尔滤波器组系数作为音频特征;将音频特征输入到训练好的插入滤波层的分类网络;输出所述对待分类的数字声音信号的每一帧的预测概率,最大值对应的类别为帧级的音频信号分类标签。本发明的方法无需使用复杂的网络结构,仅利用离散余弦变换实现了音频时域信息的滤波,基本不影响神经网络的运算速度,同时对数据量要求小。

    一种多通道双说话人分离方法及系统

    公开(公告)号:CN113870893B

    公开(公告)日:2024-09-03

    申请号:CN202111134595.6

    申请日:2021-09-27

    Abstract: 本申请涉及一种多通道双说话人分离方法及系统,其中所述方法包括:对混合语音音频进行处理,得到每帧音频的频谱;根据所述每帧音频和声源位置估计网络获得估计的帧级别笛卡尔坐标和对应权重;根据所述每帧音频的频谱得到第一对数能量谱和第一正余弦通道间相位差;根据所述估计的帧级别笛卡尔坐标和对应权重,得到所述混合语音音频中目标说话人的笛卡尔坐标估计;根据所述目标说话人的笛卡尔坐标得到第一角度特征;根据所述第一对数能量谱、第一正余弦通道间相位差、第一角度特征和说话人掩蔽估计网络得到目标说话人和第一估计的说话人掩蔽;基于所述目标说话人、所述第一估计的说话人掩蔽和所述混合语音音频,得到所述至少两个说话人的分离语音。

    一种语音增强方法及设备
    8.
    发明公开

    公开(公告)号:CN116072139A

    公开(公告)日:2023-05-05

    申请号:CN202111272002.2

    申请日:2021-10-29

    Abstract: 本发明涉及一种语音增强方法及设备,该方法包括:提取多通道远场语音信号的短时傅里叶谱特征,训练基于长短期记忆网络的第一阶段增强模型,采用第一阶段增强模型计算远场语音信号的频谱,计算波束形成系数并计算线性滤波后的频谱,训练基于长短期记忆网络的第二阶段增强模型,计算远场语音信号采用第二阶段增强模型后的增强信号,计算远场语音信号波束形成系数并计算增强后的频谱,将第二阶段增强模型迭代1‑2次,恢复语音信号,以过滤掉麦克风阵列采集到的远场语音信号中包含的其他声源的语音信号,得到纯净或相对纯净的目标声源的语音信号。

    一种多通道双说话人分离方法及系统

    公开(公告)号:CN113870893A

    公开(公告)日:2021-12-31

    申请号:CN202111134595.6

    申请日:2021-09-27

    Abstract: 本申请涉及一种多通道双说话人分离方法及系统,其中所述方法包括:对混合语音音频进行处理,得到每帧音频的频谱;根据所述每帧音频和声源位置估计网络获得估计的帧级别笛卡尔坐标和对应权重;根据所述每帧音频的频谱得到第一对数能量谱和第一正余弦通道间相位差;根据所述估计的帧级别笛卡尔坐标和对应权重,得到所述混合语音音频中目标说话人的笛卡尔坐标估计;根据所述目标说话人的笛卡尔坐标得到第一角度特征;根据所述第一对数能量谱、第一正余弦通道间相位差、第一角度特征和说话人掩蔽估计网络得到目标说话人和第一估计的说话人掩蔽;基于所述目标说话人、所述第一估计的说话人掩蔽和所述混合语音音频,得到所述至少两个说话人的分离语音。

Patent Agency Ranking