-
公开(公告)号:CN112951264A
公开(公告)日:2021-06-11
申请号:CN201911257725.8
申请日:2019-12-10
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L21/0272 , G10L21/0232 , G10L21/0216 , G06N3/04 , G06N3/08 , G06K9/62
Abstract: 本发明公开了一种基于混合式概率模型的多通道声源分离方法,所述方法包括:计算待分离的多声源信号的短时傅里叶频谱,基于预先建立的深度聚类网络提取每个时频点的声源嵌入向量;将声源嵌入向量输入混合式概率模型,利用期望最大化算法迭代混合式概率模型,模型收敛后输出每个时频点的各声源出现概率;利用各声源出现概率计算噪声能量密度矩阵和目标声源导向矢量;计算波束形成系数;利用短时傅里叶频谱、各声源出现概率和波束形成系数,还原各声源对应的增强后信号的频谱。
-
公开(公告)号:CN111354372B
公开(公告)日:2023-07-18
申请号:CN201811571542.9
申请日:2018-12-21
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L25/30 , G10L25/51 , G06N3/0464 , G06N3/084
Abstract: 本发明公开了一种基于前后端联合训练的音频场景分类方法及系统,所述方法包括:对待分类的数字声音信号进行处理得到幅度谱图,将幅度谱图输入基于前后端联合训练得到的深度学习神经网络,输出所述对待分类的数字声音信号的每一帧的预测概率,将每一帧的预测概率取对数后求平均,最大值对应的类别为音频场景分类结果。本发明的方法使用联合训练同时训练网络的前端滤波器部分和后端的深度卷积神经网络,从而使滤波器从人为的先验知识转化为当前任务限定,能够取得更高的分类准确率。
-
公开(公告)号:CN111354373B
公开(公告)日:2023-05-12
申请号:CN201811572720.X
申请日:2018-12-21
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明公开了一种基于神经网络中间层特征滤波的音频信号分类方法,所述方法包括:对待分类的数字声音信号进行预处理并提取频谱;计算频谱的梅尔滤波器组系数作为音频特征;将音频特征输入到训练好的插入滤波层的分类网络;输出所述对待分类的数字声音信号的每一帧的预测概率,最大值对应的类别为帧级的音频信号分类标签。本发明的方法无需使用复杂的网络结构,仅利用离散余弦变换实现了音频时域信息的滤波,基本不影响神经网络的运算速度,同时对数据量要求小。
-
公开(公告)号:CN112951264B
公开(公告)日:2022-05-17
申请号:CN201911257725.8
申请日:2019-12-10
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L21/0272 , G10L21/0232 , G10L21/0216 , G06N3/04 , G06N3/08 , G06K9/62
Abstract: 本发明公开了一种基于混合式概率模型的多通道声源分离方法,所述方法包括:计算待分离的多声源信号的短时傅里叶频谱,基于预先建立的深度聚类网络提取每个时频点的声源嵌入向量;将声源嵌入向量输入混合式概率模型,利用期望最大化算法迭代混合式概率模型,模型收敛后输出每个时频点的各声源出现概率;利用各声源出现概率计算噪声能量密度矩阵和目标声源导向矢量;计算波束形成系数;利用短时傅里叶频谱、各声源出现概率和波束形成系数,还原各声源对应的增强后信号的频谱。
-
公开(公告)号:CN111354373A
公开(公告)日:2020-06-30
申请号:CN201811572720.X
申请日:2018-12-21
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明公开了一种基于神经网络中间层特征滤波的音频信号分类方法,所述方法包括:对待分类的数字声音信号进行预处理并提取频谱;计算频谱的梅尔滤波器组系数作为音频特征;将音频特征输入到训练好的插入滤波层的分类网络;输出所述对待分类的数字声音信号的每一帧的预测概率,最大值对应的类别为帧级的音频信号分类标签。本发明的方法无需使用复杂的网络结构,仅利用离散余弦变换实现了音频时域信息的滤波,基本不影响神经网络的运算速度,同时对数据量要求小。
-
公开(公告)号:CN111354372A
公开(公告)日:2020-06-30
申请号:CN201811571542.9
申请日:2018-12-21
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明公开了一种基于前后端联合训练的音频场景分类方法及系统,所述方法包括:对待分类的数字声音信号进行处理得到幅度谱图,将幅度谱图输入基于前后端联合训练得到的深度学习神经网络,输出所述对待分类的数字声音信号的每一帧的预测概率,将每一帧的预测概率取对数后求平均,最大值对应的类别为音频场景分类结果。本发明的方法使用联合训练同时训练网络的前端滤波器部分和后端的深度卷积神经网络,从而使滤波器从人为的先验知识转化为当前任务限定,能够取得更高的分类准确率。
-
公开(公告)号:CN113870893B
公开(公告)日:2024-09-03
申请号:CN202111134595.6
申请日:2021-09-27
Applicant: 中国科学院声学研究所
IPC: G10L21/0272 , G10L25/27
Abstract: 本申请涉及一种多通道双说话人分离方法及系统,其中所述方法包括:对混合语音音频进行处理,得到每帧音频的频谱;根据所述每帧音频和声源位置估计网络获得估计的帧级别笛卡尔坐标和对应权重;根据所述每帧音频的频谱得到第一对数能量谱和第一正余弦通道间相位差;根据所述估计的帧级别笛卡尔坐标和对应权重,得到所述混合语音音频中目标说话人的笛卡尔坐标估计;根据所述目标说话人的笛卡尔坐标得到第一角度特征;根据所述第一对数能量谱、第一正余弦通道间相位差、第一角度特征和说话人掩蔽估计网络得到目标说话人和第一估计的说话人掩蔽;基于所述目标说话人、所述第一估计的说话人掩蔽和所述混合语音音频,得到所述至少两个说话人的分离语音。
-
公开(公告)号:CN116072139A
公开(公告)日:2023-05-05
申请号:CN202111272002.2
申请日:2021-10-29
Applicant: 中国科学院声学研究所
IPC: G10L21/0232 , G10L21/0216
Abstract: 本发明涉及一种语音增强方法及设备,该方法包括:提取多通道远场语音信号的短时傅里叶谱特征,训练基于长短期记忆网络的第一阶段增强模型,采用第一阶段增强模型计算远场语音信号的频谱,计算波束形成系数并计算线性滤波后的频谱,训练基于长短期记忆网络的第二阶段增强模型,计算远场语音信号采用第二阶段增强模型后的增强信号,计算远场语音信号波束形成系数并计算增强后的频谱,将第二阶段增强模型迭代1‑2次,恢复语音信号,以过滤掉麦克风阵列采集到的远场语音信号中包含的其他声源的语音信号,得到纯净或相对纯净的目标声源的语音信号。
-
公开(公告)号:CN113870893A
公开(公告)日:2021-12-31
申请号:CN202111134595.6
申请日:2021-09-27
Applicant: 中国科学院声学研究所
IPC: G10L21/0272 , G10L25/27
Abstract: 本申请涉及一种多通道双说话人分离方法及系统,其中所述方法包括:对混合语音音频进行处理,得到每帧音频的频谱;根据所述每帧音频和声源位置估计网络获得估计的帧级别笛卡尔坐标和对应权重;根据所述每帧音频的频谱得到第一对数能量谱和第一正余弦通道间相位差;根据所述估计的帧级别笛卡尔坐标和对应权重,得到所述混合语音音频中目标说话人的笛卡尔坐标估计;根据所述目标说话人的笛卡尔坐标得到第一角度特征;根据所述第一对数能量谱、第一正余弦通道间相位差、第一角度特征和说话人掩蔽估计网络得到目标说话人和第一估计的说话人掩蔽;基于所述目标说话人、所述第一估计的说话人掩蔽和所述混合语音音频,得到所述至少两个说话人的分离语音。
-
-
-
-
-
-
-
-