一种基于混合特征及编码解码的音频分离方法

    公开(公告)号:CN113488063A

    公开(公告)日:2021-10-08

    申请号:CN202110753553.4

    申请日:2021-07-02

    IPC分类号: G10L19/008 G10L19/005

    摘要: 本发明涉及音频数据处理技术领域,尤其涉及一种基于混合特征及编码解码的音频分离方法,包括如下步骤:数据收集;通过多终端设备收集音频数据;前期训练;随机抽取部分数据进行标注,将有声部分和无声部分端点进行标注;音频特征提取;在音频信号的频域、时域和倒谱域进行特征提取,并通过注意力机制对多个特征进行加权;音频空白去除;将得到的最终音频特征表示,通过语音端点检测算法和集成分类器去除音频中低能量区域,并保留含有明显声音的高能量区域,将切分后的片段进行拼接;音频分离;使用去除空白后的音频波形数据,利用编码解码网络结构分析混合音频的语音波形,通过预测对应于单个的时频掩码对音源进行分离,输出仅包括人声的音频。