一种自适应语音增强的语音交互方法、系统及存储介质

    公开(公告)号:CN114464207A

    公开(公告)日:2022-05-10

    申请号:CN202111393902.2

    申请日:2021-11-23

    申请人: 江汉大学

    摘要: 本申请提供了一种自适应语音增强的语音交互方法,该方法包括:获取用户输入的语音文件,并通过语音识别得到相应的文本文件;根据seq2seq端到端模型得到机器回复的文本文件;将机器回复的文本文件进行文本分析,并送入声学模型中进行训练,获取语音特征,通过声码器合成语音;获取伦巴第语音音频的德语语料库作为训练数据集,采用训练数据集通过声码器提取出语音中的特征频谱包络MCCs和基频f0;通过声压计实时获取当前环境噪声等级;将特征频谱包络MCCs特征和当前环境噪声等级输入噪声自适应自注意StarGAN网络模型中进行模型的测试,根据实时噪声等级进行相应的语音风格转换,并输出语音增强后的语音。