一种自适应语音增强的语音交互方法、系统及存储介质

发明公开

CN114464207A 一种自适应语音增强的语音交互方法、系统及存储介质审中-实审

请登陆查看更多内容

专利标题： 一种自适应语音增强的语音交互方法、系统及存储介质
申请号： CN202111393902.2

申请日： 2021-11-23
公开(公告)号： CN114464207A

公开(公告)日： 2022-05-10
发明人: 李登实 , 叶海洋 , 赵兰馨 , 高雨 , 薛童 , 陈天卓 , 陈奥 , 何佳欣 , 吴梓煊
申请人： 江汉大学
申请人地址： 湖北省武汉市沌口经济技术开发区新江大路8号
专利权人： 江汉大学
当前专利权人： 江汉大学
当前专利权人地址： 湖北省武汉市沌口经济技术开发区新江大路8号
主分类号： G10L21/0364
IPC分类号： G10L21/0364 ; G10L15/22 ; G10L15/26 ; G10L15/16 ; G10L15/06 ; G10L15/02 ; G10L25/30

摘要：

本申请提供了一种自适应语音增强的语音交互方法，该方法包括：获取用户输入的语音文件，并通过语音识别得到相应的文本文件；根据seq2seq端到端模型得到机器回复的文本文件；将机器回复的文本文件进行文本分析，并送入声学模型中进行训练，获取语音特征，通过声码器合成语音；获取伦巴第语音音频的德语语料库作为训练数据集，采用训练数据集通过声码器提取出语音中的特征频谱包络MCCs和基频f0；通过声压计实时获取当前环境噪声等级；将特征频谱包络MCCs特征和当前环境噪声等级输入噪声自适应自注意StarGAN网络模型中进行模型的测试，根据实时噪声等级进行相应的语音风格转换，并输出语音增强后的语音。

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G10	乐器；声学
G10L	语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码
G10L21/00	为了改变语音或声音信号的质量或其可识度而处理语音或声音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号（G10L19/00优先）
G10L21/02	.语音增强，例如降低噪声或消除回声（在直线传送系统中减轻回声效应入H04B3/20；免提电话中的回声抑制入H04M9/08）
G10L21/0316	..通过改变振幅
G10L21/0364	...用于提高可识度