- 专利标题: 交互式音频系统中的音频对象编码方法、解码方法及装置
-
申请号: CN202110535195.X申请日: 2021-05-17
-
公开(公告)号: CN113314132B公开(公告)日: 2022-05-17
- 发明人: 胡瑞敏 , 吴玉林 , 王晓晨 , 胡晨昊 , 柯善发 , 张灵鲲 , 刘文可
- 申请人: 武汉大学
- 申请人地址: 湖北省武汉市武昌区珞珈山武汉大学
- 专利权人: 武汉大学
- 当前专利权人: 武汉大学
- 当前专利权人地址: 湖北省武汉市武昌区珞珈山武汉大学
- 主分类号: G10L19/02
- IPC分类号: G10L19/02 ; G10L19/032 ; G10L25/18 ; G10L25/30
摘要:
本发明提供了一种应用于交互式音频系统中的音频对象编码方法、解码方法及装置,其中的编码方法首先将输入的独立多个音频对象进过预处理变换到频域;然后利用非均匀子带划分算法完成子带划分,计算每个音频的对象的空间信息参数,将音频对象频域信号下混得到单声道的下混信号;其次利用深度神经网络中的编码模块对空间参数进行降维表达;最后将混合信号和压缩后的空间参数合成编码码流。与一般的音频对象编码方法相比,在相同码率下,本音频对象编码方法混叠失真有明显下降,能给用户带来更好的沉浸式体验。该方法适用于音频交互设备,且适用于多风格、多类型、多模态的音频信号。
公开/授权文献
- CN113314132A 一种应用于交互式音频系统中的音频对象编码方法、解码方法及装置 公开/授权日:2021-08-27