交互式音频系统中的音频对象编码方法、解码方法及装置

发明授权

CN113314132B 交互式音频系统中的音频对象编码方法、解码方法及装置有权

请登陆查看更多内容

专利标题： 交互式音频系统中的音频对象编码方法、解码方法及装置
申请号： CN202110535195.X

申请日： 2021-05-17
公开(公告)号： CN113314132B

公开(公告)日： 2022-05-17
发明人: 胡瑞敏 , 吴玉林 , 王晓晨 , 胡晨昊 , 柯善发 , 张灵鲲 , 刘文可
申请人： 武汉大学
申请人地址： 湖北省武汉市武昌区珞珈山武汉大学
专利权人： 武汉大学
当前专利权人： 武汉大学
当前专利权人地址： 湖北省武汉市武昌区珞珈山武汉大学
主分类号： G10L19/02
IPC分类号： G10L19/02 ; G10L19/032 ; G10L25/18 ; G10L25/30

摘要：

本发明提供了一种应用于交互式音频系统中的音频对象编码方法、解码方法及装置，其中的编码方法首先将输入的独立多个音频对象进过预处理变换到频域；然后利用非均匀子带划分算法完成子带划分，计算每个音频的对象的空间信息参数，将音频对象频域信号下混得到单声道的下混信号；其次利用深度神经网络中的编码模块对空间参数进行降维表达；最后将混合信号和压缩后的空间参数合成编码码流。与一般的音频对象编码方法相比，在相同码率下，本音频对象编码方法混叠失真有明显下降，能给用户带来更好的沉浸式体验。该方法适用于音频交互设备，且适用于多风格、多类型、多模态的音频信号。

公开/授权文献

CN113314132A 一种应用于交互式音频系统中的音频对象编码方法、解码方法及装置公开/授权日：2021-08-27

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G10	乐器；声学
G10L	语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码
G10L19/00	用于冗余度下降情形（例如在声码器中）的语音或音频信号分析-合成技术；语音或音频信号编码或解码，采用源滤波器模型或心理声学分析（乐器中的入G10H）
G10L19/02	.利用频谱分析，例如变换声码器或子频带声码器