-
公开(公告)号:CN118016081B
公开(公告)日:2024-06-21
申请号:CN202410423860.X
申请日:2024-04-10
摘要: 本公开提供了基于语音质量分级模型的变速率语音编码方法及系统,涉及语音信号处理技术领域,包括:获取编码器不同误码率下得到的合成语音文件;将所述合成语音文件输入至语音质量分级模型中,得到语音质量的预测结果;对未来可能出现的语音质量的变化情况进行模态划分;其中,语音质量的变化情况包括三种模态,分别为平衡态、休眠态以及激活态;判断当前预测出的语音质量的所属模态,并根据当前所属模态,实时地对语音编码的速率进行自适应调整,在语音编码的自然度、可懂度和系统容量间得到最佳平衡。
-
公开(公告)号:CN118335092B
公开(公告)日:2024-08-30
申请号:CN202410748437.7
申请日:2024-06-12
摘要: 本发明属于语音信号处理技术领域,提供了一种基于多尺度残差注意力的语音压缩方法及系统,包括获取语音信号;对语音信号进行卷积操作,得到第一特征,对第一特征进行操作,得到第一特征的残差和恒等映射;将残差和恒等映射相加得到第一输出特征,对第一输出特征进行特征提取,经过多次操作得到注意力分数,将注意力分数分别与残差和恒等映射相乘,经过多次操作得到第三输出特征;对第三输出特征进行多级迭代量化,得到第一矢量,第二网络根据接收到的第一矢量的索引,在码本中找到相应的量化矢量,将所有量化矢量相加,得到重构矢量;对重构矢量解码输出合成语音,并对生成语音的真伪通过判别器进行判断。本发明能够提高合成语音的质量。
-
公开(公告)号:CN118335092A
公开(公告)日:2024-07-12
申请号:CN202410748437.7
申请日:2024-06-12
摘要: 本发明属于语音信号处理技术领域,提供了一种基于多尺度残差注意力的语音压缩方法及系统,包括获取语音信号;对语音信号进行卷积操作,得到第一特征,对第一特征进行操作,得到第一特征的残差和恒等映射;将残差和恒等映射相加得到第一输出特征,对第一输出特征进行特征提取,经过多次操作得到注意力分数,将注意力分数分别与残差和恒等映射相乘,经过多次操作得到第三输出特征;对第三输出特征进行多级迭代量化,得到第一矢量,第二网络根据接收到的第一矢量的索引,在码本中找到相应的量化矢量,将所有量化矢量相加,得到重构矢量;对重构矢量解码输出合成语音,并对生成语音的真伪通过判别器进行判断。本发明能够提高合成语音的质量。
-
公开(公告)号:CN118016081A
公开(公告)日:2024-05-10
申请号:CN202410423860.X
申请日:2024-04-10
摘要: 本公开提供了基于语音质量分级模型的变速率语音编码方法及系统,涉及语音信号处理技术领域,包括:获取编码器不同误码率下得到的合成语音文件;将所述合成语音文件输入至语音质量分级模型中,得到语音质量的预测结果;对未来可能出现的语音质量的变化情况进行模态划分;其中,语音质量的变化情况包括三种模态,分别为平衡态、休眠态以及激活态;判断当前预测出的语音质量的所属模态,并根据当前所属模态,实时地对语音编码的速率进行自适应调整,在语音编码的自然度、可懂度和系统容量间得到最佳平衡。
-
公开(公告)号:CN117423348B
公开(公告)日:2024-04-02
申请号:CN202311743425.7
申请日:2023-12-19
申请人: 山东省计算中心(国家超级计算济南中心)
摘要: 本公开提供了基于深度学习和矢量预测的语音压缩方法及系统,涉及语音信号处理技术领域,包括:获取低速率下的多帧语音信号,并预处理为语音序列;将当前帧语音序列作为第一深度网络的输入信号提取声学特征,利用所述声学特征预测下一帧语音序列的声学特征,并作为预测矢量;对原声学特征与预测矢量作差,获取差值矢量,并在设计的码本中寻找与差值矢量最匹配的量化矢量,作为残差索引传输到第二深度网络,第二深度网络根据接收的残差索引,在码本中找到相应的差值量化矢量,将差值量化矢量与预测矢量相加,得到重构矢量,对所述重构矢量解码输出合成语音,本公开提高了语音压缩编码合成的质量。
-
公开(公告)号:CN117423348A
公开(公告)日:2024-01-19
申请号:CN202311743425.7
申请日:2023-12-19
申请人: 山东省计算中心(国家超级计算济南中心)
摘要: 本公开提供了基于深度学习和矢量预测的语音压缩方法及系统,涉及语音信号处理技术领域,包括:获取低速率下的多帧语音信号,并预处理为语音序列;将当前帧语音序列作为第一深度网络的输入信号提取声学特征,利用所述声学特征预测下一帧语音序列的声学特征,并作为预测矢量;对原声学特征与预测矢量作差,获取差值矢量,并在设计的码本中寻找与差值矢量最匹配的量化矢量,作为残差索引传输到第二深度网络,第二深度网络根据接收的残差索引,在码本中找到相应的差值量化矢量,将差值量化矢量与预测矢量相加,得到重构矢量,对所述重构矢量解码输出合成语音,本公开提高了语音压缩编码合成的质量。
-
-
-
-
-