专利检索 ap:("山东省计算中心(国家超级计算济南中心)" OR "齐鲁工业大学(山东省科学院)") AND inv:"吝灵霞" 第 1 页

1.

发明授权
基于语音质量分级模型的变速率语音编码方法及系统有权

公开(公告)号：CN118016081B

公开(公告)日：2024-06-21

申请号：CN202410423860.X

申请日：2024-04-10

申请人： 山东省计算中心(国家超级计算济南中心) , 齐鲁工业大学(山东省科学院)

发明人： 李晔 , 吝灵霞 , 于兴业 , 张鹏 , 蔡田雨

IPC分类号： G10L19/24 , G10L25/60

摘要： 本公开提供了基于语音质量分级模型的变速率语音编码方法及系统，涉及语音信号处理技术领域，包括：获取编码器不同误码率下得到的合成语音文件；将所述合成语音文件输入至语音质量分级模型中，得到语音质量的预测结果；对未来可能出现的语音质量的变化情况进行模态划分；其中，语音质量的变化情况包括三种模态，分别为平衡态、休眠态以及激活态；判断当前预测出的语音质量的所属模态，并根据当前所属模态，实时地对语音编码的速率进行自适应调整，在语音编码的自然度、可懂度和系统容量间得到最佳平衡。

2.

发明授权
基于多尺度残差注意力的语音压缩方法及系统有权

公开(公告)号：CN118335092B

公开(公告)日：2024-08-30

申请号：CN202410748437.7

申请日：2024-06-12

申请人： 山东省计算中心(国家超级计算济南中心) , 齐鲁工业大学(山东省科学院)

发明人： 李晔 , 于兴业 , 吝灵霞 , 张鹏 , 蔡田雨

IPC分类号： G10L19/16 , G10L25/30 , G10L13/02 , G10L19/00

摘要： 本发明属于语音信号处理技术领域，提供了一种基于多尺度残差注意力的语音压缩方法及系统，包括获取语音信号；对语音信号进行卷积操作，得到第一特征，对第一特征进行操作，得到第一特征的残差和恒等映射；将残差和恒等映射相加得到第一输出特征，对第一输出特征进行特征提取，经过多次操作得到注意力分数，将注意力分数分别与残差和恒等映射相乘，经过多次操作得到第三输出特征；对第三输出特征进行多级迭代量化，得到第一矢量，第二网络根据接收到的第一矢量的索引，在码本中找到相应的量化矢量，将所有量化矢量相加，得到重构矢量；对重构矢量解码输出合成语音，并对生成语音的真伪通过判别器进行判断。本发明能够提高合成语音的质量。

3.

发明公开
基于多尺度残差注意力的语音压缩方法及系统有权

公开(公告)号：CN118335092A

公开(公告)日：2024-07-12

申请号：CN202410748437.7

申请日：2024-06-12

申请人： 山东省计算中心(国家超级计算济南中心) , 齐鲁工业大学(山东省科学院)

发明人： 李晔 , 于兴业 , 吝灵霞 , 张鹏 , 蔡田雨

IPC分类号： G10L19/16 , G10L25/30 , G10L13/02 , G10L19/00

摘要： 本发明属于语音信号处理技术领域，提供了一种基于多尺度残差注意力的语音压缩方法及系统，包括获取语音信号；对语音信号进行卷积操作，得到第一特征，对第一特征进行操作，得到第一特征的残差和恒等映射；将残差和恒等映射相加得到第一输出特征，对第一输出特征进行特征提取，经过多次操作得到注意力分数，将注意力分数分别与残差和恒等映射相乘，经过多次操作得到第三输出特征；对第三输出特征进行多级迭代量化，得到第一矢量，第二网络根据接收到的第一矢量的索引，在码本中找到相应的量化矢量，将所有量化矢量相加，得到重构矢量；对重构矢量解码输出合成语音，并对生成语音的真伪通过判别器进行判断。本发明能够提高合成语音的质量。

4.

发明公开
基于语音质量分级模型的变速率语音编码方法及系统有权

公开(公告)号：CN118016081A

公开(公告)日：2024-05-10

申请号：CN202410423860.X

申请日：2024-04-10

申请人： 山东省计算中心(国家超级计算济南中心) , 齐鲁工业大学(山东省科学院)

发明人： 李晔 , 吝灵霞 , 于兴业 , 张鹏 , 蔡田雨

IPC分类号： G10L19/24 , G10L25/60

摘要： 本公开提供了基于语音质量分级模型的变速率语音编码方法及系统，涉及语音信号处理技术领域，包括：获取编码器不同误码率下得到的合成语音文件；将所述合成语音文件输入至语音质量分级模型中，得到语音质量的预测结果；对未来可能出现的语音质量的变化情况进行模态划分；其中，语音质量的变化情况包括三种模态，分别为平衡态、休眠态以及激活态；判断当前预测出的语音质量的所属模态，并根据当前所属模态，实时地对语音编码的速率进行自适应调整，在语音编码的自然度、可懂度和系统容量间得到最佳平衡。

5.

发明授权
基于深度学习和矢量预测的语音压缩方法及系统有权转让

公开(公告)号：CN117423348B

公开(公告)日：2024-04-02

申请号：CN202311743425.7

申请日：2023-12-19

申请人： 山东省计算中心(国家超级计算济南中心)

发明人： 李晔 , 于兴业 , 吝灵霞

IPC分类号： G10L19/04 , G10L25/30

摘要： 本公开提供了基于深度学习和矢量预测的语音压缩方法及系统，涉及语音信号处理技术领域，包括：获取低速率下的多帧语音信号，并预处理为语音序列；将当前帧语音序列作为第一深度网络的输入信号提取声学特征，利用所述声学特征预测下一帧语音序列的声学特征，并作为预测矢量；对原声学特征与预测矢量作差，获取差值矢量，并在设计的码本中寻找与差值矢量最匹配的量化矢量，作为残差索引传输到第二深度网络，第二深度网络根据接收的残差索引，在码本中找到相应的差值量化矢量，将差值量化矢量与预测矢量相加，得到重构矢量，对所述重构矢量解码输出合成语音，本公开提高了语音压缩编码合成的质量。

6.

发明公开
基于深度学习和矢量预测的语音压缩方法及系统有权转让

公开(公告)号：CN117423348A

公开(公告)日：2024-01-19

申请号：CN202311743425.7

申请日：2023-12-19

申请人： 山东省计算中心(国家超级计算济南中心)

发明人： 李晔 , 于兴业 , 吝灵霞

IPC分类号： G10L19/04 , G10L25/30

摘要： 本公开提供了基于深度学习和矢量预测的语音压缩方法及系统，涉及语音信号处理技术领域，包括：获取低速率下的多帧语音信号，并预处理为语音序列；将当前帧语音序列作为第一深度网络的输入信号提取声学特征，利用所述声学特征预测下一帧语音序列的声学特征，并作为预测矢量；对原声学特征与预测矢量作差，获取差值矢量，并在设计的码本中寻找与差值矢量最匹配的量化矢量，作为残差索引传输到第二深度网络，第二深度网络根据接收的残差索引，在码本中找到相应的差值量化矢量，将差值量化矢量与预测矢量相加，得到重构矢量，对所述重构矢量解码输出合成语音，本公开提高了语音压缩编码合成的质量。