一种基于图像识别的语音混响强度估计方法、装置及存储介质

发明公开

CN111785292A 一种基于图像识别的语音混响强度估计方法、装置及存储介质有权

请登陆查看更多内容

专利标题： 一种基于图像识别的语音混响强度估计方法、装置及存储介质
申请号： CN202010426246.0

申请日： 2020-05-19
公开(公告)号： CN111785292A

公开(公告)日： 2020-10-16
发明人: 张广学 , 肖龙源 , 叶志坚 , 李稀敏 , 刘晓葳
申请人： 厦门快商通科技股份有限公司
申请人地址： 福建省厦门市软件园三期诚毅北大街63号1301单元
专利权人： 厦门快商通科技股份有限公司
当前专利权人： 厦门快商通科技股份有限公司
当前专利权人地址： 福建省厦门市软件园三期诚毅北大街63号1301单元
代理机构： 厦门仕诚联合知识产权代理事务所
代理商 乐珠秀
主分类号： G10L21/14
IPC分类号： G10L21/14 ; G10L25/60 ; G06N3/04 ; G06K9/46 ; G06K9/00

摘要：

本发明公开了一种基于图像识别的语音混响强度估计方法、装置及存储介质，其通过将混响语音转换为三维语谱图；通过对所述三维语谱图进行图像检测，得到所述混响语音在所述三维语谱图中的拖尾段；计算所述拖尾段的能量强度，并以该能量强度作为混响强度的初始估计值；最后对两个以上拖尾段的初始估计值之间进行平滑处理，得到最终估计值，并将该最终估计值作为所述混响语音的混响强度的度量，从而能够极大的提高混响强度度量的抗干扰性和准确性。

公开/授权文献

CN111785292B 一种基于图像识别的语音混响强度估计方法、装置及存储介质公开/授权日：2023-03-31

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G10	乐器；声学
G10L	语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码
G10L21/00	为了改变语音或声音信号的质量或其可识度而处理语音或声音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号（G10L19/00优先）
G10L21/06	.将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理（G10L15/26优先）
G10L21/10	..转换成可视信息
G10L21/14	...通过显示频域信息