- 专利标题: 一种基于图像识别的语音混响强度估计方法、装置及存储介质
-
申请号: CN202010426246.0申请日: 2020-05-19
-
公开(公告)号: CN111785292A公开(公告)日: 2020-10-16
- 发明人: 张广学 , 肖龙源 , 叶志坚 , 李稀敏 , 刘晓葳
- 申请人: 厦门快商通科技股份有限公司
- 申请人地址: 福建省厦门市软件园三期诚毅北大街63号1301单元
- 专利权人: 厦门快商通科技股份有限公司
- 当前专利权人: 厦门快商通科技股份有限公司
- 当前专利权人地址: 福建省厦门市软件园三期诚毅北大街63号1301单元
- 代理机构: 厦门仕诚联合知识产权代理事务所
- 代理商 乐珠秀
- 主分类号: G10L21/14
- IPC分类号: G10L21/14 ; G10L25/60 ; G06N3/04 ; G06K9/46 ; G06K9/00
摘要:
本发明公开了一种基于图像识别的语音混响强度估计方法、装置及存储介质,其通过将混响语音转换为三维语谱图;通过对所述三维语谱图进行图像检测,得到所述混响语音在所述三维语谱图中的拖尾段;计算所述拖尾段的能量强度,并以该能量强度作为混响强度的初始估计值;最后对两个以上拖尾段的初始估计值之间进行平滑处理,得到最终估计值,并将该最终估计值作为所述混响语音的混响强度的度量,从而能够极大的提高混响强度度量的抗干扰性和准确性。
公开/授权文献
- CN111785292B 一种基于图像识别的语音混响强度估计方法、装置及存储介质 公开/授权日:2023-03-31