- 专利标题: 一种融合全局场景与局部事件信息的音频语意概述方法
-
申请号: CN202111475701.7申请日: 2021-12-06
-
公开(公告)号: CN114155835A公开(公告)日: 2022-03-08
- 发明人: 关键 , 肖飞扬 , 谢明杰
- 申请人: 哈尔滨工程大学
- 申请人地址: 黑龙江省哈尔滨市南岗区南通大街145号
- 专利权人: 哈尔滨工程大学
- 当前专利权人: 哈尔滨工程大学
- 当前专利权人地址: 黑龙江省哈尔滨市南岗区南通大街145号
- 代理机构: 哈尔滨市哈科专利事务所有限责任公司
- 代理商 袁亚男
- 主分类号: G10L15/02
- IPC分类号: G10L15/02 ; G10L15/06 ; G10L15/16 ; G10L15/26 ; G10L25/30 ; G10L25/51 ; G06F40/216 ; G06F40/30 ; G06N3/04 ; G06N3/08
摘要:
本发明涉及一种音频语意概述方法,具体为一种融合全局场景与局部事件信息的音频语意概述方法,首先对实际场景中产生的音频进行建模分析,随后从声学场景的宏观全局特性入手,并融合了对于场景内各音频事件的精细化感知,最终生成贴合人类自然语言逻辑的语意概述文本,本发明对于声学场景中局部声音事件的精细化感知为构建音频特征的语意信息与自然语言语意信息的映射提供了细粒度的信息感知方式,能够有效规避传统方法对于音频事件的误识别与内容忽略,有助于构建更高语意层次的人机交互过程;此外,本发明提供了全新的注意力计算机制,相比传统注意力机制降低了计算成本。
公开/授权文献
- CN114155835B 一种融合全局场景与局部事件信息的音频语意概述方法 公开/授权日:2022-07-08