一种融合全局场景与局部事件信息的音频语意概述方法
摘要:
本发明涉及一种音频语意概述方法,具体为一种融合全局场景与局部事件信息的音频语意概述方法,首先对实际场景中产生的音频进行建模分析,随后从声学场景的宏观全局特性入手,并融合了对于场景内各音频事件的精细化感知,最终生成贴合人类自然语言逻辑的语意概述文本,本发明对于声学场景中局部声音事件的精细化感知为构建音频特征的语意信息与自然语言语意信息的映射提供了细粒度的信息感知方式,能够有效规避传统方法对于音频事件的误识别与内容忽略,有助于构建更高语意层次的人机交互过程;此外,本发明提供了全新的注意力计算机制,相比传统注意力机制降低了计算成本。
0/0