一种融合全局场景与局部事件信息的音频语意概述方法

发明公开

CN114155835A 一种融合全局场景与局部事件信息的音频语意概述方法有权

请登陆查看更多内容

专利标题： 一种融合全局场景与局部事件信息的音频语意概述方法
申请号： CN202111475701.7

申请日： 2021-12-06
公开(公告)号： CN114155835A

公开(公告)日： 2022-03-08
发明人: 关键 , 肖飞扬 , 谢明杰
申请人： 哈尔滨工程大学
申请人地址： 黑龙江省哈尔滨市南岗区南通大街145号
专利权人： 哈尔滨工程大学
当前专利权人： 哈尔滨工程大学
当前专利权人地址： 黑龙江省哈尔滨市南岗区南通大街145号
代理机构： 哈尔滨市哈科专利事务所有限责任公司
代理商 袁亚男
主分类号： G10L15/02
IPC分类号： G10L15/02 ; G10L15/06 ; G10L15/16 ; G10L15/26 ; G10L25/30 ; G10L25/51 ; G06F40/216 ; G06F40/30 ; G06N3/04 ; G06N3/08

摘要：

本发明涉及一种音频语意概述方法，具体为一种融合全局场景与局部事件信息的音频语意概述方法，首先对实际场景中产生的音频进行建模分析，随后从声学场景的宏观全局特性入手，并融合了对于场景内各音频事件的精细化感知，最终生成贴合人类自然语言逻辑的语意概述文本，本发明对于声学场景中局部声音事件的精细化感知为构建音频特征的语意信息与自然语言语意信息的映射提供了细粒度的信息感知方式，能够有效规避传统方法对于音频事件的误识别与内容忽略，有助于构建更高语意层次的人机交互过程；此外，本发明提供了全新的注意力计算机制，相比传统注意力机制降低了计算成本。

公开/授权文献

CN114155835B 一种融合全局场景与局部事件信息的音频语意概述方法公开/授权日：2022-07-08

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G10	乐器；声学
G10L	语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码
G10L15/00	语音识别（G10L17/00优先）
G10L15/02	.语音识别的特征提取；识别单位的选择