基于多粒度注意力机制的深度合成音频检测方法和装置

发明公开

CN116825137A 基于多粒度注意力机制的深度合成音频检测方法和装置审中-实审

请登陆查看更多内容

专利标题： 基于多粒度注意力机制的深度合成音频检测方法和装置
申请号： CN202310802442.7

申请日： 2023-07-03
公开(公告)号： CN116825137A

公开(公告)日： 2023-09-29
发明人: 贾云刚 , 孙捷 , 刘铭 , 张震 , 马宏远 , 石瑾 , 高一骄 , 段东圣 , 段运强 , 李鹏 , 时磊 , 赵淳璐 , 常为领 , 佟玲玲 , 孙海亮
申请人： 国家计算机网络与信息安全管理中心天津分中心
申请人地址： 天津市南开区南门外大街盛欣园A座
专利权人： 国家计算机网络与信息安全管理中心天津分中心
当前专利权人： 国家计算机网络与信息安全管理中心天津分中心
当前专利权人地址： 天津市南开区南门外大街盛欣园A座
代理机构： 北京中知音诺知识产权代理事务所
代理商 湛海耀
主分类号： G10L25/51
IPC分类号： G10L25/51 ; G10L25/03 ; G10L25/18 ; G10L25/30 ; G10L25/27 ; G06N3/0464 ; G06N3/092

摘要：

本发明属于深度合成音频检测领域技术领域，特别涉及一种基于多粒度注意力机制的深度合成音频检测方法和装置，其中，深度合成音频检测方法包括以下步骤：获取待检测音频；对待检测音频进行预处理，得到对应的频谱图；对频谱图进行多粒度特征提取，得到不同时间尺度的中间特征；对不同时间尺度的中间特征采用多粒度注意力机制进行特征融合，得到多粒度特征；将多粒度特征输入预训练好的深度合成音频检测模型中，输出对应的预测结果。本发明提供的深度合成音频检测方法多粒度注意力机制，结合深度学习技术，充分利用音频信号的时频特征，提高对不同时序的关注能力，从而提高音频检测的准确性和鲁棒性。

信息查询

中国专利公布公告

审查信息

Global Dossier

Espacenet

IPC分类:

G	物理
G10	乐器；声学
G10L	语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码
G10L25/00	不限于组G10L 15/00-G10L 21/00的语言或者声音分析技术(当利用语音检测器来感知一些信号特殊特征的基于半导体的静噪放大器，如无信号时的感知入H03G3/34)
G10L25/48	.专门适用于特定用途
G10L25/51	..比较或判别