- 专利标题: 结合大语言模型的深度合成音频检测方法、系统和产品
-
申请号: CN202410063989.4申请日: 2024-01-17
-
公开(公告)号: CN117577120B公开(公告)日: 2024-04-05
- 发明人: 陶建华
- 申请人: 清华大学
- 申请人地址: 北京市海淀区双清路30号
- 专利权人: 清华大学
- 当前专利权人: 清华大学
- 当前专利权人地址: 北京市海淀区双清路30号
- 代理机构: 北京润泽恒知识产权代理有限公司
- 代理商 苟冬梅
- 主分类号: G10L17/26
- IPC分类号: G10L17/26 ; G10L17/06 ; G10L17/18 ; G10L17/02 ; G10L19/00
摘要:
本申请提供了一种结合大语言模型的深度合成音频检测方法、系统和产品,涉及音频检测技术领域,该方法包括:通过音频编码器对待检测音频进行编码,得到音频编码结果;通过预先训练的Q‑former模块从所述音频编码结果中提取音频鉴别特征,并将所述音频鉴别特征对齐至文本模态,得到文本模态的音频鉴别特征;通过预先训练的线性对齐模块将所述文本模态的音频鉴别特征的维度对齐至大语言模型的输入维度;通过文本编码器对提示文本进行编码,得到文本编码结果;将所述文本编码结果与经过维度对齐的文本模态的音频鉴别特征输入预先训练的大语言模型,得到音频检测结果。