结合大语言模型的深度合成音频检测方法、系统和产品

发明授权

CN117577120B 结合大语言模型的深度合成音频检测方法、系统和产品有权

请登陆查看更多内容

专利标题： 结合大语言模型的深度合成音频检测方法、系统和产品
申请号： CN202410063989.4

申请日： 2024-01-17
公开(公告)号： CN117577120B

公开(公告)日： 2024-04-05
发明人: 陶建华
申请人： 清华大学
申请人地址： 北京市海淀区双清路30号
专利权人： 清华大学
当前专利权人： 清华大学
当前专利权人地址： 北京市海淀区双清路30号
代理机构： 北京润泽恒知识产权代理有限公司
代理商 苟冬梅
主分类号： G10L17/26
IPC分类号： G10L17/26 ; G10L17/06 ; G10L17/18 ; G10L17/02 ; G10L19/00

摘要：

本申请提供了一种结合大语言模型的深度合成音频检测方法、系统和产品，涉及音频检测技术领域，该方法包括：通过音频编码器对待检测音频进行编码，得到音频编码结果；通过预先训练的Q‑former模块从所述音频编码结果中提取音频鉴别特征，并将所述音频鉴别特征对齐至文本模态，得到文本模态的音频鉴别特征；通过预先训练的线性对齐模块将所述文本模态的音频鉴别特征的维度对齐至大语言模型的输入维度；通过文本编码器对提示文本进行编码，得到文本编码结果；将所述文本编码结果与经过维度对齐的文本模态的音频鉴别特征输入预先训练的大语言模型，得到音频检测结果。

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G10	乐器；声学
G10L	语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码
G10L17/00	讲话者辨认或验证
G10L17/26	.特殊语音特征的识别，例如测谎器的使用；动物声音识别