结合大语言模型的深度合成音频检测方法、系统和产品
摘要:
本申请提供了一种结合大语言模型的深度合成音频检测方法、系统和产品,涉及音频检测技术领域,该方法包括:通过音频编码器对待检测音频进行编码,得到音频编码结果;通过预先训练的Q‑former模块从所述音频编码结果中提取音频鉴别特征,并将所述音频鉴别特征对齐至文本模态,得到文本模态的音频鉴别特征;通过预先训练的线性对齐模块将所述文本模态的音频鉴别特征的维度对齐至大语言模型的输入维度;通过文本编码器对提示文本进行编码,得到文本编码结果;将所述文本编码结果与经过维度对齐的文本模态的音频鉴别特征输入预先训练的大语言模型,得到音频检测结果。
0/0