-
公开(公告)号:CN119851078A
公开(公告)日:2025-04-18
申请号:CN202510314705.9
申请日:2025-03-18
Applicant: 吉林大学
IPC: G06V10/80 , G06V10/774 , G06V10/764 , G06V10/44 , G06V10/74 , G06N3/0464 , G06N5/04
Abstract: 本发明公开一种基于大模型和预训练的假新闻检测推断方法及系统,涉及图像处理和大型视觉语言模型领域。本发明利用Vision Transformer对图像和音频信息编码,Transformer对文本信息进行编码,通过对比学习技术实现多模态语义对齐,通过训练得到所需的编码器,将该编码器提取到的文本特征与图像特征使用多模态交叉注意力模块进行特征融合,获得文本图像融合特征;然后将文本图像融合特征、人脸图像特征与音频特征使用多模态特征增强模块处理,获得增强特征,捕捉新闻中的细微差别和潜在的操纵迹象;最后使用已有的大型视觉‑语言模型作为骨干网络,将增强特征传入到模型中,最终得到更加精准的判断结果以及推理结果。
-
公开(公告)号:CN119851078B
公开(公告)日:2025-05-13
申请号:CN202510314705.9
申请日:2025-03-18
Applicant: 吉林大学
IPC: G06V10/80 , G06V10/774 , G06V10/764 , G06V10/44 , G06V10/74 , G06N3/0464 , G06N5/04
Abstract: 本发明公开一种基于大模型和预训练的假新闻检测推断方法及系统,涉及图像处理和大型视觉语言模型领域。本发明利用Vision Transformer对图像和音频信息编码,Transformer对文本信息进行编码,通过对比学习技术实现多模态语义对齐,通过训练得到所需的编码器,将该编码器提取到的文本特征与图像特征使用多模态交叉注意力模块进行特征融合,获得文本图像融合特征;然后将文本图像融合特征、人脸图像特征与音频特征使用多模态特征增强模块处理,获得增强特征,捕捉新闻中的细微差别和潜在的操纵迹象;最后使用已有的大型视觉‑语言模型作为骨干网络,将增强特征传入到模型中,最终得到更加精准的判断结果以及推理结果。
-