面向复杂电力视觉场景的多模态模型风格嵌入方法及系统
Abstract:
面向复杂电力视觉场景的多模态模型风格嵌入方法及系统,属于图像处理技术领域,解决如何增强视觉语言预训练模型的风格表达能力的问题;本发明利用扩散模型辅助多模态模型建立连续空间的领域级风格提示词,将扩散模型的知识迁移到多模态模型中,在面向复杂电力视觉场景时具有更丰富的风格表达和建模能力,可以描述更加细致的风格信息;本发明通过建立实例级风格特征提取模型,将实例级风格特征提取模型与领域级风格信息库的风格信息对齐,推理过程中针对单张图像输入,能够生成高效精确的风格提示词,适用于电力真实场景中的缺陷识别、目标检测等任务,有效增强下游任务中的视觉文本预训练模型的风格泛化性能。
Patent Agency Ranking
0/0