-
公开(公告)号:CN118865058A
公开(公告)日:2024-10-29
申请号:CN202410965299.8
申请日:2024-07-18
申请人: 宁波数字孪生(东方理工)研究院 , 宁波东方理工大学(暂名)
IPC分类号: G06V10/82 , G06V10/86 , G06N3/042 , G06N3/0455 , G06N3/0895
摘要: 本发明涉及一种基于图结构和多模态大模型的解耦表征学习方法和设备,方法包括如下步骤:获取原始图像信息并进行关键点检测;利用预设的语义编码器,将关键点检测结果映射至预设的隐空间中,得到细粒度表征解耦后的属性因子,其中,所述隐空间中每个隐码维度独立表示一个属性或表征;针对属性因子进行初始化,基于关键点检测结果和初始化后的属性因子,通过与预设的大语言模型交互得到属性因子间的关联关系;基于属性因子和属性因子间的关联关系进行结构化编码,利用预设的更新器对预先建立的图结构进行更新,基于解码器生成的图像和所述原始图像信息进行自监督优化,实现解耦表征学习。本发明实现了复杂数据和真实场景中的语义感知和表征解耦。
-
公开(公告)号:CN118379602B
公开(公告)日:2024-10-22
申请号:CN202410824676.6
申请日:2024-06-25
申请人: 浙江大学
IPC分类号: G06V10/82 , G06V10/86 , G06V20/70 , G06V10/80 , G06V10/52 , G06V10/44 , G06V10/42 , G06N3/0464 , G06N3/0455 , G06N3/0442 , G06N3/048
摘要: 本发明公开了一种用语义和视觉解释增强半导体缺陷分析的方法和系统,属于半导体缺陷分析领域。获取晶圆缺陷图像诊断数据集,包括晶圆缺陷SEM图像和诊断报告,所述诊断报告中包含针对多个缺陷诊断任务的句子;采用晶圆缺陷图像诊断数据集训练网络,该网络为基于空间‑通道注意力的编解码器结构;在训练过程中,需将对应缺陷诊断任务的句子作为解码器输入,引导解码器生成目标句子;利用训练后的多任务的缺陷图像诊断网络分析晶圆缺陷SEM图像。本发明设计了包含不同诊断任务的诊断报告,为晶圆缺陷SEM图像诊断提供了一个新的视角;提出的多任务的缺陷图像诊断网络相对于其他基线,在达到更高的准确率和BLEU的同时消耗了更少的时间。
-
公开(公告)号:CN118537433B
公开(公告)日:2024-09-27
申请号:CN202410995456.X
申请日:2024-07-24
申请人: 江西啄木蜂科技有限公司
IPC分类号: G06T11/00 , G06T11/60 , G06V10/44 , G06V10/42 , G06V10/80 , G06V10/82 , G06V10/86 , G06N3/0455 , G06N3/0464 , G06N3/096 , G06N3/048
摘要: 本发明公开了一种基于多模态大模型的自然保护地和林业遥感图像生成方法,包括构造第一遥感数据集Dc和第二遥感数据集Ds;构造风格迁移网络;构造总损失L,冻结风格迁移网络中第一CLIP图像编码器、第二CLIP图像编码器的权重,用Dc、Ds以最小化L训练风格迁移网络,得到第一风格迁移模型M1;基于M1构造第二风格迁移模型M2,生成最终风格迁移图像。本发明能有效地利用CLIP模型的跨模态学习能力,利用文本生成图像以及将目标风格图的风格特征融合到生成图像中,保证风格的一致性和图像质量,从而优化来了图像内容和风格一致性,确保输出图像在视觉和内容上的高度协调。使管理者能更精准地分析和理解自然保护地和林业区域的动态变化。
-
公开(公告)号:CN118691767A
公开(公告)日:2024-09-24
申请号:CN202410721016.5
申请日:2024-06-04
申请人: 阿里巴巴(深圳)技术有限公司
IPC分类号: G06T19/00 , G06F3/01 , G06Q30/0601 , G06V40/10 , G06V10/26 , G06V20/70 , G06V10/44 , G06V10/56 , G06V10/82 , G06V10/80 , G06V10/86 , G06N3/0464 , G06N3/0455 , G06F40/30 , G06F18/25
摘要: 本申请公开了一种图像的处理方法、系统、电子设备和计算机程序产品,涉及大模型技术、图像处理领域。其中,该方法可以包括:识别出待处理的产品图像,其中,产品图像的图像内容包括至少一待展示产品;获取与产品图像中待展示产品对应的文本描述信息,其中,文本描述信息用于至少描述待展示产品在由载体穿戴的情况下,所展示出的穿戴表现结果;利用文本描述信息,引导图像处理模型对产品图像进行分析,得到目标图像,其中,图像处理模型为对文生图模型训练得到,目标图像的图像内容用于模拟穿戴表现结果。本申请解决了图像中模拟的穿戴表现结果效果差的技术问题。
-
公开(公告)号:CN117333470B
公开(公告)日:2024-08-30
申请号:CN202311365396.5
申请日:2023-10-20
申请人: 苏州大学
摘要: 本发明涉及一种糖尿病技术领域,尤其是指一种糖尿病视网膜病变硬渗出物分割方法及装置,所述糖尿病视网膜病变硬渗出物分割方法在编码路径运用了三个自底向上的相邻互补校正模块,在解码路径运用了一个自底向上的渐进迭代融合模块,并将解码路径的两个输出特征使用空间感知模块进行自适应融合,输出糖尿病视网膜病变的硬渗出物预测概率图。本发明提高了分割精度,有效解决了硬渗出物分割时小病变以及模糊边界定位不精准的问题。
-
公开(公告)号:CN118314417A
公开(公告)日:2024-07-09
申请号:CN202410388628.7
申请日:2024-04-01
申请人: 中国科学院自动化研究所
IPC分类号: G06V10/774 , G06V10/762 , G06V10/82 , G06V10/86 , G06N3/0895 , G06N5/04
摘要: 本发明涉及计算机视觉和模式识别技术领域,尤其涉及一种基于多视图关系一致性的弱监督跨模态目标检索方法。本发明通过构建多视图超图,并根据多视图超图进行基于标签传播算法的关系一致性推理,能够有效融合来自多个视图的样本关系,使多个视图的信息互补,能够挖掘出多视角样本关系中的一致性,实现基于多视角训练弱监督跨模态模型,提高模型的鲁棒性,从而根据弱监督跨模态模型对于多样、异构和复杂的多模态数据可以获得更好的跨模态目标检索性能。
-
公开(公告)号:CN117953108B
公开(公告)日:2024-07-05
申请号:CN202410328377.3
申请日:2024-03-20
申请人: 腾讯科技(深圳)有限公司
发明人: 冯鑫
IPC分类号: G06T11/60 , G06V10/774 , G06V10/82 , G06V10/86 , G06N3/045 , G06N3/0475 , G06N3/094
摘要: 本申请实施例公开了一种图像生成方法、装置、电子设备和存储介质;该方法包括获取文本样本、第一图像生成网络、第二图像生成网络;采用第一图像生成网络对基准文本进行图像生成处理,得到基准图像,以及采用第二图像生成网络分别对正偏差文本和负偏差文本进行图像生成处理,得到正偏差图像和负偏差图像;基于基准图像、正偏差图像以及负偏差图像,确定第二图像生成网络的目标损失;基于目标损失,对第二图像生成网络进行训练,得到目标图像生成网络;采用目标图像生成网络对待处理文本进行图像生成处理,得到目标图像。在本实施例中,通过引入三种不同概念的文本来进行网络训练,提高了网络对不同概念的表征能力,提升网络对图像的生成准确性。
-
公开(公告)号:CN118015049B
公开(公告)日:2024-06-21
申请号:CN202410422431.0
申请日:2024-04-09
申请人: 湖南大学
IPC分类号: G06T7/246 , G06N3/0442 , G06N3/0464 , G06N3/082 , G06N3/084 , G06V10/25 , G06V10/42 , G06V10/44 , G06V10/764 , G06V10/82 , G06V10/86
摘要: 一种结合YOLO和GCN的海上目标追踪方法及其模型,该方法包括:对海上船只数据进行实地采集;实验数据预处理,将训练集输入到检测模块,对图像目标进行特征提取,得到多帧目标识别数据,并计算检测模块的损失;反向传播进行检测模块的YOLO参数更新;将检测模块得到的多帧目标识别数据输入到关联模块,以检测目标为节点构建图结构,提取高级目标特征,进行下一时刻目标位置的预测,结果计算总的损失;通过梯度反向传播进行关联模块参数的更新,得到训练好的海上目标追踪模型;将测试集输入训练好的海上目标追踪模型,输出检测追踪结果和概率。本发明考虑到不同目标之间的空间关系,目标追踪性能好。
-
公开(公告)号:CN118196428A
公开(公告)日:2024-06-14
申请号:CN202410613151.8
申请日:2024-05-17
申请人: 贵州大学
IPC分类号: G06V10/42 , G06V10/764 , G06V10/86 , G06V10/82 , G06V10/776 , G06N3/045 , G06N3/08
摘要: 本发明公开了一种用于组合零次学习的视觉属性表征学习方法,包括以下步骤:S1,将训练集图片输入LVAR‑CZSL的视觉骨干网络提取图片全局视觉特征#imgabs0#,然后通过视觉属性表征模块(VARM)进一步提取更细致的属性#imgabs1#和对象视觉特征#imgabs2#;S2,将文本信息通过预训练的词嵌入模型转化为词向量,输入LVAR‑CZSL模型中的联系性学习模块(CLM),得到具有全局依赖性的属性和对象文本特征;S3,通过LVAR‑CZSL模型中的联合评分函数(JSF)结合视觉特征和文本特征,缩小图像和文本特征之间的距离,联合损失函数(JLF)优化VARM和CLM的学习过程,得到训练完毕的LVAR‑CZSL模型;S4,将待预测测的图像或者待检索的文本输入LVAR‑CZSL模型,得到测试结果。
-
公开(公告)号:CN117671985B
公开(公告)日:2024-06-14
申请号:CN202311722177.8
申请日:2023-12-14
申请人: 湖北车安达信息科技有限公司
IPC分类号: G08G1/0962 , G06V20/58 , G06V10/86 , G06F3/16
摘要: 本发明公开了一种基于图像识别的道路标识语音提示方法、装置、设备及介质,涉及安全驾驶辅助技术领域。所述方法是先采用目标检测算法对车前视频数据进行道路交通标志图像识别实时处理,得到标志图像识别结果,然后从识别出的至少一个道路交通标志图像中筛选出最合适的待提示对象,并将与待提示对像对应的相对方位信息填入到与待提示对像对应的预设文字提示模板中,得到文字提示文本,最后将文字提示文本合成为道路标识提示语音信号,并实时传送至车内语音喇叭予以语音播放,如此可在行车过程中帮助驾驶员注意道路交通标志的含义及要求,增强驾驶员的道路意识和安全意识,提高道路交通的安全性,特别适用于新手驾驶员或记忆差的驾驶员。
-
-
-
-
-
-
-
-
-