基于图结构和多模态大模型的解耦表征学习方法和设备

    公开(公告)号:CN118865058A

    公开(公告)日:2024-10-29

    申请号:CN202410965299.8

    申请日:2024-07-18

    摘要: 本发明涉及一种基于图结构和多模态大模型的解耦表征学习方法和设备,方法包括如下步骤:获取原始图像信息并进行关键点检测;利用预设的语义编码器,将关键点检测结果映射至预设的隐空间中,得到细粒度表征解耦后的属性因子,其中,所述隐空间中每个隐码维度独立表示一个属性或表征;针对属性因子进行初始化,基于关键点检测结果和初始化后的属性因子,通过与预设的大语言模型交互得到属性因子间的关联关系;基于属性因子和属性因子间的关联关系进行结构化编码,利用预设的更新器对预先建立的图结构进行更新,基于解码器生成的图像和所述原始图像信息进行自监督优化,实现解耦表征学习。本发明实现了复杂数据和真实场景中的语义感知和表征解耦。

    一种用语义和视觉解释增强半导体缺陷分析的方法和系统

    公开(公告)号:CN118379602B

    公开(公告)日:2024-10-22

    申请号:CN202410824676.6

    申请日:2024-06-25

    申请人: 浙江大学

    摘要: 本发明公开了一种用语义和视觉解释增强半导体缺陷分析的方法和系统,属于半导体缺陷分析领域。获取晶圆缺陷图像诊断数据集,包括晶圆缺陷SEM图像和诊断报告,所述诊断报告中包含针对多个缺陷诊断任务的句子;采用晶圆缺陷图像诊断数据集训练网络,该网络为基于空间‑通道注意力的编解码器结构;在训练过程中,需将对应缺陷诊断任务的句子作为解码器输入,引导解码器生成目标句子;利用训练后的多任务的缺陷图像诊断网络分析晶圆缺陷SEM图像。本发明设计了包含不同诊断任务的诊断报告,为晶圆缺陷SEM图像诊断提供了一个新的视角;提出的多任务的缺陷图像诊断网络相对于其他基线,在达到更高的准确率和BLEU的同时消耗了更少的时间。

    一种糖尿病视网膜病变硬渗出物分割方法及装置

    公开(公告)号:CN117333470B

    公开(公告)日:2024-08-30

    申请号:CN202311365396.5

    申请日:2023-10-20

    申请人: 苏州大学

    摘要: 本发明涉及一种糖尿病技术领域,尤其是指一种糖尿病视网膜病变硬渗出物分割方法及装置,所述糖尿病视网膜病变硬渗出物分割方法在编码路径运用了三个自底向上的相邻互补校正模块,在解码路径运用了一个自底向上的渐进迭代融合模块,并将解码路径的两个输出特征使用空间感知模块进行自适应融合,输出糖尿病视网膜病变的硬渗出物预测概率图。本发明提高了分割精度,有效解决了硬渗出物分割时小病变以及模糊边界定位不精准的问题。

    基于多视图关系一致性的弱监督跨模态目标检索方法

    公开(公告)号:CN118314417A

    公开(公告)日:2024-07-09

    申请号:CN202410388628.7

    申请日:2024-04-01

    摘要: 本发明涉及计算机视觉和模式识别技术领域,尤其涉及一种基于多视图关系一致性的弱监督跨模态目标检索方法。本发明通过构建多视图超图,并根据多视图超图进行基于标签传播算法的关系一致性推理,能够有效融合来自多个视图的样本关系,使多个视图的信息互补,能够挖掘出多视角样本关系中的一致性,实现基于多视角训练弱监督跨模态模型,提高模型的鲁棒性,从而根据弱监督跨模态模型对于多样、异构和复杂的多模态数据可以获得更好的跨模态目标检索性能。

    图像生成方法、装置、电子设备和存储介质

    公开(公告)号:CN117953108B

    公开(公告)日:2024-07-05

    申请号:CN202410328377.3

    申请日:2024-03-20

    发明人: 冯鑫

    摘要: 本申请实施例公开了一种图像生成方法、装置、电子设备和存储介质;该方法包括获取文本样本、第一图像生成网络、第二图像生成网络;采用第一图像生成网络对基准文本进行图像生成处理,得到基准图像,以及采用第二图像生成网络分别对正偏差文本和负偏差文本进行图像生成处理,得到正偏差图像和负偏差图像;基于基准图像、正偏差图像以及负偏差图像,确定第二图像生成网络的目标损失;基于目标损失,对第二图像生成网络进行训练,得到目标图像生成网络;采用目标图像生成网络对待处理文本进行图像生成处理,得到目标图像。在本实施例中,通过引入三种不同概念的文本来进行网络训练,提高了网络对不同概念的表征能力,提升网络对图像的生成准确性。

    一种结合YOLO和GCN的海上目标追踪方法及其模型

    公开(公告)号:CN118015049B

    公开(公告)日:2024-06-21

    申请号:CN202410422431.0

    申请日:2024-04-09

    申请人: 湖南大学

    发明人: 陈华 梁凉 张小刚

    摘要: 一种结合YOLO和GCN的海上目标追踪方法及其模型,该方法包括:对海上船只数据进行实地采集;实验数据预处理,将训练集输入到检测模块,对图像目标进行特征提取,得到多帧目标识别数据,并计算检测模块的损失;反向传播进行检测模块的YOLO参数更新;将检测模块得到的多帧目标识别数据输入到关联模块,以检测目标为节点构建图结构,提取高级目标特征,进行下一时刻目标位置的预测,结果计算总的损失;通过梯度反向传播进行关联模块参数的更新,得到训练好的海上目标追踪模型;将测试集输入训练好的海上目标追踪模型,输出检测追踪结果和概率。本发明考虑到不同目标之间的空间关系,目标追踪性能好。

    一种用于组合零次学习的视觉属性表征学习方法

    公开(公告)号:CN118196428A

    公开(公告)日:2024-06-14

    申请号:CN202410613151.8

    申请日:2024-05-17

    申请人: 贵州大学

    摘要: 本发明公开了一种用于组合零次学习的视觉属性表征学习方法,包括以下步骤:S1,将训练集图片输入LVAR‑CZSL的视觉骨干网络提取图片全局视觉特征#imgabs0#,然后通过视觉属性表征模块(VARM)进一步提取更细致的属性#imgabs1#和对象视觉特征#imgabs2#;S2,将文本信息通过预训练的词嵌入模型转化为词向量,输入LVAR‑CZSL模型中的联系性学习模块(CLM),得到具有全局依赖性的属性和对象文本特征;S3,通过LVAR‑CZSL模型中的联合评分函数(JSF)结合视觉特征和文本特征,缩小图像和文本特征之间的距离,联合损失函数(JLF)优化VARM和CLM的学习过程,得到训练完毕的LVAR‑CZSL模型;S4,将待预测测的图像或者待检索的文本输入LVAR‑CZSL模型,得到测试结果。

    基于图像识别的道路标识语音提示方法、装置、设备及介质

    公开(公告)号:CN117671985B

    公开(公告)日:2024-06-14

    申请号:CN202311722177.8

    申请日:2023-12-14

    摘要: 本发明公开了一种基于图像识别的道路标识语音提示方法、装置、设备及介质,涉及安全驾驶辅助技术领域。所述方法是先采用目标检测算法对车前视频数据进行道路交通标志图像识别实时处理,得到标志图像识别结果,然后从识别出的至少一个道路交通标志图像中筛选出最合适的待提示对象,并将与待提示对像对应的相对方位信息填入到与待提示对像对应的预设文字提示模板中,得到文字提示文本,最后将文字提示文本合成为道路标识提示语音信号,并实时传送至车内语音喇叭予以语音播放,如此可在行车过程中帮助驾驶员注意道路交通标志的含义及要求,增强驾驶员的道路意识和安全意识,提高道路交通的安全性,特别适用于新手驾驶员或记忆差的驾驶员。