-
公开(公告)号:CN119887552A
公开(公告)日:2025-04-25
申请号:CN202411861887.3
申请日:2024-12-17
Applicant: 杭州电子科技大学
IPC: G06T5/60 , G06T5/70 , G06V10/80 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/084 , G06N5/04 , G06V20/05 , G06V10/56
Abstract: 本发明公开了一种基于跳步采样扩散模型的轻量化水下图像增强方法,该方法通过设计注意力驱动的Transformer(AP‑Trans)模块的并行结构,实现时间步编码和颜色信息的独立并行处理,同时引入空间注意力机制增强细节恢复能力,并采用全局通道交互模块保持颜色保真度,实现水下图像的高质量增强,进一步通过将传统扩散模型中的大参数自注意力模块替换为轻量级通道注意力机制,显著降低了模型参数量,以及采用动态跳步采样策略,将传统跳步扩散模型的20‑50步采样过程缩减至5步,本发明方法在保持扩散模型优秀生成能力的同时还显著提升了增强效果,有效的解决时间步编码和颜色信息的交互干扰问题,并平衡了水下图像颜色和细节的恢复。
-
公开(公告)号:CN118552756B
公开(公告)日:2025-04-18
申请号:CN202410332649.7
申请日:2024-03-22
Applicant: 杭州电子科技大学
IPC: G06V10/762 , G06V10/764 , G06V10/774 , G06V10/82 , G06V10/40 , G06V10/42 , G06N3/04 , G06N3/088
Abstract: 本发明公开了一种基于视觉语言模型的生成式图像无监督检测方法,包括如下步骤:获取图像数据集;通过噪声指纹提取、频域特征提取和聚类算法,为未标记数据有效分配噪声标签,并利用预训练的视觉语言模型和对比学习策略,建立了一个高效的特征提取器;使用训练好的特征提取器提取待测试样本的高维度判别特征,并通过聚类算法将得到的判别特征归为两个聚类簇,通过计算余弦相似度判别真实图像和生成图像。该方法通过无监督学习,自始至终都不需要使用标记数据,克服了有监督学习依赖正确标记的大规模数据的问题。并通过预训练的视觉语言模型提升检测器的泛化性和鲁棒性。在检测不同生成模型生成的图像时展现了一定的泛化能力。
-
公开(公告)号:CN119559681A
公开(公告)日:2025-03-04
申请号:CN202411642712.3
申请日:2024-11-18
Applicant: 杭州电子科技大学 , 中电数据服务有限公司
IPC: G06V40/16 , G06V10/74 , G06V10/25 , G06V10/774 , G06N3/0464 , G06N3/048
Abstract: 本发明涉及一种基于FaceNet和注意力机制的遮挡人脸识别方法,包括数据集预处理、构建人脸识别网络、训练网络和测试。本发明采用MTCNN骨干网络进行人脸区域检测与人脸关键点检测,使用注意力机制使网络聚焦于没有被遮挡的部位,采用CNN神经网络将人脸图像映射到128维的欧几里得空间,根据两幅人像的欧几里得距离判断两个人的相似程度。本发明旨在解决如何获取非遮挡人脸部分的人脸特征,从而提高人脸识别任务的性能和鲁棒性,改善复杂遮挡场景下的人脸检测效果。
-
公开(公告)号:CN119558346A
公开(公告)日:2025-03-04
申请号:CN202411641589.3
申请日:2024-11-18
Applicant: 杭州电子科技大学 , 中电数据服务有限公司
IPC: G06N3/042 , G06N3/0455 , G06N3/048 , G06N3/084 , G06F18/213 , G06F18/211
Abstract: 本发明涉及一种基于GNN和Transformer模型的网络建模方法,首先进行数据集的生成和预处理,构建消息传递神经网络;消息传递神经网络包括GNN级联模块,Transformer级联模块和特定指标读出模块三部分;然后训练网络,最后将预处理后的测试集图像输入训练好的网络模型中,得到预测图,并与真值进行比较,计算各项评价指标。本发明能更好地捕获全局依赖关系,从而得到更全面的数据表示,同时了提高模型泛化能力和计算效率。
-
公开(公告)号:CN118552756A
公开(公告)日:2024-08-27
申请号:CN202410332649.7
申请日:2024-03-22
Applicant: 杭州电子科技大学
IPC: G06V10/762 , G06V10/764 , G06V10/774 , G06V10/82 , G06V10/40 , G06V10/42 , G06N3/04 , G06N3/088
Abstract: 本发明公开了一种基于视觉语言模型的生成式图像无监督检测方法,包括如下步骤:获取图像数据集;通过噪声指纹提取、频域特征提取和聚类算法,为未标记数据有效分配噪声标签,并利用预训练的视觉语言模型和对比学习策略,建立了一个高效的特征提取器;使用训练好的特征提取器提取待测试样本的高维度判别特征,并通过聚类算法将得到的判别特征归为两个聚类簇,通过计算余弦相似度判别真实图像和生成图像。该方法通过无监督学习,自始至终都不需要使用标记数据,克服了有监督学习依赖正确标记的大规模数据的问题。并通过预训练的视觉语言模型提升检测器的泛化性和鲁棒性。在检测不同生成模型生成的图像时展现了一定的泛化能力。
-
公开(公告)号:CN112784698B
公开(公告)日:2024-07-02
申请号:CN202011637358.7
申请日:2020-12-31
Applicant: 杭州电子科技大学
IPC: G06V20/40 , G06V10/82 , G06V10/44 , G06V10/52 , G06V10/80 , G06V10/764 , G06V10/766 , G06N3/0464 , G06N3/0442 , G06N3/045 , G06N3/0985 , G06N3/048
Abstract: 本发明公开了基于深层次时空信息的无参考视频质量评价方法,包括如下步骤:S1,内容感知特征提取,利用Resnet‑50预训练的深度神经网络,提取顶层的语义层特征后进行聚合,对特征图进行均值聚合与标准差聚合;S2,对时间记忆效应进行建模,在特征整合方面,采用GRU网络对长期依赖关系进行建模,在质量聚合方面,提出主观启发的时间池化模型并将其嵌入到网络中;现有的NR‑VQA方法无法很好地对VQA任务中的长期依赖关系建模,为了解决这个问题,我们求助于GRU,它是带有门控制的递归神经网络模型,能够集成特征并学习长期依赖关系,本发明中使用GRU集成内容感知功能并预测逐帧质量得分。
-
公开(公告)号:CN117935289A
公开(公告)日:2024-04-26
申请号:CN202410116531.0
申请日:2024-01-29
Applicant: 杭州电子科技大学 , 浙江汉德瑞智能科技有限公司
Abstract: 本发明公开了一种基于分类器的扩散模型图形符号异常识别与校正方法,包括如下步骤:步骤1、获取数据,所述数据中包括流程图中的图形符号和结构的图像数据;步骤2、数据预处理并制作FlowTextNet数据集;步骤3、构建一个识别异常图形符号引导扩散的分类器模型;步骤4、应用FlowTextNet数据集训练分类器模型;步骤5、获取待识别和校正的图像数据,通过训练好的分类器模型得到异常概率;步骤6、对原始的图像数据进行DDIM正向加噪处理,得到加噪后的数据xt;步骤7、对数据xt进行DDIM逆扩散处理得到噪声数据xt‑1。该方法结合了深度学习技术和图形符号识别技术,以提高生成图形的准确性和清晰度,特别适用于自动化文档处理、图形设计和相关领域中的图像生成和优化。
-
公开(公告)号:CN117635443A
公开(公告)日:2024-03-01
申请号:CN202311784094.1
申请日:2023-12-22
Applicant: 杭州电子科技大学
IPC: G06T5/00 , G06T9/00 , G06V10/82 , G06V10/80 , G06V10/774 , G06V10/42 , G06N3/042 , G06N3/0464 , G06N3/084
Abstract: 本发明公开了一种基于transformer的压缩视频增强方法,首先获取基于transformer的压缩视频增强网络训练需要的图像数据集;然后构建基于transformer的压缩视频增强网络,包含时空对齐模块和质量增强模块;经过训练的压缩视频增强网络接收需要进行增强的视频,完成压缩视频增强处理后将视频输出。本发明设计了一种多尺度的多帧视频对齐方法,能够提供更准确的时间对齐信息,从而减少视频压缩伪影,利用八度卷积和transformer获得全局信息,并恢复量化丢失的高频细节。
-
公开(公告)号:CN117593289A
公开(公告)日:2024-02-23
申请号:CN202311789717.4
申请日:2023-12-25
Applicant: 杭州电子科技大学
IPC: G06T7/00 , G06N3/0455 , G06N3/0464
Abstract: 本发明公开了一种基于卷积神经网络的条带钢表面缺陷检测方法,包括如下步骤:步骤1、构建一个LSDD模型,所述LSDD模型包括编码器和解码器,所述编码器由5个MHL模块构成;所述解码器由5个LEF模块构成;步骤2、应用公开数据集对LSDD模型进行训练;步骤3、将图像数据作为输入,通过完成训练的LSDD模型进行预测。该方法能在保持轻量化(参数少、运算速率快)的前提上,更大程度还原条带钢表面的缺陷信息。
-
公开(公告)号:CN117333770A
公开(公告)日:2024-01-02
申请号:CN202311296212.4
申请日:2023-10-09
Applicant: 杭州电子科技大学
IPC: G06V20/10 , G06V10/46 , G06V10/25 , G06V10/764 , G06V10/774 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/048 , G06N3/08
Abstract: 本发明公开了一种基于双分支架构的遥感图像显著性检测方法,包括如下步骤:收集遥感图像数据集和扩增;通过主干网络进行特征提取;对于步骤2中的Swin‑Transformer主干网络获取的初始特征通过通道注意力进行特征增强,而对于VGG16主干网络获取的初始特征通过空间注意力进行特征增强,然后将输出的两个增强特征在通道维度上进行初步融合;对于上述得到的初步融合特征利用图结构的表示能力,建立图上每个像素和每个通道之间的语义关系,得到若干层级的编码特征;对编码特征进行解码生成解码特征;得到最终预测图结果。该方法针对遥感图像数据集自身的特点进行设计,引入并行分支编码器分别尝试使用Transformer和CNNs来提取全局上下文信息和局部细节特征。
-
-
-
-
-
-
-
-
-